AnyModal

community

https://www.reddit.com/r/AnyModal/

AI & ML interests

Multimodal LLMs for all! AnyModal is a modular and extensible framework for integrating diverse input modalities (e.g., images, audio) into large language models (LLMs). It enables seamless tokenization, encoding, and language generation using pre-trained models for various modalities.

models 2

AnyModal/LaTeX-OCR-Llama-3.2-1B

Updated Dec 23, 2024 • 5

AnyModal/Image-Captioning-Llama-3.2-1B

Image-to-Text • Updated Dec 5, 2024 • 1

datasets 1

AnyModal/flickr30k

Viewer • Updated Dec 1, 2024 • 31k • 183

AI & ML interests

Team members 1

models 2 Sort: Recently updated

datasets 1

models 2