lmms-lab
/

LongVA-7B

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

PY007 commited on Jun 25

Commit

9cfdaa9

•

1 Parent(s): 071bb20

Create README.md

Files changed (1) hide show

README.md +15 -0

README.md ADDED Viewed

	@@ -0,0 +1,15 @@

+# LongVA
+<p align="center">
+    <img src="vision_niah/niah_output/LongVA-7B/heatmap.png" width="800">
+</p>
+<p align="center">
+    🌐 <a href="https://lmms-lab.github.io/posts/longva/" target="_blank">Blog</a> | 📃 <a href="https://arxiv.org/abs/2406.16852" target="_blank">Paper</a> | 🤗 <a href="https://huggingface.co/collections/lmms-lab/longva-667538e09329dbc7ea498057" target="_blank">Hugging Face</a> | 🎥 <a href="https://longva-demo.lmms-lab.com/" target="_blank">Demo</a>
+</p>
+Long context capability can **zero-shot transfer** from language to vision.
+LongVA can process **2000** frames or over **200K** visual tokens. It achieves **state-of-the-art** performance on Video-MME among 7B models.