Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.09871

about 8 hours ago

CatLIP: CLIP-level Visual Recognition Accuracy with 2.7x Faster Pre-training on Web-scale Image-Text Data

Paper • 2404.15653 • Published Apr 24 • 26
MoDE: CLIP Data Experts via Clustering

Paper • 2404.16030 • Published Apr 24 • 12
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

Paper • 2405.12130 • Published May 20 • 46
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

Paper • 2405.12981 • Published May 21 • 28

Architectural Proposals

about 4 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 5 days ago • 49
Causal Diffusion Transformers for Generative Modeling

Paper • 2412.12095 • Published 1 day ago • 19

about 6 hours ago

GenEx: Generating an Explorable World

Paper • 2412.09624 • Published 6 days ago • 77
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 5 days ago • 49
Wonderland: Navigating 3D Scenes from a Single Image

Paper • 2412.12091 • Published 1 day ago • 9

about 24 hours ago

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Paper • 2412.11605 • Published 2 days ago • 11
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 5 days ago • 49

about 20 hours ago

GenEx: Generating an Explorable World

Paper • 2412.09624 • Published 6 days ago • 77
IamCreateAI/Ruyi-Mini-7B

Image-to-Video • Updated 1 day ago • 1.11k • 186
Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation

Paper • 2412.06016 • Published 10 days ago • 20
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 5 days ago • 49

about 7 hours ago

Training Large Language Models to Reason in a Continuous Latent Space

Paper • 2412.06769 • Published 9 days ago • 54
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 5 days ago • 49

about 4 hours ago

Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

Paper • 2411.06558 • Published Nov 10 • 34
SlimLM: An Efficient Small Language Model for On-Device Document Assistance

Paper • 2411.09944 • Published Nov 15 • 12
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Paper • 2411.19460 • Published 19 days ago • 10
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

Paper • 2412.05237 • Published 12 days ago • 44

about 9 hours ago

Differential Transformer

Paper • 2410.05258 • Published Oct 7 • 167
PaliGemma 2: A Family of Versatile VLMs for Transfer

Paper • 2412.03555 • Published 14 days ago • 116
VisionZip: Longer is Better but Not Necessary in Vision Language Models

Paper • 2412.04467 • Published 13 days ago • 103
o1-Coder: an o1 Replication for Coding

Paper • 2412.00154 • Published 19 days ago • 39

about 2 hours ago

STaR: Bootstrapping Reasoning With Reasoning

Paper • 2203.14465 • Published Mar 28, 2022 • 8
Scaling Laws for Neural Language Models

Paper • 2001.08361 • Published Jan 23, 2020 • 6
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 5 days ago • 49

about 21 hours ago

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Paper • 2407.08083 • Published Jul 10 • 27
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Paper • 2408.11039 • Published Aug 20 • 58
The Mamba in the Llama: Distilling and Accelerating Hybrid Models

Paper • 2408.15237 • Published Aug 27 • 37
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

Paper • 2409.11355 • Published Sep 17 • 28

Previous
1
2
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs