Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.08905

AI Paper of the Day

A collection of papers that I think are interesting, one added each day

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1 • 21
OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1 • 82
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18 • 144
SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Paper • 2401.17072 • Published Jan 30 • 25

about 9 hours ago

Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18 • 144
Orion-14B: Open-source Multilingual Large Language Models

Paper • 2401.12246 • Published Jan 20 • 12
MambaByte: Token-free Selective State Space Model

Paper • 2401.13660 • Published Jan 24 • 51
MM-LLMs: Recent Advances in MultiModal Large Language Models

Paper • 2401.13601 • Published Jan 24 • 45

about 8 hours ago

Phi-4 Technical Report

Paper • 2412.08905 • Published 4 days ago • 70

about 7 hours ago

Phi-4 Technical Report

Paper • 2412.08905 • Published 4 days ago • 70
Evaluating and Aligning CodeLLMs on Human Preference

Paper • 2412.05210 • Published 10 days ago • 45
Evaluating Language Models as Synthetic Data Generators

Paper • 2412.03679 • Published 12 days ago • 42
Yi-Lightning Technical Report

Paper • 2412.01253 • Published 14 days ago • 21

Large group of models

Phi-4 Technical Report

Paper • 2412.08905 • Published 4 days ago • 70
cognitivecomputations/dolphin-2.9.2-qwen2-72b

Text Generation • Updated Oct 8 • 11.7k • 127
ByteWave/prompt-generator

Text Generation • Updated Nov 10, 2023 • 296 • 18
Qwen/QwQ-32B-Preview

Text Generation • Updated 17 days ago • 107k • • 1.3k

Phi-4 Technical Report

Paper • 2412.08905 • Published 4 days ago • 70

Phi-4 Technical Report

Paper • 2412.08905 • Published 4 days ago • 70

about 3 hours ago

Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering

Paper • 2411.11504 • Published 28 days ago • 19
Top-nσ: Not All Logits Are You Need

Paper • 2411.07641 • Published Nov 12 • 18
Adaptive Decoding via Latent Preference Optimization

Paper • 2411.09661 • Published Nov 14 • 10
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

Paper • 2411.13476 • Published 26 days ago • 14

about 10 hours ago

Differential Transformer

Paper • 2410.05258 • Published Oct 7 • 166
PaliGemma 2: A Family of Versatile VLMs for Transfer

Paper • 2412.03555 • Published 12 days ago • 112
VisionZip: Longer is Better but Not Necessary in Vision Language Models

Paper • 2412.04467 • Published 11 days ago • 99
o1-Coder: an o1 Replication for Coding

Paper • 2412.00154 • Published 17 days ago • 36

LLM Pruning and Distillation in Practice: The Minitron Approach

Paper • 2408.11796 • Published Aug 21 • 57
Building and better understanding vision-language models: insights and future directions

Paper • 2408.12637 • Published Aug 22 • 123
Phi-4 Technical Report

Paper • 2412.08905 • Published 4 days ago • 70

Previous
1
2
Next

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs