2025 LLM Papers on Hugging Face with Japanese Memos
Paper • 2501.02955 • Published • 40Note VLMのための動画ベンチマークセット、既存のVLMは細かい動作について理解度60%未満であり改善が必要
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining
Paper • 2501.00958 • Published • 97Note VLM訓練用に2.5年間にわたる教育ビデオから構築された高品質なマルチモーダル教科書コーパスを作成。 上記を学習することで知識を必要とするタスクや推論を必要とするタスクで顕著な改善。特にfew-shot learningで精度向上。
Towards Best Practices for Open Datasets for LLM Training
Paper • 2501.08365 • Published • 47Note オープンデータセットの作成に関するベストプラクティス(ex. 透明性、再現性)を提案。
An Empirical Study of Autoregressive Pre-training from Videos
Paper • 2501.05453 • Published • 36Note 動画から自己回帰型の事前学習(Meta) 動画の各フレームをトークン化し、次のトークンを予測するタスクを通じてモデルを訓練 トークン化にはdVAEやVQGANなどの手法が用いられている
Enhancing Human-Like Responses in Large Language Models
Paper • 2501.05032 • Published • 49Note 機械的で無機質な応答を減少させ、より人間らしい応答を達成するために、カジュアルな会話と構造化されたトピックベースの対話をバランスよく組み込んだデータセットでFT
VideoRAG: Retrieval-Augmented Generation over Video Corpus
Paper • 2501.05874 • Published • 66Note VideoRAG: 動画に適用したRAG。 Large Video Language Models(LVLMs)を活用し、動画のフレームや字幕などの情報を組み合わせて、回答を生成。 字幕がない場合はWhisperで文字起こし。 動画には時間的な変化や空間的な詳細が含まれているため、多様な情報を取得可能。
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token
Paper • 2501.03895 • Published • 48Note Vision Tokenを大幅に圧縮し、計算効率を向上させた大規模マルチモーダルモデル
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
Paper • 2501.04682 • Published • 89Note Meta Chain-of-Thought(Meta-CoT) 推論過程を明示的にモデル化し、プロセス監視や合成データ生成を行うことでCoTの精度を向上
VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction
Paper • 2501.01957 • Published • 41Note Vision, Languageに加え、Speechを統合したマルチモーダル大規模言語モデル 従来のASRやTTSモジュールに依存せず、E2Eの音声出力を実現 https://github.com/VITA-MLLM/VITA
LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs
Paper • 2501.06186 • Published • 59Note Vision系の推論における段階的な問題解決能力向上
Search-o1: Agentic Search-Enhanced Large Reasoning Models
Paper • 2501.05366 • Published • 79Note 大規模推論モデル(LRM)の知識の不足を補うための検索手法。エージェント型の情報検索と、取得した情報を精練するための「Reason-in-Documents」で情報を補う
OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints
Paper • 2501.03841 • Published • 49Note 高レベルな推論能力を持つVLMとロボット操作を結びつける手法
Transformer^2: Self-adaptive LLMs
Paper • 2501.06252 • Published • 50Note モデルの重み行列の特定の成分だけを選択的にチューニングでき、未知のタスクにリアルタイムで適応できるアーキテクチャ
MiniMax-01: Scaling Foundation Models with Lightning Attention
Paper • 2501.08313 • Published • 268Note ロングコンテキスト(最大4M)に対応 アーキテクチャはLightning Attentionを採用 https://x.com/sergicalsix/status/1880407100247228560
Enabling Scalable Oversight via Self-Evolving Critic
Paper • 2501.05727 • Published • 69Note 自己進化的にLLMの自己批評能力を向上させる手法。
Agent Laboratory: Using LLM Agents as Research Assistants
Paper • 2501.04227 • Published • 80Note 文献レビュー、実験、報告書作成等、包括的な研究成果を支援。AI Scientistなどとは異なり、研究者が自身のアイデアを実現するための支援を行うことが目的。研究コストを84%削減。
Cosmos World Foundation Model Platform for Physical AI
Paper • 2501.03575 • Published • 66Note 世界モデルを構築できるプラットフォーム(物理的な現象を模倣する高品質な動画生成可能)
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning
Paper • 2501.03226 • Published • 37Note ステップレベルのインコンテキスト学習を提案 従来のICLは問題全体に対する例を事前に提示していたが、BoostStepは推論過程で関連性の高い例をリアルタイムで与えて、推論に役立てる。 図はFigure 2, https://arxiv.org/pdf/2501.03226
ProgCo: Program Helps Self-Correction of Large Language Models
Paper • 2501.01264 • Published • 25Note Program-driven Self-Correction (プログラム駆動型自己修正手法)(ProgCo)を提案。 ProgCoは以下二つの方法で自己修正 - ProgVe: 入力に対して、LLMで検証用の擬似プログラムを生成しテスト - ProgRe: ProgVeから得られたフィードバックをもとに、LLMが自分の出力と検証プログラムの両方を見直し、修正
OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking
Paper • 2501.09751 • Published • 46Note OmniThink:文章生成のフレームワーク 情報取得、アウトライン構築、記事作成という三つのステップで文章生成
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model
Paper • 2501.05122 • Published • 18Note Centurio 多言語能力を持つ大規模視覚言語モデル(LVLM)の訓練戦略を体系的に調査 実験の結果、100言語を同時に訓練し、25〜50%の非英語データを使用することで、英語のパフォーマンスを維持しつつ多言語性能を大幅に向上させることが可能
Evolving Deeper LLM Thinking
Paper • 2501.09891 • Published • 95Note Mind Evolution:推論能力を向上させるための進化的探索戦略(DeepMind) 進化的探索戦略を用いて、LLMが生成した候補解を結合し、洗練させるプロセスを通じて、問題解決能力を向上。 個々の推論ステップを評価するのではなく、全体の解を洗練させるため、全体的な解の評価のみ必要。そのため並列処理が容易であるため、計算資源を効率的に活用可能。
PaSa: An LLM Agent for Comprehensive Academic Paper Search
Paper • 2501.10120 • Published • 37Note PaSa: 論文検索エージェント、クローラーとセレクターから構成 - クローラー 関連論文検索、論文の引用をたどって、より多くの関連論文を収集し、論文のキューに蓄積 - セレクター クローラーが集めた論文を精査し、それらがユーザーのクエリにどれだけ合致しているかを判断。論文のタイトルや要約から、その論文がクエリの要件を満たしているかどうか真偽判定