Lei Wang's picture

2 189

Lei Wang

demolei

·

https://demoleiwang.github.io/HomePage/

AI & ML interests

LLMs

Recent Activity

upvoted a paper 1 day ago

Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

upvoted a paper 1 day ago

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

upvoted a paper 3 days ago

MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

View all activity

Organizations

demolei's activity

upvoted 2 papers 1 day ago

Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Paper • 2503.07572 • Published 3 days ago • 26

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

Paper • 2503.07536 • Published 3 days ago • 69

upvoted a paper 3 days ago

MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning

Paper • 2503.07365 • Published 3 days ago • 51

upvoted a collection 7 days ago

Big-Math

This collection contains assets associated with the Big-Math dataset, a high-quality collection of over 250,000 math questions with verifiable answers • 3 items • Updated 7 days ago • 3

upvoted 5 papers 7 days ago

Efficient Test-Time Scaling via Self-Calibration

Paper • 2503.00031 • Published 17 days ago • 14

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

Paper • 2503.01307 • Published 11 days ago • 31

Visual-RFT: Visual Reinforcement Fine-Tuning

Paper • 2503.01785 • Published 10 days ago • 64

Process-based Self-Rewarding Language Models

Paper • 2503.03746 • Published 8 days ago • 35

START: Self-taught Reasoner with Tools

Paper • 2503.04625 • Published 7 days ago • 83

upvoted 2 papers 11 days ago

Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Paper • 2502.19361 • Published 15 days ago • 26

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

Paper • 2502.19634 • Published 15 days ago • 58

upvoted a paper 14 days ago

Self-rewarding correction for mathematical reasoning

Paper • 2502.19613 • Published 15 days ago • 76

upvoted 5 papers 16 days ago

OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

Paper • 2502.11271 • Published 25 days ago • 16

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

Paper • 2502.12215 • Published 25 days ago • 16

Small Models Struggle to Learn from Strong Reasoners

Paper • 2502.12143 • Published 24 days ago • 28

S^2R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning

Paper • 2502.12853 • Published 23 days ago • 28

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

Paper • 2502.14768 • Published 21 days ago • 45

upvoted a paper 18 days ago

SurveyX: Academic Survey Automation via Large Language Models

Paper • 2502.14776 • Published 21 days ago • 93

upvoted 2 papers 20 days ago

How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM?

Paper • 2502.14502 • Published 21 days ago • 85

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

Paper • 2502.14499 • Published 21 days ago • 179