Yuhao Dong's picture

Yuhao Dong

THUdyh

·

AI & ML interests

None yet

Recent Activity

updated a Space 5 days ago

THUdyh/Oryx

upvoted a paper 14 days ago

Byte Latent Transformer: Patches Scale Better Than Tokens

upvoted a paper 14 days ago

Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

View all activity

Organizations

THUdyh's activity

upvoted 2 papers 14 days ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 18 days ago • 79

Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

Paper • 2412.09645 • Published 20 days ago • 35

upvoted 2 papers 15 days ago

Apollo: An Exploration of Video Understanding in Large Multimodal Models

Paper • 2412.10360 • Published 17 days ago • 132

GenEx: Generating an Explorable World

Paper • 2412.09624 • Published 18 days ago • 85

upvoted 2 papers 17 days ago

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Paper • 2412.09501 • Published 18 days ago • 43

Phi-4 Technical Report

Paper • 2412.08905 • Published 19 days ago • 93

upvoted a paper 18 days ago

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

Paper • 2412.09596 • Published 18 days ago • 92

upvoted a paper 19 days ago

POINTS1.5: Building a Vision-Language Model towards Real World Applications

Paper • 2412.08443 • Published 19 days ago • 38

upvoted 2 papers 21 days ago

ProcessBench: Identifying Process Errors in Mathematical Reasoning

Paper • 2412.06559 • Published 21 days ago • 69

EXAONE 3.5: Series of Large Language Models for Real-world Use Cases

Paper • 2412.04862 • Published 25 days ago • 48

upvoted 2 papers 22 days ago

LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment

Paper • 2412.04814 • Published 25 days ago • 45

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

Paper • 2412.05271 • Published 24 days ago • 121

upvoted 3 papers 23 days ago

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection

Paper • 2412.04455 • Published 25 days ago • 35

VisionZip: Longer is Better but Not Necessary in Vision Language Models

Paper • 2412.04467 • Published 25 days ago • 104

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

Paper • 2412.04424 • Published 25 days ago • 57

upvoted 2 papers 25 days ago

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

Paper • 2412.00493 • Published about 1 month ago • 16

PaliGemma 2: A Family of Versatile VLMs for Transfer

Paper • 2412.03555 • Published 26 days ago • 119

upvoted 3 papers about 1 month ago

Factorized Visual Tokenization and Generation

Paper • 2411.16681 • Published Nov 25 • 17

Material Anything: Generating Materials for Any 3D Object via Diffusion

Paper • 2411.15138 • Published Nov 22 • 42

TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Paper • 2411.15124 • Published Nov 22 • 56