benchmark - a zzfive Collection

zzfive 's Collections

medical

3d

image

LLMs

video

agent

cv

audio

robot

benchmark

updated 4 days ago

GATE OpenING: A Comprehensive Benchmark for Judging Open-ended Interleaved Image-Text Generation

Paper • 2411.18499 • Published 17 days ago • 17
VLSBench: Unveiling Visual Leakage in Multimodal Safety

Paper • 2411.19939 • Published 15 days ago • 9
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

Paper • 2412.02611 • Published 11 days ago • 21
U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs

Paper • 2412.03205 • Published 11 days ago • 14
ProcessBench: Identifying Process Errors in Mathematical Reasoning

Paper • 2412.06559 • Published 5 days ago • 55
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Paper • 2412.07626 • Published 4 days ago • 19