Eval Agents - a Yoai Collection

Yoai 's Collections

Agents

Agent-Cognition

Medical

Eval Agents

updated Aug 8

NATURAL PLAN: Benchmarking LLMs on Natural Language Planning

Paper • 2406.04520 • Published Jun 6 • 10
GenAI Arena: An Open Evaluation Platform for Generative Models

Paper • 2406.04485 • Published Jun 6 • 19
CoverBench: A Challenging Benchmark for Complex Claim Verification

Paper • 2408.03325 • Published Aug 6 • 14