benchbench / cache /aggregate_scoress_cache_dcbcd453e19427bcbf89a901d3f2a925.csv
Yotam-Perlitz
update cache
f1c3da2
raw
history blame
1.98 kB
model,score
claude_3_5_sonnet_20240620,1.0
gpt_4o_2024_05_13,0.9833333333333333
gpt_4_0125_preview,0.9666666666666667
gpt_4o_2024_08_06,0.95
athene_70b,0.9333333333333333
gpt_4o_mini,0.9166666666666666
gemini_1_5_pro_api_preview,0.9
mistral_large_2407,0.8833333333333333
llama3_1_405b_instruct,0.8666666666666667
glm_4_0520,0.85
yi_large,0.8333333333333334
deepseek_coder_v2,0.8166666666666667
claude_3_opus_20240229,0.8
gemma_2_27b_it,0.7833333333333333
llama3_1_70b_instruct,0.75
glm_4_0116,0.75
glm_4_air,0.7333333333333333
gpt_4_0314,0.7166666666666667
gemini_1_5_flash_api_preview,0.7
qwen2_72b_instruct,0.6833333333333333
claude_3_sonnet_20240229,0.6666666666666666
llama3_70b_instruct,0.65
claude_3_haiku_20240307,0.6333333333333333
gpt_4_0613,0.6166666666666667
mistral_large_2402,0.6
mixtral_8x22b_instruct_v0_1,0.5833333333333334
qwen1_5_72b_chat,0.5666666666666667
phi_3_medium_4k_instruct,0.55
command_r_plus,0.5333333333333333
mistral_medium,0.5166666666666667
internlm2_5_20b_chat,0.5
phi_3_small_8k_instruct,0.48333333333333334
mistral_next,0.4666666666666667
gpt_3_5_turbo_0613,0.45
dbrx_instructruct_preview,0.43333333333333335
internlm2_20b_chat,0.4166666666666667
claude_2_0,0.4
mixtral_8x7b_instruct_v0_1,0.38333333333333336
gpt_3_5_turbo_0125,0.36666666666666664
yi_34b_chat,0.35
starling_lm_7b_beta,0.3333333333333333
claude_2_1,0.31666666666666665
llama3_1_8b_instruct,0.3
snorkel_mistral_pairrm_dpo,0.2833333333333333
llama3_8b_instruct,0.26666666666666666
gpt_3_5_turbo_1106,0.25
gpt_3_5_turbo_0301,0.23333333333333334
gemini_1_0_pro,0.21666666666666667
snowflake_arctic_instruct,0.2
command_r,0.18333333333333332
phi_3_mini_128k_instruct,0.16666666666666666
tulu_2_dpo_70b,0.15
starling_lm_7b_alpha,0.13333333333333333
mistral_7b_instruct,0.11666666666666667
gemma_1_1_7b_it,0.1
llama_2_70b_chat,0.08333333333333333
vicuna_33b_v1_3,0.06666666666666667
gemma_7b_it,0.05
llama_2_7b_chat,0.03333333333333333
gemma_1_1_2b_it,0.016666666666666666
gemma_2b_it,0.0