model,score claude_3_5_sonnet_20240620,1.0 gpt_4o_2024_05_13,0.9833333333333333 gpt_4_0125_preview,0.9666666666666667 gpt_4o_2024_08_06,0.95 athene_70b,0.9333333333333333 gpt_4o_mini,0.9166666666666666 gemini_1_5_pro_api_preview,0.9 mistral_large_2407,0.8833333333333333 llama3_1_405b_instruct,0.8666666666666667 glm_4_0520,0.85 yi_large,0.8333333333333334 deepseek_coder_v2,0.8166666666666667 claude_3_opus_20240229,0.8 gemma_2_27b_it,0.7833333333333333 llama3_1_70b_instruct,0.75 glm_4_0116,0.75 glm_4_air,0.7333333333333333 gpt_4_0314,0.7166666666666667 gemini_1_5_flash_api_preview,0.7 qwen2_72b_instruct,0.6833333333333333 claude_3_sonnet_20240229,0.6666666666666666 llama3_70b_instruct,0.65 claude_3_haiku_20240307,0.6333333333333333 gpt_4_0613,0.6166666666666667 mistral_large_2402,0.6 mixtral_8x22b_instruct_v0_1,0.5833333333333334 qwen1_5_72b_chat,0.5666666666666667 phi_3_medium_4k_instruct,0.55 command_r_plus,0.5333333333333333 mistral_medium,0.5166666666666667 internlm2_5_20b_chat,0.5 phi_3_small_8k_instruct,0.48333333333333334 mistral_next,0.4666666666666667 gpt_3_5_turbo_0613,0.45 dbrx_instructruct_preview,0.43333333333333335 internlm2_20b_chat,0.4166666666666667 claude_2_0,0.4 mixtral_8x7b_instruct_v0_1,0.38333333333333336 gpt_3_5_turbo_0125,0.36666666666666664 yi_34b_chat,0.35 starling_lm_7b_beta,0.3333333333333333 claude_2_1,0.31666666666666665 llama3_1_8b_instruct,0.3 snorkel_mistral_pairrm_dpo,0.2833333333333333 llama3_8b_instruct,0.26666666666666666 gpt_3_5_turbo_1106,0.25 gpt_3_5_turbo_0301,0.23333333333333334 gemini_1_0_pro,0.21666666666666667 snowflake_arctic_instruct,0.2 command_r,0.18333333333333332 phi_3_mini_128k_instruct,0.16666666666666666 tulu_2_dpo_70b,0.15 starling_lm_7b_alpha,0.13333333333333333 mistral_7b_instruct,0.11666666666666667 gemma_1_1_7b_it,0.1 llama_2_70b_chat,0.08333333333333333 vicuna_33b_v1_3,0.06666666666666667 gemma_7b_it,0.05 llama_2_7b_chat,0.03333333333333333 gemma_1_1_2b_it,0.016666666666666666 gemma_2b_it,0.0