Spaces:

Open-Style
/

OSQ-Leaderboard

Runtime error

App Files Files Community

SondosMB commited on Jun 9

Commit

e01b14a

•

1 Parent(s): 90d84f8

Update big.json

Browse files

Files changed (1) hide show

big.json +13 -13

big.json CHANGED Viewed

@@ -5,9 +5,9 @@
         "model": "GPT-4o",
         "Average": 70.15,
         "MMLU": 70.09,
-        "ARC":86.33,
         "WinoGrande":72.22,
-        "PiQA":60.34,
         "CommonsenseQA":70.28,
         "Race":67.87 ,
         "MedMCQA":57.85 ,
@@ -19,7 +19,7 @@
         "MMLU": 74.77,
         "ARC":82.68,
         "WinoGrande": 66.22,
-        "PiQA": 61.64,
         "CommonsenseQA": 62.96,
         "Race": 67.05,
         "MedMCQA": 51.81,
@@ -27,11 +27,11 @@
     },
     {
         "model": "Claude-3 Opus",
-        "Average": 62.68,
         "MMLU": 70.23,
-        "ARC":76.62,
         "WinoGrande": 63.54,
-        "PiQA": 59.05,
         "CommonsenseQA": 63.66,
         "Race": 66.22,
         "MedMCQA": 49.14,
@@ -43,7 +43,7 @@
         "MMLU": 68.76,
         "ARC":72.32,
         "WinoGrande": 56.83,
-        "PiQA": 61.21,
         "CommonsenseQA": 55.35,
         "Race": 70.17,
         "MedMCQA": 43.44,
@@ -51,11 +51,11 @@
     },
     {
         "model": "GPT-3.5",
-        "Average": 60.30,
         "MMLU": 65.38,
          "ARC":78.24,
         "WinoGrande":  64.56,
-        "PiQA": 54.89,
         "CommonsenseQA":  67.89,
         "Race": 60.11,
         "MedMCQA": 41.42,
@@ -63,11 +63,11 @@
     },
     {
         "model": "Gemini 1.0 Pro",
-        "Average": 54.04,
         "MMLU": 56.04,
-        "ARC":72.23,
         "WinoGrande":  56.35,
-        "PiQA": 47.70,
         "CommonsenseQA": 50.56,
         "Race": 61.02,
         "MedMCQA": 35.89,
@@ -79,7 +79,7 @@
         "MMLU": 59.67,
         "ARC":67.09,
         "WinoGrande": 57.14,
-        "PiQA": 43.10,
         "CommonsenseQA": 55.49,
         "Race": 58.21,
         "MedMCQA": 41.67,

         "model": "GPT-4o",
         "Average": 70.15,
         "MMLU": 70.09,
+        "ARC":86.31,
         "WinoGrande":72.22,
+        "PIQA":60.34,
         "CommonsenseQA":70.28,
         "Race":67.87 ,
         "MedMCQA":57.85 ,
         "MMLU": 74.77,
         "ARC":82.68,
         "WinoGrande": 66.22,
+        "PIQA": 61.64,
         "CommonsenseQA": 62.96,
         "Race": 67.05,
         "MedMCQA": 51.81,
     },
     {
         "model": "Claude-3 Opus",
+        "Average": 62.53,
         "MMLU": 70.23,
+        "ARC":75.47,
         "WinoGrande": 63.54,
+        "PIQA": 59.05,
         "CommonsenseQA": 63.66,
         "Race": 66.22,
         "MedMCQA": 49.14,
         "MMLU": 68.76,
         "ARC":72.32,
         "WinoGrande": 56.83,
+        "PIQA": 61.21,
         "CommonsenseQA": 55.35,
         "Race": 70.17,
         "MedMCQA": 43.44,
     },
     {
         "model": "GPT-3.5",
+        "Average": 60.32,
         "MMLU": 65.38,
          "ARC":78.24,
         "WinoGrande":  64.56,
+        "PIQA": 54.89,
         "CommonsenseQA":  67.89,
         "Race": 60.11,
         "MedMCQA": 41.42,
     },
     {
         "model": "Gemini 1.0 Pro",
+        "Average": 54.06,
         "MMLU": 56.04,
+        "ARC":72.35,
         "WinoGrande":  56.35,
+        "PIQA": 47.70,
         "CommonsenseQA": 50.56,
         "Race": 61.02,
         "MedMCQA": 35.89,
         "MMLU": 59.67,
         "ARC":67.09,
         "WinoGrande": 57.14,
+        "PIQA": 43.10,
         "CommonsenseQA": 55.49,
         "Race": 58.21,
         "MedMCQA": 41.67,