Spaces:

Intel
/

low_bit_open_llm_leaderboard

Running

lvkaokao commited on May 8, 2024

Commit

b778b1a

1 Parent(s): 715b290

revise read.

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -83,24 +83,10 @@ class EvalResult:
         results = {}
         for task in Tasks:
             task = task.value
-            # We skip old mmlu entries
-            wrong_mmlu_version = False
-            if task.benchmark == "hendrycksTest":
-                for mmlu_k in ["harness|hendrycksTest-abstract_algebra|5", "hendrycksTest-abstract_algebra"]:
-                    if mmlu_k in data["versions"] and data["versions"][mmlu_k] == 0:
-                        wrong_mmlu_version = True
-            if wrong_mmlu_version:
-                continue
-            # Some truthfulQA values are NaNs
-            if task.benchmark == "truthfulqa:mc" and "harness|truthfulqa:mc|0" in data["results"]:
-                if math.isnan(float(data["results"]["harness|truthfulqa:mc|0"][task.metric])):
-                    results[task.benchmark] = 0.0
-                    continue
-            # We average all scores of a given metric (mostly for mmlu)
-            accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if task.benchmark in k])
             if accs.size == 0 or any([acc is None for acc in accs]):
                 continue

         results = {}
         for task in Tasks:
             task = task.value
+            if task.benchmark == "mmlu":
+                accs = np.array([data["results"]["harness|mmlu|0"][task.metric]])
+            else:
+                accs = np.array([v.get(task.metric, None) for k, v in data["results"].items() if task.benchmark in k])
             if accs.size == 0 or any([acc is None for acc in accs]):
                 continue