Spaces:

hallucinations-leaderboard
/

leaderboard

Running on CPU Upgrade

pminervini commited on Nov 30, 2023

Commit

1995f17

•

1 Parent(s): 4b760b1

update

Files changed (2) hide show

beta-cli.py CHANGED Viewed

@@ -10,7 +10,7 @@ snapshot_download(repo_id=RESULTS_REPO, local_dir=EVAL_RESULTS_PATH, repo_type="
 raw_data = get_raw_eval_results(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH)
 for entry in raw_data:
-    if '125m' in entry.eval_name:
-        print(entry)
 # print(raw_data)

 raw_data = get_raw_eval_results(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH)
 for entry in raw_data:
+    # if '125m' in entry.eval_name:
+    print(entry)
 # print(raw_data)

src/leaderboard/read_evals.py CHANGED Viewed

@@ -93,15 +93,15 @@ class EvalResult:
             mean_acc = np.mean(accs) * 100.0
             results[task.benchmark] = mean_acc
-        # print(json_filepath, results)
         # XXX
-        if 'nq_open' not in results:
-            results['nq_open'] = 0.0
         # XXX
-        if 'triviaqa' not in results:
-            results['triviaqa'] = 0.0
         return self(eval_name=result_key, full_model=full_model, org=org, model=model, results=results,
                     precision=precision, revision=config.get("model_sha", ""), still_on_hub=still_on_hub,

             mean_acc = np.mean(accs) * 100.0
             results[task.benchmark] = mean_acc
+        print(json_filepath, results)
         # XXX
+        # if 'nq_open' not in results:
+        #     results['nq_open'] = 0.0
         # XXX
+        # if 'triviaqa' not in results:
+        #     results['triviaqa'] = 0.0
         return self(eval_name=result_key, full_model=full_model, org=org, model=model, results=results,
                     precision=precision, revision=config.get("model_sha", ""), still_on_hub=still_on_hub,