leaderboard

Running on CPU Upgrade

nan commited on May 11, 2024

Commit

b33239d

1 Parent(s): d00fb74

feat: switch the default metric to ndcg_at_10

Files changed (2) hide show

app.py CHANGED Viewed

@@ -31,9 +31,9 @@ except Exception:
 raw_data = get_raw_eval_results(f"{EVAL_RESULTS_PATH}/AIR-Bench_24.04")
 original_df_qa = get_leaderboard_df(
-    raw_data, task='qa', metric='ndcg_at_3')
 original_df_long_doc = get_leaderboard_df(
-    raw_data, task='long-doc', metric='ndcg_at_3')
 print(f'raw data: {len(raw_data)}')
 print(f'QA data loaded: {original_df_qa.shape}')
 print(f'Long-Doc data loaded: {len(original_df_long_doc)}')

 raw_data = get_raw_eval_results(f"{EVAL_RESULTS_PATH}/AIR-Bench_24.04")
 original_df_qa = get_leaderboard_df(
+    raw_data, task='qa', metric='ndcg_at_10')
 original_df_long_doc = get_leaderboard_df(
+    raw_data, task='long-doc', metric='ndcg_at_10')
 print(f'raw data: {len(raw_data)}')
 print(f'QA data loaded: {original_df_qa.shape}')
 print(f'Long-Doc data loaded: {len(original_df_long_doc)}')

tests/src/leaderboard/test_read_evals.py CHANGED Viewed

@@ -41,7 +41,7 @@ def test_get_raw_eval_results():
 def test_get_leaderboard_df():
     results_path = cur_fp.parents[2] / "toydata" / "eval_results" / "AIR-Bench_24.04"
     raw_data = get_raw_eval_results(results_path)
-    df = get_leaderboard_df(raw_data, 'qa', 'ndcg_at_3')
     assert df.shape[0] == 4
     # the results contain only one embedding model
     # for i in range(4):

 def test_get_leaderboard_df():
     results_path = cur_fp.parents[2] / "toydata" / "eval_results" / "AIR-Bench_24.04"
     raw_data = get_raw_eval_results(results_path)
+    df = get_leaderboard_df(raw_data, 'qa', 'ndcg_at_10')
     assert df.shape[0] == 4
     # the results contain only one embedding model
     # for i in range(4):