leaderboard

Running on CPU Upgrade

nan commited on Oct 15, 2024

Commit

ba13e25

1 Parent(s): a7c0332

refactor: refactor the envs

Files changed (4) hide show

app.py CHANGED Viewed

@@ -8,15 +8,13 @@ from src.about import (
 from src.benchmarks import (
     qa_benchmark_dict,
     long_doc_benchmark_dict,
-    METRIC_LIST,
-    DEFAULT_METRIC_QA,
-    DEFAULT_METRIC_LONG_DOC
 )
 from src.display.css_html_js import custom_css
 from src.envs import (
     API,
     EVAL_RESULTS_PATH,
-    REPO_ID
 )
 from src.loaders import (
     load_eval_results

 from src.benchmarks import (
     qa_benchmark_dict,
     long_doc_benchmark_dict,
+    METRIC_LIST
 )
 from src.display.css_html_js import custom_css
 from src.envs import (
     API,
     EVAL_RESULTS_PATH,
+    REPO_ID, DEFAULT_METRIC_QA, DEFAULT_METRIC_LONG_DOC
 )
 from src.loaders import (
     load_eval_results

src/benchmarks.py CHANGED Viewed

@@ -3,9 +3,6 @@ from enum import Enum
 from air_benchmark.tasks.tasks import BenchmarkTable
-DEFAULT_METRIC_QA = "ndcg_at_10"
-DEFAULT_METRIC_LONG_DOC = "recall_at_10"
 METRIC_LIST = [
     "ndcg_at_1",
     "ndcg_at_3",

 from air_benchmark.tasks.tasks import BenchmarkTable
 METRIC_LIST = [
     "ndcg_at_1",
     "ndcg_at_3",

src/envs.py CHANGED Viewed

@@ -31,3 +31,5 @@ BENCHMARK_VERSION_LIST = [
 ]
 LATEST_BENCHMARK_VERSION = BENCHMARK_VERSION_LIST[-1]

 ]
 LATEST_BENCHMARK_VERSION = BENCHMARK_VERSION_LIST[-1]
+DEFAULT_METRIC_QA = "ndcg_at_10"
+DEFAULT_METRIC_LONG_DOC = "recall_at_10"

src/loaders.py CHANGED Viewed

@@ -3,7 +3,7 @@ from typing import List
 import pandas as pd
-from src.benchmarks import DEFAULT_METRIC_QA, DEFAULT_METRIC_LONG_DOC
 from src.display.columns import COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_IS_ANONYMOUS
 from src.models import FullEvalResult, LeaderboardDataStore

 import pandas as pd
+from src.envs import DEFAULT_METRIC_QA, DEFAULT_METRIC_LONG_DOC
 from src.display.columns import COL_NAME_REVISION, COL_NAME_TIMESTAMP, COL_NAME_IS_ANONYMOUS
 from src.models import FullEvalResult, LeaderboardDataStore