Spaces:

Bias-Leaderboard
/

leaderboard

Runtime error

App Files Files Community

meg-huggingface commited on Jan 21, 2024

Commit

9bd728a

1 Parent(s): 9be7bfc

Trying toxigen download

Browse files

Files changed (3) hide show

main_backend.py +5 -0
src/backend/run_eval_suite.py +0 -2
src/display/utils.py +10 -10

main_backend.py CHANGED Viewed

@@ -2,6 +2,7 @@ import logging
 import pprint
 from huggingface_hub import snapshot_download
 logging.getLogger("openai").setLevel(logging.WARNING)
@@ -21,6 +22,10 @@ RUNNING_STATUS = "RUNNING"
 FINISHED_STATUS = "FINISHED"
 FAILED_STATUS = "FAILED"
 print("Downloading snapshot from %s to %s" % (RESULTS_REPO, EVAL_RESULTS_PATH_BACKEND))
 snapshot_download(repo_id=RESULTS_REPO, revision="main", local_dir=EVAL_RESULTS_PATH_BACKEND, repo_type="dataset", token=TOKEN, max_workers=60)
 snapshot_download(repo_id=QUEUE_REPO, revision="main", local_dir=EVAL_REQUESTS_PATH_BACKEND, repo_type="dataset", token=TOKEN, max_workers=60)

 import pprint
 from huggingface_hub import snapshot_download
+from datasets import load_dataset
 logging.getLogger("openai").setLevel(logging.WARNING)
 FINISHED_STATUS = "FINISHED"
 FAILED_STATUS = "FAILED"
+print("JUST trying toxigen access...")
+load_dataset("skg/toxigen-data", token=TOKEN)
+print("Done.")
 print("Downloading snapshot from %s to %s" % (RESULTS_REPO, EVAL_RESULTS_PATH_BACKEND))
 snapshot_download(repo_id=RESULTS_REPO, revision="main", local_dir=EVAL_RESULTS_PATH_BACKEND, repo_type="dataset", token=TOKEN, max_workers=60)
 snapshot_download(repo_id=QUEUE_REPO, revision="main", local_dir=EVAL_REQUESTS_PATH_BACKEND, repo_type="dataset", token=TOKEN, max_workers=60)

src/backend/run_eval_suite.py CHANGED Viewed

@@ -2,7 +2,6 @@ import json
 import os
 import logging
 from datetime import datetime
-import spaces
 from lm_eval import tasks, evaluator, utils
@@ -11,7 +10,6 @@ from src.backend.manage_requests import EvalRequest
 logging.getLogger("openai").setLevel(logging.WARNING)
-@spaces.GPU
 def run_evaluation(eval_request: EvalRequest, task_names, num_fewshot, batch_size, device, local_dir: str, results_repo: str, no_cache=True, limit=None):
     if limit:
         print(

 import os
 import logging
 from datetime import datetime
 from lm_eval import tasks, evaluator, utils
 logging.getLogger("openai").setLevel(logging.WARNING)
 def run_evaluation(eval_request: EvalRequest, task_names, num_fewshot, batch_size, device, local_dir: str, results_repo: str, no_cache=True, limit=None):
     if limit:
         print(

src/display/utils.py CHANGED Viewed

@@ -31,15 +31,15 @@ auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information
-auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
-auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
-auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
-auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
-auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
-auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
-auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
-auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 # Dummy column for the search bar (hidden by the custom CSS)
 auto_eval_column_dict.append(["dummy", ColumnContent, ColumnContent("model_name_for_query", "str", False, dummy=True)])
@@ -127,7 +127,7 @@ EVAL_TYPES = [c.type for c in fields(EvalQueueColumn)]
 BENCHMARK_COLS = [t.value.col_name for t in Tasks]
 NUMERIC_INTERVALS = {
-    "?": pd.Interval(-1, 0, closed="right"),
     "~1.5": pd.Interval(0, 2, closed="right"),
     "~3": pd.Interval(2, 4, closed="right"),
     "~7": pd.Interval(4, 9, closed="right"),

 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information
+auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False, hidden=True)])
+auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False, hidden=True)])
+auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True, hidden=True)])
+auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False, hidden=True)])
+auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False, hidden=True)])
+auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False, hidden=True)])
+auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False, hidden=True)])
+auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False, hidden=True)])
+auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False, hidden=True)])
 # Dummy column for the search bar (hidden by the custom CSS)
 auto_eval_column_dict.append(["dummy", ColumnContent, ColumnContent("model_name_for_query", "str", False, dummy=True)])
 BENCHMARK_COLS = [t.value.col_name for t in Tasks]
 NUMERIC_INTERVALS = {
+    " ? ": pd.Interval(-1, 0, closed="right"),
     "~1.5": pd.Interval(0, 2, closed="right"),
     "~3": pd.Interval(2, 4, closed="right"),
     "~7": pd.Interval(4, 9, closed="right"),