Spaces:

Weyaxi
/

leaderboard-results-to-modelcard

Running

App Files Files Community

Weyaxi commited on 18 days ago

Commit

56c2f84

•

1 Parent(s): d6aff0a

round results

Browse files

Files changed (1) hide show

functions.py +7 -7

functions.py CHANGED Viewed

@@ -40,7 +40,7 @@ def get_task_summary(results):
           {"dataset_type":"HuggingFaceH4/ifeval",
           "dataset_name":"IFEval (0-Shot)",
           "metric_type": "inst_level_strict_acc and prompt_level_strict_acc",
-          "metric_value":results["IFEval"],
           "dataset_config": None, # don't know
           "dataset_split": None, # don't know
           "dataset_revision":None,
@@ -51,7 +51,7 @@ def get_task_summary(results):
           {"dataset_type":"BBH",
           "dataset_name":"BBH (3-Shot)",
           "metric_type":"acc_norm",
-          "metric_value":results["BBH"],
           "dataset_config": None, # don't know
           "dataset_split": None, # don't know
           "dataset_revision":None,
@@ -63,7 +63,7 @@ def get_task_summary(results):
           "dataset_type":"hendrycks/competition_math",
           "dataset_name":"MATH Lvl 5 (4-Shot)",
           "metric_type":"exact_match",
-          "metric_value":results["MATH Lvl 5"],
           "dataset_config": None, # don't know
           "dataset_split": None, # don't know
           "dataset_revision":None,
@@ -75,7 +75,7 @@ def get_task_summary(results):
           "dataset_type":"Idavidrein/gpqa",
           "dataset_name":"GPQA (0-shot)",
           "metric_type":"acc_norm",
-          "metric_value":results["GPQA"],
           "dataset_config": None, # don't know
           "dataset_split": None, # don't know
           "dataset_revision":None,
@@ -87,7 +87,7 @@ def get_task_summary(results):
           "dataset_type":"TAUR-Lab/MuSR",
           "dataset_name":"MuSR (0-shot)",
           "metric_type":"acc_norm",
-          "metric_value":results["MUSR"],
           "dataset_config": None, # don't know
           "dataset_split": None, # don't know
           "dataset_args":{"num_few_shot": 0},
@@ -98,7 +98,7 @@ def get_task_summary(results):
           "dataset_type":"TIGER-Lab/MMLU-Pro",
           "dataset_name":"MMLU-PRO (5-shot)",
           "metric_type":"acc",
-          "metric_value":results["MMLU-PRO"],
           "dataset_config":"main",
           "dataset_split":"test",
           "dataset_args":{"num_few_shot": 5},
@@ -113,7 +113,7 @@ def get_eval_results(repo):
   task_summary = get_task_summary(results)
   md_writer = MarkdownTableWriter()
   md_writer.headers = ["Metric", "Value"]
-  md_writer.value_matrix = [["Avg.", results['Average ⬆️']]] + [[v["dataset_name"], v["metric_value"]] for v in task_summary.values()]
   text = f"""
 # [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)

           {"dataset_type":"HuggingFaceH4/ifeval",
           "dataset_name":"IFEval (0-Shot)",
           "metric_type": "inst_level_strict_acc and prompt_level_strict_acc",
+          "metric_value": round(results["IFEval"], 2),
           "dataset_config": None, # don't know
           "dataset_split": None, # don't know
           "dataset_revision":None,
           {"dataset_type":"BBH",
           "dataset_name":"BBH (3-Shot)",
           "metric_type":"acc_norm",
+          "metric_value": round(results["BBH"], 2),
           "dataset_config": None, # don't know
           "dataset_split": None, # don't know
           "dataset_revision":None,
           "dataset_type":"hendrycks/competition_math",
           "dataset_name":"MATH Lvl 5 (4-Shot)",
           "metric_type":"exact_match",
+          "metric_value": round(results["MATH Lvl 5"], 2),
           "dataset_config": None, # don't know
           "dataset_split": None, # don't know
           "dataset_revision":None,
           "dataset_type":"Idavidrein/gpqa",
           "dataset_name":"GPQA (0-shot)",
           "metric_type":"acc_norm",
+          "metric_value": round(results["GPQA"], 2),
           "dataset_config": None, # don't know
           "dataset_split": None, # don't know
           "dataset_revision":None,
           "dataset_type":"TAUR-Lab/MuSR",
           "dataset_name":"MuSR (0-shot)",
           "metric_type":"acc_norm",
+          "metric_value": round(results["MUSR"], 2),
           "dataset_config": None, # don't know
           "dataset_split": None, # don't know
           "dataset_args":{"num_few_shot": 0},
           "dataset_type":"TIGER-Lab/MMLU-Pro",
           "dataset_name":"MMLU-PRO (5-shot)",
           "metric_type":"acc",
+          "metric_value": round(results["MMLU-PRO"], 2),
           "dataset_config":"main",
           "dataset_split":"test",
           "dataset_args":{"num_few_shot": 5},
   task_summary = get_task_summary(results)
   md_writer = MarkdownTableWriter()
   md_writer.headers = ["Metric", "Value"]
+  md_writer.value_matrix = [["Avg.", round(results['Average ⬆️']]], 2) + [[v["dataset_name"], v["metric_value"]] for v in task_summary.values()]
   text = f"""
 # [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)