Spaces:

upstage
/

open-ko-llm-leaderboard

Restarting on CPU Upgrade

Sean Cho commited on Sep 8, 2023

Commit

9afcf15

•

1 Parent(s): a86ccea

update evaluation columns

Files changed (3) hide show

app.py CHANGED Viewed

@@ -258,8 +258,8 @@ NUMERIC_INTERVALS = {
     "~3B": (1.5, 5),
     "~7B": (6, 11),
     "~13B": (12, 15),
-    "~35B": (16, 55),
-    "60B+": (55, 10000),
 }
 def filter_models(

     "~3B": (1.5, 5),
     "~7B": (6, 11),
     "~13B": (12, 15),
+    # "~35B": (16, 55),
+    # "60B+": (55, 10000),
 }
 def filter_models(

src/display_models/read_results.py CHANGED Viewed

@@ -9,12 +9,14 @@ import numpy as np
 from src.display_models.utils import AutoEvalColumn, make_clickable_model
 METRICS = ["acc_norm", "acc_norm", "acc", "mc2"]
-BENCHMARKS = ["arc:challenge", "hellaswag", "hendrycksTest", "truthfulqa:mc"]
 BENCH_TO_NAME = {
     "arc:challenge": AutoEvalColumn.arc.name,
     "hellaswag": AutoEvalColumn.hellaswag.name,
     "hendrycksTest": AutoEvalColumn.mmlu.name,
     "truthfulqa:mc": AutoEvalColumn.truthfulqa.name,
 }

 from src.display_models.utils import AutoEvalColumn, make_clickable_model
 METRICS = ["acc_norm", "acc_norm", "acc", "mc2"]
+BENCHMARKS = ["arc:challenge", "hellaswag", "hendrycksTest", "truthfulqa:mc", "commongen", "ethicalverification"]
 BENCH_TO_NAME = {
     "arc:challenge": AutoEvalColumn.arc.name,
     "hellaswag": AutoEvalColumn.hellaswag.name,
     "hendrycksTest": AutoEvalColumn.mmlu.name,
     "truthfulqa:mc": AutoEvalColumn.truthfulqa.name,
+    "commongen": AutoEvalColumn.commongen.name,
+    "ethicalverification": AutoEvalColumn.ethicalverification.name,
 }

src/display_models/utils.py CHANGED Viewed

@@ -25,10 +25,12 @@ class AutoEvalColumn:  # Auto evals column
     model_type_symbol = ColumnContent("T", "str", True)
     model = ColumnContent("Model", "markdown", True)
     average = ColumnContent("Average ⬆️", "number", True)
-    arc = ColumnContent("ARC", "number", True)
-    hellaswag = ColumnContent("HellaSwag", "number", True)
-    mmlu = ColumnContent("MMLU", "number", True)
-    truthfulqa = ColumnContent("TruthfulQA", "number", True)
     model_type = ColumnContent("Type", "str", False)
     precision = ColumnContent("Precision", "str", False)  # , True)
     license = ColumnContent("Hub License", "str", False)

     model_type_symbol = ColumnContent("T", "str", True)
     model = ColumnContent("Model", "markdown", True)
     average = ColumnContent("Average ⬆️", "number", True)
+    arc = ColumnContent("Ko-ARC", "number", True)
+    hellaswag = ColumnContent("Ko-HellaSwag", "number", True)
+    mmlu = ColumnContent("Ko-MMLU", "number", True)
+    truthfulqa = ColumnContent("Ko-TruthfulQA", "number", True)
+    commongen = ColumnContent("Ko-CommonGen", "number", True)
+    ethicalverification = ColumnContent("EthicalVerification", "number", True)
     model_type = ColumnContent("Type", "str", False)
     precision = ColumnContent("Precision", "str", False)  # , True)
     license = ColumnContent("Hub License", "str", False)