Spaces:

llm-jp
/

open-japanese-llm-leaderboard

Running on CPU Upgrade

hysts HF staff commited on Oct 30, 2024

Commit

dc8017a

1 Parent(s): 1429fd4

Fix graphs

Files changed (4) hide show

app.py CHANGED Viewed

@@ -165,7 +165,9 @@ def select_columns(df: pd.DataFrame, columns: list) -> pd.DataFrame:
     # 'always_here_cols' を 'columns' から除外して重複を避ける
     columns = [c for c in columns if c not in always_here_cols]
-    new_columns = always_here_cols + [c for c in COLS if c in df.columns and c in columns]
     # 重複を排除しつつ順序を維持
     seen = set()
@@ -306,7 +308,7 @@ def toggle_all_categories(action: str) -> list[gr.CheckboxGroup]:
 def plot_size_vs_score(df: pd.DataFrame, hidden_df: pd.DataFrame) -> go.Figure:
-    df2 = hidden_df.iloc[df.index]
     df2 = df2[df2["#Params (B)"] > 0]
     df2 = df2[["model_name_for_query", "#Params (B)", "AVG", "Few-shot"]]
     df2["AVG"] = df2["AVG"].astype(float)
@@ -333,7 +335,7 @@ TASK_AVG_NAME_MAP = {
 def plot_average_scores(df: pd.DataFrame, hidden_df: pd.DataFrame) -> go.Figure:
-    df2 = hidden_df.iloc[df.index]
     df2 = df2[["model_name_for_query", "Few-shot"] + list(TASK_AVG_NAME_MAP.keys())]
     df2 = df2.rename(columns={"model_name_for_query": "Model", "Few-shot": "n-shot"})
     df2 = df2.rename(columns=TASK_AVG_NAME_MAP)

     # 'always_here_cols' を 'columns' から除外して重複を避ける
     columns = [c for c in columns if c not in always_here_cols]
+    new_columns = (
+        always_here_cols + [c for c in COLS if c in df.columns and c in columns] + [AutoEvalColumn.row_id.name]
+    )
     # 重複を排除しつつ順序を維持
     seen = set()
 def plot_size_vs_score(df: pd.DataFrame, hidden_df: pd.DataFrame) -> go.Figure:
+    df2 = hidden_df[hidden_df[AutoEvalColumn.row_id.name].isin(df[AutoEvalColumn.row_id.name])]
     df2 = df2[df2["#Params (B)"] > 0]
     df2 = df2[["model_name_for_query", "#Params (B)", "AVG", "Few-shot"]]
     df2["AVG"] = df2["AVG"].astype(float)
 def plot_average_scores(df: pd.DataFrame, hidden_df: pd.DataFrame) -> go.Figure:
+    df2 = hidden_df[hidden_df[AutoEvalColumn.row_id.name].isin(df[AutoEvalColumn.row_id.name])]
     df2 = df2[["model_name_for_query", "Few-shot"] + list(TASK_AVG_NAME_MAP.keys())]
     df2 = df2.rename(columns={"model_name_for_query": "Model", "Few-shot": "n-shot"})
     df2 = df2.rename(columns=TASK_AVG_NAME_MAP)

src/display/utils.py CHANGED Viewed

@@ -63,6 +63,7 @@ auto_eval_column_dict.append(
 )
 auto_eval_column_dict.append(["backend", ColumnContent, ColumnContent("Backend Library", "str", False, dummy=True)])
 auto_eval_column_dict.append(["dummy", ColumnContent, ColumnContent("model_name_for_query", "str", False, dummy=True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

 )
 auto_eval_column_dict.append(["backend", ColumnContent, ColumnContent("Backend Library", "str", False, dummy=True)])
 auto_eval_column_dict.append(["dummy", ColumnContent, ColumnContent("model_name_for_query", "str", False, dummy=True)])
+auto_eval_column_dict.append(["row_id", ColumnContent, ColumnContent("ID", "number", False, dummy=True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

src/populate.py CHANGED Viewed

@@ -15,6 +15,9 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     df = pd.DataFrame.from_records(all_data_json)
     score_cols = [
         "ALT E to J BLEU",
         "ALT J to E BLEU",

     df = pd.DataFrame.from_records(all_data_json)
+    # Add a row ID column
+    df[AutoEvalColumn.row_id.name] = range(len(df))
     score_cols = [
         "ALT E to J BLEU",
         "ALT J to E BLEU",

style.css CHANGED Viewed

@@ -135,3 +135,9 @@
   flex-direction: row;
   align-items: center;
 }

   flex-direction: row;
   align-items: center;
 }
+/* Hides the final AutoEvalColumn */
+#llm-benchmark-tab-table table td:last-child,
+#llm-benchmark-tab-table table th:last-child {
+  display: none;
+}