de-arena

Running

yzabc007 commited on Oct 8, 2024

Commit

5db0911

1 Parent(s): 190ad0c

Update space

Files changed (2) hide show

app.py CHANGED Viewed

@@ -119,26 +119,7 @@ def overall_leaderboard(dataframe):
         interactive=False,
     )
-def overview_leaderboard(dataframe):
-    if dataframe is None or dataframe.empty:
-        raise ValueError("Leaderboard DataFrame is empty or None.")
-    return Leaderboard(
-        value=dataframe,
-        datatype=[c.type for c in fields(AutoEvalColumn)],
-        select_columns=None,
-        search_columns=SearchColumns(primary_column=AutoEvalColumn.model.name, secondary_columns=[],
-                                     placeholder="Search by the model name",
-                                     label="Searching"),
-        hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
-        filter_columns=None,
-        interactive=False,
-    )
 demo = gr.Blocks(css=custom_css)
 with demo:
@@ -148,10 +129,23 @@ with demo:
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("🏅 Overview", elem_id="llm-benchmark-tab-table", id=0):
-            leaderboard = init_leaderboard(LEADERBOARD_DF)
-            # leaderboard = overview_leaderboard(model_leaderboard_df)
         with gr.TabItem("🎯 Overall", elem_id="llm-benchmark-tab-table", id=1):
             leaderboard = overall_leaderboard(

         interactive=False,
     )
 demo = gr.Blocks(css=custom_css)
 with demo:
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("🏅 Overview", elem_id="llm-benchmark-tab-table", id=0):
+            leaderboard = overall_leaderboard(
+                get_model_leaderboard_df(
+                    model_result_path,
+                    benchmark_cols=[
+                        # AutoEvalColumn.rank_overall.name,
+                        AutoEvalColumn.model.name,
+                        AutoEvalColumn.rank_overall.name,
+                        AutoEvalColumn.rank_math_algebra.name,
+                        AutoEvalColumn.rank_math_geometry.name,
+                        AutoEvalColumn.rank_math_probability.name,
+                        AutoEvalColumn.rank_reason_logical.name,
+                        AutoEvalColumn.rank_reason_social.name,
+                        ],
+                    rank_col=[],
+                )
+            )
         with gr.TabItem("🎯 Overall", elem_id="llm-benchmark-tab-table", id=1):
             leaderboard = overall_leaderboard(

src/populate.py CHANGED Viewed

@@ -9,24 +9,6 @@ from src.leaderboard.read_evals import get_raw_eval_results, get_raw_model_resul
-# def get_overview_leaderboard_df(results_path: str) -> pd.DataFrame:
-#     """Creates a dataframe from all the individual experiment results"""
-#     raw_data = get_raw_eval_results(results_path, requests_path)
-#     all_data_json = [v.to_dict() for v in raw_data]
-#     df = pd.DataFrame.from_records(all_data_json)
-#     df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
-#     for col in cols:
-#         if col not in df.columns:
-#             df[col] = None
-#         else:
-#             df[col] = df[col].round(decimals=2)
-#     # filter out if any of the benchmarks have not been produced
-#     df = df[has_no_nan_values(df, benchmark_cols)]
-#     return df
 def get_model_leaderboard_df(results_path: str, requests_path: str="", cols: list=[], benchmark_cols: list=[], rank_col: list=[]) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
@@ -40,6 +22,11 @@ def get_model_leaderboard_df(results_path: str, requests_path: str="", cols: lis
     if rank_col:
         df = df.sort_values(by=[rank_col[0]], ascending=True)
     # df = df.sort_values(by=[AutoEvalColumn.score.name], ascending=True)
     # df[AutoEvalColumn.rank.name] = df[AutoEvalColumn.score.name].rank(ascending=True, method="min")

 def get_model_leaderboard_df(results_path: str, requests_path: str="", cols: list=[], benchmark_cols: list=[], rank_col: list=[]) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
     if rank_col:
         df = df.sort_values(by=[rank_col[0]], ascending=True)
+    else: # when rank_col is empty, sort by averaging all the benchmarks, except the first one
+        avg_rank = df.iloc[:, 1:].mean(axis=1)
+        df["Average Rank"] = avg_rank
+        df = df.sort_values(by=["Average Rank"], ascending=True)
     # df = df.sort_values(by=[AutoEvalColumn.score.name], ascending=True)
     # df[AutoEvalColumn.rank.name] = df[AutoEvalColumn.score.name].rank(ascending=True, method="min")