benchbench

Running

Yotam-Perlitz commited on Aug 27, 2024

Commit

386e6e6

1 Parent(s): ad12749

fix location of holistic benchmarks list

Signed-off-by: Yotam-Perlitz <y.perlitz@ibm.com>

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,28 @@ import pandas as pd
 import plotly.express as px
 import streamlit as st
 from bat import Benchmark, Config, Reporter, Tester
-from bat.utils import get_holistic_benchmark
 def get_nice_benchmark_name(bench_name):
@@ -49,7 +70,7 @@ st.markdown(
 )
-all_scenarios_for_aggragate = get_holistic_benchmark().get_scenarios()
 st.subheader("The Leaderboard", divider=True)
 # st.subheader("🏋️‍♂️ BenchBench Leaderboard 🏋", divider=True)
@@ -157,27 +178,6 @@ def run_load(
             n_exps=n_exps if n_models_taken_list != [0] else 1,
         )
-        holistic_scenarios = [
-            "arena_hard",
-            "mixeval",
-            "agieval",
-            "arc_c",
-            "alpacav1",
-            "alpacav2",
-            "alpacaeval2_lc",
-            "arena_elo",
-            "bbh",
-            "eq_benchv2",
-            "gpt4all",
-            "hugging_6",
-            "llmonitor",
-            "magi",
-            "mmlu",
-            "mt_bench",
-            "biggen_mwr",
-            "olmes_average",
-            "mmlu_pro",
-        ]
         holistic = Benchmark()
         holistic.load_local_catalog()
         holistic.df = holistic.df.query("scenario in @holistic_scenarios")

 import plotly.express as px
 import streamlit as st
 from bat import Benchmark, Config, Reporter, Tester
+holistic_scenarios = [
+    "arena_hard",
+    "mixeval",
+    "agieval",
+    "arc_c",
+    "alpacav1",
+    "alpacav2",
+    "alpacaeval2_lc",
+    "arena_elo",
+    "bbh",
+    "eq_benchv2",
+    "gpt4all",
+    "hugging_6",
+    "llmonitor",
+    "magi",
+    "mmlu",
+    "mt_bench",
+    "biggen_mwr",
+    "olmes_average",
+    "mmlu_pro",
+]
 def get_nice_benchmark_name(bench_name):
 )
+all_scenarios_for_aggragate = holistic_scenarios
 st.subheader("The Leaderboard", divider=True)
 # st.subheader("🏋️‍♂️ BenchBench Leaderboard 🏋", divider=True)
             n_exps=n_exps if n_models_taken_list != [0] else 1,
         )
         holistic = Benchmark()
         holistic.load_local_catalog()
         holistic.df = holistic.df.query("scenario in @holistic_scenarios")