Spaces:

optimum
/

llm-perf-leaderboard

Running

App Files Files Community

BenchmarkBot commited on Aug 16, 2023

Commit

ec9f1c7

1 Parent(s): 271d809

new runs

Browse files

Files changed (1) hide show

app.py +15 -6

app.py CHANGED Viewed

@@ -28,7 +28,6 @@ OPTIMUM_TOKEN = os.environ.get("OPTIMUM_TOKEN", None)
 ALL_COLUMNS_MAPPING = {
-    "best_scored_model": "Best Scored Model 🏆",
     "model_type": "Type 🤗",
     "weight_class": "Class 🏋️",
     #
@@ -38,11 +37,11 @@ ALL_COLUMNS_MAPPING = {
     #
     "generate.throughput(tokens/s)": "Throughput (tokens/s) ⬆️",
     "forward.peak_memory(MB)": "Peak Memory (MB) ⬇️",
-    "best_score": "Score (%) ⬆️",
     #
 }
 ALL_COLUMNS_DATATYPES = [
-    "markdown",
     "str",
     "str",
     #
@@ -52,6 +51,8 @@ ALL_COLUMNS_DATATYPES = [
     #
     "number",
     "number",
     "number",
 ]
 SORTING_COLUMN = ["tradeoff"]
@@ -66,9 +67,12 @@ def get_benchmark_df(benchmark="1xA100-80GB"):
     # load and merge
     bench_df = pd.read_csv(f"./llm-perf-dataset/reports/{benchmark}.csv")
     scores_df = pd.read_csv(
-        f"./llm-perf-dataset/reports/Grouped-Open-LLM-Leaderboard.csv"
     )
-    merged_df = bench_df.merge(scores_df, left_on="model", right_on="best_scored_model")
     # add optimizations
     merged_df["optimizations"] = merged_df[
@@ -89,6 +93,11 @@ def get_benchmark_df(benchmark="1xA100-80GB"):
         axis=1,
     )
     # create composite score
     score_distance = 100 - merged_df["best_score"]
     # normalize latency between 0 and 100
@@ -247,7 +256,7 @@ with demo:
         with gr.TabItem("Control Panel 🎛️", id=2):
             gr.HTML(
-                "Use this control panel to filter the leaderboard (table and plot).",
                 elem_id="descriptive-text",
             )
             # control panel interface

 ALL_COLUMNS_MAPPING = {
     "model_type": "Type 🤗",
     "weight_class": "Class 🏋️",
     #
     #
     "generate.throughput(tokens/s)": "Throughput (tokens/s) ⬆️",
     "forward.peak_memory(MB)": "Peak Memory (MB) ⬇️",
     #
+    "best_scored_model": "Best Scored Model 🏆",
+    "best_score": "Best Score (%) ⬆️",
 }
 ALL_COLUMNS_DATATYPES = [
     "str",
     "str",
     #
     #
     "number",
     "number",
+    #
+    "markdown",
     "number",
 ]
 SORTING_COLUMN = ["tradeoff"]
     # load and merge
     bench_df = pd.read_csv(f"./llm-perf-dataset/reports/{benchmark}.csv")
     scores_df = pd.read_csv(
+        "./llm-perf-dataset/reports/Weighted+Classed-Open-LLM-Leaderboard.csv"
     )
+    bench_df["merge_id"] = bench_df.experiment_name.str.split("_1_1000_").str[-1]
+    scores_df["merge_id"] = scores_df.weight_class + "_" + scores_df.model_type
+    merged_df = bench_df.merge(scores_df, on="merge_id")
     # add optimizations
     merged_df["optimizations"] = merged_df[
         axis=1,
     )
+    # remove score for quantized models
+    merged_df.loc[
+        merged_df["optimizations"].str.contains("LLM.int8|LLM.fp4"), "best_score"
+    ] = "Not Evaluated"
     # create composite score
     score_distance = 100 - merged_df["best_score"]
     # normalize latency between 0 and 100
         with gr.TabItem("Control Panel 🎛️", id=2):
             gr.HTML(
+                "Use this control panel to filter the leaderboard's table and plot.",
                 elem_id="descriptive-text",
             )
             # control panel interface