Spaces:

optimum
/

llm-perf-leaderboard

Running

App Files Files Community

BenchmarkBot commited on Jul 7, 2023

Commit

4cfc121

1 Parent(s): d3abea5

updated plot

Browse files

Files changed (2) hide show

app.py +8 -8
src/utils.py +3 -3

app.py CHANGED Viewed

@@ -1,7 +1,7 @@
-import plotly.express as px
 import os
 import gradio as gr
 import pandas as pd
 from apscheduler.schedulers.background import BackgroundScheduler
 from src.assets.text_content import TITLE, INTRODUCTION_TEXT, SINGLE_A100_TEXT, CITATION_BUTTON_LABEL, CITATION_BUTTON_TEXT
@@ -19,7 +19,7 @@ COLUMNS_MAPPING = {
     "backend.torch_dtype": "Datatype 📥",
     "forward.peak_memory(MB)": "Peak Memory (MB) ⬇️",
     "generate.throughput(tokens/s)": "Throughput (tokens/s) ⬆️",
-    "h4_score": "H4 Score ⬆️",
 }
 COLUMNS_DATATYPES = ["markdown", "str", "str", "number", "number", "markdown"]
 SORTING_COLUMN = ["Throughput (tokens/s) ⬆️"]
@@ -66,7 +66,7 @@ def get_benchmark_plot(benchmark):
     scores_df = pd.read_csv(
         f"./llm-perf-dataset/reports/additional_data.csv")
     bench_df = bench_df.merge(scores_df, on="model", how="left")
     bench_df = bench_df[bench_df["generate.latency(s)"] < 100]
     fig = px.scatter(
@@ -85,11 +85,11 @@ def get_benchmark_plot(benchmark):
         },
         xaxis_title="Average H4 Score",
         yaxis_title="Latency per 1000 Tokens (s)",
-        legend_title="Model Type",
         width=1200,
         height=600,
     )
     fig.update_traces(
         hovertemplate="<br>".join([
             "Model: %{customdata[0]}",
@@ -174,7 +174,7 @@ with demo:
                 max_rows=None,
                 visible=False,
             )
         submit_button.click(
             submit_query,
             [
@@ -187,14 +187,14 @@ with demo:
         with gr.TabItem("🖥️ A100-80GB Plot 📊", id=1):
             # Original leaderboard plot
             gr.HTML(SINGLE_A100_TEXT)
             # Original leaderboard plot
             single_A100_plotly = gr.components.Plot(
                 value=single_A100_plot,
                 elem_id="1xA100-plot",
                 show_label=False,
             )
     with gr.Row():
         with gr.Accordion("📙 Citation", open=False):
             citation_button = gr.Textbox(

 import os
 import gradio as gr
 import pandas as pd
+import plotly.express as px
 from apscheduler.schedulers.background import BackgroundScheduler
 from src.assets.text_content import TITLE, INTRODUCTION_TEXT, SINGLE_A100_TEXT, CITATION_BUTTON_LABEL, CITATION_BUTTON_TEXT
     "backend.torch_dtype": "Datatype 📥",
     "forward.peak_memory(MB)": "Peak Memory (MB) ⬇️",
     "generate.throughput(tokens/s)": "Throughput (tokens/s) ⬆️",
+    "h4_score": "Average H4 Score ⬆️",
 }
 COLUMNS_DATATYPES = ["markdown", "str", "str", "number", "number", "markdown"]
 SORTING_COLUMN = ["Throughput (tokens/s) ⬆️"]
     scores_df = pd.read_csv(
         f"./llm-perf-dataset/reports/additional_data.csv")
     bench_df = bench_df.merge(scores_df, on="model", how="left")
     bench_df = bench_df[bench_df["generate.latency(s)"] < 100]
     fig = px.scatter(
         },
         xaxis_title="Average H4 Score",
         yaxis_title="Latency per 1000 Tokens (s)",
+        legend_title="Model Type, Backend",
         width=1200,
         height=600,
     )
     fig.update_traces(
         hovertemplate="<br>".join([
             "Model: %{customdata[0]}",
                 max_rows=None,
                 visible=False,
             )
         submit_button.click(
             submit_query,
             [
         with gr.TabItem("🖥️ A100-80GB Plot 📊", id=1):
             # Original leaderboard plot
             gr.HTML(SINGLE_A100_TEXT)
             # Original leaderboard plot
             single_A100_plotly = gr.components.Plot(
                 value=single_A100_plot,
                 elem_id="1xA100-plot",
                 show_label=False,
             )
     with gr.Row():
         with gr.Accordion("📙 Citation", open=False):
             citation_button = gr.Textbox(

src/utils.py CHANGED Viewed

@@ -73,16 +73,16 @@ def extract_score_from_clickable(clickable_score) -> float:
 def submit_query(text, backends, datatypes, threshold, raw_df):
-    raw_df["H4 Score ⬆️"] = raw_df["H4 Score ⬆️"].apply(
         extract_score_from_clickable)
     filtered_df = raw_df[
         raw_df["Model 🤗"].str.lower().str.contains(text.lower()) &
         raw_df["Backend 🏭"].isin(backends) &
         raw_df["Datatype 📥"].isin(datatypes) &
-        (raw_df["H4 Score ⬆️"] >= threshold)
     ]
-    filtered_df["H4 Score ⬆️"] = filtered_df["H4 Score ⬆️"].apply(
         make_clickable_score)
     return filtered_df

 def submit_query(text, backends, datatypes, threshold, raw_df):
+    raw_df["Average H4 Score ⬆️"] = raw_df["Average H4 Score ⬆️"].apply(
         extract_score_from_clickable)
     filtered_df = raw_df[
         raw_df["Model 🤗"].str.lower().str.contains(text.lower()) &
         raw_df["Backend 🏭"].isin(backends) &
         raw_df["Datatype 📥"].isin(datatypes) &
+        (raw_df["Average H4 Score ⬆️"] >= threshold)
     ]
+    filtered_df["Average H4 Score ⬆️"] = filtered_df["Average H4 Score ⬆️"].apply(
         make_clickable_score)
     return filtered_df