Spaces:

omlab
/

open-agent-leaderboard

Running

App Files Files Community

qq-hzlh commited on Jan 16

Commit

efbd6cf

1 Parent(s): bd69a52

improve pot implementation and score

Browse files

Files changed (3) hide show

gen_table.py +9 -1
src/detail_math_score.json +20 -20
src/overall_math_score.json +6 -6

gen_table.py CHANGED Viewed

@@ -7,6 +7,7 @@ import gradio as gr
 import numpy as np
 import pandas as pd
 from meta_data import OVERALL_MATH_SCORE_FILE, DEFAULT_MATH_BENCH, META_FIELDS
@@ -150,7 +151,14 @@ def generate_table(results, fields):
                 res[f"{d}-Cost($)"].append(None)
         # Calculate average score
-        res['Avg Score'].append(round(np.mean(scores), 2) if scores else None)
     df = pd.DataFrame(res)

 import numpy as np
 import pandas as pd
+from decimal import Decimal, ROUND_HALF_UP
 from meta_data import OVERALL_MATH_SCORE_FILE, DEFAULT_MATH_BENCH, META_FIELDS
                 res[f"{d}-Cost($)"].append(None)
         # Calculate average score
+        if scores:
+            decimal_numbers = [Decimal(str(num)) for num in scores]
+            avg_score = Decimal(str(np.mean(scores) if scores else None))
+            avg_score = sum(decimal_numbers) / len(decimal_numbers)
+        else:
+            avg_score = None
+        formatted_average = avg_score.quantize(Decimal('0.01'), rounding=ROUND_HALF_UP)
+        res['Avg Score'].append(formatted_average)
     df = pd.DataFrame(res)

src/detail_math_score.json CHANGED Viewed

@@ -226,17 +226,17 @@
                     "Cost($)": 0.6902
                 },
                 "AQuA": {
-                    "Score": 51.97,
-                    "Pass rate": 92.91,
                     "X-shot": 0,
                     "Parameters": "",
                     "Samples": 254,
-                    "Total input tokens": 223438,
-                    "Average input tokens": 880,
-                    "Total output tokens": 29323,
-                    "Average output tokens": 115,
-                    "All tokens": 252761,
-                    "Cost($)": 0.1557
                 }
             },
             "Doubao-lite-32k": {
@@ -246,30 +246,30 @@
                     "Eval Date": "2025/01/07"
                 },
                 "gsm8k": {
-                    "Score": 79.15,
-                    "Pass rate": 92.65,
                     "X-shot": 8,
                     "Parameters": "",
                     "Samples": 1319,
                     "Total input tokens": 1170038,
                     "Average input tokens": 887,
-                    "Total output tokens": 116987,
                     "Average output tokens": 89,
-                    "All tokens": 1287025,
                     "Cost($)": 0.0575
                 },
                 "AQuA": {
-                    "Score": 52.36,
-                    "Pass rate": 82.28,
                     "X-shot": 0,
                     "Parameters": "",
                     "Samples": 254,
-                    "Total input tokens": 256721,
-                    "Average input tokens": 1011,
-                    "Total output tokens": 44729,
-                    "Average output tokens": 176,
-                    "All tokens": 301450,
-                    "Cost($)": 0.0142
                 }
             }
         },

                     "Cost($)": 0.6902
                 },
                 "AQuA": {
+                    "Score": 59.45,
+                    "Pass rate": 100,
                     "X-shot": 0,
                     "Parameters": "",
                     "Samples": 254,
+                    "Total input tokens": 225162,
+                    "Average input tokens": 886,
+                    "Total output tokens": 41492,
+                    "Average output tokens": 163,
+                    "All tokens": 266654,
+                    "Cost($)": 0.1748
                 }
             },
             "Doubao-lite-32k": {
                     "Eval Date": "2025/01/07"
                 },
                 "gsm8k": {
+                    "Score": 79.61,
+                    "Pass rate": 92.57,
                     "X-shot": 8,
                     "Parameters": "",
                     "Samples": 1319,
                     "Total input tokens": 1170038,
                     "Average input tokens": 887,
+                    "Total output tokens": 118017,
                     "Average output tokens": 89,
+                    "All tokens": 1288055,
                     "Cost($)": 0.0575
                 },
                 "AQuA": {
+                    "Score": 71.65,
+                    "Pass rate": 96.85,
                     "X-shot": 0,
                     "Parameters": "",
                     "Samples": 254,
+                    "Total input tokens": 259863,
+                    "Average input tokens": 1023,
+                    "Total output tokens": 49573,
+                    "Average output tokens": 195,
+                    "All tokens": 309436,
+                    "Cost($)": 0.0147
                 }
             }
         },

src/overall_math_score.json CHANGED Viewed

@@ -57,8 +57,8 @@
                 "Cost($)": 0.6902
             },
             "AQuA": {
-                "Score": 51.97,
-                "Cost($)": 0.1557
             }
         },
         "ReAct-Pro*": {
@@ -128,12 +128,12 @@
                 "Eval Date": "2025/01/07"
             },
             "gsm8k": {
-                "Score": 79.15,
-                "Cost($)": 0.0575
             },
             "AQuA": {
-                "Score": 52.36,
-                "Cost($)": 0.0142
             }
         },
         "ReAct-Pro-Doubao": {

                 "Cost($)": 0.6902
             },
             "AQuA": {
+                "Score": 59.45,
+                "Cost($)": 0.1748
             }
         },
         "ReAct-Pro*": {
                 "Eval Date": "2025/01/07"
             },
             "gsm8k": {
+                "Score": 79.61,
+                "Cost($)": 0.0576
             },
             "AQuA": {
+                "Score": 71.65,
+                "Cost($)": 0.0147
             }
         },
         "ReAct-Pro-Doubao": {