Spaces:

AssistantBench
/

leaderboard

Running

samuelam commited on Jul 22

Commit

90a7ae2

•

1 Parent(s): c5f30ce

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -132,7 +132,8 @@ def add_new_eval(
                     json.dumps({
                         "id": task_id,
                         "model_answer": answer,
-                        "score": score
                     }) + "\n"
                 )
@@ -153,18 +154,23 @@ def add_new_eval(
         token=TOKEN
     )
     eval_entry = {
         "Model Name": model_name,
         "Base Model": model_family,
         "URL": url,
         "Organization": organization,
-        "Accuracy": scores / num_questions if num_questions > 0 else 0,
         "Accuracy (easy)": accuracy_easy,
         "Accuracy (medium)": accuracy_medium,
         "Accuracy (hard)": accuracy_hard,
-        "Answer rate": scores / num_questions if num_questions > 0 else 0,
-        "Precision": scores / num_questions if num_questions > 0 else 0,
-        "EM": scores if num_questions > 0 else 0
     }
     eval_results["test"] = eval_results["test"].add_item(eval_entry)
     eval_results.push_to_hub(RESULTS_DATASET, config_name=YEAR_VERSION, token=TOKEN)

                     json.dumps({
                         "id": task_id,
                         "model_answer": answer,
+                        "score": score,
+                        "has_ans": has_ans
                     }) + "\n"
                 )
         token=TOKEN
     )
+    accuracy = float("{:.1f}".format(np.average([x["acc"] for x in scored_file]) * 100))
+    coverage = float("{:.1f}".format(np.average([x["has_ans"] for x in scored_file])))
+    em = float("{:.1f}".format(np.average([1 if x["acc"] == 1 else 0 for x in scored_file])))
+    precision = float("{:.1f}".format(np.average([x["acc"] for x in scored_file if x["has_ans"] == 1])))
     eval_entry = {
         "Model Name": model_name,
         "Base Model": model_family,
         "URL": url,
         "Organization": organization,
+        "Accuracy": accuracy,
         "Accuracy (easy)": accuracy_easy,
         "Accuracy (medium)": accuracy_medium,
         "Accuracy (hard)": accuracy_hard,
+        "Answer rate": coverage,
+        "Precision": precision,
+        "EM": em
     }
     eval_results["test"] = eval_results["test"].add_item(eval_entry)
     eval_results.push_to_hub(RESULTS_DATASET, config_name=YEAR_VERSION, token=TOKEN)