Spaces:

SeaEval
/

SeaEval_Leaderboard

Running

zhuohan-7 commited on 4 days ago

Commit

4babe21

•

1 Parent(s): 4ee9f29

Upload folder using huggingface_hub

Files changed (2) hide show

app/draw_diagram.py CHANGED Viewed

@@ -65,19 +65,20 @@ def draw(folder_name, category_one, category_two, sort, num_sort, model_size_ran
     max_value = round(max(chart_data.iloc[:, 1]) + 0.1*max(chart_data.iloc[:, 1]), 1)
     display_names = {
-        'cross_mmlu'            : 'Cross-MMLU',
-        'cross_mmlu_no_prompt'  : 'Cross-MMLU-No-Prompt',
-        'cross_logiqa'          : 'Cross-LogiQA',
-        'cross_logiqa_no_prompt': 'Cross-LogiQA-No-Prompt',
-        'cross_xquad'           : 'Cross-XQUAD',
-        'cross_xquad_no_prompt' : 'Cross-XQUAD-No-Prompt',
-        'sg_eval'               : 'SG EVAL',
-        'sg_eval_v1_cleaned'    : 'SG EVAL V1 Cleaned',
-        'sg_eval_v2_mcq'        : 'SG EVAL V2 MCQ',
-        'sg_eval_v2_open'       : 'SG EVAL V2 Open Ended',
-        'us_eval'               : 'US EVAL',
-        'cn_eval'               : 'CN EVAL',
-        'ph_eval'               : 'PH EVAL'
     }
     data_columns = [i for i in chart_data.columns if i not in ['Model', 'model_show']]

     max_value = round(max(chart_data.iloc[:, 1]) + 0.1*max(chart_data.iloc[:, 1]), 1)
     display_names = {
+        'cross_mmlu'              : 'Cross-MMLU',
+        'cross_mmlu_no_prompt'    : 'Cross-MMLU-No-Prompt',
+        'cross_logiqa'            : 'Cross-LogiQA',
+        'cross_logiqa_no_prompt'  : 'Cross-LogiQA-No-Prompt',
+        'cross_xquad'             : 'Cross-XQUAD',
+        'cross_xquad_no_prompt'   : 'Cross-XQUAD-No-Prompt',
+        'sg_eval'                 : 'SG EVAL',
+        'sg_eval_v1_cleaned'      : 'SG EVAL V1 Cleaned',
+        'sg_eval_v2_mcq'          : 'SG EVAL V2 MCQ',
+        'sg_eval_v2_mcq_no_prompt': 'SG EVAL V2 MCQ No Prompt',
+        'sg_eval_v2_open'         : 'SG EVAL V2 Open Ended',
+        'us_eval'                 : 'US EVAL',
+        'cn_eval'                 : 'CN EVAL',
+        'ph_eval'                 : 'PH EVAL'
     }
     data_columns = [i for i in chart_data.columns if i not in ['Model', 'model_show']]

app/pages.py CHANGED Viewed

@@ -126,6 +126,7 @@ def cultural_reasoning():
     filters_levelone = ['Zero Shot', 'Few Shot']
     filters_leveltwo = [
                         'SG EVAL V2 MCQ',
                         'SG EVAL V2 Open Ended',
                         'SG EVAL',
                         'SG EVAL V1 Cleaned',
@@ -138,13 +139,15 @@ def cultural_reasoning():
                          'Few Shot': 'few_shot'
                          }
-    category_two_dict = {'SG EVAL': 'sg_eval',
-                         'SG EVAL V1 Cleaned'   : 'sg_eval_v1_cleaned',
-                         'SG EVAL V2 MCQ'       : 'sg_eval_v2_mcq',
-                         'SG EVAL V2 Open Ended': 'sg_eval_v2_open',
-                         'US EVAL'              : 'us_eval',
-                         'CN EVAL'              : 'cn_eval',
-                         'PH EVAL'              : 'ph_eval'
                          }
     left, center, middle, _, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])

     filters_levelone = ['Zero Shot', 'Few Shot']
     filters_leveltwo = [
                         'SG EVAL V2 MCQ',
+                        'SG EVAL V2 MCQ No Prompt',
                         'SG EVAL V2 Open Ended',
                         'SG EVAL',
                         'SG EVAL V1 Cleaned',
                          'Few Shot': 'few_shot'
                          }
+    category_two_dict = {
+                         'SG EVAL'                 : 'sg_eval',
+                         'SG EVAL V1 Cleaned'      : 'sg_eval_v1_cleaned',
+                         'SG EVAL V2 MCQ'          : 'sg_eval_v2_mcq',
+                         'SG EVAL V2 MCQ No Prompt': 'sg_eval_v2_mcq_no_prompt',
+                         'SG EVAL V2 Open Ended'   : 'sg_eval_v2_open',
+                         'US EVAL'                 : 'us_eval',
+                         'CN EVAL'                 : 'cn_eval',
+                         'PH EVAL'                 : 'ph_eval'
                          }
     left, center, middle, _, right = st.columns([0.2, 0.2, 0.2, 0.2 ,0.2])