Spaces:

MERaLiON
/

SeaEval_Leaderboard

Running

App Files Files Community

binwang commited on Dec 21, 2023

Commit

682595a

1 Parent(s): ee26773

new lb

Browse files

Files changed (1) hide show

app.py +1431 -194

app.py CHANGED Viewed

@@ -1202,287 +1202,1521 @@ def get_data_zbench(eval_mode='zero_shot', fillna=True, rank=True):
 ZBENCH_ZERO_SHOT = get_data_zbench(eval_mode="zero_shot")
 ZBENCH_FIVE_SHOT = get_data_zbench(eval_mode="five_shot")
 # =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
 # =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
-block = gr.Blocks()
-with block:
-    gr.Markdown(f"""
-    SeaEval Leaderboard. To submit, refer to the <a href="https://seaeval.github.io/" target="_blank" style="text-decoration: underline">SeaEval Website</a>  Refer to the [SeaEval paper](https://arxiv.org/abs/2309.04766) for details on metrics, tasks and models.
-    - **Total Datasets**: 31
-    - **Total Languages**: 8
-    - **Total Models**: {NUM_MODELS}
     """)
     with gr.Tabs():
-        # dataset 1: cross-mmlu
-        with gr.TabItem("Cross-MMLU"):
             with gr.Row():
                 gr.Markdown("""
-                **Cross-MMLU Leaderboard** 🔮
-                - **Metric:** Cross-Lingual Consistency, Accuracy, AC3
-                - **Languages:** English, Chinese, Malay, Indonesian, Spanish, Vietnamese, Filipino
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
-                        cross_mmlu_zero_shot_overall = gr.components.Dataframe(
-                            CROSS_MMLU_ZERO_SHOT_OVERALL,
-                            datatype=["number", "markdown"] + ["number"] * len(CROSS_MMLU_ZERO_SHOT_OVERALL.columns),
                             type="pandas",
                         )
-                with gr.TabItem("Language Performance"):
                     with gr.Row():
-                        cross_mmlu_zero_shot_overall = gr.components.Dataframe(
-                            CROSS_MMLU_ZERO_SHOT_LANGUAGE,
-                            datatype=["number", "markdown"] + ["number"] * len(CROSS_MMLU_ZERO_SHOT_LANGUAGE.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
-                        cross_mmlu_zero_shot_overall = gr.components.Dataframe(
-                            CROSS_MMLU_FIVE_SHOT_OVERALL,
-                            datatype=["number", "markdown"] + ["number"] * len(CROSS_MMLU_FIVE_SHOT_OVERALL.columns),
                             type="pandas",
                         )
-                with gr.TabItem("Language Performance"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CROSS_MMLU_FIVE_SHOT_LANGUAGE,
-                            datatype=["number", "markdown"] + ["number"] * len(CROSS_MMLU_FIVE_SHOT_LANGUAGE.columns),
                             type="pandas",
                         )
-        # dataset 2: cross-logiqa
-        with gr.TabItem("Cross-LogiQA"):
             with gr.Row():
                 gr.Markdown("""
-                **Cross-LogiQA Leaderboard** 🔮
-                - **Metric:** Cross-Lingual Consistency, Accuracy, AC3
-                - **Languages:** English, Chinese, Malay, Indonesian, Spanish, Vietnamese, Filipino
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CROSS_LOGIQA_ZERO_SHOT_OVERALL,
-                            datatype=["number", "markdown"] + ["number"] * len(CROSS_LOGIQA_ZERO_SHOT_OVERALL.columns),
                             type="pandas",
                         )
-                with gr.TabItem("Language Performance"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CROSS_LOGIQA_ZERO_SHOT_LANGUAGE,
-                            datatype=["number", "markdown"] + ["number"] * len(CROSS_LOGIQA_ZERO_SHOT_LANGUAGE.columns),
                             type="pandas",
                         )
-            with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CROSS_LOGIQA_FIVE_SHOT_OVERALL,
-                            datatype=["number", "markdown"] + ["number"] * len(CROSS_LOGIQA_FIVE_SHOT_OVERALL.columns),
                             type="pandas",
                         )
-                with gr.TabItem("Language Performance"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CROSS_LOGIQA_FIVE_SHOT_LANGUAGE,
-                            datatype=["number", "markdown"] + ["number"] * len(CROSS_LOGIQA_FIVE_SHOT_LANGUAGE.columns),
                             type="pandas",
                         )
-        # dataset 3: SG_EVAL
-        with gr.TabItem("SG_EVAL"):
             with gr.Row():
                 gr.Markdown("""
-                **SG_EVAL Leaderboard** 🔮
-                - **Metric:** Accuracy
-                - **Languages:** English
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            SG_EVAL_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(SG_EVAL_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            SG_EVAL_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(SG_EVAL_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 4:
-        with gr.TabItem("US_EVAL"):
             with gr.Row():
                 gr.Markdown("""
-                **US_EVAL Leaderboard** 🔮
-                - **Metric:** Accuracy
-                - **Languages:** English
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            US_EVAL_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(US_EVAL_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            US_EVAL_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(US_EVAL_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 5:
-        with gr.TabItem("CN_EVAL"):
             with gr.Row():
                 gr.Markdown("""
-                **CN_EVAL Leaderboard** 🔮
-                - **Metric:** Accuracy
-                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CN_EVAL_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(CN_EVAL_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CN_EVAL_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(CN_EVAL_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 6:
-        with gr.TabItem("PH_EVAL"):
             with gr.Row():
                 gr.Markdown("""
-                **PH_EVAL Leaderboard** 🔮
-                - **Metric:** Accuracy
-                - **Languages:** English
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            PH_EVAL_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(PH_EVAL_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            PH_EVAL_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(PH_EVAL_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 7:
-        with gr.TabItem("Singlish to English Translation"):
             with gr.Row():
                 gr.Markdown("""
-                **SING2ENG Leaderboard** 🔮
-                - **Metric:** BLEU Avg.
-                - **Languages:** English
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            SING2ENG_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(SING2ENG_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            SING2ENG_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(SING2ENG_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 8:
-        with gr.TabItem("FLORES Indonesian to English Translation"):
             with gr.Row():
                 gr.Markdown("""
-                **flores_ind2eng Leaderboard** 🔮
-                - **Metric:** BLEU Avg.
                 - **Languages:** English
                 """)
@@ -1490,28 +2724,29 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            FLORES_IND2ENG_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(FLORES_IND2ENG_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            FLORES_IND2ENG_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(FLORES_IND2ENG_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 9:
-        with gr.TabItem("FLORES Vitenamese to English Translation"):
             with gr.Row():
                 gr.Markdown("""
-                **flores_vie2eng Leaderboard** 🔮
-                - **Metric:** BLEU Avg.
                 - **Languages:** English
                 """)
@@ -1519,29 +2754,31 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            FLORES_VIE2ENG_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(FLORES_VIE2ENG_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            FLORES_VIE2ENG_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(FLORES_VIE2ENG_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 10:
-        with gr.TabItem("FLORES Chinese to English Translation"):
             with gr.Row():
                 gr.Markdown("""
-                **flores_zho2eng Leaderboard** 🔮
-                - **Metric:** BLEU Avg.
                 - **Languages:** English
                 """)
@@ -1549,29 +2786,30 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            FLORES_ZHO2ENG_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(FLORES_ZHO2ENG_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            FLORES_ZHO2ENG_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(FLORES_ZHO2ENG_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 11:
-        with gr.TabItem("FLORES Malay to English Translation"):
             with gr.Row():
                 gr.Markdown("""
-                **flores_zsm2eng Leaderboard** 🔮
-                - **Metric:** BLEU Avg.
                 - **Languages:** English
                 """)
@@ -1579,26 +2817,28 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            FLORES_ZSM2ENG_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(FLORES_ZSM2ENG_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            FLORES_ZSM2ENG_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(FLORES_ZSM2ENG_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 12:
-        with gr.TabItem("MMLU"):
             with gr.Row():
                 gr.Markdown("""
-                **MMLU Leaderboard** 🔮
                 - **Metric:** Accuracy.
                 - **Languages:** English
@@ -1608,26 +2848,28 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            MMLU_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(MMLU_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            MMLU_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(MMLU_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 13:
-        with gr.TabItem("MMLU Full"):
             with gr.Row():
                 gr.Markdown("""
-                **MMLU Full Leaderboard** 🔮
                 - **Metric:** Accuracy.
                 - **Languages:** English
@@ -1637,8 +2879,8 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            MMLU_FULL_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(MMLU_FULL_ZERO_SHOT.columns),
                             type="pandas",
                         )
@@ -1648,27 +2890,28 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            MMLU_FULL_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(MMLU_FULL_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 14:
-        with gr.TabItem("C_EVAL"):
             with gr.Row():
                 gr.Markdown("""
-                **C_EVAL Leaderboard** 🔮
                 - **Metric:** Accuracy.
-                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            C_EVAL_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(C_EVAL_ZERO_SHOT.columns),
                             type="pandas",
                         )
@@ -1678,28 +2921,28 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            C_EVAL_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(C_EVAL_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 15:
-        with gr.TabItem("C_EVAL Full"):
             with gr.Row():
                 gr.Markdown("""
-                **C_EVAL Full Leaderboard** 🔮
                 - **Metric:** Accuracy.
-                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            C_EVAL_FULL_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(C_EVAL_FULL_ZERO_SHOT.columns),
                             type="pandas",
                         )
@@ -1709,27 +2952,28 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            C_EVAL_FULL_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(C_EVAL_FULL_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 16:
-        with gr.TabItem("CMMLU"):
             with gr.Row():
                 gr.Markdown("""
-                **CMMLU Leaderboard** 🔮
                 - **Metric:** Accuracy.
-                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CMMLU_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(CMMLU_ZERO_SHOT.columns),
                             type="pandas",
                         )
@@ -1739,27 +2983,28 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CMMLU_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(CMMLU_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 17:
-        with gr.TabItem("CMMLU Full"):
             with gr.Row():
                 gr.Markdown("""
-                **CMMLU Full Leaderboard** 🔮
                 - **Metric:** Accuracy.
-                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CMMLU_FULL_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(CMMLU_FULL_ZERO_SHOT.columns),
                             type="pandas",
                         )
@@ -1769,27 +3014,28 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            CMMLU_FULL_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(CMMLU_FULL_FIVE_SHOT.columns),
                             type="pandas",
                         )
-        # dataset 18:
-        with gr.TabItem("ZBench"):
             with gr.Row():
                 gr.Markdown("""
-                **ZBench Leaderboard** 🔮
                 - **Metric:** Accuracy.
-                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            ZBENCH_ZERO_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(ZBENCH_ZERO_SHOT.columns),
                             type="pandas",
                         )
@@ -1799,8 +3045,8 @@ with block:
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
-                            ZBENCH_FIVE_SHOT,
-                            datatype=["number", "markdown"] + ["number"] * len(ZBENCH_FIVE_SHOT.columns),
                             type="pandas",
                         )
@@ -1814,15 +3060,6 @@ with block:
     gr.Markdown(r"""

 ZBENCH_ZERO_SHOT = get_data_zbench(eval_mode="zero_shot")
 ZBENCH_FIVE_SHOT = get_data_zbench(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_ind_emotion(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['ind_emotion'][res] for res in ALL_RESULTS[model][eval_mode]['ind_emotion']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+IND_EMOTION_ZERO_SHOT = get_data_ind_emotion(eval_mode="zero_shot")
+IND_EMOTION_FIVE_SHOT = get_data_ind_emotion(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_ocnli(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['ocnli'][res] for res in ALL_RESULTS[model][eval_mode]['ocnli']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+OCNLI_ZERO_SHOT = get_data_ocnli(eval_mode="zero_shot")
+OCNLI_FIVE_SHOT = get_data_ocnli(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_c3(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['c3'][res] for res in ALL_RESULTS[model][eval_mode]['c3']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+C3_ZERO_SHOT = get_data_c3(eval_mode="zero_shot")
+C3_FIVE_SHOT = get_data_c3(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_dream(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['dream'][res] for res in ALL_RESULTS[model][eval_mode]['dream']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+DREAM_ZERO_SHOT = get_data_dream(eval_mode="zero_shot")
+DREAM_FIVE_SHOT = get_data_dream(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_samsum(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['samsum'][res] for res in ALL_RESULTS[model][eval_mode]['samsum']]
+        try:
+            rouge1 = median([results['rouge1'] for results in results_list])
+            rouge2 = median([results['rouge2'] for results in results_list])
+            rougeL = median([results['rougeL'] for results in results_list])
+        except:
+            print(results_list)
+            rouge1 = -1
+            rouge2 = -1
+            rougeL = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "ROUGE-1": rouge1,
+            "ROUGE-2": rouge2,
+            "ROUGE-L": rougeL,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+SAMSUM_ZERO_SHOT = get_data_samsum(eval_mode="zero_shot")
+SAMSUM_FIVE_SHOT = get_data_samsum(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_dialogsum(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['dialogsum'][res] for res in ALL_RESULTS[model][eval_mode]['dialogsum']]
+        try:
+            rouge1 = median([results['rouge1'] for results in results_list])
+            rouge2 = median([results['rouge2'] for results in results_list])
+            rougeL = median([results['rougeL'] for results in results_list])
+        except:
+            print(results_list)
+            rouge1 = -1
+            rouge2 = -1
+            rougeL = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "ROUGE-1": rouge1,
+            "ROUGE-2": rouge2,
+            "ROUGE-L": rougeL,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+DIALOGSUM_ZERO_SHOT = get_data_dialogsum(eval_mode="zero_shot")
+DIALOGSUM_FIVE_SHOT = get_data_dialogsum(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_sst2(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['sst2'][res] for res in ALL_RESULTS[model][eval_mode]['sst2']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+SST2_ZERO_SHOT = get_data_sst2(eval_mode="zero_shot")
+SST2_FIVE_SHOT = get_data_sst2(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_cola(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['cola'][res] for res in ALL_RESULTS[model][eval_mode]['cola']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+COLA_ZERO_SHOT = get_data_cola(eval_mode="zero_shot")
+COLA_FIVE_SHOT = get_data_cola(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_qqp(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['qqp'][res] for res in ALL_RESULTS[model][eval_mode]['qqp']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+QQP_ZERO_SHOT = get_data_qqp(eval_mode="zero_shot")
+QQP_FIVE_SHOT = get_data_qqp(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_mnli(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['mnli'][res] for res in ALL_RESULTS[model][eval_mode]['mnli']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+MNLI_ZERO_SHOT = get_data_mnli(eval_mode="zero_shot")
+MNLI_FIVE_SHOT = get_data_mnli(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_qnli(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['qnli'][res] for res in ALL_RESULTS[model][eval_mode]['qnli']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+QNLI_ZERO_SHOT = get_data_qnli(eval_mode="zero_shot")
+QNLI_FIVE_SHOT = get_data_qnli(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_wnli(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['wnli'][res] for res in ALL_RESULTS[model][eval_mode]['wnli']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+WNLI_ZERO_SHOT = get_data_wnli(eval_mode="zero_shot")
+WNLI_FIVE_SHOT = get_data_wnli(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_rte(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['rte'][res] for res in ALL_RESULTS[model][eval_mode]['rte']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+RTE_ZERO_SHOT = get_data_rte(eval_mode="zero_shot")
+RTE_FIVE_SHOT = get_data_rte(eval_mode="five_shot")
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+# =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+def get_data_mrpc(eval_mode='zero_shot', fillna=True, rank=True):
+    df_list = []
+    for model in MODEL_LIST:
+        results_list = [ALL_RESULTS[model][eval_mode]['mrpc'][res] for res in ALL_RESULTS[model][eval_mode]['mrpc']]
+        try:
+            accuracy = median([results['accuracy'] for results in results_list])
+        except:
+            print(results_list)
+            accuracy = -1
+        res = {
+            "Model Size (Params)": MODEL_TO_SIZE.get(model, ""),
+            "Model": make_clickable_model(model, link=ALL_RESULTS[model]["model_link"]),
+            "Accuracy": accuracy,
+        }
+        df_list.append(res)
+    df = pd.DataFrame(df_list)
+    # If there are any models that are the same, merge them
+    # E.g. if out["Model"] has the same value in two places, merge & take whichever one is not NaN else just take the first one
+    df = df.groupby("Model", as_index=False).first()
+    # Put 'Model' column first
+    #cols = sorted(list(df.columns))
+    cols = list(df.columns)
+    cols.insert(0, cols.pop(cols.index("Model")))
+    df = df[cols]
+    if rank:
+        df = add_rank(df, compute_average=True)
+    if fillna:
+        df.fillna("", inplace=True)
+    return df
+MRPC_ZERO_SHOT = get_data_mrpc(eval_mode="zero_shot")
+MRPC_FIVE_SHOT = get_data_mrpc(eval_mode="five_shot")
 # =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
 # =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =  =
+block = gr.Blocks()
+with block:
+    gr.Markdown(f"""
+    SeaEval Leaderboard. To submit, refer to the <a href="https://seaeval.github.io/" target="_blank" style="text-decoration: underline">SeaEval Website</a>.  Refer to the [SeaEval paper](https://arxiv.org/abs/2309.04766) for details on metrics, tasks and models.
+    - **Total Datasets**: 31
+    - **Total Languages**: 8
+    - **Total Models**: {NUM_MODELS}
+    - **Mode of Evaluation**: Zero-Shot, Five-Shot
+    The following table shows the performance of the models on the SeaEval benchmark.
+    """)
+    with gr.Tabs():
+        # dataset 1: cross-mmlu
+        with gr.TabItem("Cross-MMLU"):
+            with gr.Row():
+                gr.Markdown("""
+                **Cross-MMLU Leaderboard** 🔮
+                - **Metric:** Cross-Lingual Consistency, Accuracy, AC3
+                - **Languages:** English, Chinese, Malay, Indonesian, Spanish, Vietnamese, Filipino
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        cross_mmlu_zero_shot_overall = gr.components.Dataframe(
+                            CROSS_MMLU_ZERO_SHOT_OVERALL,
+                            datatype=["number", "markdown"] + ["number"] * len(CROSS_MMLU_ZERO_SHOT_OVERALL.columns),
+                            type="pandas",
+                        )
+                with gr.TabItem("Language Performance"):
+                    with gr.Row():
+                        cross_mmlu_zero_shot_overall = gr.components.Dataframe(
+                            CROSS_MMLU_ZERO_SHOT_LANGUAGE,
+                            datatype=["number", "markdown"] + ["number"] * len(CROSS_MMLU_ZERO_SHOT_LANGUAGE.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        cross_mmlu_zero_shot_overall = gr.components.Dataframe(
+                            CROSS_MMLU_FIVE_SHOT_OVERALL,
+                            datatype=["number", "markdown"] + ["number"] * len(CROSS_MMLU_FIVE_SHOT_OVERALL.columns),
+                            type="pandas",
+                        )
+                with gr.TabItem("Language Performance"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            CROSS_MMLU_FIVE_SHOT_LANGUAGE,
+                            datatype=["number", "markdown"] + ["number"] * len(CROSS_MMLU_FIVE_SHOT_LANGUAGE.columns),
+                            type="pandas",
+                        )
+        # dataset 2: cross-logiqa
+        with gr.TabItem("Cross-LogiQA"):
+            with gr.Row():
+                gr.Markdown("""
+                **Cross-LogiQA Leaderboard** 🔮
+                - **Metric:** Cross-Lingual Consistency, Accuracy, AC3
+                - **Languages:** English, Chinese, Malay, Indonesian, Spanish, Vietnamese, Filipino
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            CROSS_LOGIQA_ZERO_SHOT_OVERALL,
+                            datatype=["number", "markdown"] + ["number"] * len(CROSS_LOGIQA_ZERO_SHOT_OVERALL.columns),
+                            type="pandas",
+                        )
+                with gr.TabItem("Language Performance"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            CROSS_LOGIQA_ZERO_SHOT_LANGUAGE,
+                            datatype=["number", "markdown"] + ["number"] * len(CROSS_LOGIQA_ZERO_SHOT_LANGUAGE.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            CROSS_LOGIQA_FIVE_SHOT_OVERALL,
+                            datatype=["number", "markdown"] + ["number"] * len(CROSS_LOGIQA_FIVE_SHOT_OVERALL.columns),
+                            type="pandas",
+                        )
+                with gr.TabItem("Language Performance"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            CROSS_LOGIQA_FIVE_SHOT_LANGUAGE,
+                            datatype=["number", "markdown"] + ["number"] * len(CROSS_LOGIQA_FIVE_SHOT_LANGUAGE.columns),
+                            type="pandas",
+                        )
+        # dataset 3: SG_EVAL
+        with gr.TabItem("SG_EVAL"):
+            with gr.Row():
+                gr.Markdown("""
+                **SG_EVAL Leaderboard** 🔮
+                - **Metric:** Accuracy
+                - **Languages:** English
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            SG_EVAL_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(SG_EVAL_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            SG_EVAL_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(SG_EVAL_FIVE_SHOT.columns),
+                            type="pandas",
+                        )
+        # dataset 4:
+        with gr.TabItem("US_EVAL"):
+            with gr.Row():
+                gr.Markdown("""
+                **US_EVAL Leaderboard** 🔮
+                - **Metric:** Accuracy
+                - **Languages:** English
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            US_EVAL_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(US_EVAL_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            US_EVAL_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(US_EVAL_FIVE_SHOT.columns),
+                            type="pandas",
+                        )
+        # dataset 5:
+        with gr.TabItem("CN_EVAL"):
+            with gr.Row():
+                gr.Markdown("""
+                **CN_EVAL Leaderboard** 🔮
+                - **Metric:** Accuracy
+                - **Languages:** Chinese
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            CN_EVAL_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(CN_EVAL_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            CN_EVAL_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(CN_EVAL_FIVE_SHOT.columns),
+                            type="pandas",
+                        )
+        # dataset 6:
+        with gr.TabItem("PH_EVAL"):
+            with gr.Row():
+                gr.Markdown("""
+                **PH_EVAL Leaderboard** 🔮
+                - **Metric:** Accuracy
+                - **Languages:** English
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            PH_EVAL_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(PH_EVAL_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            PH_EVAL_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(PH_EVAL_FIVE_SHOT.columns),
+                            type="pandas",
+                        )
+        # dataset 7:
+        with gr.TabItem("Singlish to English Translation"):
+            with gr.Row():
+                gr.Markdown("""
+                **SING2ENG Leaderboard** 🔮
+                - **Metric:** BLEU Avg.
+                - **Languages:** English
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            SING2ENG_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(SING2ENG_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            SING2ENG_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(SING2ENG_FIVE_SHOT.columns),
+                            type="pandas",
+                        )
+    gr.Markdown(f"""
+                The following are datasets that are not originally collected by SeaEval, but are included in the leaderboard for completeness.
     """)
     with gr.Tabs():
+        # dataset 8:
+        with gr.TabItem("FLORES Indonesian to English Translation"):
             with gr.Row():
                 gr.Markdown("""
+                **flores_ind2eng Leaderboard** 🔮
+                - **Metric:** BLEU Avg.
+                - **Languages:** English
                 """)
             with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            FLORES_IND2ENG_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(FLORES_IND2ENG_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            FLORES_IND2ENG_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(FLORES_IND2ENG_FIVE_SHOT.columns),
+                            type="pandas",
+                        )
+        # dataset 9:
+        with gr.TabItem("FLORES Vitenamese to English Translation"):
+            with gr.Row():
+                gr.Markdown("""
+                **flores_vie2eng Leaderboard** 🔮
+                - **Metric:** BLEU Avg.
+                - **Languages:** English
+                """)
+            with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            FLORES_VIE2ENG_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(FLORES_VIE2ENG_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
                     with gr.Row():
+                        gr.components.Dataframe(
+                            FLORES_VIE2ENG_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(FLORES_VIE2ENG_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset 10:
+        with gr.TabItem("FLORES Chinese to English Translation"):
+            with gr.Row():
+                gr.Markdown("""
+                **flores_zho2eng Leaderboard** 🔮
+                - **Metric:** BLEU Avg.
+                - **Languages:** English
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
                     with gr.Row():
+                        gr.components.Dataframe(
+                            FLORES_ZHO2ENG_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(FLORES_ZHO2ENG_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            FLORES_ZHO2ENG_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(FLORES_ZHO2ENG_FIVE_SHOT.columns),
+                            type="pandas",
+                        )
+        # dataset 11:
+        with gr.TabItem("FLORES Malay to English Translation"):
+            with gr.Row():
+                gr.Markdown("""
+                **flores_zsm2eng Leaderboard** 🔮
+                - **Metric:** BLEU Avg.
+                - **Languages:** English
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            FLORES_ZSM2ENG_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(FLORES_ZSM2ENG_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            FLORES_ZSM2ENG_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(FLORES_ZSM2ENG_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset 12:
+        with gr.TabItem("MMLU"):
+            with gr.Row():
+                gr.Markdown("""
+                **MMLU Leaderboard** 🔮
+                - **Metric:** Accuracy.
+                - **Languages:** English
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            MMLU_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(MMLU_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
             with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            MMLU_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(MMLU_FIVE_SHOT.columns),
+                            type="pandas",
+                        )
+        # dataset 13:
+        with gr.TabItem("MMLU Full"):
+            with gr.Row():
+                gr.Markdown("""
+                **MMLU Full Leaderboard** 🔮
+                - **Metric:** Accuracy.
+                - **Languages:** English
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            MMLU_FULL_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(MMLU_FULL_ZERO_SHOT.columns),
+                            type="pandas",
+                        )
+            with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
+                    with gr.Row():
+                        gr.components.Dataframe(
+                            MMLU_FULL_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(MMLU_FULL_FIVE_SHOT.columns),
+                            type="pandas",
+                        )
+        # dataset 14:
+        with gr.TabItem("C_EVAL"):
+            with gr.Row():
+                gr.Markdown("""
+                **C_EVAL Leaderboard** 🔮
+                - **Metric:** Accuracy.
+                - **Languages:** Chinese
+                """)
+            with gr.TabItem("zero_shot"):
+                with gr.TabItem("Overall"):
                     with gr.Row():
+                        gr.components.Dataframe(
+                            C_EVAL_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(C_EVAL_ZERO_SHOT.columns),
                             type="pandas",
                         )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            C_EVAL_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(C_EVAL_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset 15:
+        with gr.TabItem("C_EVAL Full"):
             with gr.Row():
                 gr.Markdown("""
+                **C_EVAL Full Leaderboard** 🔮
+                - **Metric:** Accuracy.
+                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            C_EVAL_FULL_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(C_EVAL_FULL_ZERO_SHOT.columns),
                             type="pandas",
                         )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            C_EVAL_FULL_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(C_EVAL_FULL_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset 16:
+        with gr.TabItem("CMMLU"):
+            with gr.Row():
+                gr.Markdown("""
+                **CMMLU Leaderboard** 🔮
+                - **Metric:** Accuracy.
+                - **Languages:** Chinese
+                """)
+            with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            CMMLU_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(CMMLU_ZERO_SHOT.columns),
                             type="pandas",
                         )
+            with gr.TabItem("five_shot"):
+                with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            CMMLU_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(CMMLU_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset 17:
+        with gr.TabItem("CMMLU Full"):
             with gr.Row():
                 gr.Markdown("""
+                **CMMLU Full Leaderboard** 🔮
+                - **Metric:** Accuracy.
+                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            CMMLU_FULL_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(CMMLU_FULL_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            CMMLU_FULL_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(CMMLU_FULL_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset 18:
+        with gr.TabItem("ZBench"):
             with gr.Row():
                 gr.Markdown("""
+                **ZBench Leaderboard** 🔮
+                - **Metric:** Accuracy.
+                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            ZBENCH_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(ZBENCH_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            ZBENCH_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(ZBENCH_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset 18:
+        with gr.TabItem("ind_emotion"):
             with gr.Row():
                 gr.Markdown("""
+                **ind_emotion Leaderboard** 🔮
+                - **Metric:** Accuracy.
+                - **Languages:** Indonesian
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            IND_EMOTION_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(IND_EMOTION_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            IND_EMOTION_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(IND_EMOTION_ZERO_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("OCNLI"):
             with gr.Row():
                 gr.Markdown("""
+                **OCNLI Leaderboard** 🔮
+                - **Metric:** Accuracy.
+                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            OCNLI_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(OCNLI_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            OCNLI_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(OCNLI_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("C3"):
             with gr.Row():
                 gr.Markdown("""
+                **C3 Leaderboard** 🔮
+                - **Metric:** Accuracy.
+                - **Languages:** Chinese
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            C3_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(C3_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            C3_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(C3_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("DREAM"):
             with gr.Row():
                 gr.Markdown("""
+                **DREAM Leaderboard** 🔮
+                - **Metric:** Accuracy.
                 - **Languages:** English
                 """)
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            DREAM_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(DREAM_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            DREAM_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(DREAM_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("SAMSum"):
             with gr.Row():
                 gr.Markdown("""
+                **SAMSum Leaderboard** 🔮
+                - **Metric:** ROUGE.
                 - **Languages:** English
                 """)
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            SAMSUM_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(SAMSUM_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            SAMSUM_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(SAMSUM_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("DialogSum"):
             with gr.Row():
                 gr.Markdown("""
+                **DialogSum Leaderboard** 🔮
+                - **Metric:** ROUGE.
                 - **Languages:** English
                 """)
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            DIALOGSUM_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(DIALOGSUM_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            DIALOGSUM_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(DIALOGSUM_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("SST2"):
             with gr.Row():
                 gr.Markdown("""
+                **SST2 Leaderboard** 🔮
+                - **Metric:** Accuracy.
                 - **Languages:** English
                 """)
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            SST2_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(SST2_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            SST2_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(SST2_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("COLA"):
             with gr.Row():
                 gr.Markdown("""
+                **COLA Leaderboard** 🔮
                 - **Metric:** Accuracy.
                 - **Languages:** English
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            COLA_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(COLA_ZERO_SHOT.columns),
                             type="pandas",
                         )
             with gr.TabItem("five_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            COLA_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(COLA_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("QQP"):
             with gr.Row():
                 gr.Markdown("""
+                **QQP Leaderboard** 🔮
                 - **Metric:** Accuracy.
                 - **Languages:** English
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            QQP_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(QQP_ZERO_SHOT.columns),
                             type="pandas",
                         )
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            QQP_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(QQP_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("MNLI"):
             with gr.Row():
                 gr.Markdown("""
+                **MNLI Leaderboard** 🔮
                 - **Metric:** Accuracy.
+                - **Languages:** English
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            MNLI_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(MNLI_ZERO_SHOT.columns),
                             type="pandas",
                         )
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            MNLI_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(MNLI_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("QNLI"):
             with gr.Row():
                 gr.Markdown("""
+                **QNLI Leaderboard** 🔮
                 - **Metric:** Accuracy.
+                - **Languages:** English
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            QNLI_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(QNLI_ZERO_SHOT.columns),
                             type="pandas",
                         )
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            QNLI_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(QNLI_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("WNLI"):
             with gr.Row():
                 gr.Markdown("""
+                **WNLI Leaderboard** 🔮
                 - **Metric:** Accuracy.
+                - **Languages:** English
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            WNLI_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(WNLI_ZERO_SHOT.columns),
                             type="pandas",
                         )
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            WNLI_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(WNLI_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("RTE"):
             with gr.Row():
                 gr.Markdown("""
+                **RTE Leaderboard** 🔮
                 - **Metric:** Accuracy.
+                - **Languages:** English
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            RTE_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(RTE_ZERO_SHOT.columns),
                             type="pandas",
                         )
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            RTE_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(RTE_FIVE_SHOT.columns),
                             type="pandas",
                         )
+        # dataset
+        with gr.TabItem("MRPC"):
             with gr.Row():
                 gr.Markdown("""
+                **MRPC Leaderboard** 🔮
                 - **Metric:** Accuracy.
+                - **Languages:** English
                 """)
             with gr.TabItem("zero_shot"):
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            MRPC_ZERO_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(MRPC_ZERO_SHOT.columns),
                             type="pandas",
                         )
                 with gr.TabItem("Overall"):
                     with gr.Row():
                         gr.components.Dataframe(
+                            MRPC_FIVE_SHOT,
+                            datatype=["number", "markdown"] + ["number"] * len(MRPC_FIVE_SHOT.columns),
                             type="pandas",
                         )
     gr.Markdown(r"""