open_multilingual_llm_leaderboard

Running

laiviet commited on Jun 4, 2023

Commit

f067bfb

1 Parent(s): bbc4eb6

Fix contents

Files changed (2) hide show

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import json
 import glob
 from collections import defaultdict
 import gradio as gr
 import glob
 ARC = "arc_challenge"
@@ -80,7 +80,7 @@ LANG_COL = "Language"
 AVERAGE_COL = "Average"
 ARC_COL = "ARC (25-shot)"
 HELLASWAG_COL = "HellaSwag (10-shot)️"
-MMLU_COL = "MMLU (5-shot))️"
 TRUTHFULQA_COL = "TruthfulQA (0-shot)"
 COLS = [MODEL_COL, LANG_COL, AVERAGE_COL, ARC_COL, HELLASWAG_COL, MMLU_COL, TRUTHFULQA_COL]
@@ -91,8 +91,9 @@ leaderboard_df = get_leaderboard_df(*args)
 demo = gr.Blocks()
 with demo:
-    gr.HTML('Open Multilingual Large Language Model Evaluation Leaderboard')
-    # gr.Markdown('INTRODUCTION TEXT', elem_classes="markdown-text")
     with gr.Box():
         search_bar = gr.Textbox(
@@ -107,4 +108,6 @@ with demo:
             elem_id="leaderboard-table",
         )
 demo.launch()

 import glob
 from collections import defaultdict
 import gradio as gr
+from content import *
 import glob
 ARC = "arc_challenge"
 AVERAGE_COL = "Average"
 ARC_COL = "ARC (25-shot)"
 HELLASWAG_COL = "HellaSwag (10-shot)️"
+MMLU_COL = "MMLU (5-shot)"
 TRUTHFULQA_COL = "TruthfulQA (0-shot)"
 COLS = [MODEL_COL, LANG_COL, AVERAGE_COL, ARC_COL, HELLASWAG_COL, MMLU_COL, TRUTHFULQA_COL]
 demo = gr.Blocks()
 with demo:
+    gr.HTML(TITLE)
+    gr.Markdown(INTRO_TEXT, elem_classes="markdown-text")
+    gr.Markdown(HOW_TO, elem_classes="markdown-text")
     with gr.Box():
         search_bar = gr.Textbox(
             elem_id="leaderboard-table",
         )
+    gr.Markdown(CITATION, elem_classes="markdown-text")
 demo.launch()

content.py ADDED Viewed

+TITLE = '<h1 align="center" id="space-title">Open Multilingual LLM Evaluation Leaderboard</h1>'
+INTRO_TEXT = f"""
+## About
+This leaderboard shows the performance of pretrained models in 29 languages on four benchmarks:
+- <a href="https://arxiv.org/abs/1803.05457" target="_blank">  AI2 Reasoning Challenge </a> (25-shot)
+- <a href="https://arxiv.org/abs/1905.07830" target="_blank">  HellaSwag </a> (10-shot)
+- <a href="https://arxiv.org/abs/2009.03300" target="_blank">  MMLU </a>  (5-shot)
+- <a href="https://arxiv.org/abs/2109.07958" target="_blank">  TruthfulQA </a> (0-shot)
+The evaluation data was translated into 29 languages using ChatGPT.
+"""
+HOW_TO = f"""
+## How to list your model performance on this leaderboard:
+Send an email with title [Open mLLM Loaderboard] to vietl@uoregon.edu with the huggingface's model name.
+We will run your model on the four benchmarks and add it to the leaderboard.
+"""
+CITATION = f"""
+## Citation
+```
+@misc{{lai2023openllmbenchmark,
+    author = {{Viet Lai and Nghia Trung Ngo and Amir Pouran Ben Veyseh and Franck Dernoncourt and Thien Huu Nguyen}},
+    title={{Open Multilingual LLM Evaluation Leaderboard}},
+    year={{2023}}
+}}
+```
+"""