Spaces:

Junetheriver
/

OpsEval

Running

App Files Files Community

Junetheriver commited on May 20, 2024

Commit

9a678a4

1 Parent(s): 147416c

feat: support bilingual switch

Browse files

Files changed (3) hide show

app.py +73 -18
config.toml +2 -0
texts.py +26 -0

app.py CHANGED Viewed

@@ -8,16 +8,14 @@ import gradio as gr
 import matplotlib.pyplot as plt
 import plotly.graph_objects as go
 from apscheduler.schedulers.background import BackgroundScheduler
-from texts import INTRODUCTION_TEXT, TITLE
 from leaderboards import eng_leaderboards, chi_leaderboards
 from opseval_datasets import *
-# df_lang = {
-#     'English': pd.read_csv("./leaderboard/wired_network_en.csv"),
-#     'Chinese': pd.read_csv("./leaderboard/wired_network_zh.csv"),
-# }
 def create_lang_tabs(lang, lang_cates):
@@ -66,7 +64,6 @@ def process_qa_df(df):
     return df
 def dataframe_to_gradio(df, is_mc=True, shot=None):
     if is_mc:
         df = process_mc_df(df, shot)
     else:
@@ -107,8 +104,7 @@ def plot_radar_chart(df, attributes):
     return fig
-def create_lang_leader_board(lang_dict):
     best_scores = {}
     best_plot_datasets = []
     for dataset, value in lang_dict.items():
@@ -123,30 +119,89 @@ def create_lang_leader_board(lang_dict):
     # print(best_df)
     # plot = plot_radar_chart(pd.DataFrame(best_scores), best_plot_datasets)
     # gr.Plot(plot)
     for dataset, value in lang_dict.items():
-        with gr.Tab(dataset_abbr_en_dict[dataset]):
             for cat, df in value.items():
                 if cat == 'mc':
                     for shot in ['Zeroshot', 'Fewshot']:
                         with gr.Tab(f'Multiple Choice Question ({shot})'):
-                            dataframe_to_gradio(df, is_mc=True, shot=shot)
                 else:
                     with gr.Tab('Question Answering'):
-                        dataframe_to_gradio(df, is_mc=False)
 def launch_gradio():
     demo = gr.Blocks()
     with demo:
-        gr.HTML(TITLE)
-        gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
-        gr.Markdown("""# 🏅 Leaderboard \n Latest update: 2024-05-15\n""", elem_classes="markdown-text")
-        for key, dict in dict_lang.items():
-            with gr.Tab(key):
-                create_lang_leader_board(dict)
     demo.launch()

 import matplotlib.pyplot as plt
 import plotly.graph_objects as go
 from apscheduler.schedulers.background import BackgroundScheduler
+from texts import *
 from leaderboards import eng_leaderboards, chi_leaderboards
+import toml
+import os
 from opseval_datasets import *
+config = toml.load("config.toml")
 def create_lang_tabs(lang, lang_cates):
     return df
 def dataframe_to_gradio(df, is_mc=True, shot=None):
     if is_mc:
         df = process_mc_df(df, shot)
     else:
     return fig
+def create_lang_leader_board(lang_dict, lang='en'):
     best_scores = {}
     best_plot_datasets = []
     for dataset, value in lang_dict.items():
     # print(best_df)
     # plot = plot_radar_chart(pd.DataFrame(best_scores), best_plot_datasets)
     # gr.Plot(plot)
+    tab_list = []
     for dataset, value in lang_dict.items():
+        chosen_dict = dataset_abbr_en_dict if lang == "en" else dataset_abbr_zh_dict
+        with gr.Tab(chosen_dict[dataset]) as tab:
             for cat, df in value.items():
                 if cat == 'mc':
                     for shot in ['Zeroshot', 'Fewshot']:
                         with gr.Tab(f'Multiple Choice Question ({shot})'):
+                            df_component = dataframe_to_gradio(df, is_mc=True, shot=shot)
+                            # df_list.append(df_component)
                 else:
                     with gr.Tab('Question Answering'):
+                        df_component = dataframe_to_gradio(df, is_mc=False)
+                        # df_list.append(df_component)
+        tab_list.append(tab)
+    return tab_list
+def get_latest_modification_date():
+    latest = 0
+    for file in os.listdir(config['dataset']['dataset_dir']):
+        if file.endswith('.csv'):
+            mtime = os.path.getmtime(os.path.join(config['dataset']['dataset_dir'], file))
+            latest = max(latest, mtime)
+    latest = pd.to_datetime(latest, unit='s')
+    return latest.strftime("%Y-%m-%d %H:%M:%S")
+translation_dict = {
+    'zh': {
+        'intro': ZH_INTRODUCTION_TEXT,
+        'title': ZH_TITLE,
+        'lb_sec': f"""# 🏅 排行榜 \n 更新时间: {get_latest_modification_date()}\n""",
+    },
+    'en': {
+        'intro': INTRODUCTION_TEXT,
+        'title': TITLE,
+        'lb_sec': f"""# 🏅 Leaderboard \n Latest update: {get_latest_modification_date()}\n"""
+    }
+}
+def get_language_lb(language):
+    tab_dict = {'English': None, 'Chinese': None}
+    for key, dict in dict_lang.items():
+        tab_list = create_lang_leader_board(dict, language)
+        tab_dict[key] = tab_list
+    return [*tab_dict['English'], *tab_dict['Chinese']]
+def switch_language(language):
+    # gr.update(visible=True)
+    return translation_dict[language]['title'], translation_dict[language]['intro'], translation_dict[language]['lb_sec'], *get_language_lb(language), language
+def get_lb_body(language='en'):
+    tab_dict = {'English': None, 'Chinese': None}
+    with gr.Blocks() as body:
+        for key, dict in dict_lang.items():
+            with gr.Tab(key):
+                tab_list = create_lang_leader_board(dict, language)
+                tab_dict[key] = tab_list
+    return body, tab_dict
 def launch_gradio():
     demo = gr.Blocks()
     with demo:
+        lang_state = gr.State("en")
+        with gr.Row():
+            en_button = gr.Button("English", variant="primary")
+            zh_button = gr.Button("中文", variant="primary")
+        title = gr.HTML(TITLE)
+        intro = gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
+        leaderboard_section = gr.Markdown(f"""# 🏅 Leaderboard \n Latest update: {get_latest_modification_date()}\n""",
+            elem_classes="markdown-text")
+        lb_body, tab_dict = get_lb_body(language=lang_state.value)
+        tab_list = [*tab_dict['English'], *tab_dict['Chinese']]
+        # print(tab_list)
+        en_button.click(switch_language, inputs=[gr.State("en")], outputs=[title, intro, leaderboard_section, *tab_list, lang_state], postprocess=False)
+        zh_button.click(switch_language, inputs=[gr.State("zh")], outputs=[title, intro, leaderboard_section, *tab_list, lang_state], postprocess=False)
     demo.launch()

config.toml ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ [dataset]
2	+ dataset_dir = "./data_v2"

texts.py CHANGED Viewed

@@ -21,3 +21,29 @@ This dataset is motivated by the emerging trend of utilizing AI in automated IT
 ```
 '''

 ```
 '''
+ZH_TITLE = '<h1 align="center" id="space-title">🎉 🎉 OpsEval 排行榜 👏 👏</h1>'
+ZH_INTRODUCTION_TEXT = '''
+# 🚀 关于 OpsEval
+OpsEval 数据集代表了在 IT 运维（AIOps）领域评估人工智能（AI）的一次开创性努力，重点关注大型语言模型（LLMs）在该领域的应用。在一个越来越依赖 AI 技术进行自动化和提高效率的 IT 运维时代，了解 LLMs 在运维任务中的表现变得至关重要。OpsEval 提供了一个全面的任务导向基准，专门用于评估 LLMs 在各种重要 IT 运维场景中的表现。
+该数据集的动机源于 Gartner 预测的利用 AI 自动化 IT 运维的趋势，以及 LLMs 在自然语言处理（NLP）相关任务中展示的显著能力。OpsEval 旨在弥合评估这些模型在 AIOps 任务中的表现的差距，包括故障根因分析、运维脚本的生成和警报信息的总结。
+# 📃 引用
+```
+@misc{liu2023opseval,
+title={OpsEval: A Comprehensive Task-Oriented AIOps Benchmark for Large Language Models},
+author={Yuhe Liu and Changhua Pei and Longlong Xu and Bohan Chen and Mingze Sun and Zhirui Zhang and Yongqian Sun and Shenglin Zhang and Kun Wang and Haiming Zhang and Jianhui Li and Gaogang Xie and Xidao Wen and Xiaohui Nie and Dan Pei},
+year={2023},
+eprint={2310.07637},
+archivePrefix={arXiv},
+primaryClass={cs.AI}
+}
+```
+'''