href

Running

App Files Files Community

Shane commited on Nov 26, 2024

Commit

91cb993

1 Parent(s): ca662db

changed readme

Browse files

Files changed (2) hide show

app.py +25 -25
src/md.py +8 -0

app.py CHANGED Viewed

@@ -120,29 +120,29 @@ with gr.Blocks(css=custom_css) as app:
                     interactive=False,
                     height=1000,
                 )
-        with gr.TabItem("Non-Greedy"):
-            with gr.Row():
-                search_2 = gr.Textbox(label="Model Search (delimit with , )",
-                                    #   placeholder="Model Search (delimit with , )",
-                                      show_label=True)
-                category_selector_2 = gr.Dropdown(categories, label="Sorted By", value="Average",
-                                                    multiselect=False, show_label=True, elem_id="category_selector")
-            with gr.Row():
-                # reference data
-                rewardbench_table_hidden_nongreedy = gr.Dataframe(
-                    href_data_nongreedy.values,
-                    datatype=col_types_href_hidden,
-                    headers=href_data_nongreedy.columns.tolist(),
-                    visible=False,
-                )
-                rewardbench_table_nongreedy = gr.Dataframe(
-                    regex_table(href_data_nongreedy.copy(), "", "Average"),
-                    datatype=col_types_href,
-                    headers=href_data_nongreedy.columns.tolist(),
-                    elem_id="href_data_nongreedy",
-                    interactive=False,
-                    height=1000,
-                )
         with gr.TabItem("About"):
             with gr.Row():
                 gr.Markdown(ABOUT_TEXT)
@@ -161,8 +161,8 @@ with gr.Blocks(css=custom_css) as app:
     search_1.change(regex_table, inputs=[rewardbench_table_hidden, search_1, category_selector_1], outputs=rewardbench_table)
     category_selector_1.change(regex_table, inputs=[rewardbench_table_hidden, search_1, category_selector_1], outputs=rewardbench_table)
-    search_2.change(regex_table, inputs=[rewardbench_table_hidden_nongreedy, search_2, category_selector_2], outputs=rewardbench_table_nongreedy)
-    category_selector_2.change(regex_table, inputs=[rewardbench_table_hidden_nongreedy, search_2, category_selector_2], outputs=rewardbench_table_nongreedy)
     with gr.Row():
         with gr.Accordion("📚 Citation", open=False):

                     interactive=False,
                     height=1000,
                 )
+        # with gr.TabItem("Non-Greedy"):
+        #     with gr.Row():
+        #         search_2 = gr.Textbox(label="Model Search (delimit with , )",
+        #                             #   placeholder="Model Search (delimit with , )",
+        #                               show_label=True)
+        #         category_selector_2 = gr.Dropdown(categories, label="Sorted By", value="Average",
+        #                                             multiselect=False, show_label=True, elem_id="category_selector")
+        #     with gr.Row():
+        #         # reference data
+        #         rewardbench_table_hidden_nongreedy = gr.Dataframe(
+        #             href_data_nongreedy.values,
+        #             datatype=col_types_href_hidden,
+        #             headers=href_data_nongreedy.columns.tolist(),
+        #             visible=False,
+        #         )
+        #         rewardbench_table_nongreedy = gr.Dataframe(
+        #             regex_table(href_data_nongreedy.copy(), "", "Average"),
+        #             datatype=col_types_href,
+        #             headers=href_data_nongreedy.columns.tolist(),
+        #             elem_id="href_data_nongreedy",
+        #             interactive=False,
+        #             height=1000,
+        #         )
         with gr.TabItem("About"):
             with gr.Row():
                 gr.Markdown(ABOUT_TEXT)
     search_1.change(regex_table, inputs=[rewardbench_table_hidden, search_1, category_selector_1], outputs=rewardbench_table)
     category_selector_1.change(regex_table, inputs=[rewardbench_table_hidden, search_1, category_selector_1], outputs=rewardbench_table)
+    # search_2.change(regex_table, inputs=[rewardbench_table_hidden_nongreedy, search_2, category_selector_2], outputs=rewardbench_table_nongreedy)
+    # category_selector_2.change(regex_table, inputs=[rewardbench_table_hidden_nongreedy, search_2, category_selector_2], outputs=rewardbench_table_nongreedy)
     with gr.Row():
         with gr.Accordion("📚 Citation", open=False):

src/md.py CHANGED Viewed

@@ -2,9 +2,13 @@ from datetime import datetime
 import pytz
 ABOUT_TEXT = """
 HREF is evaluation benchmark that evaluates language models' capacity of following human instructions. It is consisted of 4,258 instructions covering 11 distinct categories, including Brainstorm ,Open QA ,Closed QA ,Extract ,Generation ,Rewrite ,Summarize ,Coding ,Classify ,Fact Checking or Attributed QA ,Multi-Document Synthesis , and Reasoning Over Numerical Data.
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/64dff1ddb5cc372803af964d/dSv3U11h936t_q-aiqbkV.png)
 ## Why HREF
 | Benchmark          | Size  | Evaluation Method       | Baseline Model             | Judge Model        | Task Oriented | Contamination Resistant | Contains Human Reference|
 |--------------------|-------|------------|----------------|----------------|----------|------------|-----------|
@@ -28,4 +32,8 @@ current_time = datetime.now(pacific_tz).strftime("%H:%M %Z, %d %b %Y")
 TOP_TEXT = f"""# HREF: Human Reference Guided Evaluation for Instructiong Following
 [Code]() | [Validation Set]() | [Human Agreement Set]() | [Results]() | [Paper]() | Total models: {{}} | * Unverified models | ⚠️ Dataset Contamination | Last restart (PST): {current_time}
 """

 import pytz
 ABOUT_TEXT = """
+## Overview
 HREF is evaluation benchmark that evaluates language models' capacity of following human instructions. It is consisted of 4,258 instructions covering 11 distinct categories, including Brainstorm ,Open QA ,Closed QA ,Extract ,Generation ,Rewrite ,Summarize ,Coding ,Classify ,Fact Checking or Attributed QA ,Multi-Document Synthesis , and Reasoning Over Numerical Data.
 ![image/png](https://cdn-uploads.huggingface.co/production/uploads/64dff1ddb5cc372803af964d/dSv3U11h936t_q-aiqbkV.png)
+## Generation Configuration
+For reproductability, we use greedy decoding for all model generation as default. We apply chat templates to the instructions if they are implemented in model's tokenizer or explicity recommanded by the model's creators. Please contact us if you would like to change this default configuration.
 ## Why HREF
 | Benchmark          | Size  | Evaluation Method       | Baseline Model             | Judge Model        | Task Oriented | Contamination Resistant | Contains Human Reference|
 |--------------------|-------|------------|----------------|----------------|----------|------------|-----------|
 TOP_TEXT = f"""# HREF: Human Reference Guided Evaluation for Instructiong Following
 [Code]() | [Validation Set]() | [Human Agreement Set]() | [Results]() | [Paper]() | Total models: {{}} | * Unverified models | ⚠️ Dataset Contamination | Last restart (PST): {current_time}
+## Contact Us
+TODO
 """