Spaces:

bigscience-data
/

roots-search

Paused

App Files Files Community

ola13 commited on Apr 3, 2023

Commit

7e70097

1 Parent(s): f06f0df

fix em highlights

Browse files

Files changed (1) hide show

app.py +48 -24

app.py CHANGED Viewed

@@ -12,7 +12,9 @@ from huggingface_hub import HfApi
 hf_api = HfApi()
 roots_datasets = {
     dset.id.split("/")[-1]: dset
-    for dset in hf_api.list_datasets(author="bigscience-data", use_auth_token=os.environ.get("bigscience_data_token"))
 }
@@ -64,7 +66,9 @@ def process_pii(text):
     for tag in PII_TAGS:
         text = text.replace(
             PII_PREFIX + tag,
-            """<b><mark style="background: Fuchsia; color: Lime;">REDACTED {}</mark></b>""".format(tag),
         )
     return text
@@ -99,17 +103,11 @@ def format_result(result, highlight_terms, exact_search, datasets_filter=None):
             return ""
     if exact_search:
-        highlight_terms = normalize(highlight_terms).split()
-        print("highlight_terms", highlight_terms)
-        tokens = text.split()
-        tokens_html = []
-        for token in tokens:
-            norm_token = normalize(token)
-            if norm_token in highlight_terms:
-                tokens_html.append("<b>{}</b>".format(token))
-            else:
-                tokens_html.append(token)
-        tokens_html = " ".join(tokens_html)
     else:
         tokens = text.split()
         tokens_html = []
@@ -154,7 +152,9 @@ def format_result(result, highlight_terms, exact_search, datasets_filter=None):
     return "<p>" + result_html + "</p>"
-def format_result_page(language, results, highlight_terms, num_results, exact_search, datasets_filter=None) -> gr.HTML:
     filtered_num_results = 0
     header_html = ""
@@ -179,7 +179,9 @@ def format_result_page(language, results, highlight_terms, num_results, exact_se
             continue
         results_for_lang_html = ""
         for result in results_for_lang:
-            result_html = format_result(result, highlight_terms, exact_search, datasets_filter)
             if result_html != "":
                 filtered_num_results += 1
             results_for_lang_html += result_html
@@ -221,7 +223,9 @@ def extract_results_from_payload(query, language, payload, exact_search):
             text = result["text"]
             url = (
                 result["meta"]["url"]
-                if "meta" in result and result["meta"] is not None and "url" in result["meta"]
                 else None
             )
             docid = result["docid"]
@@ -259,7 +263,11 @@ def request_payload(query, language, exact_search, num_results=10, received_resu
     post_data = {"query": query, "k": num_results, "received_results": received_results}
     if language != "detect_language":
         post_data["lang"] = language
-    address = os.environ.get("address_exact_search") if exact_search else os.environ.get("address")
     output = requests.post(
         address,
         headers={"Content-type": "application/json"},
@@ -270,7 +278,9 @@ def request_payload(query, language, exact_search, num_results=10, received_resu
     return payload
-title = """<p style="text-align: center; font-size:28px"> 🌸 🔎 ROOTS search tool 🔍 🌸 </p>"""
 description = """
 The ROOTS corpus was developed during the [BigScience workshop](https://bigscience.huggingface.co/) for the purpose
@@ -389,7 +399,9 @@ if __name__ == "__main__":
                 payload,
                 exact_search,
             )
-            result_page = format_result_page(lang, processed_results, highlight_terms, num_results, exact_search)
             return (
                 processed_results,
                 highlight_terms,
@@ -410,13 +422,19 @@ if __name__ == "__main__":
                 datasets,
             ) = run_query(query, lang, k, dropdown_input, 0)
             has_more_results = exact_search and (num_results > k)
-            current_results = len(next(iter(processed_results.values()))) if len(processed_results) > 0 else 0
             return [
                 processed_results,
                 highlight_terms,
                 num_results,
                 exact_search,
-                gr.update(visible=True) if current_results > 0 else gr.update(visible=False),
                 gr.Dropdown.update(choices=datasets, value=datasets),
                 gr.update(visible=has_more_results),
                 current_results,
@@ -439,8 +457,12 @@ if __name__ == "__main__":
                 result_page,
                 datasets,
             ) = run_query(query, lang, k, dropdown_input, received_results)
-            current_results = sum(len(results) for results in processed_results.values())
-            has_more_results = exact_search and (received_results + current_results < num_results)
             print("received_results", received_results)
             print("current_results", current_results)
             print("has_more_results", has_more_results)
@@ -449,7 +471,9 @@ if __name__ == "__main__":
                 highlight_terms,
                 num_results,
                 exact_search,
-                gr.update(visible=True) if current_results > 0 else gr.update(visible=False),
                 gr.Dropdown.update(choices=datasets, value=datasets),
                 gr.update(visible=current_results >= k and has_more_results),
                 received_results + current_results,

 hf_api = HfApi()
 roots_datasets = {
     dset.id.split("/")[-1]: dset
+    for dset in hf_api.list_datasets(
+        author="bigscience-data", use_auth_token=os.environ.get("bigscience_data_token")
+    )
 }
     for tag in PII_TAGS:
         text = text.replace(
             PII_PREFIX + tag,
+            """<b><mark style="background: Fuchsia; color: Lime;">REDACTED {}</mark></b>""".format(
+                tag
+            ),
         )
     return text
             return ""
     if exact_search:
+        query_start = text.find(highlight_terms)
+        query_end = query_start + len(highlight_terms)
+        tokens_html = text[0:query_start]
+        tokens_html += "<b>{}</b>".format(text[query_start:query_end])
+        tokens_html += text[query_end:]
     else:
         tokens = text.split()
         tokens_html = []
     return "<p>" + result_html + "</p>"
+def format_result_page(
+    language, results, highlight_terms, num_results, exact_search, datasets_filter=None
+) -> gr.HTML:
     filtered_num_results = 0
     header_html = ""
             continue
         results_for_lang_html = ""
         for result in results_for_lang:
+            result_html = format_result(
+                result, highlight_terms, exact_search, datasets_filter
+            )
             if result_html != "":
                 filtered_num_results += 1
             results_for_lang_html += result_html
             text = result["text"]
             url = (
                 result["meta"]["url"]
+                if "meta" in result
+                and result["meta"] is not None
+                and "url" in result["meta"]
                 else None
             )
             docid = result["docid"]
     post_data = {"query": query, "k": num_results, "received_results": received_results}
     if language != "detect_language":
         post_data["lang"] = language
+    address = (
+        os.environ.get("address_exact_search")
+        if exact_search
+        else os.environ.get("address")
+    )
     output = requests.post(
         address,
         headers={"Content-type": "application/json"},
     return payload
+title = (
+    """<p style="text-align: center; font-size:28px"> 🌸 🔎 ROOTS search tool 🔍 🌸 </p>"""
+)
 description = """
 The ROOTS corpus was developed during the [BigScience workshop](https://bigscience.huggingface.co/) for the purpose
                 payload,
                 exact_search,
             )
+            result_page = format_result_page(
+                lang, processed_results, highlight_terms, num_results, exact_search
+            )
             return (
                 processed_results,
                 highlight_terms,
                 datasets,
             ) = run_query(query, lang, k, dropdown_input, 0)
             has_more_results = exact_search and (num_results > k)
+            current_results = (
+                len(next(iter(processed_results.values())))
+                if len(processed_results) > 0
+                else 0
+            )
             return [
                 processed_results,
                 highlight_terms,
                 num_results,
                 exact_search,
+                gr.update(visible=True)
+                if current_results > 0
+                else gr.update(visible=False),
                 gr.Dropdown.update(choices=datasets, value=datasets),
                 gr.update(visible=has_more_results),
                 current_results,
                 result_page,
                 datasets,
             ) = run_query(query, lang, k, dropdown_input, received_results)
+            current_results = sum(
+                len(results) for results in processed_results.values()
+            )
+            has_more_results = exact_search and (
+                received_results + current_results < num_results
+            )
             print("received_results", received_results)
             print("current_results", current_results)
             print("has_more_results", has_more_results)
                 highlight_terms,
                 num_results,
                 exact_search,
+                gr.update(visible=True)
+                if current_results > 0
+                else gr.update(visible=False),
                 gr.Dropdown.update(choices=datasets, value=datasets),
                 gr.update(visible=current_results >= k and has_more_results),
                 received_results + current_results,