Spaces:

chansung
/

paper_qa

Running on CPU Upgrade

App Files Files Community

chansung commited on Mar 13

Commit

1be7f01

•

1 Parent(s): e518ed3

.

Browse files

Files changed (2) hide show

app.py +38 -11
init.py +34 -28

app.py CHANGED Viewed

@@ -16,9 +16,9 @@ from background import process_arxiv_ids
 from apscheduler.schedulers.background import BackgroundScheduler
 gemini_api_key, hf_token, dataset_repo_id, request_arxiv_repo_id, restart_repo_id = get_secrets()
-initialize_repos(dataset_repo_id, request_arxiv_repo_id, hf_token)
-titles, date_dict, requested_arxiv_ids_df, arxivid2data = initialize_data(dataset_repo_id, request_arxiv_repo_id)
 from ui import (
     get_paper_by_year, get_paper_by_month, get_paper_by_day,
@@ -26,15 +26,42 @@ from ui import (
     before_chat_begin, chat_stream, chat_reset
 )
-sorted_year = sorted(date_dict.keys())
-last_year = sorted_year[-1]
-sorted_month = sorted(date_dict[last_year].keys())
-last_month = sorted_month[-1]
-sorted_day = sorted(date_dict[last_year][last_month].keys())
-last_day = sorted_day[-1]
-last_papers = date_dict[last_year][last_month][last_day]
-selected_paper = last_papers[0]
-visible = True if len(sorted_year) > 0 else False
 with gr.Blocks(css="constants/styles.css", theme=gr.themes.Soft()) as demo:
     cur_arxiv_id = gr.Textbox(selected_paper['arxiv_id'], visible=False)

 from apscheduler.schedulers.background import BackgroundScheduler
 gemini_api_key, hf_token, dataset_repo_id, request_arxiv_repo_id, restart_repo_id = get_secrets()
+empty_src_dataset = initialize_repos(dataset_repo_id, request_arxiv_repo_id, hf_token)
+titles, date_dict, requested_arxiv_ids_df, arxivid2data = initialize_data(dataset_repo_id, request_arxiv_repo_id, empty_src_dataset)
 from ui import (
     get_paper_by_year, get_paper_by_month, get_paper_by_day,
     before_chat_begin, chat_stream, chat_reset
 )
+if len(date_dict.keys()) > 0:
+    sorted_year = sorted(date_dict.keys())
+    last_year = sorted_year[-1] if len(sorted_year) > 0 else ""
+    sorted_month = sorted(date_dict[last_year].keys())
+    last_month = sorted_month[-1] if len(sorted_year) > 0 else ""
+    sorted_day = sorted(date_dict[last_year][last_month].keys())
+    last_day = sorted_day[-1] if len(sorted_year) > 0 else ""
+    last_papers = date_dict[last_year][last_month][last_day] if len(sorted_year) > 0 else [""]
+    selected_paper = last_papers[0]
+    visible = True
+else:
+    sorted_year = ["2024"]
+    last_year = sorted_year[-1]
+    sorted_month = ["01"]
+    last_month = sorted_month[-1]
+    sorted_day = ["01"]
+    last_day = sorted_day[-1]
+    selected_paper = {}
+    selected_paper["title"] = ""
+    selected_paper["summary"] = ""
+    selected_paper["arxiv_id"] = ""
+    selected_paper["target_date"] = "2024-01-01"
+    for idx in range(10):
+        selected_paper[f"{idx}_question"] = ""
+        selected_paper[f"{idx}_answer:eli5"] = ""
+        selected_paper[f"{idx}_answer:expert"] = ""
+        selected_paper[f"{idx}_additional_depth_q:follow up question"] = ""
+        selected_paper[f"{idx}_additional_depth_q:answers:eli5"] = ""
+        selected_paper[f"{idx}_additional_depth_q:answers:expert"] = ""
+        selected_paper[f"{idx}_additional_breath_q:follow up question"] = ""
+        selected_paper[f"{idx}_additional_breath_q:answers:eli5"] = ""
+        selected_paper[f"{idx}_additional_breath_q:answers:expert"] = ""
+    last_papers = [selected_paper]
+    visible = False
 with gr.Blocks(css="constants/styles.css", theme=gr.themes.Soft()) as demo:
     cur_arxiv_id = gr.Textbox(selected_paper['arxiv_id'], visible=False)

init.py CHANGED Viewed

@@ -35,35 +35,37 @@ def _initialize_paper_info(source_ds):
     arxivid2data = {}
     count = 0
-    for data in source_ds["train"]:
-        date = data["target_date"].strftime("%Y-%m-%d")
-        arxiv_id = data["arxiv_id"]
-        if date in date2qna:
-            papers = copy.deepcopy(date2qna[date])
             for paper in papers:
-                if paper["title"] == data["title"]:
-                    if _count_nans(paper) > _count_nans(data):
-                        date2qna[date].remove(paper)
-            date2qna[date].append(data)
-            del papers
-        else:
-            date2qna[date] = [data]
-    for date in date2qna:
-        year, month, day = date.split("-")
-        papers = date2qna[date]
-        for paper in papers:
-            title2qna[paper["title"]] = paper
-            arxivid2data[paper['arxiv_id']] = {"idx": count, "paper": paper}
-            date_dict[year][month][day].append(paper)
-    titles = [f"[{v['arxiv_id']}] {k}" for k, v in title2qna.items()]
-    return titles, date_dict, arxivid2data
-def initialize_data(source_data_repo_id, request_data_repo_id):
     global date_dict, arxivid2data
     global requested_arxiv_ids_df
@@ -86,6 +88,10 @@ def initialize_repos(
 ):
     if create_hf_hub(source_data_repo_id, hf_token) is False:
         print(f"{source_data_repo_id} repository already exists")
     if create_hf_hub(request_data_repo_id, hf_token) is False:
         print(f"{request_data_repo_id} repository already exists")

     arxivid2data = {}
     count = 0
+    if len(source_ds["train"]) > 1:
+        for data in source_ds["train"]:
+                date = data["target_date"].strftime("%Y-%m-%d")
+                arxiv_id = data["arxiv_id"]
+                if date in date2qna:
+                    papers = copy.deepcopy(date2qna[date])
+                    for paper in papers:
+                        if paper["title"] == data["title"]:
+                            if _count_nans(paper) > _count_nans(data):
+                                date2qna[date].remove(paper)
+                    date2qna[date].append(data)
+                    del papers
+                else:
+                    date2qna[date] = [data]
+        for date in date2qna:
+            year, month, day = date.split("-")
+            papers = date2qna[date]
             for paper in papers:
+                title2qna[paper["title"]] = paper
+                arxivid2data[paper['arxiv_id']] = {"idx": count, "paper": paper}
+                date_dict[year][month][day].append(paper)
+        titles = [f"[{v['arxiv_id']}] {k}" for k, v in title2qna.items()]
+        return titles, date_dict, arxivid2data
+    else:
+        return [], {}, {}
+def initialize_data(source_data_repo_id, request_data_repo_id, empty_src_dataset):
     global date_dict, arxivid2data
     global requested_arxiv_ids_df
 ):
     if create_hf_hub(source_data_repo_id, hf_token) is False:
         print(f"{source_data_repo_id} repository already exists")
+    else:
+        dummy_row = {"title": ["dummy"]}
+        ds = Dataset.from_dict(dummy_row)
+        ds.push_to_hub(source_data_repo_id, token=hf_token)
     if create_hf_hub(request_data_repo_id, hf_token) is False:
         print(f"{request_data_repo_id} repository already exists")