Spaces:

chansung
/

paper_qa

Running on CPU Upgrade

chansung commited on Mar 13

Commit

4bad4d8

•

1 Parent(s): 73cb5b4

fix empty data

Files changed (3) hide show

app.py CHANGED Viewed

@@ -16,9 +16,9 @@ from background import process_arxiv_ids
 from apscheduler.schedulers.background import BackgroundScheduler
 gemini_api_key, hf_token, dataset_repo_id, request_arxiv_repo_id, restart_repo_id = get_secrets()
-empty_src_dataset = initialize_repos(dataset_repo_id, request_arxiv_repo_id, hf_token)
-titles, date_dict, requested_arxiv_ids_df, arxivid2data = initialize_data(dataset_repo_id, request_arxiv_repo_id, empty_src_dataset)
 from ui import (
     get_paper_by_year, get_paper_by_month, get_paper_by_day,

 from apscheduler.schedulers.background import BackgroundScheduler
 gemini_api_key, hf_token, dataset_repo_id, request_arxiv_repo_id, restart_repo_id = get_secrets()
+initialize_repos(dataset_repo_id, request_arxiv_repo_id, hf_token)
+titles, date_dict, requested_arxiv_ids_df, arxivid2data = initialize_data(dataset_repo_id, request_arxiv_repo_id)
 from ui import (
     get_paper_by_year, get_paper_by_month, get_paper_by_day,

init.py CHANGED Viewed

@@ -66,7 +66,7 @@ def _initialize_paper_info(source_ds):
     else:
         return [], {}, {}
-def initialize_data(source_data_repo_id, request_data_repo_id, empty_src_dataset):
     global date_dict, arxivid2data
     global requested_arxiv_ids_df

     else:
         return [], {}, {}
+def initialize_data(source_data_repo_id, request_data_repo_id):
     global date_dict, arxivid2data
     global requested_arxiv_ids_df

ui.py CHANGED Viewed

@@ -166,9 +166,10 @@ def _filter_duplicate_arxiv_ids(arxiv_ids_to_be_added):
         arxiv_ids = d['Requested arXiv IDs']
         unique_arxiv_ids = set(list(unique_arxiv_ids) + arxiv_ids)
-    for d in ds2['train']:
-        arxiv_id = d['arxiv_id']
-        unique_arxiv_ids.add(arxiv_id)
     return list(set(arxiv_ids_to_be_added) - unique_arxiv_ids)

         arxiv_ids = d['Requested arXiv IDs']
         unique_arxiv_ids = set(list(unique_arxiv_ids) + arxiv_ids)
+    if len(ds2) > 1:
+        for d in ds2['train']:
+            arxiv_id = d['arxiv_id']
+            unique_arxiv_ids.add(arxiv_id)
     return list(set(arxiv_ids_to_be_added) - unique_arxiv_ids)