Spaces:

davidpengg
/

pdf_from_indianculture

Runtime error

davidpengg commited on Jun 22, 2023

Commit

f9b19f4

1 Parent(s): 43e0ac1

error handling

Files changed (2) hide show

app.py CHANGED Viewed

@@ -11,6 +11,13 @@ examples = [
     "https://indianculture.gov.in/reports-proceedings/report-village-and-cottage-industries-national-committee-development-backward"
 ]
 with gr.Blocks() as app:
     gr.Markdown("# <p align='center'>Extract PDF from indianculture[dot]gov[dot]in</p>")
     # with gr.Row():
@@ -25,7 +32,7 @@ with gr.Blocks() as app:
     gr.Examples(examples=examples,inputs=landing_page_url,outputs=pdf_file)
     landing_page_url_btrn.click(
-        download,
         inputs=landing_page_url,
         outputs=pdf_file
     )

     "https://indianculture.gov.in/reports-proceedings/report-village-and-cottage-industries-national-committee-development-backward"
 ]
+def try_download(url):
+    try:
+        pdf = download(url)
+        return pdf
+    except Exception as e:
+        raise gr.Error(str(e))
 with gr.Blocks() as app:
     gr.Markdown("# <p align='center'>Extract PDF from indianculture[dot]gov[dot]in</p>")
     # with gr.Row():
     gr.Examples(examples=examples,inputs=landing_page_url,outputs=pdf_file)
     landing_page_url_btrn.click(
+        try_download,
         inputs=landing_page_url,
         outputs=pdf_file
     )

download_pdf.py CHANGED Viewed

@@ -6,22 +6,17 @@ David Peng
 import requests
 from bs4 import BeautifulSoup as bs
 from urllib.parse import unquote
-import time
 import os
 DEFAULT_TIMEOUT = 10
-RETURN_CODE = 0
 # script borrowed from https://github.com/lalitaalaalitah/Scrape_IndianCulture.Gov.In_Release
 def download(book_page_url):
-    while RETURN_CODE == 0 :
-        try:
-            book_page_get = requests.get(book_page_url, timeout=DEFAULT_TIMEOUT)
-        except:
-            continue
-        if book_page_get.status_code == 200:
-            break
-        time.sleep(10)
     book_page_get = requests.get(book_page_url)
     parsed_book_page = bs(book_page_get.content, 'html.parser')
     class_pdf_in_page = parsed_book_page.find_all('iframe', class_='pdf')
@@ -40,4 +35,4 @@ def download(book_page_url):
         os.system(cmd_for_curl)
         return pdf_name
     else:
-        return None

 import requests
 from bs4 import BeautifulSoup as bs
 from urllib.parse import unquote
 import os
 DEFAULT_TIMEOUT = 10
 # script borrowed from https://github.com/lalitaalaalitah/Scrape_IndianCulture.Gov.In_Release
 def download(book_page_url):
+    try:
+        book_page_get = requests.get(book_page_url, timeout=DEFAULT_TIMEOUT)
+    except Exception:
+        raise Exception("Bad URL!")
     book_page_get = requests.get(book_page_url)
     parsed_book_page = bs(book_page_get.content, 'html.parser')
     class_pdf_in_page = parsed_book_page.find_all('iframe', class_='pdf')
         os.system(cmd_for_curl)
         return pdf_name
     else:
+        raise Exception("Unexpected number of PDFs (=/= 1)!")