Spaces:

PatronusAI
/

LynxDemo

Sleeping

Allen Park commited on Jul 29, 2024

Commit

901a87e

1 Parent(s): e504a30

fix(pdfplumber): replace the pdfplumber package and implementation with pymupdf

Files changed (2) hide show

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ from typing import List, Tuple, Union
 from pathlib import Path
 import gradio as gr
 import openai
-import pdfplumber
 HF_TOKEN = os.environ.get("HF_TOKEN", None)
 LEPTON_API_TOKEN = os.environ.get("LEPTON_API_TOKEN", None)
@@ -136,11 +136,11 @@ def model_call(question, document, answer, client_base_url):
 def get_filetype(filename):
     return filename.split(".")[-1]
-def extract_text_pdfplumber(file):
-    with pdfplumber.open(io.BytesIO(file.read())) as pdf:
         text = ""
-        for page in pdf.pages:
-            text += page.extract_text()
     return text
 def upload_file(filepath):
@@ -151,10 +151,8 @@ def upload_file(filepath):
         print("FILEPATH type & file name type", type(filepath), type(name))
         filetype = get_filetype(name)
         # conditionals for filetype and function call
-        if filetype == "pdf":
-            extracted_file_text = extract_text_pdfplumber(filepath)
-        elif filetype == "txt":
-            extracted_file_text = filepath.read().decode("utf-8")
         elif filetype == "docx" or filetype == "doc":
             extracted_file_text = filepath.read().decode("utf-8")
         return [gr.UploadButton(visible=False), gr.Group(visible=True), gr.Markdown("**Uploaded file:** {name}".format(name=name)), extracted_file_text]

 from pathlib import Path
 import gradio as gr
 import openai
+import pymupdf
 HF_TOKEN = os.environ.get("HF_TOKEN", None)
 LEPTON_API_TOKEN = os.environ.get("LEPTON_API_TOKEN", None)
 def get_filetype(filename):
     return filename.split(".")[-1]
+def extract_text_pymupdf(file):
+    with pymupdf.open(file) as pdf_or_txt:
         text = ""
+        for page in pdf_or_txt:
+            text += page.get_text()
     return text
 def upload_file(filepath):
         print("FILEPATH type & file name type", type(filepath), type(name))
         filetype = get_filetype(name)
         # conditionals for filetype and function call
+        if filetype == "pdf" or filetype == "txt":
+            extracted_file_text = extract_text_pymupdf(filepath)
         elif filetype == "docx" or filetype == "doc":
             extracted_file_text = filepath.read().decode("utf-8")
         return [gr.UploadButton(visible=False), gr.Group(visible=True), gr.Markdown("**Uploaded file:** {name}".format(name=name)), extracted_file_text]

requirements.txt CHANGED Viewed