Spaces:

Arslan17121
/

NotebookCwithqa

Sleeping

Arslan17121 commited on Jan 5

Commit

6a43ef1

verified ·

1 Parent(s): 3616299

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import PyPDF2
 from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor, pipeline
 from gtts import gTTS
 from PIL import Image
-from pdf2image import convert_from_bytes
 # Function to extract text from a PDF
 def extract_text_from_pdf(pdf_file):
@@ -28,12 +28,18 @@ def text_to_speech(text):
 # Function for document question answering
 def answer_questions(pdf_file, question):
-    images = convert_from_bytes(pdf_file.read())
     processor = Pix2StructProcessor.from_pretrained("google/pix2struct-docvqa-large")
     model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-docvqa-large")
     answers = []
-    for img in images:
         inputs = processor(images=img, text=question, return_tensors="pt")
         outputs = model.generate(**inputs)
         answer = processor.decode(outputs[0], skip_special_tokens=True)

 from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor, pipeline
 from gtts import gTTS
 from PIL import Image
+import fitz  # PyMuPDF
 # Function to extract text from a PDF
 def extract_text_from_pdf(pdf_file):
 # Function for document question answering
 def answer_questions(pdf_file, question):
+    # Open PDF using PyMuPDF
+    doc = fitz.open(stream=pdf_file.read(), filetype="pdf")
     processor = Pix2StructProcessor.from_pretrained("google/pix2struct-docvqa-large")
     model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-docvqa-large")
     answers = []
+    for page in doc:
+        # Convert page to an image
+        pix = page.get_pixmap()
+        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
+        # Process the image for Q&A
         inputs = processor(images=img, text=question, return_tensors="pt")
         outputs = model.generate(**inputs)
         answer = processor.decode(outputs[0], skip_special_tokens=True)