Spaces:

Soumen
/

Text-Summarization-and-NLP-tasks

Running

Soumen commited on Nov 25, 2022

Commit

06dd768

1 Parent(s): 25ea9c6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -31,8 +31,10 @@ from transformers import AutoTokenizer, AutoModelWithLMHead, GPT2LMHeadModel
 import docx2txt
 from PIL import Image
 from PyPDF2 import PdfFileReader
 import pdfplumber
 from line_cor import mark_region
 # NLP Pkgs
 from textblob import TextBlob
 import spacy
@@ -45,13 +47,15 @@ import pytesseract
 #pytesseract.pytesseract.tesseract_cmd = r"./Tesseract-OCR/tesseract.exe"
 from PIL import Image
 def read_pdf(file):
-    pdfReader = PdfFileReader(file)
-    count = pdfReader.numPages
     all_page_text = ""
-    for i in range(count):
-        page = pdfReader.getPage(i)
-        image_name = "Page_" + str(i) + ".jpg"
-        page.save(image_name, "JPEG")
         text = pytesseract.image_to_string(image_name, lang="ben") if st.checkbox("Mark to see Bangla Image's Text") else pytesseract.image_to_string(image_name)
         all_page_text += text + " " #page.extractText()
     return all_page_text

 import docx2txt
 from PIL import Image
 from PyPDF2 import PdfFileReader
+from pdf2image import convert_from_bytes
 import pdfplumber
 from line_cor import mark_region
 # NLP Pkgs
 from textblob import TextBlob
 import spacy
 #pytesseract.pytesseract.tesseract_cmd = r"./Tesseract-OCR/tesseract.exe"
 from PIL import Image
 def read_pdf(file):
+    images=convert_from_bytes(open('file.pdf', 'rb').read())
+    #pdfReader = PdfFileReader(file)
+    #count = pdfReader.numPages
     all_page_text = ""
+    for i in range(len(images)):
+        #page = pdfReader.getPage(i)
+        img=images[i]
+        image_name = "img_" + str(i) + ".jpg"
+        img.save(image_name, "JPEG")
         text = pytesseract.image_to_string(image_name, lang="ben") if st.checkbox("Mark to see Bangla Image's Text") else pytesseract.image_to_string(image_name)
         all_page_text += text + " " #page.extractText()
     return all_page_text