Spaces:

Soumen
/

Text-Summarization-and-NLP-tasks

Running

App Files Files Community

Soumen commited on Nov 24, 2022

Commit

09d4214

1 Parent(s): 8994505

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -6

app.py CHANGED Viewed

@@ -28,7 +28,10 @@ import os
 import streamlit as st
 import torch
 from transformers import AutoTokenizer, AutoModelWithLMHead, GPT2LMHeadModel
 # NLP Pkgs
 from textblob import TextBlob
@@ -40,6 +43,22 @@ import numpy as np
 import pytesseract
 #pytesseract.pytesseract.tesseract_cmd = r"./Tesseract-OCR/tesseract.exe"
 from PIL import Image
 # Title
 if st.button("REFRESH"):
    st.experimental_rerun()
@@ -81,16 +100,20 @@ def main():
 	st.subheader("Please, feed your image/text, features/services will appear automatically!")
 	message = st.text_input("Type your text here!")
 	camera_photo = st.camera_input("Take a photo, Containing English or Bangla texts", on_change=change_photo_state)
-	uploaded_photo = st.file_uploader("Upload Image, Containing English or Bangla texts",type=['jpg','png','jpeg'], on_change=change_photo_state)
 	if "photo" not in st.session_state:
 		st.session_state["photo"]="not done"
 	if st.session_state["photo"]=="done" or message:
 		if uploaded_photo:
-			img = Image.open(uploaded_photo)
-			img = img.save("img.png")
-			img = cv2.imread("img.png")
-			text = pytesseract.image_to_string(img, lang="ben") if st.checkbox("Mark to see Bangla Image's Text") else pytesseract.image_to_string(img)
 			st.success(text)
 		elif camera_photo:
 			img = Image.open(camera_photo)

 import streamlit as st
 import torch
 from transformers import AutoTokenizer, AutoModelWithLMHead, GPT2LMHeadModel
+import docx2txt
+from PIL import Image
+from PyPDF2 import PdfFileReader
+import pdfplumber
 # NLP Pkgs
 from textblob import TextBlob
 import pytesseract
 #pytesseract.pytesseract.tesseract_cmd = r"./Tesseract-OCR/tesseract.exe"
 from PIL import Image
+def read_pdf(file):
+	pdfReader = PdfFileReader(file)
+	count = pdfReader.numPages
+	all_page_text = ""
+	for i in range(count):
+		page = pdfReader.getPage(i)
+		all_page_text += page.extractText()
+	return all_page_text
+#def read_pdf_with_pdfplumber(file):
+#	with pdfplumber.open(file) as pdf:
+#	    page = pdf.pages[0]
+#	    return page.extract_text()
 # Title
 if st.button("REFRESH"):
    st.experimental_rerun()
 	st.subheader("Please, feed your image/text, features/services will appear automatically!")
 	message = st.text_input("Type your text here!")
 	camera_photo = st.camera_input("Take a photo, Containing English or Bangla texts", on_change=change_photo_state)
+	uploaded_photo = st.file_uploader("Upload Image, Containing English or Bangla texts",type=['jpg','png','jpeg','pdf'], on_change=change_photo_state)
 	if "photo" not in st.session_state:
 		st.session_state["photo"]="not done"
 	if st.session_state["photo"]=="done" or message:
 		if uploaded_photo:
+	        if uploaded_photo.type == "application/pdf":
+	           text = read_pdf(docx_file)
+	           text = pytesseract.image_to_string(img, lang="ben") if st.checkbox("Mark to see Bangla Image's Text") else pytesseract.image_to_string(img)
+			else:
+		       img = Image.open(uploaded_photo)
+			   img = img.save("img.png")
+			   img = cv2.imread("img.png")
+			   text = pytesseract.image_to_string(img, lang="ben") if st.checkbox("Mark to see Bangla Image's Text") else pytesseract.image_to_string(img)
 			st.success(text)
 		elif camera_photo:
 			img = Image.open(camera_photo)