Spaces:

rushi29
/

AIP_pdf

Runtime error

App Files Files Community

rushi29 commited on Jul 9, 2022

Commit

8dba09e

1 Parent(s): de6e57d

Update app.py

Browse files

Files changed (1) hide show

app.py +58 -38

app.py CHANGED Viewed

@@ -7,6 +7,10 @@ nltk.download('punkt')
 import bs4 as bs
 import urllib.request
 import re
 # Create embeddings model, backed by sentence-transformers & transformers
 embeddings = Embeddings({"path": "sentence-transformers/nli-mpnet-base-v2"})
@@ -20,25 +24,6 @@ st.markdown('_Welecome to Question Answering System 🧠 🤖_')
 a = st.sidebar.radio("SELECT -", ['PDF', 'Website'])
-def my_function_pdf():
-  textract = Textractor(sentences=True)
-  data_lines = []
-  for i in (locations_max):
-    lines = textract(i)
-    data_lines.append(lines)
-  total_lines = []
-  for i in data_lines:
-    total_lines += i
-  seq = embeddings.similarity(quer, total_lines)
-  three_most = seq[0:3]
-  indexes = []
-  for i in three_most:
-    indexes.append(i[0])
-  for j in indexes:
-    st.write(total_lines[j])
 ## webscrap function
 def my_web():
   from txtai.pipeline import Textractor
@@ -69,28 +54,63 @@ def my_web():
 if a == 'PDF' :
-  uploaded_files = st.file_uploader("Choose a CSV file", accept_multiple_files=True)
-  locations_max = []
-  for uploaded_file in uploaded_files:
-    # st.write(uploaded_file.name)
-    locations_max.append(uploaded_file.name)
-  # for query
   quer = st.text_input('ask me anything!', placeholder = 'ex - what is AI?')
-  st.write('Your query is - ', quer)
-  # for textraction
-  if st.button('Confirm!'):
-     st.write('Confirmed')
-     my_function_pdf()
-  else:
-     st.write('')
 ## web
 else:
   number = st.number_input('Insert a number of Links -',value =1, step =1)

 import bs4 as bs
 import urllib.request
 import re
+import docx2txt
+from PyPDF2 import PdfReader
+from nltk import tokenize
 # Create embeddings model, backed by sentence-transformers & transformers
 embeddings = Embeddings({"path": "sentence-transformers/nli-mpnet-base-v2"})
 a = st.sidebar.radio("SELECT -", ['PDF', 'Website'])
 ## webscrap function
 def my_web():
   from txtai.pipeline import Textractor
 if a == 'PDF' :
+  uploaded_files = st.file_uploader("Upload files - ", accept_multiple_files=True ,
+                  type = ['pdf', 'docx' , 'txt'] )
+# for query
   quer = st.text_input('ask me anything!', placeholder = 'ex - what is AI?')
+  st.write('Your query is - ', quer)
+  if st.button("Process"):
+    for uploaded_file in uploaded_files:
+      if uploaded_file is not None:
+        file_details = {"Filename":uploaded_file.name,"FileType":uploaded_file.type,"FileSize":uploaded_file.size}
+        #st.write(file_details)
+        if uploaded_file.type == "text/plain":
+          raw_text = str(uploaded_file.read(),"utf-8")
+          st.write(raw_text)
+        elif uploaded_file.type == "application/pdf" :
+          reader = PdfReader(uploaded_file)
+          text = ""
+          for page in reader.pages:
+            text += page.extract_text() + "\n"
+          #st.write(text)
+          data_lines =  tokenize.sent_tokenize(text)
+          #st.write(data_lines)
+          seq = embeddings.similarity(quer, data_lines)
+          three_most = seq[0:3]
+          indexes = []
+          for i in three_most:
+            indexes.append(i[0])
+          for j in indexes:
+            st.write(data_lines[j])
+          #total_lines = []
+          #for i in data_lines:
+            #total_lines += i
+          #st.write(data_lines)
+          #try:
+            #with pdfplumber.open(uploaded_file) as pdf:
+              #pages = pdf.pages[0]
+              #st.write(pages.extract_text())
+          #except:
+            #st.write("None")
+        elif uploaded_file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document" :
+          raw_text = docx2txt.process(uploaded_file)
+          st.write(raw_text)
 ## web
 else:
   number = st.number_input('Insert a number of Links -',value =1, step =1)