Spaces:

tony346
/

ChatPDF_Llama2

Runtime error

qorgh346 commited on Oct 13, 2023

Commit

dd9ce97

•

1 Parent(s): 7af777c

update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,16 +10,26 @@ from langchain.memory import ConversationBufferMemory
 from langchain.chains import ConversationalRetrievalChain
 from htmlTemplates import css, bot_template, user_template
 from langchain.llms import HuggingFaceHub, LlamaCpp,CTransformers # For loading transformer models.
 def get_pdf_text(pdf_docs):
-    text = ''
     # pdf_file_ = open(pdf_docs,'rb')
     # text = "example hofjin"
-    pdf_reader = PdfReader(pdf_docs)
-    for page in pdf_reader.pages:
-        text += page.extract_text()
-    return text
 def get_text_chunks(text):
@@ -151,7 +161,7 @@ def main():
         if st.button("Process"):
             with st.spinner("Processing"):
                 # get pdf text
-                raw_text = ""
                 for file in docs:
                     print('file - type : ', file.type)
@@ -160,7 +170,7 @@ def main():
                         raw_text += get_text_file(file)
                     elif file.type in ['application/octet-stream', 'application/pdf']:
                         #file is .pdf
-                        raw_text += get_pdf_text(file)
                     elif file.type == 'text/csv':
                         #file is .csv
                         raw_text += get_csv_file(file)

 from langchain.chains import ConversationalRetrievalChain
 from htmlTemplates import css, bot_template, user_template
 from langchain.llms import HuggingFaceHub, LlamaCpp,CTransformers # For loading transformer models.
+from langchain.document_loaders import PyPDFLoader
+from tempfile import NamedTemporaryFile
 def get_pdf_text(pdf_docs):
+    # text = ''
     # pdf_file_ = open(pdf_docs,'rb')
     # text = "example hofjin"
+    # for page in pdf_reader.pages:
+    #     text += page.extract_text()
+    # return text
+    with NamedTemporaryFile() as temp_file:
+        temp_file.write(pdf_docs.getvalue())
+        temp_file.seek(0)
+        pdf_loader = PyPDFLoader(temp_file.name)
+        print('pdf_loader = ', pdf_loader)
+        pdf_doc = pdf_loader.load()
+        print('pdf_doc = ',pdf_doc)
+        return pdf_doc
 def get_text_chunks(text):
         if st.button("Process"):
             with st.spinner("Processing"):
                 # get pdf text
+                doc_list = []
                 for file in docs:
                     print('file - type : ', file.type)
                         raw_text += get_text_file(file)
                     elif file.type in ['application/octet-stream', 'application/pdf']:
                         #file is .pdf
+                        doc_list.append(get_pdf_text(file))
                     elif file.type == 'text/csv':
                         #file is .csv
                         raw_text += get_csv_file(file)