Spaces:

bstraehle
/

rag

Running

App Files Files Community

bstraehle commited on Oct 22, 2023

Commit

994b8cd

1 Parent(s): 4f4bc85

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -6

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import openai, os
 from langchain.chains import LLMChain, RetrievalQA
 from langchain.chat_models import ChatOpenAI
 from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader
 from langchain.document_loaders.generic import GenericLoader
 from langchain.document_loaders.parsers import OpenAIWhisperParser
@@ -38,6 +39,8 @@ YOUTUBE_URL_5 = "https://www.youtube.com/shorts/3x95mw35dJY"
 YOUTUBE_URL_6 = "https://www.youtube.com/shorts/zg-DS23wq0c"
 YOUTUBE_URL_7 = "https://www.youtube.com/shorts/cS4fyhKZ8bQ"
 MODEL_NAME  = "gpt-4"
 def invoke(openai_api_key, use_rag, prompt):
@@ -46,6 +49,7 @@ def invoke(openai_api_key, use_rag, prompt):
                      temperature = 0)
     if (use_rag):
         # Document loading, splitting, and storage
         #loader = GenericLoader(YoutubeAudioLoader([YOUTUBE_URL_1,
         #                                           YOUTUBE_URL_2,
         #                                           YOUTUBE_URL_3,
@@ -55,12 +59,16 @@ def invoke(openai_api_key, use_rag, prompt):
         #                                           YOUTUBE_URL_7], YOUTUBE_DIR),
         #                       OpenAIWhisperParser())
         #docs = loader.load()
-        #text_splitter = RecursiveCharacterTextSplitter(chunk_overlap = 150,
-        #                                               chunk_size = 1500)
-        #splits = text_splitter.split_documents(docs)
-        #vector_db = Chroma.from_documents(documents = splits,
-        #                                  embedding = OpenAIEmbeddings(),
-        #                                  persist_directory = CHROMA_DIR)
         # Document retrieval
         vector_db = Chroma(embedding_function = OpenAIEmbeddings(),
                            persist_directory = CHROMA_DIR)

 from langchain.chains import LLMChain, RetrievalQA
 from langchain.chat_models import ChatOpenAI
+from langchain.document_loaders import PyPDFLoader
 from langchain.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader
 from langchain.document_loaders.generic import GenericLoader
 from langchain.document_loaders.parsers import OpenAIWhisperParser
 YOUTUBE_URL_6 = "https://www.youtube.com/shorts/zg-DS23wq0c"
 YOUTUBE_URL_7 = "https://www.youtube.com/shorts/cS4fyhKZ8bQ"
+PDF_URL = "https://arxiv.org/pdf/2303.08774.pdf"
 MODEL_NAME  = "gpt-4"
 def invoke(openai_api_key, use_rag, prompt):
                      temperature = 0)
     if (use_rag):
         # Document loading, splitting, and storage
+        docs = []
         #loader = GenericLoader(YoutubeAudioLoader([YOUTUBE_URL_1,
         #                                           YOUTUBE_URL_2,
         #                                           YOUTUBE_URL_3,
         #                                           YOUTUBE_URL_7], YOUTUBE_DIR),
         #                       OpenAIWhisperParser())
         #docs = loader.load()
+        ###docs.extend(loader.load())
+        loader = PyPDFLoader(PDF_URL)
+        docs.extend(loader.load())
+        #
+        text_splitter = RecursiveCharacterTextSplitter(chunk_overlap = 150,
+                                                       chunk_size = 1500)
+        splits = text_splitter.split_documents(docs)
+        vector_db = Chroma.from_documents(documents = splits,
+                                          embedding = OpenAIEmbeddings(),
+                                          persist_directory = CHROMA_DIR)
         # Document retrieval
         vector_db = Chroma(embedding_function = OpenAIEmbeddings(),
                            persist_directory = CHROMA_DIR)