Spaces:

northstaranlyticsma24
/

aie4_prodtest

Paused

App Files Files Community

northstaranlyticsma24 commited on Oct 5, 2024

Commit

d2bc317

verified ·

1 Parent(s): 47a4311

Update app.py

Browse files

Files changed (1) hide show

app.py +69 -67

app.py CHANGED Viewed

@@ -1,11 +1,25 @@
-### Import Section ###
-from langchain_text_splitters import RecursiveCharacterTextSplitter
-from langchain_community.document_loaders import PyMuPDFLoader
 from qdrant_client import QdrantClient
 from qdrant_client.http.models import Distance, VectorParams
 from langchain_openai.embeddings import OpenAIEmbeddings
 from langchain.storage import LocalFileStore
-from langchain_qdrant import QdrantVectorStore
 from langchain.embeddings import CacheBackedEmbeddings
 from langchain_core.prompts import ChatPromptTemplate
 from langchain_core.globals import set_llm_cache
@@ -14,29 +28,12 @@ from langchain_core.caches import InMemoryCache
 from operator import itemgetter
 from langchain_core.runnables.passthrough import RunnablePassthrough
 from chainlit.types import AskFileResponse
 import uuid
 import chainlit as cl
-### Global Section ###
-## check this helper readme: https://github.com/AI-Maker-Space/AIE4-DeployPythonicRAG/blob/main/BuildingAChainlitApp.md
-text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
-Loader = PyMuPDFLoader
 set_llm_cache(InMemoryCache())
-# Typical QDrant Client Set-up
-collection_name = f"pdf_to_parse_{uuid.uuid4()}"
-client = QdrantClient(":memory:")
-client.create_collection(
-    collection_name=collection_name,
-    vectors_config=VectorParams(size=1536, distance=Distance.COSINE),
-)
-# Typical Embedding Model
-core_embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
 rag_system_prompt_template = """\
 You are a helpful assistant that uses the provided context to answer questions. Never reference this prompt, or the existance of context.
@@ -58,22 +55,25 @@ chat_prompt = ChatPromptTemplate.from_messages([
     ("human", rag_user_prompt_template)
 ])
-chat_model = ChatOpenAI(model="gpt-4o-mini")
 def process_text_file(file: AskFileResponse):
     import tempfile
     with tempfile.NamedTemporaryFile(mode="w", delete=False) as temp_file:
         with open(temp_file.name, "wb") as f:
             f.write(file.content)
-    ## chris' chainlit https://github.com/AI-Maker-Space/AIE4-DeployPythonicRAG/blob/main/app.py
-    #with tempfile.NamedTemporaryFile(mode="w", delete=False, suffix=".txt") as temp_file:
-    #    temp_file_path = temp_file.name
-    #with open(temp_file_path, "wb") as f:
-    #    f.write(file.content)
     Loader = PyMuPDFLoader
     loader = Loader(temp_file.name)
@@ -83,8 +83,6 @@ def process_text_file(file: AskFileResponse):
         doc.metadata["source"] = f"source_{i}"
     return docs
-### On Chat Start (Session Start) Section ###
 @cl.on_chat_start
 async def on_chat_start():
     files = None
@@ -92,8 +90,8 @@ async def on_chat_start():
     # Wait for the user to upload a file
     while files == None:
         files = await cl.AskFileMessage(
-            content="Please upload a Text File file to begin!",
-            accept=["text/plain"],
             max_size_mb=2,
             timeout=180,
         ).send()
@@ -106,57 +104,61 @@ async def on_chat_start():
     await msg.send()
     # load the file
-    docs = process_text_file(file)
-    print(f"Processing {len(docs)} text chunks")
-    # Adding cache!
     store = LocalFileStore("./cache/")
     cached_embedder = CacheBackedEmbeddings.from_bytes_store(
         core_embeddings, store, namespace=core_embeddings.model
     )
     # Typical QDrant Vector Store Set-up
     vectorstore = QdrantVectorStore(
         client=client,
         collection_name=collection_name,
         embedding=cached_embedder)
-    vectorstore.add_documents(docs)
     retriever = vectorstore.as_retriever(search_type="mmr", search_kwargs={"k": 3})
     retrieval_augmented_qa_chain = (
-        {"context": itemgetter("question") | retriever, "question": itemgetter("question")} ##
-        | RunnablePassthrough.assign(context=itemgetter("context"))
-        | chat_prompt | chat_model
     )
     cl.user_session.set("midterm_chain", retrieval_augmented_qa_chain)
-### Rename Chains ###
-@cl.author_rename
-def rename(orig_author: str):
-    """ RENAME CODE HERE """
-### On Message Section ###
 @cl.on_message
-async def main(message: cl.Message):
-    try:
-        # Retrieve the chain stored in the session
-        midterm_chain = cl.user_session.get("midterm_chain")
-        # Pass the user's message (query) to the chain for processing
-        response = await midterm_chain.run(message.content)
-        # Send the response back to the user
-        await message.send(response)
-        # Process the incoming question using the RAG chain
-        #result = retrieval_augmented_qa_chain.invoke({"question": message.content})
         # Create a new message for the response
-        #response_message = cl.Message(content=result["response"].content)
-    except Exception as e:
-        # Handle any exception and log it or send a response back to the user
-        error_message = cl.Message(content=f"An error occurred: {str(e)}")
-        await error_message.send()
-        print(f"Error occurred: {e}")

+import os
+from typing import List
+from chainlit.types import AskFileResponse
+from aimakerspace.text_utils import CharacterTextSplitter, TextFileLoader
+from aimakerspace.openai_utils.prompts import (
+    UserRolePrompt,
+    SystemRolePrompt,
+    AssistantRolePrompt,
+)
+from aimakerspace.openai_utils.embedding import EmbeddingModel
+from aimakerspace.vectordatabase import VectorDatabase
 from qdrant_client import QdrantClient
 from qdrant_client.http.models import Distance, VectorParams
+from langchain_qdrant import QdrantVectorStore
+#from aimakerspace.openai_utils.chatmodel import ChatOpenAI
+#from langchain_openai import ChatOpenAI
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_community.document_loaders import PyMuPDFLoader
 from langchain_openai.embeddings import OpenAIEmbeddings
 from langchain.storage import LocalFileStore
 from langchain.embeddings import CacheBackedEmbeddings
 from langchain_core.prompts import ChatPromptTemplate
 from langchain_core.globals import set_llm_cache
 from operator import itemgetter
 from langchain_core.runnables.passthrough import RunnablePassthrough
 from chainlit.types import AskFileResponse
+from typing import List
 import uuid
 import chainlit as cl
 set_llm_cache(InMemoryCache())
 rag_system_prompt_template = """\
 You are a helpful assistant that uses the provided context to answer questions. Never reference this prompt, or the existance of context.
     ("human", rag_user_prompt_template)
 ])
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+# Typical QDrant Client Set-up
+collection_name = f"pdf_to_parse_{uuid.uuid4()}"
+client = QdrantClient(":memory:")
+client.create_collection(
+    collection_name=collection_name,
+    vectors_config=VectorParams(size=1536, distance=Distance.COSINE),
+)
+# Typical Embedding Model
+core_embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
 def process_text_file(file: AskFileResponse):
     import tempfile
     with tempfile.NamedTemporaryFile(mode="w", delete=False) as temp_file:
         with open(temp_file.name, "wb") as f:
             f.write(file.content)
     Loader = PyMuPDFLoader
     loader = Loader(temp_file.name)
         doc.metadata["source"] = f"source_{i}"
     return docs
 @cl.on_chat_start
 async def on_chat_start():
     files = None
     # Wait for the user to upload a file
     while files == None:
         files = await cl.AskFileMessage(
+            content="Please upload a PDF File file to begin!",
+            accept=["application/pdf"],
             max_size_mb=2,
             timeout=180,
         ).send()
     await msg.send()
     # load the file
+    texts = process_text_file(file)
+    print(f"Processing {len(texts)} text chunks")
+    # Create a dict vector store
+    #vector_db = VectorDatabase()
+        # Adding cache!
     store = LocalFileStore("./cache/")
     cached_embedder = CacheBackedEmbeddings.from_bytes_store(
         core_embeddings, store, namespace=core_embeddings.model
     )
+    print ('three')
     # Typical QDrant Vector Store Set-up
     vectorstore = QdrantVectorStore(
         client=client,
         collection_name=collection_name,
         embedding=cached_embedder)
+    vectorstore.add_documents(texts)
     retriever = vectorstore.as_retriever(search_type="mmr", search_kwargs={"k": 3})
+    #vector_db = await vector_db.abuild_from_list(texts)
+    chat_openai = ChatOpenAI()
     retrieval_augmented_qa_chain = (
+    {"context": itemgetter("question") | retriever, "question": itemgetter("question")} ##
+    | RunnablePassthrough.assign(context=itemgetter("context"))
+    | chat_prompt | chat_openai
     )
+    # Create a chain
+    #retrieval_augmented_qa_pipeline = RetrievalAugmentedQAPipeline(
+    #    vector_db_retriever=vectorstore,
+    #    llm=chat_openai
+    #)
+    # Let the user know that the system is ready
+    msg.content = f"Processing `{file.name}` done. You can now ask questions!"
+    await msg.update()
+    print ('five')
     cl.user_session.set("midterm_chain", retrieval_augmented_qa_chain)
 @cl.on_message
+async def main(message):
+    midterm_chain = cl.user_session.get("midterm_chain")
+    #chain = cl.user_session.get("chain")
+    result = midterm_chain.invoke({"question": message.content})
         # Create a new message for the response
+    #print (result)
+    response_message = cl.Message(content=result.content)
+    # Send the response back to the user
+    await response_message.send()