GPT-knowledge-management

Runtime error

App Files Files Community

Abhilashvj commited on Jan 31, 2023

Commit

2b9b8a4

•

1 Parent(s): fabd612

Update app.py

Browse files

Files changed (1) hide show

app.py +120 -45

app.py CHANGED Viewed

@@ -26,6 +26,10 @@ from haystack.pipelines import ExtractiveQAPipeline, Pipeline
 from markdown import markdown
 from sentence_transformers import SentenceTransformer
 index_name = "qa_demo"
@@ -36,6 +40,7 @@ pinecone.init(
 )
 index_name = "qa-demo"
 preprocessor = PreProcessor(
     clean_empty_lines=True,
     clean_whitespace=True,
@@ -54,7 +59,7 @@ if index_name not in pinecone.list_indexes():
     # create the index if it does not exist
     pinecone.create_index(
         index_name,
-        dimension=768,
         metric="cosine"
     )
@@ -69,7 +74,10 @@ def create_doc_store():
         api_key= st.secrets["pinecone_apikey"],
         index=index_name,
         similarity="cosine",
-        embedding_dim=768
     )
     return document_store
@@ -83,20 +91,68 @@ def create_doc_store():
     # reader = FARMReader(model_name_or_path="deepset/roberta-base-squad2", use_gpu=False)
     # pipe = ExtractiveQAPipeline(reader, retriever)
     # return pipe
-def query(pipe, question, top_k_reader, top_k_retriever):
-    res = pipe.run(
-        query=question, params={"Retriever": {"top_k": top_k_retriever}, "Reader": {"top_k": top_k_reader}}
     )
-    answer_df = []
-    # for r in res['answers']:
-    #     ans_dict = res['answers'][0].meta
-    #     ans_dict["answer"] = r.context
-    #     answer_df.append(ans_dict)
-    # result = pd.DataFrame(answer_df)
-    # result.columns = ["Source","Title","Year","Link","Answer"]
-    # result[["Answer","Link","Source","Title","Year"]]
-    return res
 document_store = create_doc_store()
 # pipe = create_pipe(document_store)
@@ -107,11 +163,11 @@ embedding_model=retriever_model,
 model_format="sentence_transformers",
 )
 # load the retriever model from huggingface model hub
-sentence_encoder = SentenceTransformer(retriever_model)
-reader = FARMReader(model_name_or_path="deepset/roberta-base-squad2", use_gpu=False)
-pipe = ExtractiveQAPipeline(reader, retriever)
 indexing_pipeline_with_classification = Pipeline()
 indexing_pipeline_with_classification.add_node(
@@ -205,7 +261,18 @@ if len(ALL_FILES) > 0:
             # extract batch
             batch = [doc.content for doc in docs[i:i_end]]
             # generate embeddings for batch
-            emb = sentence_encoder.encode(batch).tolist()
             # get metadata
             meta = [doc.meta for doc in docs[i:i_end]]
             # create unique IDs
@@ -215,22 +282,22 @@ if len(ALL_FILES) > 0:
             # upsert/insert these records to pinecone
             _ = index.upsert(vectors=to_upsert)
-top_k_reader = st.sidebar.slider(
-    "Max. number of answers",
-    min_value=1,
-    max_value=10,
-    value=DEFAULT_NUMBER_OF_ANSWERS,
-    step=1,
-    on_change=reset_results,
-)
-top_k_retriever = st.sidebar.slider(
-    "Max. number of documents from retriever",
-    min_value=1,
-    max_value=10,
-    value=DEFAULT_DOCS_FROM_RETRIEVER,
-    step=1,
-    on_change=reset_results,
-)
 # data_files = st.file_uploader(
 #         "upload", type=["csv"], accept_multiple_files=True, label_visibility="hidden"
 #     )
@@ -267,7 +334,7 @@ if run_pressed:
         ):
             try:
                 st.session_state.results  = query(
-                    pipe, question, top_k_reader=top_k_reader, top_k_retriever=top_k_retriever
                 )
             except JSONDecodeError as je:
                 st.error("👓 &nbsp;&nbsp; An error occurred reading the results. Is the document store working?")
@@ -283,21 +350,29 @@ if st.session_state.results:
     st.write("## Results:")
-    for count, result in enumerate(st.session_state.results['answers']):
-        answer, context = result.answer, result.context
-        start_idx = context.find(answer)
-        end_idx = start_idx + len(answer)
         # Hack due to this bug: https://github.com/streamlit/streamlit/issues/3190
         try:
-            source = f"[{result.meta['Title']}]({result.meta['link']})"
             st.write(
-            markdown(f'**Source:** {source} \n {context[:start_idx] } {str(annotation(answer, "ANSWER", "#8ef"))} {context[end_idx:]} \n '),
             unsafe_allow_html=True,
-             )
         except:
-            filename = result.meta.get('filename', "")
             st.write(
-            markdown(f'From file: {filename} \n {context[:start_idx] } {str(annotation(answer, "ANSWER", "#8ef"))} {context[end_idx:]} \n '),
             unsafe_allow_html=True,
             )

 from markdown import markdown
 from sentence_transformers import SentenceTransformer
+import openai
+# get API key from top-right dropdown on OpenAI website
+openai.api_key = st.secrets["OPENAI_API_KEY"]
 index_name = "qa_demo"
 )
 index_name = "qa-demo"
+embed_model = "text-embedding-ada-002"
 preprocessor = PreProcessor(
     clean_empty_lines=True,
     clean_whitespace=True,
     # create the index if it does not exist
     pinecone.create_index(
         index_name,
+        dimension=1536,
         metric="cosine"
     )
         api_key= st.secrets["pinecone_apikey"],
         index=index_name,
         similarity="cosine",
+        embedding_dim=768,
+        metadata_config={
+            'indexed': ['filename']
+        }
     )
     return document_store
     # reader = FARMReader(model_name_or_path="deepset/roberta-base-squad2", use_gpu=False)
     # pipe = ExtractiveQAPipeline(reader, retriever)
     # return pipe
+limit = 3750
+def retrieve(query):
+    res = openai.Embedding.create(
+        input=[query],
+        engine=embed_model
     )
+    # retrieve from Pinecone
+    xq = res['data'][0]['embedding']
+    # get relevant contexts
+    res = index.query(xq, top_k=3, include_metadata=True)
+    contexts = [
+        x['metadata']['text'] for x in res['matches']
+    ]
+    # build our prompt with the retrieved contexts included
+    prompt_start = (
+        "Answer the question based on the context below.\n\n"+
+        "Context:\n"
+    )
+    prompt_end = (
+        f"\n\nQuestion: {query}\nAnswer:"
+    )
+    # append contexts until hitting limit
+    for i in range(1, len(contexts)):
+        if len("\n\n---\n\n".join(contexts[:i])) >= limit:
+            prompt = (
+                prompt_start +
+                "\n\n---\n\n".join(contexts[:i-1]) +
+                prompt_end
+            )
+            break
+        elif i == len(contexts)-1:
+            prompt = (
+                prompt_start +
+                "\n\n---\n\n".join(contexts) +
+                prompt_end
+            )
+    return prompt, contexts
+# first let's make it simpler to get answers
+def complete(prompt):
+    # query text-davinci-003
+    res = openai.Completion.create(
+        engine='text-davinci-003',
+        prompt=prompt,
+        temperature=0,
+        max_tokens=400,
+        top_p=1,
+        frequency_penalty=0,
+        presence_penalty=0,
+        stop=None
+    )
+    return res['choices'][0]['text'].strip()
+def query(pipe, question, top_k_reader, top_k_retriever):
+    # first we retrieve relevant items from Pinecone
+    query_with_contexts, contexts = retrieve(question)
+    return complete(query_with_contexts), contexts
 document_store = create_doc_store()
 # pipe = create_pipe(document_store)
 model_format="sentence_transformers",
 )
 # load the retriever model from huggingface model hub
+# sentence_encoder = SentenceTransformer(retriever_model)
+# reader = FARMReader(model_name_or_path="deepset/roberta-base-squad2", use_gpu=False)
+# pipe = ExtractiveQAPipeline(reader, retriever)
+# now query text-davinci-003 WITHOUT context
 indexing_pipeline_with_classification = Pipeline()
 indexing_pipeline_with_classification.add_node(
             # extract batch
             batch = [doc.content for doc in docs[i:i_end]]
             # generate embeddings for batch
+            try:
+                res = openai.Embedding.create(input=texts, engine=embed_model)
+            except:
+                done = False
+                while not done:
+                    sleep(5)
+                    try:
+                        res = openai.Embedding.create(input=texts, engine=embed_model)
+                        done = True
+                    except:
+                        pass
+            embeds = [record['embedding'] for record in res['data']]
             # get metadata
             meta = [doc.meta for doc in docs[i:i_end]]
             # create unique IDs
             # upsert/insert these records to pinecone
             _ = index.upsert(vectors=to_upsert)
+# top_k_reader = st.sidebar.slider(
+#     "Max. number of answers",
+#     min_value=1,
+#     max_value=10,
+#     value=DEFAULT_NUMBER_OF_ANSWERS,
+#     step=1,
+#     on_change=reset_results,
+# )
+# top_k_retriever = st.sidebar.slider(
+#     "Max. number of documents from retriever",
+#     min_value=1,
+#     max_value=10,
+#     value=DEFAULT_DOCS_FROM_RETRIEVER,
+#     step=1,
+#     on_change=reset_results,
+# )
 # data_files = st.file_uploader(
 #         "upload", type=["csv"], accept_multiple_files=True, label_visibility="hidden"
 #     )
         ):
             try:
                 st.session_state.results  = query(
+                    pipe, question, top_k_reader=None, top_k_retriever=None
                 )
             except JSONDecodeError as je:
                 st.error("👓 &nbsp;&nbsp; An error occurred reading the results. Is the document store working?")
     st.write("## Results:")
+    for result,contexts in st.session_state.results:
+        # answer, context = result.answer, result.context
+        # start_idx = context.find(answer)
+        # end_idx = start_idx + len(answer)
         # Hack due to this bug: https://github.com/streamlit/streamlit/issues/3190
         try:
+            # source = f"[{result.meta['Title']}]({result.meta['link']})"
+            # st.write(
+            # markdown(f'**Source:** {source} \n {context[:start_idx] } {str(annotation(answer, "ANSWER", "#8ef"))} {context[end_idx:]} \n '),
+            # unsafe_allow_html=True,
+            #  )
             st.write(
+            markdown(f"Answer: {result} \n Extracted from context {contexts}"),
             unsafe_allow_html=True,
+            )
         except:
+            # filename = result.meta.get('filename', "")
+            # st.write(
+            # markdown(f'From file: {filename} \n {context[:start_idx] } {str(annotation(answer, "ANSWER", "#8ef"))} {context[end_idx:]} \n '),
+            # unsafe_allow_html=True,
+            # )
             st.write(
+            markdown(f"Answer: {result}"),
             unsafe_allow_html=True,
             )