Spaces:

allinaigc
/

llm_knowledge_base

Sleeping

App Files Files Community

allinaigc commited on May 2, 2024

Commit

d26c87a

verified ·

1 Parent(s): 6643c92

Upload 2 files

Browse files

Files changed (2) hide show

app.py +6 -4
langchain_KB.py +5 -5

app.py CHANGED Viewed

@@ -3,10 +3,12 @@
 1. 总共有三个区块：知识库回答，应用来源，相关问题。
 1. 在Huggingface的API上部署了一个在线BGE的模型，用于回答问题。OpenAI的Emebedding或者Langchain的Embedding都不可以用（会报错: self.d）。
 """
-##TODO： 1. 建立一个upload file的模块。
 # -*- coding: utf-8 -*-
 import requests
@@ -347,7 +349,7 @@ def main():
     # with st.expander(label='**查询企业内部知识库**', expanded=True):
     with col1:
         KB_mode = True
-        user_input = st.text_input(label='**🧭 大模型数据库对话区**', placeholder='请输入您的问题', label_visibility='visible')
         if user_input:
             ## 非stream输出，原始状态，不需要改变api.py中的内容。
             # with st.status('检索中...', expanded=True, state='running') as status:
@@ -357,8 +359,8 @@ def main():
                     # import rag_reponse_001
                     # clear_all()
                     # response = rag_reponse_001.rag_response(user_input=user_input, k=5) ## working.
-                    print('user_input:', user_input)
-                    response, source = rag_reponse_002.rag_response(user_input=user_input, k=3)
                     print('llm response:', response)
                     sim_prompt = f"""你需要根据以下的问题来提出5个可能的后续问题{user_input}
                         """

 1. 总共有三个区块：知识库回答，应用来源，相关问题。
 1. 在Huggingface的API上部署了一个在线BGE的模型，用于回答问题。OpenAI的Emebedding或者Langchain的Embedding都不可以用（会报错: self.d）。
+注意事项：
+1. langchain_KB.py中的代码是用来构建本地知识库的，里面的embeddings需要与rag_response_002.py中的embeddings一致。否则会出错！
 """
+##TODO：
 # -*- coding: utf-8 -*-
 import requests
     # with st.expander(label='**查询企业内部知识库**', expanded=True):
     with col1:
         KB_mode = True
+        user_input = st.text_input(label='**📶 大模型数据库对话区**', placeholder='请输入您的问题', label_visibility='visible')
         if user_input:
             ## 非stream输出，原始状态，不需要改变api.py中的内容。
             # with st.status('检索中...', expanded=True, state='running') as status:
                     # import rag_reponse_001
                     # clear_all()
                     # response = rag_reponse_001.rag_response(user_input=user_input, k=5) ## working.
+                    # print('user_input:', user_input)
+                    response, source = rag_reponse_002.rag_response(username=username, user_input=user_input, k=3)
                     print('llm response:', response)
                     sim_prompt = f"""你需要根据以下的问题来提出5个可能的后续问题{user_input}
                         """

langchain_KB.py CHANGED Viewed

@@ -74,11 +74,11 @@ def langchain_localKB_construct(filepath, username):
     docs = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200).split_documents(docs)
     ## 创建向量数据库
-    # embedding_model_name = 'GanymedeNil/text2vec-large-chinese'
-    # embeddings = HuggingFaceEmbeddings(model_name=embedding_model_name) ## 这里是联网情况下连接huggingface后使用。
-    from langchain.embeddings.openai import OpenAIEmbeddings
-    embeddings = OpenAIEmbeddings(disallowed_special=()) ## 可能需要更新了。
-    print('langchain embeddings:', embeddings)
     vector_store = FAISS.from_documents(docs, embeddings)
     # print(vector_store)

     docs = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200).split_documents(docs)
     ## 创建向量数据库
+    embedding_model_name = 'BAAI/bge-large-zh-v1.5'
+    embeddings = HuggingFaceEmbeddings(model_name=embedding_model_name) ## 这里是联网情况下连接huggingface后使用。
+    # from langchain.embeddings.openai import OpenAIEmbeddings
+    # embeddings = OpenAIEmbeddings(disallowed_special=()) ## 可能需要更新了。
+    # print('langchain embeddings:', embeddings)
     vector_store = FAISS.from_documents(docs, embeddings)
     # print(vector_store)