from langchain_community.document_loaders import PyMuPDFLoader from langchain_community.document_loaders import UnstructuredMarkdownLoader from langchain.schema import Document from langchain_community.embeddings import OpenAIEmbeddings from langchain_community.vectorstores import Chroma from langchain.text_splitter import RecursiveCharacterTextSplitter import re import os from dotenv import load_dotenv, find_dotenv # 使用自己封装的智谱 Embedding,需要将封装代码下载到本地使用 from zhipuai_embedding import ZhipuAIEmbeddings # 读取本地/项目的环境变量。 # find_dotenv()寻找并定位.env文件的路径 # load_dotenv()读取该.env文件,并将其中的环境变量加载到当前的运行环境中 # 如果你设置的是全局的环境变量,这行代码则没有任何作用。 _ = load_dotenv(find_dotenv()) # 创建一个 PyMuPDFLoader Class 实例,输入为待加载的 pdf 文档路径 loader = PyMuPDFLoader("/Users/chenshuyi/Documents/agent/data_base/knowledge_db/merck.pdf") # 调用 PyMuPDFLoader Class 的函数 load 对 pdf 文件进行加载 pdf_pages = loader.load() #print(f"载入后的变量类型为:{type(pdf_pages)},", f"该 PDF 一共包含 {len(pdf_pages)} 页") #pdf_page = pdf_pages[1] #print(f"每一个元素的类型:{type(pdf_page)}.", # f"该文档的描述性数据:{pdf_page.metadata}", # f"查看该文档的内容:\n{pdf_page.page_content}", # sep="\n------\n") pattern = re.compile(r'[^\u4e00-\u9fff](\n)[^\u4e00-\u9fff]', re.DOTALL) for pdf_page in pdf_pages: # 使用正则表达式替换非中文字符之间的换行符 pdf_page.page_content = re.sub(pattern, lambda match: match.group(0).replace('\n', ''), pdf_page.page_content) # 移除圆点符号 pdf_page.page_content = pdf_page.page_content.replace('•', '') # 将连续的两个换行符替换为单个换行符 pdf_page.page_content = pdf_page.page_content.replace('\n\n', '\n') # 切分文档 text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50) split_docs = text_splitter.split_documents(pdf_pages) #print(f"切分后的文件数量:{len(split_docs)}") #print(f"切分后的字符数(可以用来大致评估 token 数):{sum([len(doc.page_content) for doc in split_docs])}") #构建chroma向量库 embedding = ZhipuAIEmbeddings() # 定义持久化路径 persist_directory = '../../data_base/vector_db/chroma' #!rm -rf '../../data_base/vector_db/chroma' # 删除旧的数据库文件(如果文件夹中有文件的话 vectordb = Chroma.from_documents( documents = split_docs, embedding=embedding, persist_directory=persist_directory #将persist_directory目录保存到磁盘上 ) vectordb.persist() print(f"向量库中存储的数量:{vectordb._collection.count()}") print(f"Chroma 数据存储在: {vectordb._persist_directory}") question="headache" sim_docs = vectordb.similarity_search(question,k=3) print(f"检索到的内容数:{len(sim_docs)}") for i, sim_doc in enumerate(sim_docs): print(f"检索到的第{i}个内容: \n{sim_doc.page_content[:200]}", end="\n--------------\n")