agent-model / data_processing.py
陈淑一
Update agent-model
13c0d56
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_community.document_loaders import UnstructuredMarkdownLoader
from langchain.schema import Document
from langchain_community.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
import re
import os
from dotenv import load_dotenv, find_dotenv
# 使用自己封装的智谱 Embedding,需要将封装代码下载到本地使用
from zhipuai_embedding import ZhipuAIEmbeddings
# 读取本地/项目的环境变量。
# find_dotenv()寻找并定位.env文件的路径
# load_dotenv()读取该.env文件,并将其中的环境变量加载到当前的运行环境中
# 如果你设置的是全局的环境变量,这行代码则没有任何作用。
_ = load_dotenv(find_dotenv())
# 创建一个 PyMuPDFLoader Class 实例,输入为待加载的 pdf 文档路径
loader = PyMuPDFLoader("/Users/chenshuyi/Documents/agent/data_base/knowledge_db/merck.pdf")
# 调用 PyMuPDFLoader Class 的函数 load 对 pdf 文件进行加载
pdf_pages = loader.load()
#print(f"载入后的变量类型为:{type(pdf_pages)},", f"该 PDF 一共包含 {len(pdf_pages)} 页")
#pdf_page = pdf_pages[1]
#print(f"每一个元素的类型:{type(pdf_page)}.",
# f"该文档的描述性数据:{pdf_page.metadata}",
# f"查看该文档的内容:\n{pdf_page.page_content}",
# sep="\n------\n")
pattern = re.compile(r'[^\u4e00-\u9fff](\n)[^\u4e00-\u9fff]', re.DOTALL)
for pdf_page in pdf_pages:
# 使用正则表达式替换非中文字符之间的换行符
pdf_page.page_content = re.sub(pattern, lambda match: match.group(0).replace('\n', ''), pdf_page.page_content)
# 移除圆点符号
pdf_page.page_content = pdf_page.page_content.replace('•', '')
# 将连续的两个换行符替换为单个换行符
pdf_page.page_content = pdf_page.page_content.replace('\n\n', '\n')
# 切分文档
text_splitter = RecursiveCharacterTextSplitter(
chunk_size=500, chunk_overlap=50)
split_docs = text_splitter.split_documents(pdf_pages)
#print(f"切分后的文件数量:{len(split_docs)}")
#print(f"切分后的字符数(可以用来大致评估 token 数):{sum([len(doc.page_content) for doc in split_docs])}")
#构建chroma向量库
embedding = ZhipuAIEmbeddings()
# 定义持久化路径
persist_directory = '../../data_base/vector_db/chroma'
#!rm -rf '../../data_base/vector_db/chroma' # 删除旧的数据库文件(如果文件夹中有文件的话
vectordb = Chroma.from_documents(
documents = split_docs,
embedding=embedding,
persist_directory=persist_directory #将persist_directory目录保存到磁盘上
)
vectordb.persist()
print(f"向量库中存储的数量:{vectordb._collection.count()}")
print(f"Chroma 数据存储在: {vectordb._persist_directory}")
question="headache"
sim_docs = vectordb.similarity_search(question,k=3)
print(f"检索到的内容数:{len(sim_docs)}")
for i, sim_doc in enumerate(sim_docs):
print(f"检索到的第{i}个内容: \n{sim_doc.page_content[:200]}", end="\n--------------\n")