Abigail99216
/

agent-model

Visual Question Answering

Model card Files Files and versions Community

agent-model / data_processing.py

陈淑一

Update agent-model

13c0d56 5 months ago

history blame contribute delete

3.17 kB

	from langchain_community.document_loaders import PyMuPDFLoader
	from langchain_community.document_loaders import UnstructuredMarkdownLoader
	from langchain.schema import Document
	from langchain_community.embeddings import OpenAIEmbeddings
	from langchain_community.vectorstores import Chroma
	from langchain.text_splitter import RecursiveCharacterTextSplitter
	import re
	import os
	from dotenv import load_dotenv, find_dotenv
	# 使用自己封装的智谱 Embedding，需要将封装代码下载到本地使用
	from zhipuai_embedding import ZhipuAIEmbeddings

	# 读取本地/项目的环境变量。
	# find_dotenv()寻找并定位.env文件的路径
	# load_dotenv()读取该.env文件，并将其中的环境变量加载到当前的运行环境中
	# 如果你设置的是全局的环境变量，这行代码则没有任何作用。
	_ = load_dotenv(find_dotenv())

	# 创建一个 PyMuPDFLoader Class 实例，输入为待加载的 pdf 文档路径
	loader = PyMuPDFLoader("/Users/chenshuyi/Documents/agent/data_base/knowledge_db/merck.pdf")

	# 调用 PyMuPDFLoader Class 的函数 load 对 pdf 文件进行加载
	pdf_pages = loader.load()
	#print(f"载入后的变量类型为：{type(pdf_pages)}，", f"该 PDF 一共包含 {len(pdf_pages)} 页")

	#pdf_page = pdf_pages[1]
	#print(f"每一个元素的类型：{type(pdf_page)}.",
	# f"该文档的描述性数据：{pdf_page.metadata}",
	# f"查看该文档的内容:\n{pdf_page.page_content}",
	# sep="\n------\n")

	pattern = re.compile(r'[^\u4e00-\u9fff](\n)[^\u4e00-\u9fff]', re.DOTALL)

	for pdf_page in pdf_pages:
	# 使用正则表达式替换非中文字符之间的换行符
	pdf_page.page_content = re.sub(pattern, lambda match: match.group(0).replace('\n', ''), pdf_page.page_content)

	# 移除圆点符号
	pdf_page.page_content = pdf_page.page_content.replace('•', '')

	# 将连续的两个换行符替换为单个换行符
	pdf_page.page_content = pdf_page.page_content.replace('\n\n', '\n')

	# 切分文档
	text_splitter = RecursiveCharacterTextSplitter(
	chunk_size=500, chunk_overlap=50)

	split_docs = text_splitter.split_documents(pdf_pages)
	#print(f"切分后的文件数量：{len(split_docs)}")
	#print(f"切分后的字符数（可以用来大致评估 token 数）：{sum([len(doc.page_content) for doc in split_docs])}")

	#构建chroma向量库
	embedding = ZhipuAIEmbeddings()

	# 定义持久化路径
	persist_directory = '../../data_base/vector_db/chroma'
	#!rm -rf '../../data_base/vector_db/chroma' # 删除旧的数据库文件（如果文件夹中有文件的话

	vectordb = Chroma.from_documents(
	documents = split_docs,
	embedding=embedding,
	persist_directory=persist_directory #将persist_directory目录保存到磁盘上

	)
	vectordb.persist()
	print(f"向量库中存储的数量：{vectordb._collection.count()}")

	print(f"Chroma 数据存储在: {vectordb._persist_directory}")

	question="headache"
	sim_docs = vectordb.similarity_search(question,k=3)
	print(f"检索到的内容数：{len(sim_docs)}")

	for i, sim_doc in enumerate(sim_docs):
	print(f"检索到的第{i}个内容: \n{sim_doc.page_content[:200]}", end="\n--------------\n")