Update agent-model

Browse files

Files changed (15) hide show

.DS_Store +0 -0
.env +36 -0
Healthcare_agent.py +213 -0
data_base/.DS_Store +0 -0
data_base/knowledge_db/.DS_Store +0 -0
data_base/vector_db/.DS_Store +0 -0
data_base/vector_db/chroma/.DS_Store +0 -0
data_base/vector_db/chroma/4a760640-7f28-4921-b9eb-107dd81a30e2/data_level0.bin +3 -0
data_base/vector_db/chroma/4a760640-7f28-4921-b9eb-107dd81a30e2/header.bin +3 -0
data_base/vector_db/chroma/4a760640-7f28-4921-b9eb-107dd81a30e2/index_metadata.pickle +3 -0
data_base/vector_db/chroma/4a760640-7f28-4921-b9eb-107dd81a30e2/length.bin +3 -0
data_base/vector_db/chroma/4a760640-7f28-4921-b9eb-107dd81a30e2/link_lists.bin +3 -0
data_processing.py +75 -0
requirements.txt +9 -0
zhipuai_embedding.py +68 -0

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

.env ADDED Viewed

	@@ -0,0 +1,36 @@

+# OPENAI API 访问密钥配置
+OPENAI_API_KEY = ""
+# 文心 API 访问密钥配置
+# 方式1. 使用应用 AK/SK 鉴权
+# 创建的应用的 API Key
+QIANFAN_AK = ""
+# 创建的应用的 Secret Key
+QIANFAN_SK = ""
+# 方式2. 使用安全认证 AK/SK 鉴权
+# 安全认证方式获取的 Access Key
+QIANFAN_ACCESS_KEY = ""
+# 安全认证方式获取的 Secret Key
+QIANFAN_SECRET_KEY = ""
+# Ernie SDK 文心 API 访问密钥配置
+EB_ACCESS_TOKEN = ""
+# 控制台中获取的 APPID 信息
+SPARK_APPID = ""
+# 控制台中获取的 APIKey 信息
+SPARK_API_KEY = ""
+# 控制台中获取的 APISecret 信息
+SPARK_API_SECRET = ""
+# langchain中星火 API 访问密钥配置
+# 控制台中获取的 APPID 信息
+IFLYTEK_SPARK_APP_ID = ""
+# 控制台中获取的 APISecret 信息
+IFLYTEK_SPARK_API_KEY = ""
+# 控制台中获取的 APIKey 信息
+IFLYTEK_SPARK_API_SECRET = ""
+# 智谱 API 访问密钥配置
+ZHIPUAI_API_KEY = "c9bc35e8e7c1c076a8aaba862efb19af.DhiaibnU9Mys34de"
+ZHIPUAI_API_KEY2 = "bd2f9388e369f6c46ef442556163b03c.79Jq4Gdqs9Ni9VnP"

Healthcare_agent.py ADDED Viewed

	@@ -0,0 +1,213 @@

+import chromadb
+from langchain import LLMChain, PromptTemplate
+from langchain_openai import ChatOpenAI
+from langchain.chains import RetrievalQA
+from langchain.output_parsers import StrOutputParser
+from langchain.embeddings import ZhipuAIEmbeddings
+from langchain.vectorstores import Chroma
+from diffusers import StableDiffusionPipeline
+import requests
+import gradio as gr
+import os
+from dotenv import load_dotenv, find_dotenv
+_ = load_dotenv(find_dotenv())    # 读取本地 .env 文件
+zhipuai_api_key = os.environ['ZHIPUAI_API_KEY']
+class HealthcareAgent:
+    def __init__(self):
+        self.vectordb = self.get_vectordb()
+        self.llm = ChatOpenAI(
+            model="glm-3-turbo",
+            temperature=0.7,
+            openai_api_key=zhipuai_api_key,
+            openai_api_base="https://open.bigmodel.cn/api/paas/v4/"
+        )
+        self.diffusion_model = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5").to("cuda")
+    def get_vectordb(self):
+        embedding = ZhipuAIEmbeddings()
+        persist_directory = '/Users/chenshuyi/Documents/agent/data_base/vector_db'
+        vectordb = Chroma(
+            persist_directory=persist_directory,
+            embedding_function=embedding
+        )
+        return vectordb
+    def generate_response(self, input_text):
+        output = self.llm.invoke(input_text)
+        output_parser = StrOutputParser()
+        output = output_parser.invoke(output)
+        return output
+    def rag_search(self, symptoms):
+        template = """使用以下上下文来回答关于症状的问题。如果你不知道答案，就说你不知道，不要试图编造答案。最多使用三句话。尽量使答案简明扼要。总是在回答的最后说"谢谢你的提问！"。
+        上下文: {context}
+        问题: 基于这些症状 "{symptoms}"，可能是什么疾病？请列出这些疾病的其他常见症状。
+        回答格式:
+        可能的疾病: [疾病1, 疾病2, ...]
+        其他常见症状: [症状1, 症状2, ...]
+        回答:"""
+        QA_CHAIN_PROMPT = PromptTemplate(input_variables=["context", "symptoms"], template=template)
+        retriever = self.vectordb.as_retriever()
+        qa_chain = RetrievalQA.from_chain_type(
+            self.llm,
+            retriever=retriever,
+            return_source_documents=True,
+            chain_type_kwargs={"prompt": QA_CHAIN_PROMPT}
+        )
+        result = qa_chain({"query": symptoms})
+        return result["result"]
+    def assess_severity(self, condition, symptoms):
+        template = """使用以下上下文来评估疾病的严重程度。
+        上下文: {context}
+        疾病: {condition}
+        症状: {symptoms}
+        请根据给定的疾病和症状,评估病情的严重程度。将严重程度分为轻度、中度和重度三个等级。
+        同时,请给出这个评估的理由,并提供一些建议。
+        回答格式:
+        严重程度: [轻度/中度/重度]
+        理由: [您的解释]
+        建议: [您的建议]
+        回答:"""
+        QA_CHAIN_PROMPT = PromptTemplate(
+            input_variables=["context", "condition", "symptoms"],
+            template=template
+        )
+        retriever = self.vectordb.as_retriever()
+        qa_chain = RetrievalQA.from_chain_type(
+            self.llm,
+            retriever=retriever,
+            return_source_documents=True,
+            chain_type_kwargs={"prompt": QA_CHAIN_PROMPT}
+        )
+        result = qa_chain({"query": f"{condition} {symptoms}", "condition": condition, "symptoms": symptoms})
+        return result["result"]
+    def generate_skin_condition_image(self, condition):
+        severities = ["轻度", "中度", "重度"]
+        images = []
+        for severity in severities:
+            prompt = f"{severity}{condition}的皮肤症状"
+            image = self.diffusion_model(prompt, num_inference_steps=50, guidance_scale=7.5).images[0]
+            images.append(image)
+        return images
+    def recommend_medical_facility(self, user_location, condition, severity):
+        # 首先使用LLM推荐医疗设施类型
+        template = """
+        基于以下信息推荐合适的医疗设施类型:
+        疾病: {condition}
+        严重程度: {severity}
+        请从以下选项中选择最合适的医疗设施类型:
+        1. 药房
+        2. 社区医院
+        3. 二甲医院
+        4. 三甲医院
+        只需回复数字1-4,不需要其他解释。
+        推荐:
+        """
+        prompt = PromptTemplate(template=template, input_variables=["condition", "severity"])
+        llm_chain = LLMChain(prompt=prompt, llm=self.llm)
+        facility_type = llm_chain.run(condition=condition, severity=severity).strip()
+        # 将LLM的推荐转换为实际的设施类型
+        facility_types = {
+            "1": "药房",
+            "2": "社区医院",
+            "3": "二甲医院",
+            "4": "三甲医院"
+        }
+        recommended_type = facility_types.get(facility_type, "医院")  # 默认为"医院"
+        # 调用高德地图API搜索附近的医疗设施
+        amap_key = "您的高德地图API密钥"  # 请替换为您的实际API密钥
+        url = f"https://restapi.amap.com/v3/place/text?key={amap_key}&keywords={recommended_type}&city={user_location}&offset=10&page=1&extensions=all"
+        response = requests.get(url)
+        if response.status_code == 200:
+            data = response.json()
+            if data["status"] == "1" and data["pois"]:
+                facilities = data["pois"]
+                # 返回前三个结果
+                top_facilities = facilities[:3]
+                result = f"根据您的情况,我们推荐您去{recommended_type}。以下是附近的几个选择:\n\n"
+                for facility in top_facilities:
+                    result += f"名称: {facility['name']}\n"
+                    result += f"地址: {facility['address']}\n"
+                    result += f"电话: {facility.get('tel', '未提供')}\n\n"
+                return result
+            else:
+                return f"抱歉,我们无法在您的位置找到合适的{recommended_type}。请考虑寻求紧急医疗帮助或咨询当地卫生部门。"
+        else:
+            return "抱歉,我们暂时无法获取医疗设施信息。请稍后再试或直接联系当地医疗机构。"
+    def interact(self, symptoms, user_location):
+        condition = self.rag_search(symptoms)
+        if "皮肤" in condition:
+            images = self.generate_skin_condition_image(condition)
+            return condition, images, True, None  # 添加None作为医疗设施推荐的占位符
+        else:
+            severity_assessment = self.assess_severity(condition, symptoms)
+            severity, reason, advice = self.parse_severity_result(severity_assessment)
+            facility_recommendation = self.recommend_medical_facility(user_location, condition, severity)
+            return condition, (severity, reason, advice), False, facility_recommendation
+    def parse_severity_result(self, result):
+        # 这个函数需要根据实际的输出格式来实现
+        # 这里只是一个示例
+        lines = result.split('\n')
+        severity = ""
+        reason = ""
+        advice = ""
+        for line in lines:
+            if line.startswith("严重程度:"):
+                severity = line.split(':')[1].strip()
+            elif line.startswith("理由:"):
+                reason = line.split(':')[1].strip()
+            elif line.startswith("建议:"):
+                advice = line.split(':')[1].strip()
+        return severity, reason, advice
+def gradio_interface():
+    agent = HealthcareAgent()
+    def process_input(symptoms, user_location):
+        condition, result, is_skin_condition, facility_recommendation = agent.interact(symptoms, user_location)
+        if is_skin_condition:
+            return gr.update(visible=True, value=condition), gr.update(visible=True, value=result), gr.update(visible=False), gr.update(visible=True, value=facility_recommendation)
+        else:
+            severity, reason, advice = result
+            return gr.update(visible=True, value=f"诊断: {condition}\n严重程度: {severity}\n理由: {reason}\n建议: {advice}"), gr.update(visible=False), gr.update(visible=False), gr.update(visible=True, value=facility_recommendation)
+    def on_select(evt: gr.SelectData):
+        severities = ["轻度", "中度", "重度"]
+        return f"您选择的严重程度为: {severities[evt.index]}"
+    with gr.Blocks() as iface:
+        gr.Markdown("# 医疗保健助手")
+        symptoms_input = gr.Textbox(label="请描述您的症状")
+        location_input = gr.Textbox(label="请输入您的位置")
+        submit_btn = gr.Button("提交")
+        with gr.Group() as output_group:
+            text_output = gr.Textbox(label="诊断结果", visible=False)
+            image_output = gr.Gallery(label="请选择最接近您症状的图片", visible=False, columns=3, height=300)
+            severity_output = gr.Textbox(label="严重程度", visible=False)
+            facility_output = gr.Textbox(label="推荐医疗设施", visible=False)
+        submit_btn.click(process_input, inputs=[symptoms_input, location_input], outputs=[text_output, image_output, severity_output, facility_output])
+        image_output.select(on_select, None, severity_output)
+    return iface
+if __name__ == "__main__":
+    iface = gradio_interface()
+    iface.launch()

data_base/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

data_base/knowledge_db/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

data_base/vector_db/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

data_base/vector_db/chroma/.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

data_base/vector_db/chroma/4a760640-7f28-4921-b9eb-107dd81a30e2/data_level0.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a63cbf10a7a1118c3c49522388ddeac7432c320741107e5c223df88edadbd3df
+size 12708000

data_base/vector_db/chroma/4a760640-7f28-4921-b9eb-107dd81a30e2/header.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6700dc0d3644287e522ceb9b6618f4a25e1491d206fc9eb3cd96d71f12b9be20
+size 100

data_base/vector_db/chroma/4a760640-7f28-4921-b9eb-107dd81a30e2/index_metadata.pickle ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bcc379271d45360118c53ee26c3ed4c3d7021526a84b518c090b3dc36639d3d
+size 172072

data_base/vector_db/chroma/4a760640-7f28-4921-b9eb-107dd81a30e2/length.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28f97f051bcfc0a0a3cd4fda105dd685460522dc3d3b4c621d8ba5c69f489659
+size 12000

data_base/vector_db/chroma/4a760640-7f28-4921-b9eb-107dd81a30e2/link_lists.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bf6d0d0e5e00119db848bbe340a910c568b83b4462e53d4f072a36a4e5990c4
+size 25736

data_processing.py ADDED Viewed

	@@ -0,0 +1,75 @@

+from langchain_community.document_loaders import PyMuPDFLoader
+from langchain_community.document_loaders import UnstructuredMarkdownLoader
+from langchain.schema import Document
+from langchain_community.embeddings import OpenAIEmbeddings
+from langchain_community.vectorstores import Chroma
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+import re
+import os
+from dotenv import load_dotenv, find_dotenv
+# 使用自己封装的智谱 Embedding，需要将封装代码下载到本地使用
+from zhipuai_embedding import ZhipuAIEmbeddings
+# 读取本地/项目的环境变量。
+# find_dotenv()寻找并定位.env文件的路径
+# load_dotenv()读取该.env文件，并将其中的环境变量加载到当前的运行环境中
+# 如果你设置的是全局的环境变量，这行代码则没有任何作用。
+_ = load_dotenv(find_dotenv())
+# 创建一个 PyMuPDFLoader Class 实例，输入为待加载的 pdf 文档路径
+loader = PyMuPDFLoader("/Users/chenshuyi/Documents/agent/data_base/knowledge_db/merck.pdf")
+# 调用 PyMuPDFLoader Class 的函数 load 对 pdf 文件进行加载
+pdf_pages = loader.load()
+#print(f"载入后的变量类型为：{type(pdf_pages)}，",  f"该 PDF 一共包含 {len(pdf_pages)} 页")
+#pdf_page = pdf_pages[1]
+#print(f"每一个元素的类型：{type(pdf_page)}.",
+#    f"该文档的描述性数据：{pdf_page.metadata}",
+#    f"查看该文档的内容:\n{pdf_page.page_content}",
+#    sep="\n------\n")
+pattern = re.compile(r'[^\u4e00-\u9fff](\n)[^\u4e00-\u9fff]', re.DOTALL)
+for pdf_page in pdf_pages:
+    # 使用正则表达式替换非中文字符之间的换行符
+    pdf_page.page_content = re.sub(pattern, lambda match: match.group(0).replace('\n', ''), pdf_page.page_content)
+    # 移除圆点符号
+    pdf_page.page_content = pdf_page.page_content.replace('•', '')
+    # 将连续的两个换行符替换为单个换行符
+    pdf_page.page_content = pdf_page.page_content.replace('\n\n', '\n')
+# 切分文档
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=500, chunk_overlap=50)
+split_docs = text_splitter.split_documents(pdf_pages)
+#print(f"切分后的文件数量：{len(split_docs)}")
+#print(f"切分后的字符数（可以用来大致评估 token 数）：{sum([len(doc.page_content) for doc in split_docs])}")
+#构建chroma向量库
+embedding = ZhipuAIEmbeddings()
+# 定义持久化路径
+persist_directory = '../../data_base/vector_db/chroma'
+#!rm -rf '../../data_base/vector_db/chroma'  # 删除旧的数据库文件（如果文件夹中有文件的话
+vectordb = Chroma.from_documents(
+    documents = split_docs,
+    embedding=embedding,
+    persist_directory=persist_directory #将persist_directory目录保存到磁盘上
+)
+vectordb.persist()
+print(f"向量库中存储的数量：{vectordb._collection.count()}")
+print(f"Chroma 数据存储在: {vectordb._persist_directory}")
+question="headache"
+sim_docs = vectordb.similarity_search(question,k=3)
+print(f"检索到的内容数：{len(sim_docs)}")
+for i, sim_doc in enumerate(sim_docs):
+    print(f"检索到的第{i}个内容: \n{sim_doc.page_content[:200]}", end="\n--------------\n")

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+gradio==3.50.2
+langchain==0.0.350
+langchain-openai==0.0.2.post1
+chromadb==0.4.22
+diffusers==0.25.0
+transformers==4.36.2
+torch==2.1.2
+requests==2.31.0
+python-dotenv==1.0.0

zhipuai_embedding.py ADDED Viewed

	@@ -0,0 +1,68 @@

+from __future__ import annotations
+import logging
+from typing import Dict, List, Any
+from langchain.embeddings.base import Embeddings
+from langchain.pydantic_v1 import BaseModel, root_validator
+logger = logging.getLogger(__name__)
+class ZhipuAIEmbeddings(BaseModel, Embeddings):
+    """`Zhipuai Embeddings` embedding models."""
+    client: Any
+    """`zhipuai.ZhipuAI"""
+    @root_validator()
+    def validate_environment(cls, values: Dict) -> Dict:
+        """
+        实例化ZhipuAI为values["client"]
+        Args:
+            values (Dict): 包含配置信息的字典，必须包含 client 的字段.
+        Returns:
+            values (Dict): 包含配置信息的字典。如果环境中有zhipuai库，则将返回实例化的ZhipuAI类；否则将报错 'ModuleNotFoundError: No module named 'zhipuai''.
+        """
+        from zhipuai import ZhipuAI
+        values["client"] = ZhipuAI()
+        return values
+    def embed_query(self, text: str) -> List[float]:
+        """
+        生成输入文本的 embedding.
+        Args:
+            texts (str): 要生成 embedding 的文本.
+        Return:
+            embeddings (List[float]): 输入文本的 embedding，一个浮点数值列表.
+        """
+        embeddings = self.client.embeddings.create(
+            model="embedding-2",
+            input=text
+        )
+        return embeddings.data[0].embedding
+    def embed_documents(self, texts: List[str]) -> List[List[float]]:
+        """
+        生成输入文本列表的 embedding.
+        Args:
+            texts (List[str]): 要生成 embedding 的文本列表.
+        Returns:
+            List[List[float]]: 输入列表中每个文档的 embedding 列表。每个 embedding 都表示为一个浮点值列表。
+        """
+        return [self.embed_query(text) for text in texts]
+    async def aembed_documents(self, texts: List[str]) -> List[List[float]]:
+        """Asynchronous Embed search docs."""
+        raise NotImplementedError("Please use `embed_documents`. Official does not support asynchronous requests")
+    async def aembed_query(self, text: str) -> List[float]:
+        """Asynchronous Embed query text."""
+        raise NotImplementedError("Please use `aembed_query`. Official does not support asynchronous requests")