心理書籍推薦系統

#!/usr/bin/env python
# coding: utf-8

import gradio as gr
from llama_cpp import Llama
from langchain_community.llms import LlamaCpp
from langchain.prompts import PromptTemplate
import llama_cpp
from langchain.callbacks.manager import CallbackManager
from sentence_transformers import SentenceTransformer
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
import numpy as np
import pandas as pd
import re
import os
from sklearn.metrics.pairwise import cosine_similarity
from transformers import AutoTokenizer, AutoModelForCausalLM


model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-mpnet-base-v2',device='cpu')


model1 = AutoModelForCausalLM.from_pretrained("MediaTek-Research/Breeze-7B-Instruct-v0_1")

def invoke_with_temperature(prompt, temperature=0.4):
    # 將 prompt 編碼為模型的輸入格式
    inputs = tokenizer(prompt, return_tensors="pt")
    
    # 使用生成方法生成文本，設置溫度參數
    output = model1.generate(inputs["input_ids"], max_length=200, temperature=temperature, num_return_sequences=1)

    # 解碼並返回生成的文本
    return tokenizer.decode(output[0], skip_special_tokens=True)
    
# llm = LlamaCpp(
#     model_path=r"MediaTek-Research/Breeze-7B-Instruct-v0_1",
#     n_gpu_layers=100,
#     n_batch=512,
#     n_ctx=3000,
#     f16_kv=True,
#     callback_manager=CallbackManager([StreamingStdOutCallbackHandler()]),
#     verbose=False,
# )

embedd_bk=pd.read_pickle(r".\bk_description1_角色形容詞_677.pkl")
df_bk=pd.read_excel(r".\bk_description1_角色形容詞短文.xlsx")

# def invoke_with_temperature(prompt, temperature=0.4):
#     return llm.invoke(prompt, temperature=temperature)

def process_user_input(message):
    user_mental_state4= PromptTemplate(
        input_variables=["input"],
        template="""[INST]<<SYS>>你是一位具有同理心的專業心理諮商師，沒有性別歧視，你可以客觀的根據談話內容的描述，判斷說話的人的心理困擾<</SYS>> 
        請根據{input}描述三個最有可能心理困擾，輸出只包含三個心理困擾，回答格式只採用CSV格式，分隔符號使用逗號，參考以下範例：名詞1,名詞2,名詞3。[/INST]"""
    )
    
    user_character= PromptTemplate(
        input_variables=["input"],
        template="""[INST]<<SYS>>你是一位具有同理心的專業心理諮商師，沒有性別歧視，你可以客觀的根據談話內容的描述，判斷說話的大學生，在生活中的多重角色身分<</SYS>> 
        請你根據談話內容{input}，客觀的判斷說話的大學生，在談話內容中的角色，以及他生活中其他角色的身分，提供三個最有可能的角色身分名詞，
        輸出只包含三個身分名詞，回答格式只採用CSV格式，分隔符號使用逗號，參考以下範例：名詞1,名詞2,名詞3。[/INST]"""
    )
    

    df_user=pd.DataFrame(columns=["輸入內容","形容詞1", "形容詞2", "形容詞3", "角色1", "角色2", "角色3"])
    #df_user_record=pd.read_excel(r"C:\Users\Cora\推薦系統實作\gradio系統歷史紀錄.xlsx")
    

    prompt_value1=user_mental_state4.invoke({"input":message})
    string=invoke_with_temperature(prompt_value1)
    #print("\n")

    # 將字符串分割為名詞
    adjectives = [adj.strip() for adj in re.split('[,、，]', string)]
    
    index=len(df_user)
    df_user.loc[index, '輸入內容'] = message

    # 確保形容詞數量符合欄位數量
    if len(adjectives) == 3:
        df_user.loc[index, '形容詞1'] = adjectives[0]
        df_user.loc[index, '形容詞2'] = adjectives[1]
        df_user.loc[index, '形容詞3'] = adjectives[2]

    prompt_value2=user_character.invoke({"input":message})
    string=invoke_with_temperature(prompt_value2)
    #print("\n")

    # 將字符串分割為名詞
    character = [adj.strip() for adj in re.split('[,、，]', string)]
    for i in range(min(len(character), 3)):
        df_user.loc[index, f'角色{i+1}'] = character[i]
    # if len(character) == 3:
    #     df_user.loc[index, '角色1'] = character[0]
    #     df_user.loc[index, '角色2'] = character[1]
    #     df_user.loc[index, '角色3'] = character[2]
    df_user.to_excel("user_gradio系統.xlsx")
    return df_user
    #return message

def embedd_df_user(df_user):
    
    columns_to_encode=df_user.loc[:,["形容詞1", "形容詞2", "形容詞3"]]

    # 初始化一個空的 DataFrame，用來存儲向量化結果
    embedd_user=df_user[["輸入內容"]]
    #user_em= user_em.assign(形容詞1=None, 形容詞2=None, 形容詞3=None,角色1=None,角色2=None,角色3=None)
    embedd_user= embedd_user.assign(形容詞1=None, 形容詞2=None, 形容詞3=None)
    

    # 遍歷每一個單元格，將結果存入新的 DataFrame 中
    i=len(df_user)-1
    for col in columns_to_encode:
        #print(i,col)
        # 將每個單元格的內容進行向量化
        embedd_user.at[i, col] = model.encode(df_user.at[i, col])           
    
    #embedd_user.to_pickle(r"C:\Users\user\推薦系統實作\user_gradio系統.pkl")
    
    return embedd_user
    #word="happy"
    #return word

def top_n_books_by_average(df, n=3):
    
    # 根据 `average` 列降序排序
    sorted_df = df.sort_values(by='average', ascending=False)
    
    # 选择前 N 行
    top_n_df = sorted_df.head(n)
    
    # 提取书名列
    top_books = top_n_df['書名'].tolist()
    
    return top_books,sorted_df

def similarity(embedd_user,embedd_bk,df_bk):
    df_similarity= pd.DataFrame(df_bk[['書名','短文','URL',"形容詞1", "形容詞2", "形容詞3", '角色1', '角色2', '角色3']])
    df_similarity['average'] = np.nan
    #for p in range(len(embedd_user)): 
    index=len(embedd_user)-1               
    for k in range(len(embedd_bk)):
            list=[]
            for i in range(1,4):
                for j in range(3,6):
                    vec1=embedd_user.iloc[index,i]#i是第i個形容詞，index是第幾個是使用者輸入
                    vec2=embedd_bk.iloc[k,j]
                    similarity = cosine_similarity([vec1], [vec2])
                    list.append(similarity[0][0])
            # 计算总和
            total_sum = sum(list)
            # 计算数量
            count = len(list)
            # 计算平均值
            average = total_sum / count
            df_similarity.loc[k,'average']=average

    top_books,sorted_df = top_n_books_by_average(df_similarity)
    return sorted_df     

def filter(sorted_df,df_user):
    filter_prompt4 = PromptTemplate(
        input_variables=["mental_issue", "user_identity"," book","book_reader", "book_description"],
        template="""[INST]<<SYS>>你是專業的心理諮商師和書籍推薦專家，擅長根據使用者的心理問題、身份特質，以及書名、書籍針對的主題和適合的讀者，判斷書籍是否適合推薦給使用者。

        你的目的是幫助讀者找到可以緩解心理問題的書籍。請注意：
        1. 若書籍針對的問題與使用者的心理問題有關聯，即使書籍適合的讀者群與使用者身份沒有直接關聯，應偏向推薦。
        2. 若使用者身份的需求與書籍針對的問題有潛在關聯，應偏向推薦。
        3. 若書籍適合的讀者與使用者身份特質有任何關聯，應傾向推薦。
        4. 若書名跟使用者的心理問題或身分特質有任何關聯，應偏向推薦<</SYS>>

        使用者提供的資訊如下：
        使用者身份是「{user_identity}」，其心理問題是「{mental_issue}」。書名是{book}，書籍適合的讀者群為「{book_reader}」，書籍針對的問題是「{book_description}」。

        請根據以上資訊判斷這本書是否適合推薦給該使用者。
        僅輸出「是」或「否」，輸出後即停止。[/INST]"""
     )
    df_filter=sorted_df.iloc[:20,:]
    df_filter = df_filter.reset_index(drop=True)
    df_filter=df_filter.assign(推薦=None)

    
    p=len(df_user)-1
    sum_for_bk=0
    # 提取角色內容
    role1 = df_user["角色1"].iloc[p] if pd.notnull(df_user["角色1"].iloc[p]) else ""
    role2 = df_user["角色2"].iloc[p] if pd.notnull(df_user["角色2"].iloc[p]) else ""
    role3 = df_user["角色3"].iloc[p] if pd.notnull(df_user["角色3"].iloc[p]) else ""
    
    # 用"、"連接不為空的角色
    user_identity = "、".join([role for role in [role1, role2, role3] if role])  # 只加入有內容的角色
    
    #user_identity = df_user["角色1"].iloc[p]+"、"+df_user["角色2"].iloc[p]+"、"+df_user["角色3"].iloc[p]
    mental_issue=df_user["形容詞1"].iloc[p]+"、"+df_user["形容詞2"].iloc[p]+"、"+df_user["形容詞3"].iloc[p]
    for k in range(len(df_filter)):    
        #word=df_user["輸入內容"].iloc[p]
        #book_reader = df_filter["角色1"].iloc[p] + "or" + df_filter["角色2"].iloc[p] + "or" + df_filter["角色3"].iloc[p]
        book=df_filter["書名"].iloc[k] 
        book_reader = df_filter["角色1"].iloc[k] 
        # user_identity = df_user["角色1"].iloc[p]+"、"+df_user["角色2"].iloc[p]+"、"+df_user["角色3"].iloc[p]
        # mental_issue=df_user["形容詞1"].iloc[p]+"、"+df_user["形容詞2"].iloc[p]+"、"+df_user["形容詞3"].iloc[p]
        book_description=df_filter["形容詞1"].iloc[k]+"、"+df_filter["形容詞2"].iloc[k]+"、"+df_filter["形容詞3"].iloc[k]
        print(book_reader)
        print(user_identity)
        #output = filter_prompt1.invoke({"user_identity": user_identity, "book_reader": book_reader})
        output = filter_prompt4.invoke({"mental_issue":mental_issue,"user_identity": user_identity, "book":book,"book_description":book_description,"book_reader": book_reader})
        string2=invoke_with_temperature(output)
        df_filter.loc[k, '推薦'] =string2
        if string2.strip()=="是":
            sum_for_bk+=1
            if(sum_for_bk==3):
                break   
    df_recommend=df_filter[df_filter["推薦"].str.strip() == "是"]
        
    return df_recommend
    
def output_content(df_recommend):
    
    title = {}
    URL = {}
    summary = {}
    
    for i in range(3):
        title[f'title_{i}'] = df_recommend.iloc[i, 0]  # Using iloc instead of loc
        URL[f'URL_{i}'] = df_recommend.iloc[i, 2]
        summary[f'summary_{i}'] = df_recommend.iloc[i, 1]
    
    output = f"""根據您的狀態，這裡提供三本書供您參考\n 
               <第一本>
               書名：{title['title_0']}\n        
               本書介紹:{summary['summary_0']}\n       
               購書網址：{URL['URL_0']}\n 
               <第二本>
               書名：{title['title_1']}\n        
               本書介紹:{summary['summary_1']}\n       
               購書網址：{URL['URL_1']}\n   
               <第三本>
               書名：{title['title_2']}\n        
               本書介紹:{summary['summary_2']}\n       
               購書網址：{URL['URL_2']}\n   
               希望對您有所幫助"""
    return output                   
                    
def main_pipeline(message,history):
                
    df_user=process_user_input(message)
    embedd_user=embedd_df_user(df_user)
    sorted_df=similarity(embedd_user,embedd_bk,df_bk)
    df_filter=filter(sorted_df,df_user)
    final=output_content(df_filter)
    return final

css = """
.chatbox .message-box {
    height: 500px !important;  # 設定訊息框的高度
    width: 100% 
    overflow-y: auto;  # 如果內容超出高度則顯示滾動條
    text-rendering: optimizeLegibility;  # 啟用抗鋸齒渲染
}


"""

theme=gr.themes.Default(primary_hue=gr.themes.colors.red, secondary_hue=gr.themes.colors.pink,font=[gr.themes.GoogleFont("LXGW WenKai Mono TC")]).set(
  body_background_fill='#FFF5EE'
)

with gr.Blocks(theme=theme) as demo:
    with gr.Row():
        with gr.Column():
            gr.Markdown("""
            <div style="text-align: center;">
                <h1 style="display: inline; vertical-align: middle;">
                    <img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcR_Rj6Add1OjrIeVXL4z84YzG4QIEuM4ptvvQ&s" 
                         width="100" height="100" style="display: inline; vertical-align: middle; margin-right: 10px;">
                    心理書籍推薦系統
                    <img src="https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcR_Rj6Add1OjrIeVXL4z84YzG4QIEuM4ptvvQ&s" 
                         width="100" height="100" style="display: inline; vertical-align: middle; margin-left: 10px;">
                </h1>
            </div>
            """)

            gr.ChatInterface(
                main_pipeline,
                type="messages",
                title="",  # title 設為空，使用自定義 Markdown 標題
                description='<div style="text-align: center;font-size:16px">這是個讓人放鬆的網站，希望透過讓人抒發心情表達現在面臨的狀況與挑戰，從書裡獲得解答。</div><div style="text-align: center;font-size: 16px;">-你可以告訴我們最近的心情和想法，放心我們不會儲存任何紀錄-</div>',
                css=css
            )

if __name__ == "__main__":
    demo.launch(share=True)


# In[ ]: