# LangChain 示範與教學

### 寫在前面
Gen-AI 是一種可以幫你省力, 但又不能完全依賴的工具. AI的三種時代:
* ANI: 弱人工智能, 能幫人類但是比人類弱
* AGI: 跟人類做得一樣好
* ASI: 做得比人還好

現在是ANI 時代, 所以, 你的客戶可能對Gen-AI 有錯誤的期待. 以為它可以完美地的取代掉人類, 或是會得到100%正確的結果, 這些都是不對的.

正確的態度是:
你把它當成是一個 `不會累而且很厲害的社會新鮮人` , 可以做很多事, 但產出的結果你一定要多看一下, 多驗證一下. 這個觀念, 你需要去訓練跟教育你的客戶.

### 為啥要弄成程式來做Gen-AI?
已經有很多整合好Gen-AI的app, 大家也都自己有用ChatGPT, 那為啥還要在程式層級去使用?
答案: 
* 整合到現有開發的系統
* Local LLM(Gen-AI) 的使用.
 
### pip install everything
我會提供我的 requirements.txt, 讓大家安裝相同的virtualenv.; 當然也可以使用其他的 virtual environment

### import all things
如果程式碼裡沒有 import 就加import 進來, import 之後沒有package 會有系統提示要 `pip install xxxxxxx` 的訊息, 照打就好

In [1]:
%load_ext dotenv
%dotenv

cannot find .env file


In [2]:
from langchain.document_loaders import UnstructuredFileLoader
from langchain.llms import AzureOpenAI
from langchain.chat_models import AzureChatOpenAI
from langchain.memory import ChatMessageHistory

給各樣環境參數, 這裡有langchain 要讀取azure openai 的各種參數
包含API_TYPE, API_VERSION, API_BASE, API_KEY, 可以在azure openai portal 的網站找到

deployment id 以及model name 是依不同的model 而不同
Code 或是Text 是有不同的model, 使用前要先deploy
![image.png](attachment:dbeb0892-530c-4a2f-8e5a-f697ab74bae2.png)

In [4]:
import os
os.environ["OPENAI_API_TYPE"] = "azure"
os.environ["OPENAI_API_VERSION"] = "2023-03-15-preview"
os.environ["OPENAI_API_BASE"] = "https://civet-project-001.openai.azure.com/"
os.environ["OPENAI_API_KEY"] = "0e3e5b666818488fa1b5cb4e4238ffa7"

global_deployment_id = "CivetGPT"
global_model_name = "gpt-35-turbo"
print('loading completed!')

loading completed!


### LLM 
就是Azure openai 提供的model介接的接口
這裡提供一個很快的對話使用方式

In [5]:
chat = AzureChatOpenAI(
 deployment_name = global_deployment_id,
 model_name = global_model_name,
)

history = ChatMessageHistory()
history.add_user_message("鴻海董事長是誰?")
ai_response = chat(history.messages)
print(ai_response.content)

鴻海董事長是郭台銘。


### Chain
Chain 是用來完成一系列的工作, 如果完成這個工作需要 a->b->c->d
使用者只想要a input 並且在d 接到output, 其中的過程設定好之後就不想管
因此整個a->b->c->d 就是叫Chain

以下是簡單的例子

In [19]:
from langchain.llms import AzureOpenAI
from langchain.prompts import PromptTemplate

llm = AzureOpenAI(
 deployment_name = global_deployment_id,
 model_name = global_model_name,
)
prompt = PromptTemplate(
 input_variables=["product"],
 template="如果賣 {product}, 請幫忙想一個好聽的品牌名字?",
)
print('LLMChain setting completed')

LLMChain setting completed


LLMChain 是最簡單的Chain, 給llm 以及prompt 就完成

In [29]:
from langchain.chains import LLMChain
chain = LLMChain(llm=llm, prompt=prompt)

# Run the chain only specifying the input variable.
print(chain.run("拉麵"))

拉麵王 (Ramen King)


### Summary_Chain
這裡是另一個Summary 的Chain 範例.

先讀文件, 此處僅只有一個pdf file, 也可以用folder loader 來讀取整個目錄的所有檔案
讀完後, 並且分割.

chunk_size 是指多少token 為一個chunk, 建議要有一點overlap 來連接
e.g.
0~1000,
980~1980,
...

In [26]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

loader = UnstructuredFileLoader('Culture_in_a_Hybrid__768936_ndx.pdf')
document = loader.load()
text_splitter = RecursiveCharacterTextSplitter(
 chunk_size=1000,
 chunk_overlap=20
)
split_documents = text_splitter.split_documents(document)
print('split complete!')

split complete!


設置llm 及 map 的方式, map 有map_reduce, stuff, refine 等方式
可以翻閱langchain 定義, 嚐試是哪個方法對該場景最佳, 簡述如下:
* stuff: 全部都丟進llm, 缺點是文本很大的話, 會超出token(即使gpt-3.5-turbo 16k)
* map reduce: 是文本切割, 後兩兩summary 合併, 逐步減少
* refine: 文本切割, 由上至下, 兩個material 合併完後的結論再跟下一個material 合併.

以目前我個人試用, map_reduce 即可.

In [27]:
def get_prompt_summary_string():
 return """使用中文替下面內容做個精簡摘要:

{text}

精簡摘要:"""

from langchain.chains.summarize import load_summarize_chain

llm = AzureChatOpenAI(
 deployment_name=global_deployment_id,
 model_name=global_model_name,
 temperature=0.2
)

map_prompt = get_prompt_summary_string()
map_prompt_template = PromptTemplate(template=map_prompt, input_variables=["text"])

chain = load_summarize_chain(
 llm=llm,
 chain_type="map_reduce",
 verbose=True,
 map_prompt=map_prompt_template,
 combine_prompt=map_prompt_template
)

output = chain({"input_documents": split_documents}, return_only_outputs=True)



[1m> Entering new chain...[0m


[1m> Entering new chain...[0m
Prompt after formatting:
[32;1m[1;3m使用中文替下面內容做個精簡摘要:

Culture in a Hybrid World

Published 28 April 2022 - ID G00768936 - 21 min read

By Analyst(s): HR Practitioner Research Team

Initiatives: Employee Experience; Future of Work Reinvented Resource Center

The organizational cultural experience has irrevocably changed,

and efforts to connect employees to it in the new work environment are failing. Only one in four employees feel connected

to their organization’s culture. HR leaders must move to an

intentional approach to drive culture impact outcomes.

More on This Topic This is part of an in-depth collection of research. See the collection:

■

Talent Management Leader Resource Guide for Managing Organizational Culture

Overview

As organizations plan and launch their postpandemic work design strategies, many

leaders are using organizational culture as the key justification for bringing employees

back into the

Retrying langchain.chat_models.openai.ChatOpenAI.completion_with_retry.._completion_with_retry in 1.0 seconds as it raised Timeout: Request timed out: HTTPSConnectionPool(host='civet-project-001.openai.azure.com', port=443): Read timed out. (read timeout=600).



[1m> Finished chain.[0m






[1m> Entering new chain...[0m


[1m> Entering new chain...[0m
Prompt after formatting:
[32;1m[1;3m使用中文替下面內容做個精簡摘要:

隨著組織文化經驗的不可撤銷的變化,企業在新的工作環境中與員工建立聯繫的努力正在失敗。只有四分之一的員工感到與他們所在組織的文化有聯繫。人力資源領導者必須採取有意識的方法來推動文化影響結果。隨著組織計劃和推出後疫情工作設計策略,許多領導者正在使用組織文化作為將員工帶回辦公室的關鍵理由。沒有面對面的體驗和雇主控制的時間,員工對組織文化的聯繫感正在減弱。

全球遠程工作實驗已經不可逆轉地改變了員工體驗企業文化的方式,需要領導者適應新的現實,通過更少依靠滲透,更多依靠有意識的實踐,引領員工在新的工作環境中與組織文化建立聯繫。目前,混合或遠程知識工作者只有四分之一與其組織文化建立聯繫,高層領導人將這些變化歸咎於缺乏文化聯繫。

強制員工返回辦公室以維護以前的文化聯繫方式將會逆轉,因為靈活性和聯繫之間存在顯著的聯繫。文化聯繫可以提高員工表現達37%,提高員工保留率達36%。混合工作打破了傳統的文化體驗,以前的文化體驗主要由三個體驗屬性來定義。

在辦公室、與同事面對面交流、與大量人互動等情境下,員工能夠被環境和同事所包圍,從而被動地學習和鞏固文化行為。然而,COVID-19疫情迫使許多知識工作者進入遠程工作環境,並導致辦公室重新開放後採用更混合的工作設計。

遠程工作徹底改變了這些文化體驗的特點:辦公時間減少65%,面對面互動減少,生態系縮小。許多領導者認為這些變化會對文化產生持久的損害。CEO們將文化視為他們在現場最關注的問題。

知識工作者的辦公室和在家工作政策,以及人力資源領導者調整現有文化以支持混合工作模式是最具挑戰性的方面。文化對於員工在工作中成功仍然至關重要,76%的員工表示文化對他們有效地完成工作非常重要。61%的人力資源領導者表示,在混合工作模式中,為實現組織目標,文化比在現場工作模式中更重要。因此,領導者有充分理由關注文化。

隨著混合式設計對文化體驗帶來的變化,許多領導者將文化定義為“我們在這裡的做事方式”。然而,當沒有一個“如何”和沒有一個“這裡”時,文化是什麼?為了讓文化真正成功,員工必須與之相連並對之保持一致




[1m> Finished chain.[0m

[1m> Finished chain.[0m


[1m> Entering new chain...[0m


[1m> Entering new chain...[0m
Prompt after formatting:
[32;1m[1;3m使用中文替下面內容做個精簡摘要:

企業在新的工作環境中與員工建立聯繫的努力正在失敗,只有四分之一的員工感到與他們所在組織的文化有聯繫。人力資源領導者必須採取有意識的方法來推動文化影響結果。混合工作打破了傳統的文化體驗,以前的文化體驗主要由三個體驗屬性來定義。在辦公室、與同事面對面交流、與大量人互動等情境下,員工能夠被環境和同事所包圍,從而被動地學習和鞏固文化行為。然而,COVID-19疫情迫使許多知識工作者進入遠程工作環境,並導致辦公室重新開放後採用更混合的工作設計。混合工作是一個機會,而不是一個干擾。雇主必須停止將混合工作視為文化體驗的干擾,並採取措施解決聯繫問題。

在混合辦公環境中,員工與文化的聯繫將成為新的文化常態。領導者應該確定員工最有可能感到被看到的時刻,以建立情感接近感,並將其與文化聯繫起來。從宏觀體驗優化轉變為微觀體驗優化,領導者必須使團隊能夠創建充滿活力和健康的微型文化,這將創造更大的聯繫機會。在混合工作模式下,員工與多個人互動的積極影響被稀釋了,因此高層領導必須開始裝備團隊形成微型文化,以確保健康而非有毒性。

Gartner研究机构的一份报告指出,员工更容易在微观层面上感受到文化的聯繫,而微观层面的體验可以增加聯繫度高達19%。然而,傳統上,組織往往不願意接受微文化。要提升組織的聯繫性,必須擺脫壞的微文化和最好容忍它們的做法,而是應該接納和培養它們的存在。荷兰皇家DSM公司採用簡約的方式來建立企業文化,其文化指南由六個簡單的文化屬性組成,並且沒有詳細的描述。建议人力資源主管尋求實施更有意圖性的文化聯繫方法,通過工作而非辦公室來傳播文化,通過情感接近而非身體接近來建立聯繫。

精簡摘要:[0m

[1m> Finished chain.[0m

[1m> Finished chain.[0m

[1m> Finished chain.[0m


### Vector DB
目前我們使用local vector db(Chroma), 線上好用的是pinecone
任何擴充內部知識的場景,不管是使用者臨時上傳文件要分析,還是先在後台上傳大量的文件來做知識庫擴充,都是使用vector來儲存
基本概念如下:

![image.png](attachment:b943c1f8-da6a-46b3-ad62-5a776e9c6961.png)

相關的流程如下:

![image.png](attachment:c742db38-3c55-4790-ac1c-35d95557bfaa.png)

一個簡單的Vector DB 取用範例如下:

In [None]:
##存文件進去
def initial_croma_db(db_name, files_path, file_ext, collection_name):
 _db_name = db_name

 documents = multidocs_loader(files_path, file_ext)
 ##embedded 是一種向量化的model, azure 有提供
 embeddings = OpenAIEmbeddings(
 deployment="CivetGPT_embedding",
 model="text-embedding-ada-002",
 openai_api_base="https://civet-project-001.openai.azure.com/",
 openai_api_type="azure",
 openai_api_key = "0e3e5b666818488fa1b5cb4e4238ffa7",
 chunk_size=1
 )

 chroma_db = Chroma.from_documents(
 documents,
 embeddings,
 collection_name = collection_name,
 persist_directory= root_file_path+ persist_db,
 chroma_db_impl=chroma_db_impl
 )

 chroma_db.persist()
 print('vectorstore done!')

#詢問問題
def local_vector_search(question_str,
 chat_history,
 collection_name = hr_collection_name):
 embedding = get_openaiembeddings()
 vectorstore = Chroma( embedding_function=embedding,
 collection_name=collection_name,
 persist_directory=root_file_path+persist_db,
 )

 memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True, ai_prefix = "AI超級助理")

 llm = AzureOpenAI(
 deployment_name = global_deployment_id,
 model_name= global_model_name,
 temperature = 0.0)

 chat_llm = AzureChatOpenAI(
 deployment_name = global_deployment_id,
 model_name= global_model_name,
 temperature = 0.0)

 prompt = PromptTemplate(
 template=get_prompt_template_string(),
 input_variables=["question","chat_history"]
 )
 prompt.format(question=question_str,chat_history=chat_history)
 km_chain = ConversationalRetrievalChain.from_llm(
 llm=chat_llm,
 retriever=vectorstore.as_retriever(),
 memory=memory,
 condense_question_prompt=prompt,
 )
 
 result=km_chain(question_str)
 print(result)

### Agent
幫忙使用者做事情. 
與Chain 的差別在於是Agent 是更上層. 它可以將各個Chain 視做一種Tool, Agent 會依照ReAct framework 或是MRKL 框架來決定該取用什麼工具來解決什麼問題, 因此在概念上它比Chain 要再上層.
Agent 可以視為主動把一個大的Task 拆解為小的Task, 並選擇適當的工具來解決小的Task 後, 集合而成大的Task 結果.

In [None]:
def agent_demo():
 #其他chat_llm 的宣告需要自己寫
 
 km_tool = Tool(
 name='Knowledge Base',
 func=km_chain.run,
 description='一個非常有用的工具, 當要查詢任何公司政策以及鴻海相關資料都使用這個工具'
 )

 math_math = LLMMathChain(llm=llm,verbose=True)
 math_tool = Tool(
 name='Calculator',
 func=math_math.run,
 description='Useful for when you need to answer questions about math.'
 )

 tools=[math_tool,km_tool]
 agent=initialize_agent(
 agent=AgentType.OPENAI_FUNCTIONS,
 tools=tools,
 llm=chat_llm,
 verbose=True,
 memory=memory,
 max_iterations=30,
 )
 result=agent.run(question_str)
 print(result)


## CallBack
可以利用Callback 來紀錄問答內容, 以及token, 使用者等原始資料
* 來做為AI detector 的原始訓練紀錄
* 產出週報月報的內容

In [None]:
chain = LLMChain(llm=llm, prompt=prompt, callbacks=[handler])
chain.invoke({"number":2})
chain.invoke({"number":2}, {"callbacks":[handler]})

# Local LLM
目前在虎躍雲上有GPU Inference Server
ip:

### 擁有的Open Source LLM
