Spaces:
Sleeping
Sleeping
from langchain.text_splitter import RecursiveCharacterTextSplitter | |
from langchain_openai import OpenAIEmbeddings | |
from langchain_community.vectorstores import FAISS | |
from langchain_pinecone import PineconeVectorStore | |
from langchain_core.documents import Document | |
from langchain_openai import ChatOpenAI | |
from langchain_core.output_parsers import StrOutputParser | |
from langchain_core.prompts import PromptTemplate | |
from uuid import uuid4 | |
import unicodedata | |
def remove_non_standard_ascii(input_string: str) -> str: | |
normalized_string = unicodedata.normalize('NFKD', input_string) | |
return ''.join(char for char in normalized_string if 'a' <= char <= 'z' or 'A' <= char <= 'Z' or char.isdigit() or char in ' .,!?') | |
def get_text_from_content_for_doc(content): | |
text = "" | |
for page in content: | |
text += content[page]["texte"] | |
return text | |
def get_text_from_content_for_audio(content): | |
return content["transcription"] | |
def get_text_chunks(text): | |
text_splitter = RecursiveCharacterTextSplitter( | |
chunk_size=500, # the character length of the chunck | |
chunk_overlap=100, # the character length of the overlap between chuncks | |
length_function=len # the length function - in this case, character length (aka the python len() fn.) | |
) | |
chunks = text_splitter.split_text(text) | |
return chunks | |
def get_vectorstore(text_chunks,filename, file_type,namespace,index): | |
try: | |
embedding = OpenAIEmbeddings(model="text-embedding-3-large") | |
vector_store = PineconeVectorStore(index=index, embedding=embedding,namespace=namespace) | |
file_name = filename.split(".")[0].replace(" ","_").replace("-","_").replace(".","_").replace("/","_").replace("\\","_").strip() | |
documents = [] | |
uuids = [] | |
for i, chunk in enumerate(text_chunks): | |
clean_filename = remove_non_standard_ascii(file_name) | |
document = Document( | |
page_content=chunk, | |
metadata={"filename":filename,"file_type":file_type, "filename_id":clean_filename}, | |
) | |
uuid = f"{clean_filename}_{i}" | |
uuids.append(uuid) | |
documents.append(document) | |
vector_store.add_documents(documents=documents, ids=uuids) | |
return {"filename_id":clean_filename} | |
except Exception as e: | |
print(e) | |
return False | |
def get_retreive_answer(enterprise_id,prompt,index): | |
try: | |
embedding = OpenAIEmbeddings(model="text-embedding-3-large") | |
vector_store = PineconeVectorStore(index=index, embedding=embedding,namespace=enterprise_id) | |
retriever = vector_store.as_retriever( | |
search_type="similarity_score_threshold", | |
search_kwargs={"k": 3, "score_threshold": 0.6}, | |
) | |
response = retriever.invoke(prompt) | |
return response | |
except Exception as e: | |
print(e) | |
return False | |
def generate_response_via_langchain(query: str, stream: bool = False, model: str = "gpt-4o-mini",context:str="",messages = [],style:str="formal",tonality:str="neutral"): | |
# Define the prompt template | |
template = "En tant qu'IA experte en marketing, réponds avec un style {style} et une tonalité {tonality} dans ta communcation, sachant le context suivant: {context}, et l'historique de la conversation: {messages}, {query}" | |
template = ''' | |
Vous êtes un spécialiste de la communication marketing responsable avec une expertise en stratégie de communication numérique, en gestion des médias sociaux, en création de contenu, en notoriété de la marque et en engagement communautaire. | |
Je vous fournirai des détails concernant le {style}, la {tonality}, mon entreprise, les contextes spécifiques et les conversations passées afin d'assurer une intégration transparente dans nos projets. Vos tâches comprennent le développement de matériel de marketing numérique engageant et informatif tel que des tweets, des posts LinkedIn, et des newsletters alignés sur Vegetaelis 2024 - le Salon de l'Innovation Végétale et de la Transition Agroécologique qui aura lieu à Pau les 21 et 22 novembre 2024. | |
Pour chaque tâche, suivez les étapes suivantes : | |
Analyser les préférences des utilisateurs et les exigences du projet à partir des paramètres donnés. | |
Effectuer des recherches sur le sujet et intégrer les tendances actuelles si nécessaire. | |
Créer un contenu captivant adapté au format demandé (message sur Twitter, article sur LinkedIn ou lettre d'information). | |
Relire attentivement les textes pour s'assurer qu'ils respectent la grammaire, la ponctuation et la cohérence stylistique. | |
Livrer le document final en veillant à ce qu'il réponde à toutes les attentes et à toutes les lignes directrices. | |
Le résultat doit être attrayant, informatif, rédigé de manière professionnelle, cohérent avec le style et la tonalité spécifiés, doté des hashtags appropriés si nécessaire, et représentatif des valeurs de l'entreprise de l'utilisateur et des normes de l'industrie. | |
''' | |
prompt = PromptTemplate.from_template(template) | |
# Initialize the OpenAI LLM with the specified model | |
llm = ChatOpenAI(model=model) | |
# Create an LLM chain with the prompt and the LLM | |
llm_chain = prompt | llm | StrOutputParser() | |
if stream: | |
# Return a generator that yields streamed responses | |
return llm_chain.astream({ "query": query, "context": context, "messages": messages, "style": style, "tonality": tonality }) | |
# Invoke the LLM chain and return the result | |
return llm_chain.invoke({"query": query, "context": context, "messages": messages, "style": style, "tonality": tonality}) | |
def setup_rag(file_type,content): | |
if file_type == "pdf": | |
text = get_text_from_content_for_doc(content) | |
elif file_type == "audio": | |
text = get_text_from_content_for_audio(content) | |
chunks = get_text_chunks(text) | |
vectorstore = get_vectorstore(chunks) | |
return vectorstore | |