Spaces:

JoseAntonioBarrancoBernabe
/

TFMUOC

Sleeping

File size: 11,018 Bytes

d5f44d7


##Instalación de paquetes necesarios
import streamlit as st
import os
import time
import torch
from utils import *
from dotenv import load_dotenv
load_dotenv()

##import nest_asyncio
##nest_asyncio.apply()
from llama_parse import LlamaParse

from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import VectorStoreIndex, ServiceContext
from llama_index.core import SimpleDirectoryReader
from llama_index.core import Settings
######   

## titulos y cabeceras 
st.set_page_config('compare PDF por LLM')
st.title("Comparar PDFs mediante LLM")
st.subheader("Campos a comparar en tu PDF",divider='rainbow')

OPENAI_API_KEY = st.text_input('OpenAI API Key', type='password')
LLAMA_CLOUD_API_KEY = st.text_input('LLAMA API Key', type='password')

####  Inicializar mensajes de chat 
if "messages" not in st.session_state.keys():
    st.session_state.messages = [
        {"role": "assistant", "content": "Ask me a question about PDFs files you provided me"}
    ]

@st.cache_resource(show_spinner=False) # Añade decorador de caché
def cargar_embedmodel_y_llmmodel():
    return True
    
#esta variable es para tener aqui un listado de aquellos ficheros que se han ido subiendo
archivos = [] 

## carga y almacenamiento de ficheros almacenada, acepta varios.
with st.sidebar:
    archivos = load_name_files(FILE_LIST)
    files_uploaded = st.file_uploader(
        "Carga tus ficheros PDF",
        type="pdf",
        accept_multiple_files=True,
        on_change=st.cache_resource.clear
        )  

    if st.button("Guardar y procesar por LLM", type="secondary",help="donde buscará lo que comparará"):
        for pdf in files_uploaded:
            if pdf is not None and pdf.name not in archivos:
                archivos.append(pdf.name)
             
        archivos = save_name_files(FILE_LIST, archivos)
    

    if len(archivos)>0:
        st.write('Los archivos PDF se han cargados:')
        lista_documentos = st.empty()
        with lista_documentos.container():
            for arch in archivos:
                st.write(arch)
            if st.button('Borrar ficheros'):
                archivos = []
                clean_files(FILE_LIST)
                lista_documentos.empty()


# comprueba que hay archivos a ser tratados
if len(archivos)>0:
# comprueba que hay consulta a responder   
   if user_question := st.chat_input("Realizar consulta:"): 
      st.session_state.messages.append({"role": "user", "content": user_question})

   if user_question: 
        for message in st.session_state.messages: # Muestra anteriores mensajes
            with st.chat_message(message["role"]):
              st.write(message["content"])

        alert = st.warning("Sea paciente") # Mensaje de aviso o warning al usuario
        time.sleep(3) # establece tiempo espera en 3 segundos
        alert.empty() # borra el aviso 

# se define el analizador-parser de los documentos.
        os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY
        parser = LlamaParse(
##      api_key=os.environ["LLAMA_CLOUD_API_KEY"],    ##API de acceso a Cloud de LlamaIndex
        api_key=LLAMA_CLOUD_API_KEY,     
        result_type="markdown",                       # se toma "markdown", tambien hay text disponible 
        verbose=True,
        )

        cargar_embedmodel_y_llmmodel()

#se parametrizan los modelos de embedding y LLM        
        embed_model=OpenAIEmbedding(model="text-embedding-3-small")   #embeddings para base de conocimiento
        llm = OpenAI(model="gpt-3.5-turbo-0125")                      #modelo LLM usado

        Settings.llm = llm
        Settings.embed_model = embed_model

        
        tratar = load_name_files(FILE_LIST) ##variable que tomará los ficheros a tratar recuperados de funcion
#        st.write(tratar[0]) # se puede desasteriscar en desarrollo para apoyo
#        st.write(tratar[1]) # se puede desasteriscar en desarrollo para apoyo    
        

# Carga de los ficheros mediante LlamaParse, se ejecutará job para cada analizador-parser de los mismos        
        docs_202401 = parser.load_data( f'{tratar[0]}')     
        docs_202402 = parser.load_data( f'{tratar[1]}')
        
#uso de MarkdownElementNodeParser para analizar la salida de LlamaParse mediante un motor de consultas de recuperación(recursivo)
        from llama_index.core.node_parser import MarkdownElementNodeParser
        node_parser = MarkdownElementNodeParser(llm=OpenAI(model="gpt-3.5-turbo-0125"), num_workers=8)  

        import pickle
        from llama_index.postprocessor.flag_embedding_reranker import FlagEmbeddingReranker
# se parametriza el modelo reranker
        reranker = FlagEmbeddingReranker(
            top_n=5,
            model="BAAI/bge-reranker-large",
        )
#funcion para Facilitar el motor de consultas sobre el almacén de vectores, y poderse realizar la recuperación.
        def create_query_engine_over_doc(docs, nodes_save_path=None):
            """Big function to go from document path -> recursive retriever."""
            if nodes_save_path is not None and os.path.exists(nodes_save_path):
                raw_nodes = pickle.load(open(nodes_save_path, "rb"))
            else:
                raw_nodes = node_parser.get_nodes_from_documents(docs)
                if nodes_save_path is not None:
                    pickle.dump(raw_nodes, open(nodes_save_path, "wb"))

            base_nodes, objects = node_parser.get_nodes_and_objects(
                raw_nodes
            )

### Recuperador-retriever
            # indice y motor 
            vector_index = VectorStoreIndex(nodes=base_nodes+objects)
            query_engine = vector_index.as_query_engine(
                similarity_top_k=15,
                node_postprocessors=[reranker]
            )
            return query_engine, base_nodes, vector_index   ###devuelve motor de consultas y nodos
        
## motores de consulta y nodos para cada documento usando la función anterior.
## En los ficheros .pkl se puede ver la estructura de los documentos que ha conformado o analizado y será con la que trabajará.
        query_engine_202401, nodes_202401,vindex1 = create_query_engine_over_doc(
        docs_202401, nodes_save_path="202401_nodes.pkl"
        )
        query_engine_202402, nodes_202402,vindex2 = create_query_engine_over_doc(
        docs_202402, nodes_save_path="202402_nodes.pkl"
        )

        from llama_index.core.tools import QueryEngineTool, ToolMetadata
        from llama_index.core.query_engine import SubQuestionQueryEngine

        from llama_index.core.llms import ChatMessage

# motor de consulta como tool, configuración y contexto de los datos que deberá proveer por los que será consultado
# debajo se usa como motor de subconsultas SubQuestionQueryEngine
        query_engine_tools = [
            QueryEngineTool(
                query_engine=query_engine_202401,
                metadata=ToolMetadata(
                    name="pdf_ENERO",
                    description=(
#                        "Provides information about Datos del Producto for ENERO"
#                        "Provides information about values of fields of Datos del Producto, Titular, Fabricante,Composicion,Envases, Usos y Dosis Autorizados,Plazos de Seguridad"
                                                  """\
                            The documents provided are plant protection product data sheets in PDF format.
                            Provides information about values of fields of Datos del Producto, Titular, Fabricante,Composicion,Envases, 
                            Usos y Dosis Autorizados,Plazos de Seguridad:
                            # Datos del Producto
                            |Numero de Registro|
                            |Estado|
                            |Fechas Inscripción|
                            |Renovación|
                            |Caducidad|
                            |Nombre Comercial|

                            # Titular

                            # Fabricante

                            # Composición

                            # Envases

                            # Usos y Dosis Autorizados
                            |USO|
                            |AGENTE|
                            |Dosis|
                            |Condic. Especifico|

                            """
                    ),
                ),
            ),
            QueryEngineTool(
                query_engine=query_engine_202402,
                metadata=ToolMetadata(
                    name="pdf_FEBRERO",
                    description=(
#                        "Provides information about Datos del Producto for FEBRERO"
#                        "Provides information about values of fields of Datos del Producto, Titular, Fabricante,Composicion,Envases, Usos y Dosis Autorizados,Plazos de Seguridad"
                         """\
                            The documents provided are plant protection product data sheets in PDF format.
                            Provides information about values of fields of Datos del Producto, Titular, Fabricante,Composicion,Envases, 
                            Usos y Dosis Autorizados,Plazos de Seguridad:
                            # Datos del Producto
                            |Numero de Registro|
                            |Estado|
                            |Fechas Inscripción|
                            |Renovación|
                            |Caducidad|
                            |Nombre Comercial|

                            # Titular

                            # Fabricante

                            # Composición

                            # Envases

                            # Usos y Dosis Autorizados
                            |USO|
                            |AGENTE|
                            |Dosis|
                            |Condic. Especifico|

                            """
                    ),
                ),
            ),
        ]
# subconsultas con tool creada a través de SubQuestionQueryEngine
        sub_query_engine = SubQuestionQueryEngine.from_defaults(
            query_engine_tools=query_engine_tools,
            llm=llm
        )

        if "chat_engine" not in st.session_state.keys(): # Initializa motor chat
# para que generen las subconsultas con la consulta-query del usuario           
            streaming_response = sub_query_engine.query(user_question)
        
##      If last message is not from assistant, generate a new response
        if st.session_state.messages[-1]["role"] != "assistant":
            with st.chat_message("assistant"):
                with st.spinner("Thinking..."):    #figura del spinner de streamlit mientras se ejecuta bloque
                     response = st.write(streaming_response.response)  #respuesta entregada a la query-consulta del usuario
                     st.session_state.messages.append({"role": "assistant", "content": response})