from pinecone_quieries import PineconeProposalQueries import streamlit as st def show_about_ask2democracy(): description = """
Muchas de las discusiones que ocurren en Colombia generalmente están sustentadas en documentos que salvo pocas excepciones, casi nadie lee. En este demo se han indexado algunos textos relevantes para la discución pública que suelen estar dispersos y poco accesibles. Además, se apoya en el estado del arte de la inteligencia artificial (abajo más detalles) para entender preguntas complejas en español.
También se busca contribuir a la inteligencia artificial abierta y en español, mediante la construcción de un dataset y el entrenamiento de un modelo de lenguaje adaptado para las discusiones ciudadanas. Algo que puede ayudar a elevar la calidad del debate en todos los países de habla hispana.
Textos indexados: Propuesta reforma pensional de Marzo 22 de 2023, Propuesta reforma de la salud del 13 febrero 2023 , Capítulo de hallazgos y recomendaciones de la comisión de la verdad (trabajo en progreso, si quieres apoyar escríbeme)
Nota:El sistema no guarda tu API key, sólo la utiliza para aumentar tus consultas mientras lo uses.
Modelos cerrados como ChatGPT /GPT-4 son asombrosos pero alusinan y tienen conocimiento limitado del mundo después de 2021. Respecto a la inteligencia artificial hay algunas hipótesis que se quieren probar: - ¿Que tan efectiva puede ser un sistema de búsquedas con un modelo de inteligencia artificial abierto, para ayudar a la gente a entender discuciones ciudadanas relevantes? - ¿Que tan creativa puede ser en esa materia? - ¿Puede un modelo de inteligencia artificial abierta, ayudarle a la gente a entender documentos legislativos: propuestas de reforma, planes de gobierno, y en general documentos de discución pública? - ¿Puede un modelo abierto igualar o mejorar a un modelo como ChatGPT/GPT-4 de OpenAI para el entendimiento de discusiones ciudadanas en español?
Por lo anterior hay tres frentes de experimentación: -Abstactive Question Answering: Usando modelos de lenguaje para entender el lenguaje español, y extraer respuestas a preguntas complejas. -Text Generation: Usando modelos de lenguaje para entender el lenguaje español, y generar respuestas a preguntas complejas. -Rag: Usando modelos de lenguaje para entender el lenguaje español, y generar respuestas a preguntas complejas. Por lo que se prentende la construcción de un dataset SQuAD. Dataset usado para entrenar(fine-tunning) uno o más modelos(Bert/GPT-2/Apalaca...) adapatado a discuciones ciudadanas en español. Algo que puede ayudar a elevar el nivel del debate público en paises de habla hispana.
sentence-transformers/multi-qa-MiniLM-L6-cos-v1
deepset/xlm-roberta-base-squad2-distilled
repo en github con FastAPI