jorge-henao commited on
Commit
28ed40d
·
1 Parent(s): 7e17153

Update about.py

Browse files
Files changed (1) hide show
  1. about.py +36 -7
about.py CHANGED
@@ -4,16 +4,44 @@ import streamlit as st
4
  def show_about_ask2democracy():
5
  description = """
6
  <h2>Sobre esta iniciativa</h2>
7
- <p>El debate ciudadano generalmente está sustentado en documentos que salvo pocas excepciones, casi nadie lee.
8
  En este demo se han indexado algunos textos relevantes para la discución pública que suelen estar dispersos y poco accesibles. Además, se apoya en el estado del arte de la inteligencia artificial (abajo más detalles) , permitiendo explorar los documentos haciéndoles preguntas en español.
9
  <p>
10
- También se busca contribuir a la inteligencia artificial abierta y en español, mediante la construcción de un dataset y el entrenamiento de un modelo de lenguaje adaptado para las discusiones ciudadanas. Algo que puede ayudar a elevar la calidad del debate en todos los países de habla hispana.
11
  <p>
12
- Textos indexados: Propuesta reforma pensional de Marzo 22 de 2023, Propuesta reforma de la salud del 13 febrero 2023 , Capítulo de hallazgos y recomendaciones de la comisión de la verdad (trabajo en progreso, si quieres apoyar escríbeme)
 
 
 
 
 
13
  <div align="right">
14
  Creado por Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'>LinkedIn</a> <a href="https://linktr.ee/jorgehenao" target='_blank'>Linktree</a>
 
 
15
  </div>
16
  <p>
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
17
  <h2>¿Cómo utilizar este espacio?</h2>
18
  Selecciona el de documento que quieres explorar en el panel de la izquierda, escribe preguntas en la caja de texto y presiona el botón.
19
  No se trata de un sistema de búsquedas basado en palabras clave, por el contrario, puedes redactar preguntas más extensas y elaboradas. Cuanto más contexto le des a la pregunta mejores resultados obtienes.
@@ -27,16 +55,17 @@ def show_about_ask2democracy():
27
  Pretende ayudar a construir democracia participativa apaloncándose en el estado del arte de la inteligencia artificial.
28
  Al ser un demo accesible en web, puede ayudarle a un ciudadano del común a tener una opinión más informada, ayudándole a ser partícipe del debate público haciendo preguntas directamente a las fuentes en su propio lenguaje y llegando a sus propias conclusiones.
29
  <p><p>
30
- Respecto a la inteligencia artificial hay algunas hipótesis que se quieren probar:
31
  <ul>
32
  <li> ¿Que tan efectivo puede ser un sistema de búsquedas con modelos de inteligencia artificial abiertos, para ayudar a la gente a entender discuciones ciudadanas relevantes en español? </li>
33
  <li> ¿Que tan creativa puede ser la ingeligencia artificial en esa materia?</li>
34
  <li> ¿Puede la inteligencia artificial abierta, ayudarle a la gente a entender documentos legislativos: propuestas de reforma, planes de gobierno, y en general documentos de discución pública?</li>
35
- <li> ¿Puede la inteligencia artificial abierta igualar o mejorar sistemas como ChatGPT/GPT-4 de OpenAI para el entendimiento de discusiones ciudadanas en español?</li>
36
  </ul>
37
- Por lo anterior se prentende la construcción de un dataset. Dataset usado para entrenar(fine-tunning) uno o más modelos(Bert/GPT-2/Alpaca...) adapatado a discuciones ciudadanas en español.
38
- Algo que puede ayudar a elevar el nivel del debate público en paises de habla hispana.
39
  <h2>Ask2Democracy v0.3</h2>
 
40
  Esta version usa sentence transformers (Cosine similarity), una base de dactos vectorial Pinecone para almacenar los embeddings, Haystack framework y la integración con OpenAI.
41
  Los modelos de lenguaje transformers utilizados son:
42
  <code>
 
4
  def show_about_ask2democracy():
5
  description = """
6
  <h2>Sobre esta iniciativa</h2>
7
+ <p>El debate ciudadano generalmente está sustentado en documentos que salvo pocas excepciones, casi nadie lee.
8
  En este demo se han indexado algunos textos relevantes para la discución pública que suelen estar dispersos y poco accesibles. Además, se apoya en el estado del arte de la inteligencia artificial (abajo más detalles) , permitiendo explorar los documentos haciéndoles preguntas en español.
9
  <p>
10
+ Por otro lado, las alucinaciones generadas por modelos de lenguaje grandes como ChatGPT/GPT-4 son un problema que en la práctica resulta en desinformación y posibles consecuencias aún desconocidas. OpenAI ha liderado el camino en el control de estas alucinaciones mediante el uso de RLHF para generar texto a partir del conocimiento "congelado" de los modelos de lenguaje. Sin embargo, esta aproximación no es viable en muchos dominios específicos.
11
  <p>
12
+ En este demo se aborda el problema de las alucinaciones utilizando una arquitectura RAG, Retrieval Augmented Generation. En el pipeline de consulta, se utilizan modelos sentence transformers para obtener el top k de documentos candidatos, modelos Roberta para generar respuestas abstractas tomadas de las fuentes y modelos generativos para aumentar las respuestas.
13
+ Dándole un estilo conversacional similar al de ChatGPT pero basado en fuentes.
14
+ <p>
15
+ También se busca contribuir a la inteligencia artificial abierta y en español, mediante la construcción de datasets y el entrenamiento de modelos de lenguaje adaptados para las discusiones democráticas. Algo que puede ayudar a elevar la calidad del debate en todos los países de habla hispana.
16
+ <p>
17
+ Textos indexados: Propuesta reforma pensional de Marzo 22 de 2023, Propuesta reforma de la salud del 13 febrero 2023 , Capítulo de hallazgos y recomendaciones de la comisión de la verdad sobre el conflicto armado Colombiano (trabajo en progreso, si quieres apoyar escríbeme)
18
  <div align="right">
19
  Creado por Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'>LinkedIn</a> <a href="https://linktr.ee/jorgehenao" target='_blank'>Linktree</a>
20
+ <br>
21
+ Con el apoyo de David Torres 🇨🇴 <a href="https://twitter.com/davinci137" target='_blank'>Twitter</a> <a href="https://github.com/datorresb" target='_blank'>LinkedIn</a>
22
  </div>
23
  <p>
24
+ <h2>Sobre el trabajo realizado durante la Hackathon Somos NLP 2023</h2>
25
+ Las siguientes contribuiciones fueron realizadas durante las fechas de la Hackathon (20 de Marzo al 9 de Abril de 2023):
26
+ <h4>En el espacio demo:</h4>
27
+ <ul>
28
+ <li>Refactor/Ajustes de integración con la base de datos vectorial Pinecone.</li>
29
+ <li>Pre-procesado e indexación de la propuesta de reforma pensional de Colombia de Marzo 2023.</li>
30
+ <li>Refactor UX y ajustes de usabilidad de la interfaz de usuario.</li>
31
+ <li>Ajustes de integración con OpenAI</li>
32
+ <li>Pruebas/Ajustes en el pipeline de consulta Sentence transformers usando texto en español y xlm-roberta-base-squad2-distilled</li>
33
+ </ul>
34
+ <h4>Modelos de lenguaje:</h4>
35
+ Fueron entrenados dos modelos Baizemocracy basados en LLaMA-7B con foco en aumentar los documentos retornados en el pipeline de consulta, con el fin de hacerlo más conversacional usando modelos open source en español.
36
+ Los siguientes modelos fueron entrenados entrenados con un dataset construido durante la hackathon además de varios datasets orientados a Question answering y Chat.
37
+ <ul>
38
+ <li><a href="https://huggingface.co/hackathon-somos-nlp-2023/baizemocracy-lora-7B-cfqa">baizemocracy-lora-7B-cfqa</a>: Esta variación del modelo es más enfocada en generar respuestas factuales dado un contexto basado en fuentes.</li>
39
+ <li><a href="https://huggingface.co/hackathon-somos-nlp-2023/baizemocracy-lora-7B-cfqa-conv">baizemocracy-lora-7B-cfqa-conv</a>: Esta variación del modelo tiene un estílo más conversacional para generar respuestas factuales dado un contexto basado en fuentes.</li>
40
+ </ul>
41
+ <h4>Datasets:</h4>
42
+ <ul>
43
+ <li><a href="https://huggingface.co/datasets/hackathon-somos-nlp-2023/ask2democracy-cfqa-salud-pension">ask2democracy-cfqa-salud-pension</a>: Un datset de tipo instrucciones con respuestas a preguntas generadas a partir de en un contexto basado en fuentes.</li>
44
+ </ul>
45
  <h2>¿Cómo utilizar este espacio?</h2>
46
  Selecciona el de documento que quieres explorar en el panel de la izquierda, escribe preguntas en la caja de texto y presiona el botón.
47
  No se trata de un sistema de búsquedas basado en palabras clave, por el contrario, puedes redactar preguntas más extensas y elaboradas. Cuanto más contexto le des a la pregunta mejores resultados obtienes.
 
55
  Pretende ayudar a construir democracia participativa apaloncándose en el estado del arte de la inteligencia artificial.
56
  Al ser un demo accesible en web, puede ayudarle a un ciudadano del común a tener una opinión más informada, ayudándole a ser partícipe del debate público haciendo preguntas directamente a las fuentes en su propio lenguaje y llegando a sus propias conclusiones.
57
  <p><p>
58
+ Respecto a la inteligencia artificial hay algunas hipótesis que se quieren probar:
59
  <ul>
60
  <li> ¿Que tan efectivo puede ser un sistema de búsquedas con modelos de inteligencia artificial abiertos, para ayudar a la gente a entender discuciones ciudadanas relevantes en español? </li>
61
  <li> ¿Que tan creativa puede ser la ingeligencia artificial en esa materia?</li>
62
  <li> ¿Puede la inteligencia artificial abierta, ayudarle a la gente a entender documentos legislativos: propuestas de reforma, planes de gobierno, y en general documentos de discución pública?</li>
63
+ <li> ¿Puede un sistema RAG usando modelos abiertos mejorar las halucinaciones presentadas en sistemas como ChatGPT/GPT-4 de OpenAI para el entendimiento de discusiones democráticas en español?</li>
64
  </ul>
65
+ Por lo anterior, se busca contribuir a la inteligencia artificial abierta y en español, mediante la construcción de datasets y el entrenamiento de modelos de lenguaje adaptados para las discusiones democráticas.
66
+ Algo que puede ayudar a elevar la calidad del debate en todos los países de habla hispana.
67
  <h2>Ask2Democracy v0.3</h2>
68
+ Se utiliza una arquitectura RAG(Retrieval Augmented Generation) para aumentar las respuestas basadas en fuentes de manera conversacional.
69
  Esta version usa sentence transformers (Cosine similarity), una base de dactos vectorial Pinecone para almacenar los embeddings, Haystack framework y la integración con OpenAI.
70
  Los modelos de lenguaje transformers utilizados son:
71
  <code>