Jorge Henao commited on
Commit
98f2c45
·
1 Parent(s): fd70a0d

multi-qa-mpnet-base-cos-v1

Browse files
__pycache__/pinecode_quieries.cpython-38.pyc CHANGED
Binary files a/__pycache__/pinecode_quieries.cpython-38.pyc and b/__pycache__/pinecode_quieries.cpython-38.pyc differ
 
app_pinecode.py CHANGED
@@ -25,7 +25,8 @@ def search(question, retriever_top_k, reader_top_k):
25
  result = []
26
  for i in range(0, len(query_result)):
27
  item = query_result[i]
28
- result.append([[i+1], item.answer, item.context[:200], item.meta['title'], item.meta['source'], int(item.meta['page'])])
 
29
 
30
  return result
31
 
@@ -69,11 +70,11 @@ if __name__ == "__main__":
69
  # cropped answer
70
  doc = answer[2][:250] + "..."
71
  # and url to the full answer
72
- url = f"https://www.comisiondelaverdad.co/sites/default/files/descargables/2022-06/Informe%20Final%20capi%CC%81tulo%20Hallazgos%20y%20recomendaciones.pdf#page={answer[5]+1}"
73
  # then we display it
74
  #st.markdown(f'{doc}\n<br>Fuente: {answer[4]}\n<br>Capítulo: {answer[3]}\n<br>Página: {answer[5]}\n[**Lee más aquí**]({url})\n', unsafe_allow_html=True)
75
- st.markdown(f"{doc}[**Lee más aquí**]({url})")
76
- st.caption(f"Fuente: {answer[4]} - Capítulo: {answer[3]} - Página: {answer[5]}")
77
 
78
  st.markdown("---")
79
  else:
@@ -81,16 +82,14 @@ if __name__ == "__main__":
81
  _**\"¿cuantas víctimas de desplazamiento en antioquia?\"**_""")
82
  st.markdown("""
83
  <div align="right">
84
- Creado por Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'/>LinkedIn</a>
85
- <br>Con el apoyo de Manuela Gonima en comunicaciones 🇨🇴 <a href="https://www.instagram.com/mgcomunicacionesco/" target='_blank'/>Instagram</a> <a href="https://www.linkedin.com/in/manuela-gonima-carvajal" target='_blank'/>LinkedIn</a>
86
- </div>
87
  """, unsafe_allow_html=True)
88
 
89
  description = """
90
  <p>
91
  <h2>Sobre esta iniciativa</h2>
92
  Se enmarca en la construcción de ciudadanía, la creación de valor público y el fortalecimiento de la democracia participativa desde la invitación a la población a informarse, conocer, compartir y dialogar en torno a la memoria histórica y a la verdad del conflicto armado colombiano, partiendo del Informe de la Comisión de la Verdad, se espera incluir varias fuentes adicionales. Hace parte de un proyecto open-source que utiliza Inteligencia Artificial para contribuir al entendimiento de temas relevantes para el país.<a href= "https://github.com/jorge-henao/ask_to_democracy"> repo en github con FastAPI</a>
93
- </br></br>Por: Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'/>LinkedIn</a>, con el apoyo de Manuela Gónima 🇨🇴 <a href="https://www.instagram.com/mgcomunicacionesco/" target='_blank'/>Instagram</a> <a href="https://www.linkedin.com/in/manuela-gonima-carvajal" target='_blank'/>LinkedIn</a>
94
  <h2>¿Cómo utilizar este espacio?</h2>
95
  Puedes escribir oraciones abiertas como “Masacres en Antioquia”, o una pregunta concreta como “¿cantidad de víctimas en la masacre de bojayá?”. No se trata de un sistema de búsquedas basado en palabras clave, por el contrario, puedes redactar preguntas más extensas y elaboradas. Cuanto más contexto le des a la pregunta, mejor funciona.
96
  <h2>Beta disclaimer</h2>
 
25
  result = []
26
  for i in range(0, len(query_result)):
27
  item = query_result[i]
28
+ #result.append([[i+1], item.answer, item.context[:200], item.meta['title'], item.meta['source'], int(item.meta['page'])])
29
+ result.append([[i+1], item.answer, item.context[:200], item.meta['name']])
30
 
31
  return result
32
 
 
70
  # cropped answer
71
  doc = answer[2][:250] + "..."
72
  # and url to the full answer
73
+ #url = f"https://www.comisiondelaverdad.co/sites/default/files/descargables/2022-06/Informe%20Final%20capi%CC%81tulo%20Hallazgos%20y%20recomendaciones.pdf#page={answer[5]+1}"
74
  # then we display it
75
  #st.markdown(f'{doc}\n<br>Fuente: {answer[4]}\n<br>Capítulo: {answer[3]}\n<br>Página: {answer[5]}\n[**Lee más aquí**]({url})\n', unsafe_allow_html=True)
76
+ #st.markdown(f"{doc}[**Lee más aquí**]({url})")
77
+ #st.caption(f"Fuente: {answer[4]} - Capítulo: {answer[3]} - Página: {answer[5]}")
78
 
79
  st.markdown("---")
80
  else:
 
82
  _**\"¿cuantas víctimas de desplazamiento en antioquia?\"**_""")
83
  st.markdown("""
84
  <div align="right">
85
+ Creado por Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'/>LinkedIn</a> </div>
 
 
86
  """, unsafe_allow_html=True)
87
 
88
  description = """
89
  <p>
90
  <h2>Sobre esta iniciativa</h2>
91
  Se enmarca en la construcción de ciudadanía, la creación de valor público y el fortalecimiento de la democracia participativa desde la invitación a la población a informarse, conocer, compartir y dialogar en torno a la memoria histórica y a la verdad del conflicto armado colombiano, partiendo del Informe de la Comisión de la Verdad, se espera incluir varias fuentes adicionales. Hace parte de un proyecto open-source que utiliza Inteligencia Artificial para contribuir al entendimiento de temas relevantes para el país.<a href= "https://github.com/jorge-henao/ask_to_democracy"> repo en github con FastAPI</a>
92
+ </br></br>Por: Jorge Henao 🇨🇴 <a href="https://twitter.com/jhenaotw" target='_blank'>Twitter</a> <a href="https://www.linkedin.com/in/henaojorge" target='_blank'/>LinkedIn</a>
93
  <h2>¿Cómo utilizar este espacio?</h2>
94
  Puedes escribir oraciones abiertas como “Masacres en Antioquia”, o una pregunta concreta como “¿cantidad de víctimas en la masacre de bojayá?”. No se trata de un sistema de búsquedas basado en palabras clave, por el contrario, puedes redactar preguntas más extensas y elaboradas. Cuanto más contexto le des a la pregunta, mejor funciona.
95
  <h2>Beta disclaimer</h2>
pinecode_quieries.py CHANGED
@@ -36,12 +36,12 @@ class PinecodeProposalQueries(DocumentQueries):
36
  environment = "us-east1-gcp",
37
  index=es_index,
38
  similarity="cosine",
39
- embedding_dim=384
40
  )
41
  #self.retriever = BM25Retriever(document_store = self.document_store)
42
  self.retriever = EmbeddingRetriever(
43
  document_store=self.document_store,
44
- embedding_model="multi-qa-MiniLM-L6-cos-v1",
45
  model_format="sentence_transformers"
46
  )
47
  self.document_store.update_embeddings(self.retriever, batch_size=16)
 
36
  environment = "us-east1-gcp",
37
  index=es_index,
38
  similarity="cosine",
39
+ embedding_dim=768
40
  )
41
  #self.retriever = BM25Retriever(document_store = self.document_store)
42
  self.retriever = EmbeddingRetriever(
43
  document_store=self.document_store,
44
+ embedding_model="multi-qa-mpnet-base-cos-v1",
45
  model_format="sentence_transformers"
46
  )
47
  self.document_store.update_embeddings(self.retriever, batch_size=16)