gutgut

Paused

Carlos Rosas commited on Nov 19, 2024

Commit

2085d31

verified ·

1 Parent(s): 89c250e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -54,23 +54,23 @@ def hybrid_search(text):
         title = row['section']
         content = row['text']
-        document.append(f"<|source_id_start|>{hash_id}<|source_id_end|>\n{content}")
-        document_html.append(f'<div class="source" id="{hash_id}"><p><b>{hash_id}</b> : <br>{content}</div>')
-    document = "\n\n".join(document)
     document_html = '<div id="source_listing">' + "".join(document_html) + "</div>"
     return document, document_html
 class CassandreChatBot:
-    def __init__(self, system_prompt="Tu es Appli, un asistant de recherche qui donne des responses sourcées"):
         self.system_prompt = system_prompt
     def predict(self, user_message):
         fiches, fiches_html = hybrid_search(user_message)
-        detailed_prompt = f"""<|query_start|>{user_message}<|query_end|>\n### Source ###\n{fiches}\n\n<|source_analysis_start|>\n"""
-        # Convert inputs to tensor
         input_ids = tokenizer.encode(detailed_prompt, return_tensors="pt").to(device)
         attention_mask = torch.ones_like(input_ids)
@@ -88,7 +88,7 @@ class CassandreChatBot:
                 eos_token_id=tokenizer.eos_token_id
             )
-            # Only decode the new tokens by slicing from the input length
             generated_text = tokenizer.decode(output[0][len(input_ids[0]):])
             generated_text = '<h2 style="text-align:center">Réponse</h3>\n<div class="generation">' + format_references(generated_text) + "</div>"

         title = row['section']
         content = row['text']
+        document.append(f"<|source_start|><|source_id_start|>{hash_id}<|source_id_end|>{title}\n{content}<|source_end|>")
+        document_html.append(f'<div class="source" id="{hash_id}"><p><b>{hash_id}</b> : {title}<br>{content}</div>')
+    document = "\n".join(document)
     document_html = '<div id="source_listing">' + "".join(document_html) + "</div>"
     return document, document_html
 class CassandreChatBot:
+    def __init__(self, system_prompt="Tu es un asistant de recherche qui donne des responses sourcées"):
         self.system_prompt = system_prompt
     def predict(self, user_message):
         fiches, fiches_html = hybrid_search(user_message)
+        detailed_prompt = f"""<|query_start|>{user_message}<|query_end|>\n{fiches}\n<|source_analysis_start|>"""
         input_ids = tokenizer.encode(detailed_prompt, return_tensors="pt").to(device)
         attention_mask = torch.ones_like(input_ids)
                 eos_token_id=tokenizer.eos_token_id
             )
+            # Decode only the new tokens
             generated_text = tokenizer.decode(output[0][len(input_ids[0]):])
             generated_text = '<h2 style="text-align:center">Réponse</h3>\n<div class="generation">' + format_references(generated_text) + "</div>"