Spaces:

alexkueck
/

kkg_suche

Sleeping

App Files Files Community

alexkueck commited on Jun 23, 2024

Commit

5d84e6e

verified ·

1 Parent(s): 7fc9240

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -26

app.py CHANGED Viewed

@@ -140,43 +140,43 @@ def search_documents(query):
     similarities = cosine_similarity(query_embedding, text_embeddings).flatten()
     # Sortieren nach Relevanz
-    sorted_indices = similarities.argsort()[::-1]
-    results = [documents[i]['file'] for i in sorted_indices if similarities[i] > 0]
-    results = []
     relevant_text = ""
     relevant_docs = {}
     num_pages_per_doc = [len(doc['pages']) for doc in documents]
     cumulative_pages = [sum(num_pages_per_doc[:i+1]) for i in range(len(num_pages_per_doc))]
     for i in related_docs_indices:
-        if cosine_similarities[i] > 0:
-            doc_index = next(idx for idx, cumulative in enumerate(cumulative_pages) if i < cumulative)
-            page_index = i if doc_index == 0 else i - cumulative_pages[doc_index-1]
-            doc = documents[doc_index]
-            page = doc['pages'][page_index]
-            page_content = page['content']
-            header_content = page.get('header', '')
-            # Überprüfen, ob der Suchtext in der Überschrift oder im Seiteninhalt enthalten ist
-            index_in_content = page_content.lower().find(query.lower())
-            index_in_header = header_content.lower().find(query.lower())
-            if index_in_content != -1 or index_in_header != -1:
-                # Erstellen Sie einen Snippet für die Suchergebnisse
-                start = max(0, index_in_content - 400) if index_in_content != -1 else 0
-                end = min(len(page_content), index_in_content + 400) if index_in_content != -1 else len(page_content)
-                snippet = f"Aus <span class='doc-name'>{doc['file']}</span> (Seite <span class='page-number'>{page_index + 1}</span>):<br>"
-                # Fügen Sie die Überschrift hinzu, falls vorhanden
-                if header_content:
-                    snippet += f"<b>Überschrift:</b> {header_content}<br>"
-                snippet += f"...{page_content[start:end]}...<br><br>"
-                relevant_text += snippet
-                if doc['file'] not in relevant_docs:
-                    relevant_docs[doc['file']] = []
-                relevant_docs[doc['file']].append(snippet)
     results = list(relevant_docs.keys())
     return results, relevant_text

     similarities = cosine_similarity(query_embedding, text_embeddings).flatten()
     # Sortieren nach Relevanz
+    related_docs_indices = similarities.argsort()[::-1]
+    #results = [documents[i]['file'] for i in sorted_indices if similarities[i] > 0]
+    results=[]
     relevant_text = ""
     relevant_docs = {}
     num_pages_per_doc = [len(doc['pages']) for doc in documents]
     cumulative_pages = [sum(num_pages_per_doc[:i+1]) for i in range(len(num_pages_per_doc))]
     for i in related_docs_indices:
+        doc_index = next(idx for idx, cumulative in enumerate(cumulative_pages) if i < cumulative)
+        page_index = i if doc_index == 0 else i - cumulative_pages[doc_index-1]
+        doc = documents[doc_index]
+        page = doc['pages'][page_index]
+        page_content = page['content']
+        header_content = page.get('header', '')
+        # Überprüfen, ob der Suchtext in der Überschrift oder im Seiteninhalt enthalten ist
+        index_in_content = page_content.lower().find(query.lower())
+        index_in_header = header_content.lower().find(query.lower())
+        if index_in_content != -1 or index_in_header != -1:
+            # Erstellen Sie einen Snippet für die Suchergebnisse
+            start = max(0, index_in_content - 400) if index_in_content != -1 else 0
+            end = min(len(page_content), index_in_content + 400) if index_in_content != -1 else len(page_content)
+            snippet = f"Aus <span class='doc-name'>{doc['file']}</span> (Seite <span class='page-number'>{page_index + 1}</span>):<br>"
+            # Fügen Sie die Überschrift hinzu, falls vorhanden
+            if header_content:
+                snippet += f"<b>Überschrift:</b> {header_content}<br>"
+            snippet += f"...{page_content[start:end]}...<br><br>"
+            relevant_text += snippet
+            if doc['file'] not in relevant_docs:
+                relevant_docs[doc['file']] = []
+            relevant_docs[doc['file']].append(snippet)
     results = list(relevant_docs.keys())
     return results, relevant_text