Spaces:

alexkueck
/

kkg_suche

Sleeping

App Files Files Community

alexkueck commited on Jun 26, 2024

Commit

670c350

verified ·

1 Parent(s): 74ac068

Update app.py

Browse files

Files changed (1) hide show

app.py +70 -70

app.py CHANGED Viewed

@@ -214,82 +214,82 @@ def search_documents(query):
                 all_texts.append(preprocessed_text)
     if not all_texts:
-        raise ValueError("Keine gültigen Texte nach der Präprozessierung vorhanden.")
-    #und nun entsprechend auch die Query überarbeiten
-    prepro_query = preprocess_text(query)
-    # TF-IDF-Vektorisierung
-    vectorizer = TfidfVectorizer()
-    text_tfidf = vectorizer.fit_transform(all_texts)
-    query_tfidf = vectorizer.transform([prepro_query])
-    # Berechnung der Ähnlichkeit
-    similarities = cosine_similarity(query_tfidf, text_tfidf).flatten()
-    # Sortieren nach Relevanz
-    related_docs_indices = similarities.argsort()[::-1]
-    results = []
-    relevant_text = ""
-    relevant_docs = {}
-    num_pages_per_doc = [len(doc['pages']) for doc in documents]
-    cumulative_pages = [sum(num_pages_per_doc[:i+1]) for i in range(len(num_pages_per_doc))]
-    for i in related_docs_indices:
-        if similarities[i] > 0.3:
-            doc_index = None
-            for idx, cumulative in enumerate(cumulative_pages):
-                if i < cumulative:
-                    doc_index = idx
-                    break
-            if doc_index is None:
-                continue
-            page_index = i if doc_index == 0 else i - cumulative_pages[doc_index-1]
-            doc = documents[doc_index]
-            page = doc['pages'][page_index]
-            page_content = page['content']
-            header_content = page.get('header', '')
-            # Überprüfen, ob der Suchtext in der Überschrift oder im Seiteninhalt enthalten ist
-            index_in_content = page_content.lower().find(prepro_query.lower())
-            index_in_header = header_content.lower().find(prepro_query.lower())
-            # Berücksichtigung der Levenshtein-Distanz
-            # Berücksichtigung der Levenshtein-Distanz
-            words_in_query = prepro_query.split()
-            page_words = preprocess_text(page_content).split()
-            header_words = preprocess_text(header_content).split()
-            if (index_in_content != -1 or index_in_header != -1 or
-                any(fuzz.ratio(word, page_word) > 80 for word in words_in_query for page_word in page_words) or
-                any(fuzz.ratio(word, header_word) > 80 for word in words_in_query for header_word in header_words)):
-                # Erstellen Sie einen Snippet für die Suchergebnisse
-                start = max(0, index_in_content - 400) if index_in_content != -1 else 0
-                end = min(len(page_content), index_in_content + 400) if index_in_content != -1 else len(page_content)
-                snippet = f"Aus <span class='doc-name'>{doc['file']}</span> (Seite <span class='page-number'>{page_index + 1}</span>):<br>"
-                # Fügen Sie die Überschrift hinzu, falls vorhanden
-                if header_content:
-                    snippet += f"<span style='color: #0EDC0E; font-weight: bold;'>Überschrift:  {header_content}</span> <br>"
-                snippet += f"{remove_line_breaks(page_content[start:end])}<br><hr>"
-                relevant_text += snippet
-                if doc['file'] not in relevant_docs:
-                    relevant_docs[doc['file']] = []
-                relevant_docs[doc['file']].append(snippet)
-    # Sortieren nach Relevanz
-    results = sorted(results, key=lambda x: x[1], reverse=True)
-    results = [res[0] for res in results]
-    results = list(relevant_docs.keys())
-    return results, relevant_text

                 all_texts.append(preprocessed_text)
     if not all_texts:
+        return "", ""
+    else:
+        #und nun entsprechend auch die Query überarbeiten
+        prepro_query = preprocess_text(query)
+        # TF-IDF-Vektorisierung
+        vectorizer = TfidfVectorizer()
+        text_tfidf = vectorizer.fit_transform(all_texts)
+        query_tfidf = vectorizer.transform([prepro_query])
+        # Berechnung der Ähnlichkeit
+        similarities = cosine_similarity(query_tfidf, text_tfidf).flatten()
+        # Sortieren nach Relevanz
+        related_docs_indices = similarities.argsort()[::-1]
+        results = []
+        relevant_text = ""
+        relevant_docs = {}
+        num_pages_per_doc = [len(doc['pages']) for doc in documents]
+        cumulative_pages = [sum(num_pages_per_doc[:i+1]) for i in range(len(num_pages_per_doc))]
+        for i in related_docs_indices:
+            if similarities[i] > 0.3:
+                doc_index = None
+                for idx, cumulative in enumerate(cumulative_pages):
+                    if i < cumulative:
+                        doc_index = idx
+                        break
+                if doc_index is None:
+                    continue
+                page_index = i if doc_index == 0 else i - cumulative_pages[doc_index-1]
+                doc = documents[doc_index]
+                page = doc['pages'][page_index]
+                page_content = page['content']
+                header_content = page.get('header', '')
+                # Überprüfen, ob der Suchtext in der Überschrift oder im Seiteninhalt enthalten ist
+                index_in_content = page_content.lower().find(prepro_query.lower())
+                index_in_header = header_content.lower().find(prepro_query.lower())
+                # Berücksichtigung der Levenshtein-Distanz
+                # Berücksichtigung der Levenshtein-Distanz
+                words_in_query = prepro_query.split()
+                page_words = preprocess_text(page_content).split()
+                header_words = preprocess_text(header_content).split()
+                if (index_in_content != -1 or index_in_header != -1 or
+                    any(fuzz.ratio(word, page_word) > 80 for word in words_in_query for page_word in page_words) or
+                    any(fuzz.ratio(word, header_word) > 80 for word in words_in_query for header_word in header_words)):
+                    # Erstellen Sie einen Snippet für die Suchergebnisse
+                    start = max(0, index_in_content - 400) if index_in_content != -1 else 0
+                    end = min(len(page_content), index_in_content + 400) if index_in_content != -1 else len(page_content)
+                    snippet = f"Aus <span class='doc-name'>{doc['file']}</span> (Seite <span class='page-number'>{page_index + 1}</span>):<br>"
+                    # Fügen Sie die Überschrift hinzu, falls vorhanden
+                    if header_content:
+                        snippet += f"<span style='color: #0EDC0E; font-weight: bold;'>Überschrift:  {header_content}</span> <br>"
+                    snippet += f"{remove_line_breaks(page_content[start:end])}<br><hr>"
+                    relevant_text += snippet
+                    if doc['file'] not in relevant_docs:
+                        relevant_docs[doc['file']] = []
+                    relevant_docs[doc['file']].append(snippet)
+        # Sortieren nach Relevanz
+        results = sorted(results, key=lambda x: x[1], reverse=True)
+        results = [res[0] for res in results]
+        results = list(relevant_docs.keys())
+        return results, relevant_text