Update app.py
Browse files
app.py
CHANGED
@@ -164,14 +164,18 @@ def list_pdfs():
|
|
164 |
|
165 |
###########################################################
|
166 |
############# KI um Suchanfrage zu Embedden ###############
|
167 |
-
#
|
|
|
168 |
def preprocess_text(text):
|
169 |
if not text:
|
170 |
return ""
|
171 |
-
|
172 |
-
# Konvertiere den Text zu Kleinbuchstaben
|
173 |
text = text.lower()
|
174 |
-
|
|
|
|
|
|
|
|
|
175 |
return " ".join(stemmed_words)
|
176 |
|
177 |
# Funktion zur Bereinigung des Textes aus den Pdfs und Word Dokuemtne, um den Tokenizer nicht zu überfordern
|
@@ -183,18 +187,6 @@ def clean_text(text):
|
|
183 |
return text.strip()
|
184 |
|
185 |
|
186 |
-
#um ähnliche Wörter anhand ihres Wortstammes zu erkennen
|
187 |
-
# Funktion zur Stemmatisierung des Textes
|
188 |
-
def stem_text(text):
|
189 |
-
if not text:
|
190 |
-
return ""
|
191 |
-
|
192 |
-
stemmer = SnowballStemmer("german")
|
193 |
-
tokenizer = RegexpTokenizer(r'\w+')
|
194 |
-
word_tokens = tokenizer.tokenize(text)
|
195 |
-
stemmed_words = [stemmer.stem(word) for word in word_tokens]
|
196 |
-
return " ".join(stemmed_words)
|
197 |
-
|
198 |
# Durchsuchen von Dokumenten
|
199 |
def search_documents(query):
|
200 |
documents = initialize_documents()
|
|
|
164 |
|
165 |
###########################################################
|
166 |
############# KI um Suchanfrage zu Embedden ###############
|
167 |
+
#um ähnliche Wörter anhand ihres Wortstammes zu erkennen
|
168 |
+
# Funktion zur Stemmatisierung des Textes
|
169 |
def preprocess_text(text):
|
170 |
if not text:
|
171 |
return ""
|
172 |
+
|
|
|
173 |
text = text.lower()
|
174 |
+
tokenizer = RegexpTokenizer(r'\w+')
|
175 |
+
word_tokens = tokenizer.tokenize(text)
|
176 |
+
filtered_words = [word for word in word_tokens if word not in german_stopwords]
|
177 |
+
stemmer = SnowballStemmer("german")
|
178 |
+
stemmed_words = [stemmer.stem(word) for word in filtered_words]
|
179 |
return " ".join(stemmed_words)
|
180 |
|
181 |
# Funktion zur Bereinigung des Textes aus den Pdfs und Word Dokuemtne, um den Tokenizer nicht zu überfordern
|
|
|
187 |
return text.strip()
|
188 |
|
189 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
190 |
# Durchsuchen von Dokumenten
|
191 |
def search_documents(query):
|
192 |
documents = initialize_documents()
|