alexkueck commited on
Commit
a0d7166
1 Parent(s): d93e44f

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +8 -16
app.py CHANGED
@@ -164,14 +164,18 @@ def list_pdfs():
164
 
165
  ###########################################################
166
  ############# KI um Suchanfrage zu Embedden ###############
167
- # Funktion zur Entfernung von Stopwörtern und Tokenisierung - um bei längeren suchanfragen auf relevante wörter zu konzentrieren
 
168
  def preprocess_text(text):
169
  if not text:
170
  return ""
171
-
172
- # Konvertiere den Text zu Kleinbuchstaben
173
  text = text.lower()
174
- stemmed_words= stem_text(text)
 
 
 
 
175
  return " ".join(stemmed_words)
176
 
177
  # Funktion zur Bereinigung des Textes aus den Pdfs und Word Dokuemtne, um den Tokenizer nicht zu überfordern
@@ -183,18 +187,6 @@ def clean_text(text):
183
  return text.strip()
184
 
185
 
186
- #um ähnliche Wörter anhand ihres Wortstammes zu erkennen
187
- # Funktion zur Stemmatisierung des Textes
188
- def stem_text(text):
189
- if not text:
190
- return ""
191
-
192
- stemmer = SnowballStemmer("german")
193
- tokenizer = RegexpTokenizer(r'\w+')
194
- word_tokens = tokenizer.tokenize(text)
195
- stemmed_words = [stemmer.stem(word) for word in word_tokens]
196
- return " ".join(stemmed_words)
197
-
198
  # Durchsuchen von Dokumenten
199
  def search_documents(query):
200
  documents = initialize_documents()
 
164
 
165
  ###########################################################
166
  ############# KI um Suchanfrage zu Embedden ###############
167
+ #um ähnliche Wörter anhand ihres Wortstammes zu erkennen
168
+ # Funktion zur Stemmatisierung des Textes
169
  def preprocess_text(text):
170
  if not text:
171
  return ""
172
+
 
173
  text = text.lower()
174
+ tokenizer = RegexpTokenizer(r'\w+')
175
+ word_tokens = tokenizer.tokenize(text)
176
+ filtered_words = [word for word in word_tokens if word not in german_stopwords]
177
+ stemmer = SnowballStemmer("german")
178
+ stemmed_words = [stemmer.stem(word) for word in filtered_words]
179
  return " ".join(stemmed_words)
180
 
181
  # Funktion zur Bereinigung des Textes aus den Pdfs und Word Dokuemtne, um den Tokenizer nicht zu überfordern
 
187
  return text.strip()
188
 
189
 
 
 
 
 
 
 
 
 
 
 
 
 
190
  # Durchsuchen von Dokumenten
191
  def search_documents(query):
192
  documents = initialize_documents()