RAGDEV

Runtime error

App Files Files Community

alexkueck commited on Jan 6, 2024

Commit

34aa9d5

1 Parent(s): 48cb8f5

Update utils.py

Browse files

Files changed (1) hide show

utils.py +34 -0

utils.py CHANGED Viewed

@@ -48,6 +48,11 @@ from PIL import Image, ImageDraw, ImageOps, ImageFont
 import base64
 from tempfile import NamedTemporaryFile
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
@@ -126,6 +131,35 @@ def is_response_similar(response, threshold=0.7):
         return False
     return False
 ##################################################
 #RAG Hilfsfunktionen - Dokumenten bearbeiten für Vektorstore
 ##################################################

 import base64
 from tempfile import NamedTemporaryFile
+import nltk
+from nltk.corpus import stopwords
+from nltk.tokenize import word_tokenize
+from nltk.stem import WordNetLemmatizer
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
         return False
     return False
+##################################################
+#Normalisierung eines Prompts
+##################################################
+def prompt_normalise (prompt):
+    #alles Kleinbuchstaben
+    prompt_klein =prompt.lower()
+    #Word Tokenisation
+    tokens = word_tokenize(prompt_klein)
+    #Punktuierung entfernen
+    tokens = [word for word in tokens if word.isalnum()]
+    # Stop Word Entfernung
+    nltk.download('stopwords')
+    stop_words = set(stopwords.words('english'))
+    tokens = [word for word in tokens if not word in stop_words]
+    # 5. Lemmatization - worte gruppieren, die ähnlich sind
+    nltk.download('wordnet')
+    lemmatizer = WordNetLemmatizer()
+    tokens = [lemmatizer.lemmatize(word) for word in tokens]
+    # 6. Handling Special Characters (Remove non-alphanumeric characters)
+    tokens = [re.sub(r'\W+', '', word) for word in tokens]
+    # 7. Spell Check (optional, using a library like pyspellchecker)
+    # from spellchecker import SpellChecker
+    # spell = SpellChecker()
+    # tokens = [spell.correction(word) for word in tokens]
+    # Join tokens back to sentence
+    normalized_prompt = ' '.join(tokens)
+    return normalized_prompt
 ##################################################
 #RAG Hilfsfunktionen - Dokumenten bearbeiten für Vektorstore
 ##################################################