Value-Props / tabs /custom_vectorizer.py
Demosthene-OR's picture
Initialization 2
4df9e3a
raw
history blame
464 Bytes
# Les 2 fonctions suivantes sont nécéssaires afin de sérialiser ces parametre de CountVectorizer
# et ainsi de sauvegarder le vectorizer pour un un usage ultérieur sans utiliser X_train pour le réinitialiser
import tiktoken
tokenizer = tiktoken.get_encoding("cl100k_base")
def custom_tokenizer(text):
global tokenizer
tokens = tokenizer.encode(text) # Cela divise le texte en mots
return tokens
def custom_preprocessor(text):
return text