avr23-cds-translation / tabs /custom_vectorizer.py
Demosthene-OR's picture
1st commit - Add file
f978ccd
raw
history blame
464 Bytes
# Les 2 fonctions suivantes sont nécéssaires afin de sérialiser ces parametre de CountVectorizer
# et ainsi de sauvegarder le vectorizer pour un un usage ultérieur sans utiliser X_train pour le réinitialiser
import tiktoken
tokenizer = tiktoken.get_encoding("cl100k_base")
def custom_tokenizer(text):
global tokenizer
tokens = tokenizer.encode(text) # Cela divise le texte en mots
return tokens
def custom_preprocessor(text):
return text