# Les 2 fonctions suivantes sont nécéssaires afin de sérialiser ces parametre de CountVectorizer # et ainsi de sauvegarder le vectorizer pour un un usage ultérieur sans utiliser X_train pour le réinitialiser import tiktoken tokenizer = tiktoken.get_encoding("cl100k_base") def custom_tokenizer(text): global tokenizer tokens = tokenizer.encode(text) # Cela divise le texte en mots return tokens def custom_preprocessor(text): return text