--- license: mit language: - ja --- 日本語データセットで train した Tokenizer です. 単体での利用は想定しておらず, LLaMa Tokenizer などにマージして利用するのを想定しています. ## Training script `train_jp_tokenizer.py` を参照ください. ## Trained tokenizer * `tokenizer-cc100-ja.json` cc100 ja データセットをそのまま(normalize など適用せずに) train したもの. vocab size 30000. ## TODO * [ ] Normalize した日本語テキストに対して train する * [ ] マージした Tokenizer をアップロードする