README.md · lighttransport/japanese-tokenizer-cc100 at b914e30b92201630030c0ac6baeb20c37884d49e

metadata

license: mit
language:
  - ja

日本語データセットで train した Tokenizer です.

単体での利用は想定しておらず, LLaMa Tokenizer などにマージして利用するのを想定しています.

Training script

train_jp_tokenizer.py を参照ください.

tokenizer-cc100-ja.json cc100 ja データセットをそのまま(normalize など適用せずに) train したもの. vocab size 30000.