license: mit | |
language: | |
- ja | |
日本語データセットで train した Tokenizer です. | |
単体での利用は想定しておらず, LLaMa Tokenizer などにマージして利用するのを想定しています. | |
## Training script | |
`train_jp_tokenizer.py` を参照ください. | |
## Trained tokenizer | |
* `tokenizer-cc100-ja.json` | |
cc100 ja データセットをそのまま(normalize など適用せずに) train したもの. vocab size 30000. | |
## TODO | |
* [ ] Normalize した日本語テキストに対して train する | |
* [ ] マージした Tokenizer をアップロードする |