lighttransport
/

japanese-tokenizer-cc100

Model card Files Files and versions Community

japanese-tokenizer-cc100 / README.md

syoyo's picture

Update README.md

b914e30 over 1 year ago

|

history blame contribute delete

598 Bytes

	---
	license: mit
	language:
	- ja
	---

	日本語データセットで train した Tokenizer です.

	単体での利用は想定しておらず, LLaMa Tokenizer などにマージして利用するのを想定しています.

	## Training script

	`train_jp_tokenizer.py` を参照ください.

	## Trained tokenizer

	* `tokenizer-cc100-ja.json`
	cc100 ja データセットをそのまま(normalize など適用せずに) train したもの. vocab size 30000.

	## TODO

	* [ ] Normalize した日本語テキストに対して train する
	* [ ] マージした Tokenizer をアップロードする