Tokenizer
Collection
tokenizer used by submit model
•
1 item
•
Updated
•
1
数字を全て一桁区切りに。
wikipedia, mbpp, grade-school-mathで学習したトークナイザー。
以下を参考に日本語の語彙を追加。
概算ですが、アルファベットが約6割、日本語(ひらがな・カタカナ・漢字)が約4割となっています。(その他記号や数字は1~2%程度)
vocab_size=56,320(語彙サイズ)
character_coverage=0.9995(文字のカバー率99.95%)
model_type="unigram"(アルゴリズム)
normalization="identity"(正規化なし)
byte_fallback=True(バイト変換あり)
split_digits=True(数字分割あり)
allow_whitespace_only_pieces=True(空白のトークンを許可する)
remove_extra_whitespaces=True(余分な空白の削除あり)
LlamaTokenizer
※encode時に文頭にbos_tokenである"<s>"トークンが付きます。
!pip install transformers>=4.34.0
from transformers import AutoTokenizer
test_tokenizer = AutoTokenizer.from_pretrained("geniacllm/ja-en-tokenizer-unigram-v5", use_fast=False)
# text
text = "This is tokenizer test."
# tokenize
tokenized = test_tokenizer.tokenize(text)
print(tokenized)
# encode
encoded = test_tokenizer.encode(text)
print(encoded)
# decode
decoded = test_tokenizer.decode(encoded)
print(decoded)
# special_token
print(test_tokenizer.special_tokens_map)
# vocab size
print(len(test_tokenizer))
# all subwords in vocab
print(test_tokenizer.get_vocab())