full sample tokenizer

Browse files

Files changed (4) hide show

added_tokens.json +1 -1
special_tokens_map.json +1 -1
tokenizer.json +0 -0
tokenizer_config.json +1 -1

added_tokens.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"<UNK>": 50257, "<~~PAD~~>": ~~50259~~, "<~~SEP~~>": ~~50258~~}


1	+ {"<UNK>": 50257, "<SEP>": 50258, "<PAD>": 50259}

special_tokens_map.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "unk_token": {"~~content": "~~<UNK>", "~~single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "~~sep_token": "<SEP>", "pad_token": "<PAD>"}


1	+ {"bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "unk_token": "<UNK>", "sep_token": "<SEP>", "pad_token": "<PAD>"}

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1 +1 @@

- {"unk_token": {"~~content": "~~<UNK>", "~~single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "~~bos_token": {"~~content": "~~<|endoftext|>", "~~single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "~~eos_token": {"~~content": "~~<|endoftext|>", "~~single_word~~": false, "~~lstrip~~": ~~false,~~ "~~rstrip~~"~~: false~~, "~~normalized~~": ~~true,~~ "~~__type~~"~~: "AddedToken"}~~, "~~add_prefix_space": false, "~~model_max_length": ~~2048~~, "special_tokens_map_file": null, "name_or_path": "~~EleutherAI/gpt~~-~~neo-1.3B~~", "~~pad_token": "<PAD>", "sep_token": "<SEP>", "errors": "replace", "~~tokenizer_class": "GPT2Tokenizer"}


1	+ {"unk_token": "<UNK>", "bos_token": "<\|endoftext\|>", "eos_token": "<\|endoftext\|>", "add_prefix_space": false, "pad_token": "<PAD>", "sep_token": "<SEP>", "model_max_length": 1024, "special_tokens_map_file": null, "name_or_path": "gpt2-medium", "tokenizer_class": "GPT2Tokenizer"}