sec-bert-shape / tokenizer_config.json
nlpaueb's picture
Update tokenizer_config.json
9829e59
raw
history blame
4.02 kB
{"do_lower_case": true, "model_max_length": 512, "do_basic_tokenize": true, "never_split": null, "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "tokenize_chinese_chars": true, "strip_accents": null, "additional_special_tokens": ["[NUM]", "[X]", "[X.X]", "[X.XX]", "[X.XXX]", "[X.XXXX]", "[X.XXXXX]", "[X.XXXXXX]", "[X.XXXXXXX]", "[X.XXXXXXXX]", "[X.XXXXXXXXX]", "[X,XXX.X]", "[X,XXX.XX]", "[X,XXX.XXX]", "[X,XXX,XXX]", "[X,XXX,XXX.X]", "[X,XXX,XXX.XX]", "[X,XXX,XXX.XXX]", "[X,XXX,XXX,XXX]", "[X,XXX,XXX,XXX.X]", "[X,XXX,XXX,XXX.XX]", "[X,XXX,XXX,XXX.XXX]", "[X,XXX,XXX,XXX,XXX]", "[X,XXX,XXX,XXX,XXX.X]", "[X,XXX,XXX,XXX,XXX.XX]", "[X,XXX,XXX,XXX,XXX.XXX]", "[XX.X]", "[XX.XX]", "[XX.XXX]", "[XX.XXXX]", "[XX.XXXXX]", "[XX.XXXXXX]", "[XX.XXXXXXX]", "[XX.XXXXXXXX]", "[XX.XXXXXXXXX]", "[XX,XXX.X]", "[XX,XXX.XX]", "[XX,XXX.XXX]", "[XX,XXX,XXX]", "[XX,XXX,XXX.X]", "[XX,XXX,XXX.XX]", "[XX,XXX,XXX.XXX]", "[XX,XXX,XXX,XXX]", "[XX,XXX,XXX,XXX.X]", "[XX,XXX,XXX,XXX.XX]", "[XX,XXX,XXX,XXX.XXX]", "[XX,XXX,XXX,XXX,XXX]", "[XX,XXX,XXX,XXX,XXX.X]", "[XX,XXX,XXX,XXX,XXX.XX]", "[XX,XXX,XXX,XXX,XXX.XXX]", "[XXX]", "[XXX.X]", "[XXX.XX]", "[XXX.XXX]", "[XXX.XXXX]", "[XXX.XXXXX]", "[XXX.XXXXXX]", "[XXX.XXXXXXX]", "[XXX.XXXXXXXX]", "[XXX.XXXXXXXXX]", "[XXX,XXX.X]", "[XXX,XXX.XX]", "[XXX,XXX.XXX]", "[XXX,XXX,XXX]", "[XXX,XXX,XXX.X]", "[XXX,XXX,XXX.XX]", "[XXX,XXX,XXX.XXX]", "[XXX,XXX,XXX,XXX]", "[XXX,XXX,XXX,XXX.X]", "[XXX,XXX,XXX,XXX.XX]", "[XXX,XXX,XXX,XXX.XXX]", "[XXX,XXX,XXX,XXX,XXX]", "[XXX,XXX,XXX,XXX,XXX.X]", "[XXX,XXX,XXX,XXX,XXX.XX]", "[XXX,XXX,XXX,XXX,XXX.XXX]", "[XXXX.X]", "[XXXX.XX]", "[XXXX.XXX]", "[XXXXX]", "[XXXXX.X]", "[XXXXX.XX]", "[XXXXX.XXX]", "[XXXXXX]", "[XXXXXX.X]", "[XXXXXX.XX]", "[XXXXXX.XXX]", "[XXXXXXX]", "[XXXXXXX.X]", "[XXXXXXX.XX]", "[XXXXXXX.XXX]", "[XXXXXXXX]", "[XXXXXXXX.X]", "[XXXXXXXX.XX]", "[XXXXXXXX.XXX]", "[XXXXXXXXX]", "[XXXXXXXXX.X]", "[XXXXXXXXX.XX]", "[XXXXXXXXX.XXX]", "[XXXXXXXXXX]", "[XXXXXXXXXX.X]", "[XXXXXXXXXX.XX]", "[XXXXXXXXXX.XXX]", "[X,X]", "[X,XX]", "[X,XXX]", "[X,XXXX]", "[X,XXXXX]", "[X,XXXXXX]", "[X,XXXXXXX]", "[X,XXXXXXXX]", "[X,XXXXXXXXX]", "[X.XXX,X]", "[X.XXX,XX]", "[X.XXX,XXX]", "[X.XXX.XXX]", "[X.XXX.XXX,X]", "[X.XXX.XXX,XX]", "[X.XXX.XXX,XXX]", "[X.XXX.XXX.XXX]", "[X.XXX.XXX.XXX,X]", "[X.XXX.XXX.XXX,XX]", "[X.XXX.XXX.XXX,XXX]", "[X.XXX.XXX.XXX.XXX]", "[X.XXX.XXX.XXX.XXX,X]", "[X.XXX.XXX.XXX.XXX,XX]", "[X.XXX.XXX.XXX.XXX,XXX]", "[XX]", "[XX,X]", "[XX,XX]", "[XX,XXX]", "[XX,XXXX]", "[XX,XXXXX]", "[XX,XXXXXX]", "[XX,XXXXXXX]", "[XX,XXXXXXXX]", "[XX,XXXXXXXXX]", "[XX.XXX,X]", "[XX.XXX,XX]", "[XX.XXX,XXX]", "[XX.XXX.XXX]", "[XX.XXX.XXX,X]", "[XX.XXX.XXX,XX]", "[XX.XXX.XXX,XXX]", "[XX.XXX.XXX.XXX]", "[XX.XXX.XXX.XXX,X]", "[XX.XXX.XXX.XXX,XX]", "[XX.XXX.XXX.XXX,XXX]", "[XX.XXX.XXX.XXX.XXX]", "[XX.XXX.XXX.XXX.XXX,X]", "[XX.XXX.XXX.XXX.XXX,XX]", "[XX.XXX.XXX.XXX.XXX,XXX]", "[XXX,X]", "[XXX,XX]", "[XXX,XXX]", "[XXX,XXXX]", "[XXX,XXXXX]", "[XXX,XXXXXX]", "[XXX,XXXXXXX]", "[XXX,XXXXXXXX]", "[XXX,XXXXXXXXX]", "[XXX.XXX,X]", "[XXX.XXX,XX]", "[XXX.XXX,XXX]", "[XXX.XXX.XXX]", "[XXX.XXX.XXX,X]", "[XXX.XXX.XXX,XX]", "[XXX.XXX.XXX,XXX]", "[XXX.XXX.XXX.XXX]", "[XXX.XXX.XXX.XXX,X]", "[XXX.XXX.XXX.XXX,XX]", "[XXX.XXX.XXX.XXX,XXX]", "[XXX.XXX.XXX.XXX.XXX]", "[XXX.XXX.XXX.XXX.XXX,X]", "[XXX.XXX.XXX.XXX.XXX,XX]", "[XXX.XXX.XXX.XXX.XXX,XXX]", "[XXXX]", "[XXXX,X]", "[XXXX,XX]", "[XXXX,XXX]", "[XXXXX,X]", "[XXXXX,XX]", "[XXXXX,XXX]", "[XXXXXX,X]", "[XXXXXX,XX]", "[XXXXXX,XXX]", "[XXXXXXX,X]", "[XXXXXXX,XX]", "[XXXXXXX,XXX]", "[XXXXXXXX,X]", "[XXXXXXXX,XX]", "[XXXXXXXX,XXX]", "[XXXXXXXXX,X]", "[XXXXXXXXX,XX]", "[XXXXXXXXX,XXX]", "[XXXXXXXXXX,X]", "[XXXXXXXXXX,XX]", "[XXXXXXXXXX,XXX]", "[.X]", "[.XX]", "[.XXX]", "[.XXXX]", "[.XXXXX]", "[.XXXXXX]", "[.XXXXXXX]", "[.XXXXXXXX]", "[.XXXXXXXXX]", "[,X]", "[,XX]", "[,XXX]", "[,XXXX]", "[,XXXXX]", "[,XXXXXX]", "[,XXXXXXX]", "[,XXXXXXXX]", "[,XXXXXXXXX]"], "special_tokens_map_file": "special_tokens_map.json", "tokenizer_class": "BertTokenizer"}