BioTokenizer-BFD-BPE-200 / tokenizer.json
dotan1111's picture
Upload 2 files
2896850
raw
history blame
6.18 kB
{
"version": "1.0",
"truncation": null,
"padding": null,
"added_tokens": [
{
"id": 0,
"content": "<UNK>",
"single_word": false,
"lstrip": false,
"rstrip": false,
"normalized": false,
"special": true
}
],
"normalizer": {
"type": "Lowercase"
},
"pre_tokenizer": {
"type": "Whitespace"
},
"post_processor": null,
"decoder": null,
"model": {
"type": "BPE",
"dropout": null,
"unk_token": "<UNK>",
"continuing_subword_prefix": null,
"end_of_word_suffix": null,
"fuse_unk": false,
"vocab": {
"<UNK>": 0,
"a": 1,
"b": 2,
"c": 3,
"d": 4,
"e": 5,
"f": 6,
"g": 7,
"h": 8,
"i": 9,
"k": 10,
"l": 11,
"m": 12,
"n": 13,
"o": 14,
"p": 15,
"q": 16,
"r": 17,
"s": 18,
"t": 19,
"u": 20,
"v": 21,
"w": 22,
"x": 23,
"y": 24,
"z": 25,
"aa": 26,
"ll": 27,
"la": 28,
"gg": 29,
"rr": 30,
"va": 31,
"ga": 32,
"ra": 33,
"lv": 34,
"pa": 35,
"lg": 36,
"sa": 37,
"lr": 38,
"ea": 39,
"vv": 40,
"da": 41,
"ta": 42,
"ls": 43,
"lp": 44,
"ia": 45,
"gr": 46,
"ld": 47,
"le": 48,
"ss": 49,
"gv": 50,
"lt": 51,
"gs": 52,
"er": 53,
"gt": 54,
"gd": 55,
"pp": 56,
"li": 57,
"vr": 58,
"ge": 59,
"qa": 60,
"fa": 61,
"lk": 62,
"vt": 63,
"vs": 64,
"gi": 65,
"vd": 66,
"ve": 67,
"lf": 68,
"pr": 69,
"ka": 70,
"dr": 71,
"ps": 72,
"lq": 73,
"ee": 74,
"tt": 75,
"gk": 76,
"na": 77,
"sr": 78,
"pd": 79,
"vi": 80,
"pe": 81,
"gf": 82,
"ln": 83,
"pt": 84,
"gq": 85,
"ha": 86,
"st": 87,
"dd": 88,
"qr": 89,
"gp": 90,
"ei": 91,
"ya": 92,
"kk": 93,
"gn": 94,
"lh": 95,
"vp": 96,
"tr": 97,
"vf": 98,
"si": 99,
"ma": 100,
"de": 101,
"ly": 102,
"aaa": 103,
"ir": 104,
"vk": 105,
"gy": 106,
"ts": 107,
"ti": 108,
"kr": 109,
"vn": 110,
"gh": 111,
"vq": 112,
"sd": 113,
"se": 114,
"sf": 115,
"ie": 116,
"id": 117,
"lm": 118,
"hr": 119,
"fr": 120,
"laa": 121,
"sp": 122,
"td": 123,
"ke": 124,
"te": 125,
"nr": 126,
"fd": 127,
"tp": 128,
"yr": 129,
"gm": 130,
"ki": 131,
"qq": 132,
"pi": 133,
"ff": 134,
"pv": 135,
"kd": 136,
"ca": 137,
"sn": 138,
"ed": 139,
"gw": 140,
"sq": 141,
"sv": 142,
"lw": 143,
"tf": 144,
"pq": 145,
"re": 146,
"lla": 147,
"tv": 148,
"sk": 149,
"pf": 150,
"ii": 151,
"eq": 152,
"tn": 153,
"lc": 154,
"rd": 155,
"vh": 156,
"pn": 157,
"vy": 158,
"vg": 159,
"kn": 160,
"di": 161,
"tq": 162,
"fe": 163,
"wa": 164,
"mr": 165,
"sy": 166,
"qi": 167,
"pk": 168,
"ek": 169,
"gc": 170,
"gaa": 171,
"ni": 172,
"vm": 173,
"th": 174,
"tk": 175,
"yd": 176,
"fi": 177,
"nd": 178,
"sh": 179,
"ri": 180,
"ph": 181,
"lrr": 182,
"qe": 183,
"lva": 184,
"vaa": 185,
"ty": 186,
"gga": 187,
"qd": 188,
"sg": 189,
"wr": 190,
"lga": 191,
"py": 192,
"pg": 193,
"lra": 194,
"vc": 195,
"nn": 196,
"sm": 197,
"hd": 198,
"rra": 199
},
"merges": [
"a a",
"l l",
"l a",
"g g",
"r r",
"v a",
"g a",
"r a",
"l v",
"p a",
"l g",
"s a",
"l r",
"e a",
"v v",
"d a",
"t a",
"l s",
"l p",
"i a",
"g r",
"l d",
"l e",
"s s",
"g v",
"l t",
"g s",
"e r",
"g t",
"g d",
"p p",
"l i",
"v r",
"g e",
"q a",
"f a",
"l k",
"v t",
"v s",
"g i",
"v d",
"v e",
"l f",
"p r",
"k a",
"d r",
"p s",
"l q",
"e e",
"t t",
"g k",
"n a",
"s r",
"p d",
"v i",
"p e",
"g f",
"l n",
"p t",
"g q",
"h a",
"s t",
"d d",
"q r",
"g p",
"e i",
"y a",
"k k",
"g n",
"l h",
"v p",
"t r",
"v f",
"s i",
"m a",
"d e",
"l y",
"aa a",
"i r",
"v k",
"g y",
"t s",
"t i",
"k r",
"v n",
"g h",
"v q",
"s d",
"s e",
"s f",
"i e",
"i d",
"l m",
"h r",
"f r",
"l aa",
"s p",
"t d",
"k e",
"t e",
"n r",
"f d",
"t p",
"y r",
"g m",
"k i",
"q q",
"p i",
"f f",
"p v",
"k d",
"c a",
"s n",
"e d",
"g w",
"s q",
"s v",
"l w",
"t f",
"p q",
"r e",
"ll a",
"t v",
"s k",
"p f",
"i i",
"e q",
"t n",
"l c",
"r d",
"v h",
"p n",
"v y",
"v g",
"k n",
"d i",
"t q",
"f e",
"w a",
"m r",
"s y",
"q i",
"p k",
"e k",
"g c",
"g aa",
"n i",
"v m",
"t h",
"t k",
"y d",
"f i",
"n d",
"s h",
"r i",
"p h",
"l rr",
"q e",
"l va",
"v aa",
"t y",
"gg a",
"q d",
"s g",
"w r",
"l ga",
"p y",
"p g",
"l ra",
"v c",
"n n",
"s m",
"h d",
"rr a"
]
}
}