Ayaka commited on
Commit
05379c1
1 Parent(s): 8348bab

add tokenizer

Browse files
Files changed (2) hide show
  1. tokenizer_config.json +1 -1
  2. vocab.txt +9 -8
tokenizer_config.json CHANGED
@@ -3,7 +3,7 @@
3
  "do_basic_tokenize": true,
4
  "do_lower_case": true,
5
  "mask_token": "[MASK]",
6
- "name_or_path": "./vocab-bart-base-cantonese.txt",
7
  "never_split": null,
8
  "pad_token": "[PAD]",
9
  "sep_token": "[SEP]",
 
3
  "do_basic_tokenize": true,
4
  "do_lower_case": true,
5
  "mask_token": "[MASK]",
6
+ "name_or_path": "vocab-bart-base-cantonese.txt",
7
  "never_split": null,
8
  "pad_token": "[PAD]",
9
  "sep_token": "[SEP]",
vocab.txt CHANGED
@@ -21,6 +21,7 @@
21
 
22
 
23
 
 
24
 
25
 
26
 
@@ -28,6 +29,7 @@
28
 
29
 
30
 
 
31
 
32
 
33
 
@@ -80,6 +82,7 @@
80
 
81
 
82
 
 
83
 
84
 
85
 
@@ -95,9 +98,6 @@
95
 
96
 
97
 
98
-
99
-
100
-
101
  [UNK]
102
  [CLS]
103
  [SEP]
@@ -12386,12 +12386,16 @@ fishbase
12386
  ##🔥
12387
  ##😂
12388
  ##😎
 
 
 
12389
 
12390
 
12391
 
12392
 
12393
 
12394
 
 
12395
 
12396
 
12397
 
@@ -12439,9 +12443,7 @@ fishbase
12439
 
12440
 
12441
 
12442
-
12443
 
12444
-
12445
 
12446
 
12447
 
@@ -12478,6 +12480,7 @@ fishbase
12478
 
12479
 
12480
 
 
12481
 
12482
 
12483
 
@@ -12536,6 +12539,7 @@ fishbase
12536
 
12537
 
12538
 
 
12539
 
12540
 
12541
 
@@ -12567,7 +12571,6 @@ fishbase
12567
 
12568
 
12569
 
12570
-
12571
 
12572
 
12573
 
@@ -12576,7 +12579,6 @@ fishbase
12576
 
12577
 
12578
 
12579
-
12580
 
12581
 
12582
 
@@ -12654,6 +12656,5 @@ fishbase
12654
  𨈇
12655
  𨋢
12656
  𨳒
12657
- 𨶙
12658
  𩓥
12659
  𪘲
 
21
 
22
 
23
 
24
+
25
 
26
 
27
 
 
29
 
30
 
31
 
32
+
33
 
34
 
35
 
 
82
 
83
 
84
 
85
+
86
 
87
 
88
 
 
98
 
99
 
100
 
 
 
 
101
  [UNK]
102
  [CLS]
103
  [SEP]
 
12386
  ##🔥
12387
  ##😂
12388
  ##😎
12389
+
12390
+
12391
+
12392
 
12393
 
12394
 
12395
 
12396
 
12397
 
12398
+
12399
 
12400
 
12401
 
 
12443
 
12444
 
12445
 
 
12446
 
 
12447
 
12448
 
12449
 
 
12480
 
12481
 
12482
 
12483
+
12484
 
12485
 
12486
 
 
12539
 
12540
 
12541
 
12542
+
12543
 
12544
 
12545
 
 
12571
 
12572
 
12573
 
 
12574
 
12575
 
12576
 
 
12579
 
12580
 
12581
 
 
12582
 
12583
 
12584
 
 
12656
  𨈇
12657
  𨋢
12658
  𨳒
 
12659
  𩓥
12660
  𪘲