Fix tokenizer decoders
Browse files- tokenizer.json +18 -10
tokenizer.json
CHANGED
@@ -1103,16 +1103,11 @@
|
|
1103 |
"use_regex": true
|
1104 |
},
|
1105 |
{
|
1106 |
-
"type": "
|
1107 |
-
"
|
1108 |
-
|
1109 |
-
|
1110 |
-
|
1111 |
-
{
|
1112 |
-
"type": "Strip",
|
1113 |
-
"content": " ",
|
1114 |
-
"start": 1,
|
1115 |
-
"stop": 0
|
1116 |
},
|
1117 |
{
|
1118 |
"type": "Replace",
|
@@ -1127,6 +1122,19 @@
|
|
1127 |
"Regex": "█"
|
1128 |
},
|
1129 |
"content": "\n"
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1130 |
}
|
1131 |
]
|
1132 |
},
|
|
|
1103 |
"use_regex": true
|
1104 |
},
|
1105 |
{
|
1106 |
+
"type": "Replace",
|
1107 |
+
"pattern": {
|
1108 |
+
"String": "âĸģ"
|
1109 |
+
},
|
1110 |
+
"content": " "
|
|
|
|
|
|
|
|
|
|
|
1111 |
},
|
1112 |
{
|
1113 |
"type": "Replace",
|
|
|
1122 |
"Regex": "█"
|
1123 |
},
|
1124 |
"content": "\n"
|
1125 |
+
},
|
1126 |
+
{
|
1127 |
+
"type": "Replace",
|
1128 |
+
"pattern": {
|
1129 |
+
"String": "▁"
|
1130 |
+
},
|
1131 |
+
"content": " "
|
1132 |
+
},
|
1133 |
+
{
|
1134 |
+
"type": "Strip",
|
1135 |
+
"content": " ",
|
1136 |
+
"start": 1,
|
1137 |
+
"stop": 0
|
1138 |
}
|
1139 |
]
|
1140 |
},
|