imta-ai
/

tech-roberta

vietnamese roberta

Inference Endpoints

Model card Files Files and versions Community

vietdata commited on Nov 8, 2023

Commit

e42d8f7

•

1 Parent(s): c6a834c

Upload tokenizer

Files changed (1) hide show

tokenizer_config.json +2 -8

tokenizer_config.json CHANGED Viewed

@@ -2,7 +2,6 @@
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": true,
   "cls_token": "<s>",
-  "do_lower_case": true,
   "eos_token": "</s>",
   "mask_token": {
     "__type": "AddedToken",
@@ -12,17 +11,12 @@
     "rstrip": false,
     "single_word": false
   },
-  "max_length": 128,
   "model_max_length": 512,
-  "pad_to_multiple_of": null,
   "pad_token": "<pad>",
-  "pad_token_type_id": 0,
-  "padding_side": "right",
   "sep_token": "</s>",
   "stride": 0,
-  "strip_accents": null,
-  "tokenize_chinese_chars": true,
-  "tokenizer_class": "BertTokenizer",
   "truncation_side": "right",
   "truncation_strategy": "longest_first",
   "unk_token": "<unk>"

   "bos_token": "<s>",
   "clean_up_tokenization_spaces": true,
   "cls_token": "<s>",
   "eos_token": "</s>",
   "mask_token": {
     "__type": "AddedToken",
     "rstrip": false,
     "single_word": false
   },
+  "max_length": 256,
   "model_max_length": 512,
   "pad_token": "<pad>",
   "sep_token": "</s>",
   "stride": 0,
+  "tokenizer_class": "XLMRobertaTokenizer",
   "truncation_side": "right",
   "truncation_strategy": "longest_first",
   "unk_token": "<unk>"