Upload tokenizer

Files changed (6) hide show

added_tokens.json CHANGED Viewed

@@ -1,8 +1,6 @@
 {
   "<endoftext>": 50257,
-  "<|endoftext|>": 50258,
-  "<|pad|>": 50259,
-  "q:": 50260,
-  "style": 50262,
-  "summarize": 50261
 }

 {
   "<endoftext>": 50257,
+  "<|pad|>": 50258,
+  "q:": 50259,
+  "summarize": 50260
 }

merges.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json CHANGED Viewed

@@ -5,32 +5,8 @@
     "a",
     "style"
   ],
-  "bos_token": {
-    "content": "<endoftext>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<endoftext>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|pad|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
 }

     "a",
     "style"
   ],
+  "bos_token": "<endoftext>",
+  "eos_token": "<endoftext>",
+  "pad_token": "<|pad|>",
+  "unk_token": "<|endoftext|>"
 }

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,32 +1,12 @@
 {
   "add_bos_token": false,
   "add_prefix_space": false,
-  "bos_token": {
-    "__type": "AddedToken",
-    "content": "<endoftext>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "__type": "AddedToken",
-    "content": "<endoftext>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
   "errors": "replace",
-  "name_or_path": "sberbank-ai/rugpt3large_based_on_gpt2",
-  "pad_token": {
-    "__type": "AddedToken",
-    "content": "<|pad|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
   "special_tokens_map_file": null,
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": {

 {
   "add_bos_token": false,
   "add_prefix_space": false,
+  "bos_token": "<endoftext>",
+  "eos_token": "<endoftext>",
   "errors": "replace",
+  "model_max_length": 2048,
+  "name_or_path": "ruGPTNEO1.3b_2_orig_tokens/checkpoint-10000/",
+  "pad_token": "<|pad|>",
   "special_tokens_map_file": null,
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": {

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff