Zelyanoth
/

wav2vec2-bert-fon-colab

Automatic Speech Recognition

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

Zelyanoth commited on May 11, 2024

Commit

a5b8103

·

verified ·

1 Parent(s): 3319cf5

Upload tokenizer

Files changed (3) hide show

added_tokens.json +2 -2
tokenizer_config.json +4 -5
vocab.json +29 -23

added_tokens.json CHANGED Viewed

@@ -1,4 +1,4 @@
 {
-  "</s>": 56,
-  "<s>": 55
 }

 {
+  "</s>": 62,
+  "<s>": 61
 }

tokenizer_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "added_tokens_decoder": {
-    "53": {
       "content": "[UNK]",
       "lstrip": true,
       "normalized": false,
@@ -8,7 +8,7 @@
       "single_word": false,
       "special": false
     },
-    "54": {
       "content": "[PAD]",
       "lstrip": true,
       "normalized": false,
@@ -16,7 +16,7 @@
       "single_word": false,
       "special": false
     },
-    "55": {
       "content": "<s>",
       "lstrip": false,
       "normalized": false,
@@ -24,7 +24,7 @@
       "single_word": false,
       "special": true
     },
-    "56": {
       "content": "</s>",
       "lstrip": false,
       "normalized": false,
@@ -39,7 +39,6 @@
   "eos_token": "</s>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
-  "processor_class": "Wav2Vec2BertProcessor",
   "replace_word_delimiter_char": " ",
   "target_lang": "fon",
   "tokenizer_class": "Wav2Vec2CTCTokenizer",

 {
   "added_tokens_decoder": {
+    "59": {
       "content": "[UNK]",
       "lstrip": true,
       "normalized": false,
       "single_word": false,
       "special": false
     },
+    "60": {
       "content": "[PAD]",
       "lstrip": true,
       "normalized": false,
       "single_word": false,
       "special": false
     },
+    "61": {
       "content": "<s>",
       "lstrip": false,
       "normalized": false,
       "single_word": false,
       "special": true
     },
+    "62": {
       "content": "</s>",
       "lstrip": false,
       "normalized": false,
   "eos_token": "</s>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "replace_word_delimiter_char": " ",
   "target_lang": "fon",
   "tokenizer_class": "Wav2Vec2CTCTokenizer",

vocab.json CHANGED Viewed

@@ -4,8 +4,8 @@
     ")": 2,
     "0": 3,
     "2": 4,
-    "[PAD]": 54,
-    "[UNK]": 53,
     "a": 5,
     "b": 6,
     "c": 7,
@@ -34,26 +34,32 @@
     "|": 0,
     " ": 30,
     "à": 31,
-    "è": 32,
-    "é": 33,
-    "ì": 34,
-    "ò": 35,
-    "ó": 36,
-    "ù": 37,
-    "ú": 38,
-    "ĕ": 39,
-    "ŏ": 40,
-    "ɑ": 41,
-    "ɔ": 42,
-    "ɖ": 43,
-    "ɛ": 44,
-    "ɩ": 45,
-    "̀": 46,
-    "́": 47,
-    "̂": 48,
-    "̆": 49,
-    "̌": 50,
-    "ε": 51,
-    "’": 52
   }
 }

     ")": 2,
     "0": 3,
     "2": 4,
+    "[PAD]": 60,
+    "[UNK]": 59,
     "a": 5,
     "b": 6,
     "c": 7,
     "|": 0,
     " ": 30,
     "à": 31,
+    "á": 32,
+    "è": 33,
+    "é": 34,
+    "ì": 35,
+    "í": 36,
+    "ò": 37,
+    "ó": 38,
+    "ù": 39,
+    "ú": 40,
+    "ĕ": 41,
+    "ĭ": 42,
+    "ŏ": 43,
+    "ŭ": 44,
+    "ɑ": 45,
+    "ɔ": 46,
+    "ɖ": 47,
+    "ɛ": 48,
+    "ɩ": 49,
+    "̀": 50,
+    "́": 51,
+    "̂": 52,
+    "̆": 53,
+    "̌": 54,
+    "έ": 55,
+    "ε": 56,
+    "ὲ": 57,
+    "’": 58
   }
 }