whisper

#82

by pingqw - opened Oct 17, 2023

←

This PR is in draft mode

Files changed (6) hide show

generation_config.json CHANGED Viewed

@@ -212,11 +212,10 @@
     "<|yo|>": 50325,
     "<|zh|>": 50260
   },
-  "max_initial_timestamp_index": 50,
   "max_length": 448,
   "no_timestamps_token_id": 50363,
   "pad_token_id": 50257,
-  "prev_sot_token_id": 50361,
   "return_timestamps": false,
   "suppress_tokens": [
     1,

     "<|yo|>": 50325,
     "<|zh|>": 50260
   },
+  "max_initial_timestamp_index": 1,
   "max_length": 448,
   "no_timestamps_token_id": 50363,
   "pad_token_id": 50257,
   "return_timestamps": false,
   "suppress_tokens": [
     1,

merges.txt CHANGED Viewed

@@ -1,5 +1,4 @@
 #version: 0.2
-Ġ t
 Ġ a
 Ġt h
 i n

 #version: 0.2
 Ġ a
 Ġt h
 i n

special_tokens_map.json CHANGED Viewed

@@ -111,28 +111,22 @@
   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
-    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
-    "normalized": false,
     "rstrip": false,
     "single_word": false
   }

   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
+    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
+    "normalized": true,
     "rstrip": false,
     "single_word": false
   },
+  "pad_token": "<|endoftext|>",
   "unk_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
+    "normalized": true,
     "rstrip": false,
     "single_word": false
   }

tokenizer.json CHANGED Viewed

@@ -64848,7 +64848,6 @@
       "<|endoftext|>": 50257
     },
     "merges": [
-      "Ġ t",
       "Ġ a",
       "Ġt h",
       "i n",

       "<|endoftext|>": 50257
     },
     "merges": [
       "Ġ a",
       "Ġt h",
       "i n",

tokenizer_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff