Upload processor (#1)
Browse files- Upload processor (dcd547027333e6032e171b1915b8c275e615f3ae)
- preprocessor_config.json +113 -0
- sentencepiece.bpe.model +3 -0
- special_tokens_map.json +111 -0
- tokenizer_config.json +117 -0
preprocessor_config.json
ADDED
@@ -0,0 +1,113 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"feature_extractor_type": "SeamlessM4TFeatureExtractor",
|
3 |
+
"feature_size": 80,
|
4 |
+
"language_code": [
|
5 |
+
"afr",
|
6 |
+
"amh",
|
7 |
+
"arb",
|
8 |
+
"ary",
|
9 |
+
"arz",
|
10 |
+
"asm",
|
11 |
+
"azj",
|
12 |
+
"bel",
|
13 |
+
"ben",
|
14 |
+
"bos",
|
15 |
+
"bul",
|
16 |
+
"cat",
|
17 |
+
"ceb",
|
18 |
+
"ces",
|
19 |
+
"ckb",
|
20 |
+
"cmn",
|
21 |
+
"cmn_Hant",
|
22 |
+
"cym",
|
23 |
+
"dan",
|
24 |
+
"deu",
|
25 |
+
"ell",
|
26 |
+
"eng",
|
27 |
+
"est",
|
28 |
+
"eus",
|
29 |
+
"fin",
|
30 |
+
"fra",
|
31 |
+
"fuv",
|
32 |
+
"gaz",
|
33 |
+
"gle",
|
34 |
+
"glg",
|
35 |
+
"guj",
|
36 |
+
"heb",
|
37 |
+
"hin",
|
38 |
+
"hrv",
|
39 |
+
"hun",
|
40 |
+
"hye",
|
41 |
+
"ibo",
|
42 |
+
"ind",
|
43 |
+
"isl",
|
44 |
+
"ita",
|
45 |
+
"jav",
|
46 |
+
"jpn",
|
47 |
+
"kan",
|
48 |
+
"kat",
|
49 |
+
"kaz",
|
50 |
+
"khk",
|
51 |
+
"khm",
|
52 |
+
"kir",
|
53 |
+
"kor",
|
54 |
+
"lao",
|
55 |
+
"lit",
|
56 |
+
"lug",
|
57 |
+
"luo",
|
58 |
+
"lvs",
|
59 |
+
"mai",
|
60 |
+
"mal",
|
61 |
+
"mar",
|
62 |
+
"mkd",
|
63 |
+
"mlt",
|
64 |
+
"mni",
|
65 |
+
"mya",
|
66 |
+
"nld",
|
67 |
+
"nno",
|
68 |
+
"nob",
|
69 |
+
"npi",
|
70 |
+
"nya",
|
71 |
+
"ory",
|
72 |
+
"pan",
|
73 |
+
"pbt",
|
74 |
+
"pes",
|
75 |
+
"pol",
|
76 |
+
"por",
|
77 |
+
"ron",
|
78 |
+
"rus",
|
79 |
+
"sat",
|
80 |
+
"slk",
|
81 |
+
"slv",
|
82 |
+
"sna",
|
83 |
+
"snd",
|
84 |
+
"som",
|
85 |
+
"spa",
|
86 |
+
"srp",
|
87 |
+
"swe",
|
88 |
+
"swh",
|
89 |
+
"tam",
|
90 |
+
"tel",
|
91 |
+
"tgk",
|
92 |
+
"tgl",
|
93 |
+
"tha",
|
94 |
+
"tur",
|
95 |
+
"ukr",
|
96 |
+
"urd",
|
97 |
+
"uzn",
|
98 |
+
"vie",
|
99 |
+
"yor",
|
100 |
+
"yue",
|
101 |
+
"zlm",
|
102 |
+
"zul"
|
103 |
+
],
|
104 |
+
"num_mel_bins": 80,
|
105 |
+
"padding_side": "right",
|
106 |
+
"padding_value": 0.0,
|
107 |
+
"processor_class": "SeamlessM4TProcessor",
|
108 |
+
"return_attention_mask": true,
|
109 |
+
"sampling_rate": 16000,
|
110 |
+
"src_lang": "eng",
|
111 |
+
"stride": 2,
|
112 |
+
"tgt_lang": "fra"
|
113 |
+
}
|
sentencepiece.bpe.model
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:026a76827537db9f1348e4d5aaa127bb10a2f2ff633243f3a52d16be82d73f9d
|
3 |
+
size 5165809
|
special_tokens_map.json
ADDED
@@ -0,0 +1,111 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"additional_special_tokens": [
|
3 |
+
"__afr__",
|
4 |
+
"__amh__",
|
5 |
+
"__arb__",
|
6 |
+
"__ary__",
|
7 |
+
"__arz__",
|
8 |
+
"__asm__",
|
9 |
+
"__azj__",
|
10 |
+
"__bel__",
|
11 |
+
"__ben__",
|
12 |
+
"__bos__",
|
13 |
+
"__bul__",
|
14 |
+
"__cat__",
|
15 |
+
"__ceb__",
|
16 |
+
"__ces__",
|
17 |
+
"__ckb__",
|
18 |
+
"__cmn__",
|
19 |
+
"__cmn_Hant__",
|
20 |
+
"__cym__",
|
21 |
+
"__dan__",
|
22 |
+
"__deu__",
|
23 |
+
"__ell__",
|
24 |
+
"__eng__",
|
25 |
+
"__est__",
|
26 |
+
"__eus__",
|
27 |
+
"__fin__",
|
28 |
+
"__fra__",
|
29 |
+
"__fuv__",
|
30 |
+
"__gaz__",
|
31 |
+
"__gle__",
|
32 |
+
"__glg__",
|
33 |
+
"__guj__",
|
34 |
+
"__heb__",
|
35 |
+
"__hin__",
|
36 |
+
"__hrv__",
|
37 |
+
"__hun__",
|
38 |
+
"__hye__",
|
39 |
+
"__ibo__",
|
40 |
+
"__ind__",
|
41 |
+
"__isl__",
|
42 |
+
"__ita__",
|
43 |
+
"__jav__",
|
44 |
+
"__jpn__",
|
45 |
+
"__kan__",
|
46 |
+
"__kat__",
|
47 |
+
"__kaz__",
|
48 |
+
"__khk__",
|
49 |
+
"__khm__",
|
50 |
+
"__kir__",
|
51 |
+
"__kor__",
|
52 |
+
"__lao__",
|
53 |
+
"__lit__",
|
54 |
+
"__lug__",
|
55 |
+
"__luo__",
|
56 |
+
"__lvs__",
|
57 |
+
"__mai__",
|
58 |
+
"__mal__",
|
59 |
+
"__mar__",
|
60 |
+
"__mkd__",
|
61 |
+
"__mlt__",
|
62 |
+
"__mni__",
|
63 |
+
"__mya__",
|
64 |
+
"__nld__",
|
65 |
+
"__nno__",
|
66 |
+
"__nob__",
|
67 |
+
"__npi__",
|
68 |
+
"__nya__",
|
69 |
+
"__ory__",
|
70 |
+
"__pan__",
|
71 |
+
"__pbt__",
|
72 |
+
"__pes__",
|
73 |
+
"__pol__",
|
74 |
+
"__por__",
|
75 |
+
"__ron__",
|
76 |
+
"__rus__",
|
77 |
+
"__sat__",
|
78 |
+
"__slk__",
|
79 |
+
"__slv__",
|
80 |
+
"__sna__",
|
81 |
+
"__snd__",
|
82 |
+
"__som__",
|
83 |
+
"__spa__",
|
84 |
+
"__srp__",
|
85 |
+
"__swe__",
|
86 |
+
"__swh__",
|
87 |
+
"__tam__",
|
88 |
+
"__tel__",
|
89 |
+
"__tgk__",
|
90 |
+
"__tgl__",
|
91 |
+
"__tha__",
|
92 |
+
"__tur__",
|
93 |
+
"__ukr__",
|
94 |
+
"__urd__",
|
95 |
+
"__uzn__",
|
96 |
+
"__vie__",
|
97 |
+
"__yor__",
|
98 |
+
"__yue__",
|
99 |
+
"__zlm__",
|
100 |
+
"__zul__",
|
101 |
+
"<MINED_DATA>",
|
102 |
+
"<MMT_BT_DATA>",
|
103 |
+
"<SMT_BT_DATA>"
|
104 |
+
],
|
105 |
+
"bos_token": "<s>",
|
106 |
+
"cls_token": "<s>",
|
107 |
+
"eos_token": "</s>",
|
108 |
+
"pad_token": "<pad>",
|
109 |
+
"sep_token": "</s>",
|
110 |
+
"unk_token": "<unk>"
|
111 |
+
}
|
tokenizer_config.json
ADDED
@@ -0,0 +1,117 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"additional_special_tokens": null,
|
3 |
+
"bos_token": "<s>",
|
4 |
+
"clean_up_tokenization_spaces": true,
|
5 |
+
"cls_token": "<s>",
|
6 |
+
"eos_token": "</s>",
|
7 |
+
"language_code": [
|
8 |
+
"afr",
|
9 |
+
"amh",
|
10 |
+
"arb",
|
11 |
+
"ary",
|
12 |
+
"arz",
|
13 |
+
"asm",
|
14 |
+
"azj",
|
15 |
+
"bel",
|
16 |
+
"ben",
|
17 |
+
"bos",
|
18 |
+
"bul",
|
19 |
+
"cat",
|
20 |
+
"ceb",
|
21 |
+
"ces",
|
22 |
+
"ckb",
|
23 |
+
"cmn",
|
24 |
+
"cmn_Hant",
|
25 |
+
"cym",
|
26 |
+
"dan",
|
27 |
+
"deu",
|
28 |
+
"ell",
|
29 |
+
"eng",
|
30 |
+
"est",
|
31 |
+
"eus",
|
32 |
+
"fin",
|
33 |
+
"fra",
|
34 |
+
"fuv",
|
35 |
+
"gaz",
|
36 |
+
"gle",
|
37 |
+
"glg",
|
38 |
+
"guj",
|
39 |
+
"heb",
|
40 |
+
"hin",
|
41 |
+
"hrv",
|
42 |
+
"hun",
|
43 |
+
"hye",
|
44 |
+
"ibo",
|
45 |
+
"ind",
|
46 |
+
"isl",
|
47 |
+
"ita",
|
48 |
+
"jav",
|
49 |
+
"jpn",
|
50 |
+
"kan",
|
51 |
+
"kat",
|
52 |
+
"kaz",
|
53 |
+
"khk",
|
54 |
+
"khm",
|
55 |
+
"kir",
|
56 |
+
"kor",
|
57 |
+
"lao",
|
58 |
+
"lit",
|
59 |
+
"lug",
|
60 |
+
"luo",
|
61 |
+
"lvs",
|
62 |
+
"mai",
|
63 |
+
"mal",
|
64 |
+
"mar",
|
65 |
+
"mkd",
|
66 |
+
"mlt",
|
67 |
+
"mni",
|
68 |
+
"mya",
|
69 |
+
"nld",
|
70 |
+
"nno",
|
71 |
+
"nob",
|
72 |
+
"npi",
|
73 |
+
"nya",
|
74 |
+
"ory",
|
75 |
+
"pan",
|
76 |
+
"pbt",
|
77 |
+
"pes",
|
78 |
+
"pol",
|
79 |
+
"por",
|
80 |
+
"ron",
|
81 |
+
"rus",
|
82 |
+
"sat",
|
83 |
+
"slk",
|
84 |
+
"slv",
|
85 |
+
"sna",
|
86 |
+
"snd",
|
87 |
+
"som",
|
88 |
+
"spa",
|
89 |
+
"srp",
|
90 |
+
"swe",
|
91 |
+
"swh",
|
92 |
+
"tam",
|
93 |
+
"tel",
|
94 |
+
"tgk",
|
95 |
+
"tgl",
|
96 |
+
"tha",
|
97 |
+
"tur",
|
98 |
+
"ukr",
|
99 |
+
"urd",
|
100 |
+
"uzn",
|
101 |
+
"vie",
|
102 |
+
"yor",
|
103 |
+
"yue",
|
104 |
+
"zlm",
|
105 |
+
"zul"
|
106 |
+
],
|
107 |
+
"model_max_length": 1000000000000000019884624838656,
|
108 |
+
"pad_token": "<pad>",
|
109 |
+
"processor_class": "SeamlessM4TProcessor",
|
110 |
+
"sep_token": "</s>",
|
111 |
+
"sp_model_kwargs": {},
|
112 |
+
"src_lang": "__eng__",
|
113 |
+
"tgt_lang": "__fra__",
|
114 |
+
"tokenizer_class": "SeamlessM4TTokenizer",
|
115 |
+
"tokenizer_file": null,
|
116 |
+
"unk_token": "<unk>"
|
117 |
+
}
|