Training in progress, step 500

Browse files

Files changed (12) hide show

.ipynb_checkpoints/added_tokens-checkpoint.json +1 -1
.ipynb_checkpoints/run-checkpoint.sh +34 -0
.ipynb_checkpoints/special_tokens_map-checkpoint.json +1 -0
added_tokens.json +1 -1
config.json +2 -2
pytorch_model.bin +2 -2
run.sh +34 -0
runs/Jan29_15-39-53_job-0074bb36-c67f-4775-b1b6-176eb09b0ba4/1643470896.2816308/events.out.tfevents.1643470896.job-0074bb36-c67f-4775-b1b6-176eb09b0ba4.1361704.1 +3 -0
runs/Jan29_15-39-53_job-0074bb36-c67f-4775-b1b6-176eb09b0ba4/events.out.tfevents.1643470896.job-0074bb36-c67f-4775-b1b6-176eb09b0ba4.1361704.0 +3 -0
special_tokens_map.json +1 -1
training_args.bin +1 -1
vocab.json +1 -1

.ipynb_checkpoints/added_tokens-checkpoint.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"<s>": 42, "</s>": 43}


1	+ {"<s>": 36, "</s>": 37}

.ipynb_checkpoints/run-checkpoint.sh ADDED Viewed

	@@ -0,0 +1,34 @@

+python run_speech_recognition_ctc.py \
+	--dataset_name="mozilla-foundation/common_voice_8_0" \
+	--model_name_or_path="facebook/wav2vec2-xls-r-300m" \
+	--dataset_config_name="ug" \
+	--output_dir="./xls-r-uyghur-cv8" \
+	--overwrite_output_dir \
+	--num_train_epochs="100" \
+	--per_device_train_batch_size="8" \
+	--per_device_eval_batch_size="8" \
+	--gradient_accumulation_steps="4" \
+	--learning_rate="1e-4" \
+	--warmup_steps="2000" \
+	--length_column_name="input_length" \
+	--evaluation_strategy="steps" \
+	--text_column_name="sentence" \
+	--chars_to_ignore , ? . ! \- \; \: \\ _ \| ‒ ☺ ♂ © « ¬ » \" „ “ % ” �  — ’ ، ؛ ؟ ‹ › − … – \
+	--save_steps="500" \
+	--eval_steps="500" \
+	--logging_steps="100" \
+	--layerdrop="0.0" \
+	--activation_dropout="0.1" \
+	--save_total_limit="3" \
+	--freeze_feature_encoder \
+	--feat_proj_dropout="0.0" \
+	--mask_time_prob="0.75" \
+	--mask_time_length="10" \
+	--mask_feature_prob="0.25" \
+	--mask_feature_length="64" \
+	--gradient_checkpointing \
+	--use_auth_token \
+	--fp16 \
+	--group_by_length \
+	--do_train --do_eval \
+	--push_to_hub

.ipynb_checkpoints/special_tokens_map-checkpoint.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}

added_tokens.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"<s>": 42, "</s>": 43}


1	+ {"<s>": 36, "</s>": 37}

config.json CHANGED Viewed

@@ -76,7 +76,7 @@
   "num_hidden_layers": 24,
   "num_negatives": 100,
   "output_hidden_size": 1024,
-  "pad_token_id": 41,
   "proj_codevector_dim": 768,
   "tdnn_dilation": [
     1,
@@ -102,6 +102,6 @@
   "torch_dtype": "float32",
   "transformers_version": "4.16.0.dev0",
   "use_weighted_layer_sum": false,
-  "vocab_size": 44,
   "xvector_output_dim": 512
 }

   "num_hidden_layers": 24,
   "num_negatives": 100,
   "output_hidden_size": 1024,
+  "pad_token_id": 35,
   "proj_codevector_dim": 768,
   "tdnn_dilation": [
     1,
   "torch_dtype": "float32",
   "transformers_version": "4.16.0.dev0",
   "use_weighted_layer_sum": false,
+  "vocab_size": 38,
   "xvector_output_dim": 512
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1116f3ee11641a58b4d05b479eab62bd54209a9260c5cda2e23d53a2bde8d25
-size 1262104049

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a3ad97ece4793bda34e8150646674d77e896042808a6b9fc05701079d65c0e6
+size 1262079473

run.sh ADDED Viewed

	@@ -0,0 +1,34 @@

+python run_speech_recognition_ctc.py \
+	--dataset_name="mozilla-foundation/common_voice_8_0" \
+	--model_name_or_path="facebook/wav2vec2-xls-r-300m" \
+	--dataset_config_name="ug" \
+	--output_dir="./xls-r-uyghur-cv8" \
+	--overwrite_output_dir \
+	--num_train_epochs="100" \
+	--per_device_train_batch_size="8" \
+	--per_device_eval_batch_size="8" \
+	--gradient_accumulation_steps="4" \
+	--learning_rate="1e-4" \
+	--warmup_steps="2000" \
+	--length_column_name="input_length" \
+	--evaluation_strategy="steps" \
+	--text_column_name="sentence" \
+	--chars_to_ignore , ? . ! \- \; \: \\ _ \| ‒ ☺ ♂ © « ¬ » \" „ “ % ” �  — ’ ، ؛ ؟ ‹ › − … – \
+	--save_steps="500" \
+	--eval_steps="500" \
+	--logging_steps="100" \
+	--layerdrop="0.0" \
+	--activation_dropout="0.1" \
+	--save_total_limit="3" \
+	--freeze_feature_encoder \
+	--feat_proj_dropout="0.0" \
+	--mask_time_prob="0.75" \
+	--mask_time_length="10" \
+	--mask_feature_prob="0.25" \
+	--mask_feature_length="64" \
+	--gradient_checkpointing \
+	--use_auth_token \
+	--fp16 \
+	--group_by_length \
+	--do_train --do_eval \
+	--push_to_hub

runs/Jan29_15-39-53_job-0074bb36-c67f-4775-b1b6-176eb09b0ba4/1643470896.2816308/events.out.tfevents.1643470896.job-0074bb36-c67f-4775-b1b6-176eb09b0ba4.1361704.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e47b8b81878370179f320a4a41c2d9e135216183adc90744dd0b29f3284622f8
+size 4802

runs/Jan29_15-39-53_job-0074bb36-c67f-4775-b1b6-176eb09b0ba4/events.out.tfevents.1643470896.job-0074bb36-c67f-4775-b1b6-176eb09b0ba4.1361704.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26425c50ab8b2485d1f2e80976ab298af47009398b653416088af305c50e5f98
+size 5831

special_tokens_map.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}

+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]", "additional_special_tokens": [{"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}]}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81c852d75cc7308b223dd2f8668f73ae311d16d0fb416266206ec9a8c702837a
 size 3055

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b6c2e5784857823e08cb2de88b60d0e851153e8fa91b898a9b696464a846526
 size 3055

vocab.json CHANGED Viewed

@@ -1 +1 @@

- {"،": 1, "؛": 2, "؟": 3, "ئ": 4, "ا": 5, "ب": 6, "ت": 7, "ج": 8, "خ": 9, "د": 10, "ر": 11, "ز": 12, "س": 13, "ش": 14, "غ": 15, "ف": 16, "ق": 17, "ك": 18, "ل": 19, "م": 20, "ن": 21, "و": 22, "ى": 23, "ي": 24, "پ": 25, "چ": 26, "ژ": 27, "ڭ": 28, "گ": 29, "ھ": 30, "ۆ": 31, "ۇ": 32, "ۈ": 33, "~~ۋ": 34, "ې": 35, "ە": 36, "‹": 37, "›": 38, "−": 39, "~~|": 0, "[UNK]": 40, "[PAD]": 41}


1	+ {"ئ": 1, "ا": 2, "ب": 3, "ت": 4, "ج": 5, "خ": 6, "د": 7, "ر": 8, "ز": 9, "س": 10, "ش": 11, "غ": 12, "ف": 13, "ق": 14, "ك": 15, "ل": 16, "م": 17, "ن": 18, "و": 19, "ى": 20, "ي": 21, "پ": 22, "چ": 23, "ژ": 24, "ڭ": 25, "گ": 26, "ھ": 27, "ۆ": 28, "ۇ": 29, "ۈ": 30, "ۋ": 31, "ې": 32, "ە": 33, "\|": 0, "[UNK]": 34, "[PAD]": 35}