NbAiLab
/

wav2vec2-large-voxrex-npsc-nynorsk

@@ -1,15 +1,15 @@
-WANDB_ENTITY=NbAiLab WANDB_PROJECT=wav2vec2 python run_speech_recognition_ctc.py \
         --dataset_name="NbAiLab/NPSC" \
         --model_name_or_path="KBLab/wav2vec2-large-voxrex" \
         --hub_model_id="NbAiLab/wav2vec2-large-voxrex-npsc-nynorsk" \
         --dataset_config_name="16K_mp3" \
         --output_dir="./" \
         --overwrite_output_dir \
-        --num_train_epochs="15" \
         --per_device_train_batch_size="16" \
         --per_device_eval_batch_size="16" \
         --gradient_accumulation_steps="2" \
-        --learning_rate="1e-4" \
         --warmup_steps="2000" \
         --length_column_name="input_length" \
         --evaluation_strategy="steps" \
@@ -29,7 +29,7 @@ WANDB_ENTITY=NbAiLab WANDB_PROJECT=wav2vec2 python run_speech_recognition_ctc.py
         --mask_feature_prob="0.25" \
         --mask_feature_length="64" \
         --gradient_checkpointing \
-        --min_duration_in_seconds="0.5" \
         --max_duration_in_seconds="30.0" \
         --use_auth_token \
         --seed="42" \
@@ -37,4 +37,5 @@ WANDB_ENTITY=NbAiLab WANDB_PROJECT=wav2vec2 python run_speech_recognition_ctc.py
         --group_by_length \
         --do_train --do_eval \
         --push_to_hub \
-        --preprocessing_num_workers="32"

+python run_speech_recognition_ctc.py \
         --dataset_name="NbAiLab/NPSC" \
         --model_name_or_path="KBLab/wav2vec2-large-voxrex" \
         --hub_model_id="NbAiLab/wav2vec2-large-voxrex-npsc-nynorsk" \
         --dataset_config_name="16K_mp3" \
         --output_dir="./" \
         --overwrite_output_dir \
+        --num_train_epochs="40" \
         --per_device_train_batch_size="16" \
         --per_device_eval_batch_size="16" \
         --gradient_accumulation_steps="2" \
+        --learning_rate="7.5e-5" \
         --warmup_steps="2000" \
         --length_column_name="input_length" \
         --evaluation_strategy="steps" \
         --mask_feature_prob="0.25" \
         --mask_feature_length="64" \
         --gradient_checkpointing \
+        --min_duration_in_seconds="0.8" \
         --max_duration_in_seconds="30.0" \
         --use_auth_token \
         --seed="42" \
         --group_by_length \
         --do_train --do_eval \
         --push_to_hub \
+        --preprocessing_num_workers="32"\
+	--ctc_zero_infinity=True

run_speech_recognition_ctc.py CHANGED Viewed

@@ -409,11 +409,11 @@ def main():
             and "9" not in entry["text"]
         )
-    def filter_inaudible(entry):
-        return not re.search("\d|<inaudible>", entry["text"], flags=re.IGNORECASE)
     def filter_nynorsk(entry):
-        return re.search("nb-no", entry["sentence_language_code"], flags=re.IGNORECASE)
     def filter_tooshort(entry):
         #print(f"The audio sample ({entry["audio"]["path"]}) is too small, and has been omitted. "
@@ -433,6 +433,7 @@ def main():
         batch["text"] = re.sub('<ee>', 'eee', batch["text"])
         batch["text"] = re.sub('<qq>', 'qqq', batch["text"])
         batch["text"] = re.sub('<mm>', 'mmm', batch["text"])
         # batch["text"] = re.sub('<inaudible>', '?', batch["text"])
         if "<" in batch["text"]:
             raise ValueError(batch["text"])
@@ -448,7 +449,7 @@ def main():
             split=data_args.train_split_name,
             use_auth_token=data_args.use_auth_token,
         ).shuffle()
-        raw_datasets["train"] = raw_datasets["train"].filter(filter_numeric).filter(filter_inaudible).filter(filter_nynorsk).filter(filter_tooshort)
         raw_datasets["train"] = raw_datasets["train"].map(map_dataset)
         if data_args.audio_column_name not in raw_datasets["train"].column_names:
@@ -475,7 +476,7 @@ def main():
             split=data_args.eval_split_name,
             use_auth_token=data_args.use_auth_token,
         ).shuffle()
-        raw_datasets["eval"] = raw_datasets["eval"].filter(filter_numeric).filter(filter_inaudible).filter(filter_nynorsk).filter(filter_tooshort)
         raw_datasets["eval"] = raw_datasets["eval"].map(map_dataset)
         if data_args.max_eval_samples is not None:

             and "9" not in entry["text"]
         )
+    #def filter_inaudible(entry):
+    #   return not re.search("\d|<inaudible>", entry["text"], flags=re.IGNORECASE)
+    #
     def filter_nynorsk(entry):
+        return re.search("nn-no", entry["sentence_language_code"], flags=re.IGNORECASE)
     def filter_tooshort(entry):
         #print(f"The audio sample ({entry["audio"]["path"]}) is too small, and has been omitted. "
         batch["text"] = re.sub('<ee>', 'eee', batch["text"])
         batch["text"] = re.sub('<qq>', 'qqq', batch["text"])
         batch["text"] = re.sub('<mm>', 'mmm', batch["text"])
+        batch["text"] = re.sub('<inaudible>', 'xxx', batch["text"])
         # batch["text"] = re.sub('<inaudible>', '?', batch["text"])
         if "<" in batch["text"]:
             raise ValueError(batch["text"])
             split=data_args.train_split_name,
             use_auth_token=data_args.use_auth_token,
         ).shuffle()
+        raw_datasets["train"] = raw_datasets["train"].filter(filter_numeric).filter(filter_nynorsk).filter(filter_tooshort)
         raw_datasets["train"] = raw_datasets["train"].map(map_dataset)
         if data_args.audio_column_name not in raw_datasets["train"].column_names:
             split=data_args.eval_split_name,
             use_auth_token=data_args.use_auth_token,
         ).shuffle()
+        raw_datasets["eval"] = raw_datasets["eval"].filter(filter_numeric).filter(filter_nynorsk).filter(filter_tooshort)
         raw_datasets["eval"] = raw_datasets["eval"].map(map_dataset)
         if data_args.max_eval_samples is not None: