NbAiLab
/

wav2vec2-large-voxrex-npsc-nynorsk

@@ -2,7 +2,7 @@ python run_speech_recognition_ctc.py \
         --dataset_name="NbAiLab/NPSC" \
         --model_name_or_path="KBLab/wav2vec2-large-voxrex" \
         --hub_model_id="NbAiLab/wav2vec2-large-voxrex-npsc-nynorsk" \
-        --dataset_config_name="16K_mp3" \
         --output_dir="./" \
         --overwrite_output_dir \
         --num_train_epochs="40" \

         --dataset_name="NbAiLab/NPSC" \
         --model_name_or_path="KBLab/wav2vec2-large-voxrex" \
         --hub_model_id="NbAiLab/wav2vec2-large-voxrex-npsc-nynorsk" \
+        --dataset_config_name="16K_mp3_nynorsk" \
         --output_dir="./" \
         --overwrite_output_dir \
         --num_train_epochs="40" \

run_speech_recognition_ctc.py CHANGED Viewed

@@ -412,8 +412,8 @@ def main():
     #def filter_inaudible(entry):
     #   return not re.search("\d|<inaudible>", entry["text"], flags=re.IGNORECASE)
     #
-    def filter_nynorsk(entry):
-        return re.search("nn-no", entry["sentence_language_code"], flags=re.IGNORECASE)
     def filter_tooshort(entry):
         #print(f"The audio sample ({entry["audio"]["path"]}) is too small, and has been omitted. "
@@ -449,7 +449,7 @@ def main():
             split=data_args.train_split_name,
             use_auth_token=data_args.use_auth_token,
         ).shuffle()
-        raw_datasets["train"] = raw_datasets["train"].filter(filter_numeric).filter(filter_nynorsk).filter(filter_tooshort)
         raw_datasets["train"] = raw_datasets["train"].map(map_dataset)
         if data_args.audio_column_name not in raw_datasets["train"].column_names:
@@ -476,7 +476,7 @@ def main():
             split=data_args.eval_split_name,
             use_auth_token=data_args.use_auth_token,
         ).shuffle()
-        raw_datasets["eval"] = raw_datasets["eval"].filter(filter_numeric).filter(filter_nynorsk).filter(filter_tooshort)
         raw_datasets["eval"] = raw_datasets["eval"].map(map_dataset)
         if data_args.max_eval_samples is not None:

     #def filter_inaudible(entry):
     #   return not re.search("\d|<inaudible>", entry["text"], flags=re.IGNORECASE)
     #
+    #def filter_nynorsk(entry):
+    #    return re.search("nn-no", entry["sentence_language_code"], flags=re.IGNORECASE)
     def filter_tooshort(entry):
         #print(f"The audio sample ({entry["audio"]["path"]}) is too small, and has been omitted. "
             split=data_args.train_split_name,
             use_auth_token=data_args.use_auth_token,
         ).shuffle()
+        raw_datasets["train"] = raw_datasets["train"].filter(filter_numeric).filter(filter_tooshort)
         raw_datasets["train"] = raw_datasets["train"].map(map_dataset)
         if data_args.audio_column_name not in raw_datasets["train"].column_names:
             split=data_args.eval_split_name,
             use_auth_token=data_args.use_auth_token,
         ).shuffle()
+        raw_datasets["eval"] = raw_datasets["eval"].filter(filter_numeric).filter(filter_tooshort)
         raw_datasets["eval"] = raw_datasets["eval"].map(map_dataset)
         if data_args.max_eval_samples is not None: