metadata

language:
  - 'no'
license: apache-2.0
base_model: NbAiLab/nb-whisper-base-RC1
tags:
  - audio
  - asr
  - automatic-speech-recognition
  - hf-asr-leaderboard
model-index:
  - name: nb-whisper-base-v0.8-vad3
    results: []

nb-whisper-base-v0.8-vad3

This model is a fine-tuned version of NbAiLab/nb-whisper-base-RC1 on the NbAiLab/ncc_speech_styling_v2_vad3 dataset. It achieves the following results on the evaluation set:

step: 49999
validation_nst_loss: 0.4686
train_loss: 0.5185
validation_nst_wer: 4.7308
validation_nst_cer: 1.4896
validation_nst_exact_wer: 5.4603
validation_nst_exact_cer: 1.6035
validation_clean_stortinget_no_loss: 0.6454
validation_clean_stortinget_no_wer: 12.3235
validation_clean_stortinget_no_cer: 7.1963
validation_clean_stortinget_no_exact_wer: 15.7965
validation_clean_stortinget_no_exact_cer: 7.7657

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0001
lr_scheduler_type: linear
per_device_train_batch_size: 32
total_train_batch_size_per_node: 128
total_train_batch_size: 1024
total_optimization_steps: 50,000
starting_optimization_step: None
finishing_optimization_step: 50,000
num_train_dataset_workers: 32
num_hosts: 8
total_num_training_examples: 51,200,000
steps_per_epoch: 7455
num_beams: None
weight_decay: 0.01
adam_beta1: 0.9
adam_beta2: 0.98
adam_epsilon: 1e-06
dropout: True
bpe_dropout_probability: 0.2
activation_dropout_probability: 0.1

Training results

step	validation_nst_loss	train_loss	validation_nst_wer	validation_nst_cer	validation_nst_exact_wer	validation_nst_exact_cer	validation_clean_stortinget_no_loss	validation_clean_stortinget_no_wer	validation_clean_stortinget_no_cer	validation_clean_stortinget_no_exact_wer	validation_clean_stortinget_no_exact_cer
0	0.4594	1.1239	4.7580	1.4524	5.4984	1.5715	0.5892	11.7267	6.8997	15.1963	7.4616
5000	0.4884	0.6674	5.5038	1.7824	6.2987	1.9002	0.6483	13.0246	7.4564	16.7240	8.0698
10000	0.4834	0.6476	5.5474	1.8085	6.2823	1.9149	0.6467	12.9252	7.4203	16.4844	8.0062
15000	0.4843	0.6350	5.6672	1.7963	6.4456	1.9222	0.6517	12.7144	7.3438	16.2709	7.9357
20000	0.4760	0.5842	5.1010	1.6146	5.8033	1.7244	0.6517	12.6338	7.3208	16.2780	7.9279
25000	0.4806	0.5751	5.1718	1.6323	5.8849	1.7354	0.6512	12.6078	7.2514	16.1713	7.8452
30000	0.4740	0.5723	4.7090	1.4878	5.4058	1.6035	0.6482	12.4917	7.2427	16.0337	7.8222
35000	0.4737	0.5598	4.8887	1.5241	5.7216	1.6548	0.6510	12.2572	7.0924	15.7917	7.6744
40000	0.4731	0.5471	4.8941	1.5297	5.6073	1.6438	0.6526	12.4064	7.1642	15.8842	7.7360
45000	0.4693	0.5217	4.7580	1.4645	5.4930	1.5834	0.6471	12.1696	7.0908	15.7134	7.6776
49999	0.4686	0.5185	4.7308	1.4896	5.4603	1.6035
49999	0.6454	0.5185	12.3235	7.1963	15.7965	7.7657

Framework versions

Transformers 4.34.1
Datasets 2.16.1
Tokenizers 0.14.1