RuudVelo
/

wav2vec2-large-xls-r-1b-cv8-mt

Automatic Speech Recognition

mozilla-foundation/common_voice_8_0

Generated from Trainer

robust-speech-event

hf-asr-leaderboard

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

RuudVelo commited on Feb 5, 2022

Commit

5059a57

•

1 Parent(s): e15b2f0

Update README.md

Files changed (1) hide show

README.md +36 -13

README.md CHANGED Viewed

@@ -35,18 +35,41 @@ More information needed
 ### Training hyperparameters
-The following hyperparameters were used during training:
-- learning_rate: 5.5e-05
-- train_batch_size: 32
-- eval_batch_size: 8
-- seed: 42
-- gradient_accumulation_steps: 2
-- total_train_batch_size: 64
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: linear
-- lr_scheduler_warmup_steps: 500
-- num_epochs: 50
-- mixed_precision_training: Native AMP
 ### Training results
@@ -61,5 +84,5 @@ The following hyperparameters were used during training:
 - Transformers 4.17.0.dev0
 - Pytorch 1.10.2+cu102
-- Datasets 1.18.2.dev0
 - Tokenizers 0.11.0

 ### Training hyperparameters
+The following config and hyperparameters were used during training:
+model = Wav2Vec2ForCTC.from_pretrained(
+    "facebook/wav2vec2-xls-r-1b",
+    attention_dropout=0.05,
+    hidden_dropout=0.05,
+    feat_proj_dropout=0.05,
+    mask_time_prob=0.55,
+    mask_feature_prob=0.10,
+    layerdrop=0.05,
+    ctc_zero_infinity=True,
+    ctc_loss_reduction="mean",
+    pad_token_id=processor.tokenizer.pad_token_id,
+    vocab_size=len(processor.tokenizer),
+)
+from transformers import TrainingArguments
+training_args = TrainingArguments(
+  output_dir=repo_name,
+  group_by_length=True,
+  per_device_train_batch_size=32,
+  gradient_accumulation_steps=2,
+  evaluation_strategy="steps",
+  num_train_epochs=50,
+  gradient_checkpointing=True,
+  fp16=True,
+  save_steps=400,
+  eval_steps=400,
+  logging_steps=400,
+  learning_rate=5.5e-05,
+  warmup_steps=500,
+  save_total_limit=2,
+  push_to_hub=True,
+  report_to="tensorboard")
 ### Training results
 - Transformers 4.17.0.dev0
 - Pytorch 1.10.2+cu102
+- Datasets 1.18.3
 - Tokenizers 0.11.0