File size: 5,730 Bytes

15ec860

---
language:
- lt
license: apache-2.0
tags:
- automatic-speech-recognition
- mozilla-foundation/common_voice_8_0
- generated_from_trainer
- fi
- robust-speech-event
- model_for_talk
datasets:
- mozilla-foundation/common_voice_8_0

model-index:
- name: sammy786/wav2vec2-xlsr-lithuanian
  results:
  - task: 
      name: Automatic Speech Recognition 
      type: automatic-speech-recognition
    dataset:
      name: Common Voice 8
      type: mozilla-foundation/common_voice_8_0
      args: fi
    metrics:
       - name: Test WER
         type: wer
         value: 39.10
       - name: Test CER
         type: cer
         value: 11.38
  - task: 
      name: Automatic Speech Recognition
      type: automatic-speech-recognition
    dataset:
      name: Robust Speech Event - Dev Data
      type: speech-recognition-community-v2/dev_data
      args: lt
    metrics:
       - name: Test WER
         type: wer
         value: 39.10
       - name: Test CER
         type: cer
         value: 11.38
---
# sammy786/wav2vec2-xlsr-lithuanian

This model is a fine-tuned version of [facebook/wav2vec2-xls-r-1b](https://huggingface.co/facebook/wav2vec2-xls-r-1b) on the MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - lt dataset.
It achieves the following results on evaluation set (which is 10 percent of train data set merged with other and dev datasets):
- Loss: 13.1811
- Wer: 24.2570

## Model description
"facebook/wav2vec2-xls-r-1b" was finetuned.

## Intended uses & limitations
More information needed
## Training and evaluation data
Training data - 
Common voice Finnish train.tsv, dev.tsv and other.tsv

## Training procedure
For creating the train dataset, all possible datasets were appended and 90-10 split was used. 

### Training hyperparameters

The following hyperparameters were used during training:

- learning_rate: 0.000045637994662983496
- train_batch_size: 8
- eval_batch_size: 16
- seed: 13
- gradient_accumulation_steps: 4
- total_train_batch_size: 32
- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
- lr_scheduler_type: cosine_with_restarts
- lr_scheduler_warmup_steps: 500
- num_epochs: 40
- mixed_precision_training: Native AMP


### Training results


| Step  | Training Loss | Validation Loss | Wer      |
|:-----:|:-------------:|:---------------:|:--------:|
| 200   | 5.718700      | 2.897032        | 1.000000 |
| 400   | 1.340000      | 0.309548        | 0.507284 |
| 600   | 0.799100      | 0.220205        | 0.402098 |
| 800   | 0.494400      | 0.185093        | 0.352855 |
| 1000  | 0.370800      | 0.165869        | 0.334207 |
| 1200  | 0.312500      | 0.159801        | 0.324009 |
| 1400  | 0.276100      | 0.148066        | 0.321678 |
| 1600  | 0.250100      | 0.153748        | 0.311626 |
| 1800  | 0.226400      | 0.147437        | 0.302885 |
| 2000  | 0.206900      | 0.141176        | 0.296037 |
| 2200  | 0.189900      | 0.142161        | 0.288170 |
| 2400  | 0.192100      | 0.138029        | 0.286568 |
| 2600  | 0.175600      | 0.139496        | 0.283654 |
| 2800  | 0.156900      | 0.138609        | 0.283217 |
| 3000  | 0.149400      | 0.140468        | 0.281906 |
| 3200  | 0.144600      | 0.132472        | 0.278263 |
| 3400  | 0.144100      | 0.141028        | 0.277535 |
| 3600  | 0.133000      | 0.134287        | 0.275495 |
| 3800  | 0.126600      | 0.149136        | 0.277681 |
| 4000  | 0.123500      | 0.132180        | 0.266463 |
| 4200  | 0.113000      | 0.137942        | 0.268211 |
| 4400  | 0.111700      | 0.140038        | 0.272873 |
| 4600  | 0.108600      | 0.136756        | 0.264132 |
| 4800  | 0.103600      | 0.137541        | 0.263403 |
| 5000  | 0.098000      | 0.140435        | 0.264860 |
| 5200  | 0.095800      | 0.136950        | 0.262383 |
| 5400  | 0.094000      | 0.128214        | 0.263986 |
| 5600  | 0.085300      | 0.125024        | 0.259761 |
| 5800  | 0.078900      | 0.128575        | 0.260198 |
| 6000  | 0.083300      | 0.135496        | 0.258887 |
| 6200  | 0.078800      | 0.131706        | 0.259178 |
| 6400  | 0.073800      | 0.128451        | 0.255390 |
| 6600  | 0.072600      | 0.131245        | 0.252768 |
| 6800  | 0.073300      | 0.131525        | 0.249417 |
| 7000  | 0.069000      | 0.128627        | 0.255536 |
| 7200  | 0.064400      | 0.127767        | 0.250583 |
| 7400  | 0.065400      | 0.129557        | 0.247815 |
| 7600  | 0.061200      | 0.129734        | 0.250146 |
| 7800  | 0.059100      | 0.135124        | 0.249709 |
| 8000  | 0.057000      | 0.132850        | 0.249126 |
| 8200  | 0.056100      | 0.128827        | 0.248252 |
| 8400  | 0.056400      | 0.130229        | 0.246795 |
| 8600  | 0.052800      | 0.128939        | 0.245775 |
| 8800  | 0.051100      | 0.131892        | 0.248543 |
| 9000  | 0.052900      | 0.132062        | 0.244464 |
| 9200  | 0.048200      | 0.130988        | 0.244172 |
| 9400  | 0.047700      | 0.131811        | 0.242570 |
| 9600  | 0.050000      | 0.133832        | 0.245484 |
| 9800  | 0.047500      | 0.134340        | 0.243881 |
| 10000 | 0.048400      | 0.133388        | 0.243590 |
| 10200 | 0.047800      | 0.132729        | 0.244464 |
| 10400 | 0.049000      | 0.131695        | 0.245047 |
| 10600 | 0.044400      | 0.132154        | 0.245484 |
| 10800 | 0.050100      | 0.131575        | 0.245192 |
| 11000 | 0.047700      | 0.131211        | 0.245192 |
| 11200 | 0.046000      | 0.131293        | 0.245047 |


### Framework versions
- Transformers 4.16.0.dev0
- Pytorch 1.10.0+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.10.3

#### Evaluation Commands

1. To evaluate on `mozilla-foundation/common_voice_8_0` with split `test`

```bash
python eval.py --model_id sammy786/wav2vec2-xlsr-lithuanian --dataset mozilla-foundation/common_voice_8_0 --config lt --split test
```