voidful
/

wav2vec2-large-xlsr-53-hk

Automatic Speech Recognition

hf-asr-leaderboard

robust-speech-event

xlsr-fine-tuning-week

Inference Endpoints

Model card Files Files and versions Community

voidful commited on Mar 23, 2021

Commit

e4361b5

•

1 Parent(s): fe26a2e

correcting CER score

Files changed (1) hide show

README.md +18 -8

README.md CHANGED Viewed

@@ -21,10 +21,14 @@ model-index:
     metrics:
        - name: Test CER
          type: cer
-         value: 76.57
 ---
-## Colab trial with recording or voice file
 [Colab trial](https://colab.research.google.com/drive/1nBRLf4Pwiply_y5rXWoaIB8LxX41tfEI?usp=sharing)
 ```
@@ -73,8 +77,15 @@ Predict
 predict(load_file_to_data('voice file path'))
 ```
-## Evaluation on Common Voice HK Test
 ```python
 import torchaudio
 from datasets import load_dataset, load_metric
 from transformers import (
@@ -85,6 +96,7 @@ import torch
 import re
 import sys
 model_name = "voidful/wav2vec2-large-xlsr-53-hk"
 device = "cuda"
 processor_name = "voidful/wav2vec2-large-xlsr-53-hk"
@@ -94,7 +106,7 @@ chars_to_ignore_regex = r"[¥•＂＃＄％＆＇（）＊＋，－／：；＜
 model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
 processor = Wav2Vec2Processor.from_pretrained(processor_name)
-ds = load_dataset("common_voice", 'zh-HK', split="test")
 resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)
@@ -120,9 +132,7 @@ def map_to_pred(batch):
 result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
-wer = load_metric("wer")
-print(wer.compute(predictions=result["predicted"], references=result["target"]))
 ```
-`CER 0.7656911821332306`

     metrics:
        - name: Test CER
          type: cer
+         value: 16.41
 ---
+# Wav2Vec2-Large-XLSR-53-hk
+Fine-tuned [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on Cantonese using the [Common Voice](https://huggingface.co/datasets/common_voice).
+When using this model, make sure that your speech input is sampled at 16kHz.
+## Usage
 [Colab trial](https://colab.research.google.com/drive/1nBRLf4Pwiply_y5rXWoaIB8LxX41tfEI?usp=sharing)
 ```
 predict(load_file_to_data('voice file path'))
 ```
+## Evaluation
+The model can be evaluated as follows on the Chinese (Hong Kong) test data of Common Voice.
+CER calculation refer to https://huggingface.co/ctl/wav2vec2-large-xlsr-cantonese
 ```python
+!mkdir cer
+!wget -O cer/cer.py https://huggingface.co/ctl/wav2vec2-large-xlsr-cantonese/raw/main/cer.py
+!pip install jiwer
 import torchaudio
 from datasets import load_dataset, load_metric
 from transformers import (
 import re
 import sys
+cer = load_metric("./cer")
 model_name = "voidful/wav2vec2-large-xlsr-53-hk"
 device = "cuda"
 processor_name = "voidful/wav2vec2-large-xlsr-53-hk"
 model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
 processor = Wav2Vec2Processor.from_pretrained(processor_name)
+ds = load_dataset("common_voice", 'zh-HK', data_dir="./cv-corpus-6.1-2020-12-11", split="test")
 resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)
 result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
+print("CER: {:2f}".format(100 * cer.compute(predictions=result["predicted"], references=result["target"])))
 ```
+`CER 16.41`