voidful
/

wav2vec2-large-xlsr-53-tw-gpt

@@ -21,10 +21,14 @@ model-index:
     metrics:
        - name: Test CER
          type: cer
-         value: 78.03
 ---
-## Colab trial with recording or voice file
 [Colab trial](https://colab.research.google.com/drive/1e_z5jQHYbO2YKEaUgzb1ww1WwiAyydAj?usp=sharing)
 ```
@@ -87,8 +91,15 @@ Predict
 predict(load_file_to_data('voice file path'))
 ```
-## Evaluation on Common Voice TW Test
 ```python
 import torchaudio
 from datasets import load_dataset, load_metric
 from transformers import (
@@ -97,10 +108,11 @@ from transformers import (
 )
 import torch
 import re
-model_name = "voidful/wav2vec2-large-xlsr-53-tw"
 device = "cuda"
-processor_name = "voidful/wav2vec2-large-xlsr-53-tw"
 chars_to_ignore_regex = r"[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.．!\"#$%&()*+,\-.\:;<=>?@\[\]\\\/^_`{|}~]"
@@ -133,15 +145,18 @@ def map_to_pred(batch):
 result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
-wer = load_metric("wer")
-print(wer.compute(predictions=result["predicted"], references=result["target"]))
 ```
-`CER: 0.842832469775475`
-Inference with GPT LM:
 ```python
 import torchaudio
 from datasets import load_dataset, load_metric
 from transformers import (
@@ -150,12 +165,12 @@ from transformers import (
 )
 import torch
 import re
 from transformers import AutoTokenizer, AutoModelWithLMHead
-model_name = "voidful/wav2vec2-large-xlsr-53-tw"
 device = "cuda"
-processor_name = "voidful/wav2vec2-large-xlsr-53-tw"
 chars_to_ignore_regex = r"[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.．!\"#$%&()*+,\-.\:;<=>?@\[\]\\\/^_`{|}~]"
 tokenizer = AutoTokenizer.from_pretrained("ckiplab/gpt2-base-chinese")
@@ -201,9 +216,8 @@ def map_to_pred(batch):
 result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
-wer = load_metric("wer")
-print(wer.compute(predictions=result["predicted"], references=result["target"]))
 ```
-`CER 0.7803108808290156`

     metrics:
        - name: Test CER
          type: cer
+         value: 16.41
 ---
+# Wav2Vec2-Large-XLSR-53-tw-gpt
+Fine-tuned [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on zh-tw using the [Common Voice](https://huggingface.co/datasets/common_voice).
+When using this model, make sure that your speech input is sampled at 16kHz.
+## Usage
 [Colab trial](https://colab.research.google.com/drive/1e_z5jQHYbO2YKEaUgzb1ww1WwiAyydAj?usp=sharing)
 ```
 predict(load_file_to_data('voice file path'))
 ```
+## Evaluation
+The model can be evaluated as follows on the zh-tw test data of Common Voice.
+CER calculation refer to https://huggingface.co/ctl/wav2vec2-large-xlsr-cantonese
 ```python
+!mkdir cer
+!wget -O cer/cer.py https://huggingface.co/ctl/wav2vec2-large-xlsr-cantonese/raw/main/cer.py
+!pip install jiwer
 import torchaudio
 from datasets import load_dataset, load_metric
 from transformers import (
 )
 import torch
 import re
+import sys
+model_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
 device = "cuda"
+processor_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
 chars_to_ignore_regex = r"[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.．!\"#$%&()*+,\-.\:;<=>?@\[\]\\\/^_`{|}~]"
 result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
+cer = load_metric("./cer")
+print("CER: {:2f}".format(100 * cer.compute(predictions=result["predicted"], references=result["target"])))
 ```
+`CER: 28.734822`
+## Evaluation with GPT:
 ```python
+!mkdir cer
+!wget -O cer/cer.py https://huggingface.co/ctl/wav2vec2-large-xlsr-cantonese/raw/main/cer.py
+!pip install jiwer
 import torchaudio
 from datasets import load_dataset, load_metric
 from transformers import (
 )
 import torch
 import re
+import sys
 from transformers import AutoTokenizer, AutoModelWithLMHead
+model_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
 device = "cuda"
+processor_name = "voidful/wav2vec2-large-xlsr-53-tw-gpt"
 chars_to_ignore_regex = r"[¥•＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､　、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·'℃°•·．﹑︰〈〉─《﹖﹣﹂﹁﹔！？｡。＂＃＄％＆＇（）＊＋，﹐－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.．!\"#$%&()*+,\-.\:;<=>?@\[\]\\\/^_`{|}~]"
 tokenizer = AutoTokenizer.from_pretrained("ckiplab/gpt2-base-chinese")
 result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
+cer = load_metric("./cer")
+print("CER: {:2f}".format(100 * cer.compute(predictions=result["predicted"], references=result["target"])))
 ```
+`CER 25.69`