nhanv commited on
Commit
7beb4e7
1 Parent(s): 705ed4e

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -8
README.md CHANGED
@@ -42,7 +42,7 @@ from datasets import load_dataset
42
  from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
43
  LANG_ID = "ja"
44
  MODEL_ID = "NTQAI/wav2vec2-large-japanese"
45
- SAMPLES = 10
46
  test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
47
  processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
48
  model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
@@ -69,13 +69,7 @@ for i, predicted_sentence in enumerate(predicted_sentences):
69
  | 祖母は、おおむね機嫌よく、サイコロをころがしている。 | 祖母思い切れを最布ロぼがしている |
70
  | 財布をなくしたので、交番へ行きます。 | 財布をなく時間ので交番でへ行きます |
71
  | 飲み屋のおやじ、旅館の主人、医者をはじめ、交際のある人にきいてまわったら、みんな、私より収入が多いはずなのに、税金は安い。 | ロみ屋のおやし旅館の主人に医をはめ交載のあの人に聞いて回ったらみんな私より収入が多い発ずなのに請金は安い |
72
- | 新しい靴をはいて出かけます |
73
- | このためプラズマ中のイオンや電子の持つ平均運動エネルギーを温度で表現することがある | このためプラズマ中のイオンや電子の持つ平均運動エネルギーを温度で表弁することがある |
74
- | 松井さんはサッカーより野球のほうが上手です。 | 松井さんはサッカーより野球のほうが上手です |
75
- | 新しいお皿を使います。 | 新しいお皿を使います |
76
- | 結婚以来三年半ぶりの東京も、旧友とのお酒も、夜行列車も、駅で寝て、朝を待つのも久しぶりだ。 | 結婚ル二来三年半降りの東京も吸とのお酒も野越者も駅で寝て朝を待つの久しぶりた |
77
- | これまで、少年野球、ママさんバレーなど、地域スポーツを支え、市民に密着してきたのは、無数のボランティアだった。 | これまで少年野球<unk>三バレーなど地域スポーツを支え市民に満着してきたのは娘数のボランティアだった |
78
- | 靴を脱いで、スリッパをはきます。 | 靴を脱いでスイパーをはきます |
79
  ## Evaluation
80
  The model can be evaluated as follows on the Japanese test data of Common Voice.
81
  ```python
@@ -131,5 +125,6 @@ In the table below I report the Word Error Rate (WER) and the Character Error Ra
131
  | Model | WER | CER |
132
  | ------------- | ------------- | ------------- |
133
  | NTQAI/wav2vec2-large-japanese | **81.30%** | **21.9%** |
 
134
  | vumichien/wav2vec2-large-xlsr-japanese | 1108.86% | 23.40% |
135
  | qqhann/w2v_hf_jsut_xlsr53 | 1012.18% | 70.77% |
 
42
  from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
43
  LANG_ID = "ja"
44
  MODEL_ID = "NTQAI/wav2vec2-large-japanese"
45
+ SAMPLES = 3
46
  test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")
47
  processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
48
  model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
 
69
  | 祖母は、おおむね機嫌よく、サイコロをころがしている。 | 祖母思い切れを最布ロぼがしている |
70
  | 財布をなくしたので、交番へ行きます。 | 財布をなく時間ので交番でへ行きます |
71
  | 飲み屋のおやじ、旅館の主人、医者をはじめ、交際のある人にきいてまわったら、みんな、私より収入が多いはずなのに、税金は安い。 | ロみ屋のおやし旅館の主人に医をはめ交載のあの人に聞いて回ったらみんな私より収入が多い発ずなのに請金は安い |
72
+
 
 
 
 
 
 
73
  ## Evaluation
74
  The model can be evaluated as follows on the Japanese test data of Common Voice.
75
  ```python
 
125
  | Model | WER | CER |
126
  | ------------- | ------------- | ------------- |
127
  | NTQAI/wav2vec2-large-japanese | **81.30%** | **21.9%** |
128
+ | google speech (ja-JP) | 80% | 22.1% |
129
  | vumichien/wav2vec2-large-xlsr-japanese | 1108.86% | 23.40% |
130
  | qqhann/w2v_hf_jsut_xlsr53 | 1012.18% | 70.77% |