Spaces:

Akjava
/

Matcha-TTS-Japanese

Running

Akjava commited on Sep 16, 2024

Commit

8d22744

verified ·

1 Parent(s): 1214256

Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -41,8 +41,20 @@ some onnx codes help english-tts
 #### Multi Speaker
 - VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
 - 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
-### 品質
-結果的に、イントネーションが怪しいものが多数です。
 ### Phonemize
 Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。

 #### Multi Speaker
 - VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
 - 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
+### 最終品質
+音質とイントネーションのバランスで苦労しています。
+- 音素が揃っている大型モデル(Large/Huge)を単独でトレーニングすると、音質はいい。ただしイントネーションは怪しい
+- 混ぜたり、Fine-Tuneするとイントーネーションはよくなるが、音質は悪くなる
+- カリキュラム学習がうまくいっているのか、長文の分解で失敗しているのか不明
+品質検出ツールがない
+- ある程度トレーニングすると大抵CERは高品質。ただしCERは、たどたどしい、ゆっくりな日本語やRobotic音声にも、満点を与えるので単独では不向き
+- Roboticな出力はMore-all 出力すればある程度わかります。（人間が聞く必要あるけど)
+- 一部のコーパス出力でもイントネーションを比べることは出来ますが(人間が聞く必要あるけど) 完全なカバーではない。
+-
 ### Phonemize
 Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。