Akjava commited on
Commit
8d22744
·
verified ·
1 Parent(s): 1214256

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +14 -2
README.md CHANGED
@@ -41,8 +41,20 @@ some onnx codes help english-tts
41
  #### Multi Speaker
42
  - VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
43
  - 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
44
- ### 品質
45
- 結果的に、イントネーションが怪しいものが多数です。
 
 
 
 
 
 
 
 
 
 
 
 
46
  ### Phonemize
47
  Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。
48
 
 
41
  #### Multi Speaker
42
  - VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
43
  - 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
44
+ ### 最終品質
45
+
46
+ 音質とイントネーションのバランスで苦労しています。
47
+
48
+ - 音素が揃っている大型モデル(Large/Huge)を単独でトレーニングすると、音質はいい。ただしイントネーションは怪しい
49
+ - 混ぜたり、Fine-Tuneするとイントーネーションはよくなるが、音質は悪くなる
50
+ - カリキュラム学習がうまくいっているのか、長文の分解で失敗しているのか不明
51
+
52
+ 品質検出ツールがない
53
+
54
+ - ある程度トレーニングすると大抵CERは高品質。ただしCERは、たどたどしい、ゆっくりな日本語やRobotic音声にも、満点を与えるので単独では不向き
55
+ - Roboticな出力はMore-all 出力すればある程度わかります。(人間が聞く必要あるけど)
56
+ - 一部のコーパス出力でもイントネーションを比べることは出来ますが(人間が聞く必要あるけど) 完全なカバーではない。
57
+ -
58
  ### Phonemize
59
  Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。
60