Spaces:
Running
Running
Update README.md
Browse files
README.md
CHANGED
@@ -41,8 +41,20 @@ some onnx codes help english-tts
|
|
41 |
#### Multi Speaker
|
42 |
- VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
|
43 |
- 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
|
44 |
-
###
|
45 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
46 |
### Phonemize
|
47 |
Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。
|
48 |
|
|
|
41 |
#### Multi Speaker
|
42 |
- VCTKのライセンスを緩いですが回避したいので、VCTKのpretrainedは使いません。
|
43 |
- 100Speakers は最大スロット数を示すモデルの型で、実際には数人スピーカーしか訓練していないモデルばかりです。
|
44 |
+
### 最終品質
|
45 |
+
|
46 |
+
音質とイントネーションのバランスで苦労しています。
|
47 |
+
|
48 |
+
- 音素が揃っている大型モデル(Large/Huge)を単独でトレーニングすると、音質はいい。ただしイントネーションは怪しい
|
49 |
+
- 混ぜたり、Fine-Tuneするとイントーネーションはよくなるが、音質は悪くなる
|
50 |
+
- カリキュラム学習がうまくいっているのか、長文の分解で失敗しているのか不明
|
51 |
+
|
52 |
+
品質検出ツールがない
|
53 |
+
|
54 |
+
- ある程度トレーニングすると大抵CERは高品質。ただしCERは、たどたどしい、ゆっくりな日本語やRobotic音声にも、満点を与えるので単独では不向き
|
55 |
+
- Roboticな出力はMore-all 出力すればある程度わかります。(人間が聞く必要あるけど)
|
56 |
+
- 一部のコーパス出力でもイントネーションを比べることは出来ますが(人間が聞く必要あるけど) 完全なカバーではない。
|
57 |
+
-
|
58 |
### Phonemize
|
59 |
Tacorton2-Japanseにあるように、いろいろ変換方式ありますが、ブラウザーで使えないので検討中です。
|
60 |
|