Spaces:

united-link
/

taiwanese-hakka-tts

Sleeping

App Files Files Community

txya900619 commited on Apr 15, 2024

Commit

bde200c

1 Parent(s): 61f51e4

feat: let se model can use custom emb

Browse files

Files changed (1) hide show

app.py +74 -17

app.py CHANGED Viewed

@@ -14,6 +14,7 @@ from replace.tts import ChangedVitsConfig
 TTS.tts.configs.vits_config.VitsConfig = ChangedVitsConfig
 def load_model(model_id):
     model_dir = snapshot_download(model_id)
     config_file_path = os.path.join(model_dir, "config.json")
@@ -34,11 +35,20 @@ def load_model(model_id):
         f.close()
     return Synthesizer(tts_checkpoint=model_ckpt_path, tts_config_path=temp_config_path)
 OmegaConf.register_new_resolver("load_model", load_model)
 models_config = OmegaConf.to_object(OmegaConf.load("configs/models.yaml"))
-def text_to_speech(model_id: str, speaker: str, dialect, text: str):
     model = models_config[model_id]["model"]
     if len(text) == 0:
         raise gr.Error("請勿輸入空字串。")
@@ -47,21 +57,44 @@ def text_to_speech(model_id: str, speaker: str, dialect, text: str):
         raise gr.Error(
             f"句子中的[{','.join(missing_words)}]目前無法轉成 ipa。請嘗試其他句子。"
         )
-    wav = model.tts(
-        parse_ipa(ipa),
-        speaker_name=speaker,
-        language_name=dialect,
-        split_sentences=False,
-    )
     return words, pinyin, (16000, np.array(wav))
 def when_model_selected(model_id):
     model_config = models_config[model_id]
-    speaker_drop_down_choices = [(k,v) for k, v in model_config["speaker_mapping"].items()]
     dialect_drop_down_choices = model_config["avalible_dialect"]
-    return gr.update(choices=speaker_drop_down_choices), gr.update(choices=dialect_drop_down_choices)
 demo = gr.Blocks(
@@ -79,29 +112,51 @@ demo = gr.Blocks(
 )
 with demo:
     default_model_id = list(models_config.keys())[0]
     model_drop_down = gr.Dropdown(
         models_config.keys(),
         value=default_model_id,
     )
     speaker_drop_down = gr.Dropdown(
-        choices=[(k,v) for k, v in models_config[default_model_id]["speaker_mapping"].items()],
-        value=list(models_config[default_model_id]["speaker_mapping"].values())[0]
     )
     dialect_drop_down = gr.Dropdown(
         choices=models_config[default_model_id]["avalible_dialect"],
-        value=models_config[default_model_id]["avalible_dialect"][0]
     )
     model_drop_down.input(
         when_model_selected,
         inputs=[model_drop_down],
-        outputs=[speaker_drop_down, dialect_drop_down]
     )
     gr.Markdown(
         """
         # 臺灣客語語音生成系統
@@ -111,6 +166,8 @@ with demo:
         text_to_speech,
         inputs=[
             model_drop_down,
             speaker_drop_down,
             dialect_drop_down,
             gr.Textbox(),

 TTS.tts.configs.vits_config.VitsConfig = ChangedVitsConfig
 def load_model(model_id):
     model_dir = snapshot_download(model_id)
     config_file_path = os.path.join(model_dir, "config.json")
         f.close()
     return Synthesizer(tts_checkpoint=model_ckpt_path, tts_config_path=temp_config_path)
 OmegaConf.register_new_resolver("load_model", load_model)
 models_config = OmegaConf.to_object(OmegaConf.load("configs/models.yaml"))
+def text_to_speech(
+    model_id: str,
+    use_default_emb_or_custom: str,
+    speaker_wav,
+    speaker: str,
+    dialect,
+    text: str,
+):
     model = models_config[model_id]["model"]
     if len(text) == 0:
         raise gr.Error("請勿輸入空字串。")
         raise gr.Error(
             f"句子中的[{','.join(missing_words)}]目前無法轉成 ipa。請嘗試其他句子。"
         )
+    if use_default_emb_or_custom == "default":
+        wav = model.tts(
+            parse_ipa(ipa),
+            speaker_name=speaker,
+            language_name=dialect,
+            split_sentences=False,
+        )
+    else:
+        wav = model.tts(
+            parse_ipa(ipa),
+            speaker_wav=speaker_wav,
+            language_name=dialect,
+            split_sentences=False,
+        )
     return words, pinyin, (16000, np.array(wav))
 def when_model_selected(model_id):
     model_config = models_config[model_id]
+    speaker_drop_down_choices = [
+        (k, v) for k, v in model_config["speaker_mapping"].items()
+    ]
     dialect_drop_down_choices = model_config["avalible_dialect"]
+    use_default_emb_or_ref_radio_visible = False
+    if model_config["model"].tts_model.config.model_args.speaker_encoder_model_path:
+        use_default_emb_or_ref_radio_visible = True
+    return (
+        gr.update(choices=speaker_drop_down_choices),
+        gr.update(choices=dialect_drop_down_choices),
+        gr.update(visible=use_default_emb_or_ref_radio_visible),
+    )
+def use_default_emb_or_custom_radio_input(use_default_emb_or_custom):
+    if use_default_emb_or_custom == "custom":
+        return gr.update(visible=True), gr.update(visible=False)
+    return gr.update(visible=False), gr.update(visible=True)
 demo = gr.Blocks(
 )
 with demo:
     default_model_id = list(models_config.keys())[0]
     model_drop_down = gr.Dropdown(
         models_config.keys(),
         value=default_model_id,
     )
+    use_default_emb_or_custom_radio = gr.Radio(
+        label="use default speaker embedding or custom speaker embedding",
+        choices=["default", "custom"],
+        value="default",
+        visible=False,
+    )
+    speaker_wav = gr.Microphone(
+        label="speaker wav",
+        visible=False,
+        editable=False,
+        type="filepath",
+        waveform_options=gr.WaveformOptions(
+            show_controls=False,
+            sample_rate=16000,
+        ),
+    )
     speaker_drop_down = gr.Dropdown(
+        choices=[
+            (k, v)
+            for k, v in models_config[default_model_id]["speaker_mapping"].items()
+        ],
+        value=list(models_config[default_model_id]["speaker_mapping"].values())[0],
     )
+    use_default_emb_or_custom_radio.input(
+        use_default_emb_or_custom_radio_input,
+        inputs=[use_default_emb_or_custom_radio],
+        outputs=[speaker_wav, speaker_drop_down],
+    )
     dialect_drop_down = gr.Dropdown(
         choices=models_config[default_model_id]["avalible_dialect"],
+        value=models_config[default_model_id]["avalible_dialect"][0],
     )
     model_drop_down.input(
         when_model_selected,
         inputs=[model_drop_down],
+        outputs=[speaker_drop_down, dialect_drop_down, use_default_emb_or_custom_radio],
     )
     gr.Markdown(
         """
         # 臺灣客語語音生成系統
         text_to_speech,
         inputs=[
             model_drop_down,
+            use_default_emb_or_custom_radio,
+            speaker_wav,
             speaker_drop_down,
             dialect_drop_down,
             gr.Textbox(),