Spaces:

qxdn
/

tts-9nine

Runtime error

App Files Files Community

qxdn commited on Nov 28, 2023

Commit

5e38f6a

1 Parent(s): 8922f7e

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

Data/models/G_94000.pth +3 -0
app.py +91 -20
config.yml +2 -2

Data/models/G_94000.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa25ff864873ca90fbc2997a24fe4eb2778ec1c13c25bcfef573dc4900147cf7
+size 718770997

app.py CHANGED Viewed

@@ -19,7 +19,6 @@ import torch
 import utils
 from infer import infer, latest_version, get_net_g, infer_multilang
 import gradio as gr
-import webbrowser
 import numpy as np
 from config import config
 from tools.translate import translate
@@ -125,9 +124,9 @@ def tts_split(
     cut_by_sent,
     interval_between_para,
     interval_between_sent,
-    reference_audio,
     emotion,
 ):
     if language == "mix":
         return ("invalid", None)
     while text.find("\n\n") != -1:
@@ -207,9 +206,9 @@ def tts_fn(
     noise_scale_w,
     length_scale,
     language,
-    reference_audio,
     emotion,
 ):
     audio_list = []
     if language == "mix":
         bool_valid, str_valid = re_matching.validate_text(text)
@@ -370,6 +369,7 @@ if __name__ == "__main__":
                 text = gr.TextArea(
                     label="输入文本内容",
                     placeholder="""
                     如果你选择语言为\'mix\'，必须按照格式输入，否则报错:
                         格式举例(zh是中文，jp是日语，不区分大小写；说话人举例:gongzi):
                          [说话人1]<zh>你好，こんにちは！ <jp>こんにちは，世界。
@@ -379,7 +379,6 @@ if __name__ == "__main__":
                     另外，所有的语言选项都可以用'|'分割长段实现分句生成。
                     """,
                 )
-                trans = gr.Button("中翻日", variant="primary")
                 slicer = gr.Button("快速切分", variant="primary")
                 speaker = gr.Dropdown(
                     choices=speakers, value=speakers[0], label="Speaker"
@@ -400,7 +399,7 @@ if __name__ == "__main__":
                     minimum=0.1, maximum=2, value=1.0, step=0.1, label="Length"
                 )
                 language = gr.Dropdown(
-                    choices=languages, value=languages[0], label="Language"
                 )
                 btn = gr.Button("生成音频！", variant="primary")
             with gr.Column():
@@ -433,8 +432,93 @@ if __name__ == "__main__":
                 #     show_download_button=False,
                 #     value=os.path.abspath("./img/参数说明.png"),
                 # )
-                reference_text = gr.Markdown(value="## 情感参考音频（WAV 格式）：用于生成语音的情感参考。")
-                reference_audio = gr.Audio(label="情感参考音频（WAV 格式）", type="filepath")
         btn.click(
             tts_fn,
             inputs=[
@@ -445,17 +529,11 @@ if __name__ == "__main__":
                 noise_scale_w,
                 length_scale,
                 language,
-                reference_audio,
                 emotion,
             ],
             outputs=[text_output, audio_output],
         )
-        trans.click(
-            translate,
-            inputs=[text],
-            outputs=[text],
-        )
         slicer.click(
             tts_split,
             inputs=[
@@ -469,17 +547,10 @@ if __name__ == "__main__":
                 opt_cut_by_sent,
                 interval_between_para,
                 interval_between_sent,
-                reference_audio,
                 emotion,
             ],
             outputs=[text_output, audio_output],
         )
-        reference_audio.upload(
-            lambda x: librosa.load(x, 16000)[::-1],
-            inputs=[reference_audio],
-            outputs=[reference_audio],
-        )
     print("推理页面已开启!")
-    webbrowser.open(f"http://127.0.0.1:{config.webui_config.port}")
     app.launch(share=config.webui_config.share, server_port=config.webui_config.port)

 import utils
 from infer import infer, latest_version, get_net_g, infer_multilang
 import gradio as gr
 import numpy as np
 from config import config
 from tools.translate import translate
     cut_by_sent,
     interval_between_para,
     interval_between_sent,
     emotion,
 ):
+    reference_audio = None
     if language == "mix":
         return ("invalid", None)
     while text.find("\n\n") != -1:
     noise_scale_w,
     length_scale,
     language,
     emotion,
 ):
+    reference_audio = None
     audio_list = []
     if language == "mix":
         bool_valid, str_valid = re_matching.validate_text(text)
                 text = gr.TextArea(
                     label="输入文本内容",
                     placeholder="""
+                    目前只支持日语！！
                     如果你选择语言为\'mix\'，必须按照格式输入，否则报错:
                         格式举例(zh是中文，jp是日语，不区分大小写；说话人举例:gongzi):
                          [说话人1]<zh>你好，こんにちは！ <jp>こんにちは，世界。
                     另外，所有的语言选项都可以用'|'分割长段实现分句生成。
                     """,
                 )
                 slicer = gr.Button("快速切分", variant="primary")
                 speaker = gr.Dropdown(
                     choices=speakers, value=speakers[0], label="Speaker"
                     minimum=0.1, maximum=2, value=1.0, step=0.1, label="Length"
                 )
                 language = gr.Dropdown(
+                    choices=languages, value=languages[1], label="Language"
                 )
                 btn = gr.Button("生成音频！", variant="primary")
             with gr.Column():
                 #     show_download_button=False,
                 #     value=os.path.abspath("./img/参数说明.png"),
                 # )
+                gr.Examples(
+                    examples=[
+                        [
+                            "誕生日おめでとうございます",
+                            "春風",
+                            0.2,
+                            0.6,
+                            0.8,
+                            1.0,
+                            "JP",
+                            False,
+                            1,
+                            0.2,
+                            0,
+                        ],
+                        [
+                            "まさか本当に恋人になれるなんて……",
+                            "春風",
+                            0.2,
+                            0.6,
+                            0.8,
+                            1.0,
+                            "JP",
+                            False,
+                            1,
+                            0.2,
+                            0,
+                        ],
+                        [
+                            "痕跡探しに活用するかどうかも、改めて検討しましょう。　どうせ探し出せたところで、　今の私たちでは彼らに対抗できない",
+                            "希亜",
+                            0.2,
+                            0.6,
+                            0.8,
+                            1.0,
+                            "JP",
+                            False,
+                            1,
+                            0.2,
+                            0,
+                        ],
+                        [
+                            "じゃあさじゃあさ、　にぃにが先輩のどこに魅力を感じているか　教えてください",
+                            "天",
+                            0.2,
+                            0.6,
+                            0.8,
+                            1.0,
+                            "JP",
+                            False,
+                            1,
+                            0.2,
+                            0,
+                        ],
+                        [
+                            "ご、ごめんね、なんとかしたいって気持ちはあるけれど、　そこまでの覚悟はなくて……",
+                            "都",
+                            0.2,
+                            0.6,
+                            0.8,
+                            1.0,
+                            "JP",
+                            False,
+                            1,
+                            0.2,
+                            0,
+                        ],
+                    ],
+                    inputs=[
+                        text,
+                        speaker,
+                        sdp_ratio,
+                        noise_scale,
+                        noise_scale_w,
+                        length_scale,
+                        language,
+                        opt_cut_by_sent,
+                        interval_between_para,
+                        interval_between_sent,
+                        emotion,
+                    ],
+                    outputs=[text_output, audio_output],
+                    fn=tts_split,
+                    cache_examples=True,
+                )
         btn.click(
             tts_fn,
             inputs=[
                 noise_scale_w,
                 length_scale,
                 language,
                 emotion,
             ],
             outputs=[text_output, audio_output],
         )
         slicer.click(
             tts_split,
             inputs=[
                 opt_cut_by_sent,
                 interval_between_para,
                 interval_between_sent,
                 emotion,
             ],
             outputs=[text_output, audio_output],
         )
     print("推理页面已开启!")
     app.launch(share=config.webui_config.share, server_port=config.webui_config.port)

config.yml CHANGED Viewed

@@ -98,9 +98,9 @@ train_ms:
 # 注意， “:” 后需要加空格
 webui:
   # 推理设备
-  device: "cuda"
   # 模型路径
-  model: "models/G_82000.pth"
   # 配置文件路径
   config_path: "configs/haruka.json"
   # 端口号

 # 注意， “:” 后需要加空格
 webui:
   # 推理设备
+  device: "cpu"
   # 模型路径
+  model: "models/G_94000.pth"
   # 配置文件路径
   config_path: "configs/haruka.json"
   # 端口号