Azusa-Bert-VITS2-2.3

Running

App Files Files Community

XzJosh commited on Dec 20, 2023

Commit

7d8672d

•

1 Parent(s): ae80214

Upload app.py

Browse files

Files changed (1) hide show

app.py +28 -26

app.py CHANGED Viewed

@@ -16,10 +16,6 @@ logging.basicConfig(
 logger = logging.getLogger(__name__)
 import torch
-import ssl
-ssl._create_default_https_context = ssl._create_unverified_context
-import nltk
-nltk.download('cmudict')
 import utils
 from infer import infer, latest_version, get_net_g, infer_multilang
 import gradio as gr
@@ -390,26 +386,20 @@ if __name__ == "__main__":
     with gr.Blocks() as app:
         with gr.Row():
             with gr.Column():
-             gr.Markdown(value="""
-               【AI阿梓】在线语音合成（Bert-Vits2 2.3中日英）\n
-                作者：Xz乔希 https://space.bilibili.com/5859321\n
-                声音归属：阿梓从小就很可爱 https://space.bilibili.com/7706705\n
-                【AI合集】https://www.modelscope.cn/studios/xzjosh/Bert-VITS2\n
-                Bert-VITS2项目：https://github.com/Stardust-minus/Bert-VITS2\n
-                使用本模型请严格遵守法律法规！\n
-                发布二创作品请标注本项目作者及链接、作品使用Bert-VITS2 AI生成！\n
-                【提示】手机端容易误触调节，请刷新恢复默认！每次生成的结果都不一样，效果不好请尝试多次生成与调节，选择最佳结果！\n
-                """)
                 text = gr.TextArea(
                     label="输入文本内容",
                     placeholder="""
-               推荐不同语言分开推理，因为无法连贯且可能影响最终效果！
-               如果选择语言为\'mix\'，必须按照格式输入，否则报错:
-               格式举例(zh是中文，jp是日语，en是英语；不区分大小写):
-               [说话人]<zh>你好 <jp>こんにちは <en>Hello
-               另外，所有的语言选项都可以用'|'分割长段实现分句生成。
                     """,
                 )
                 formatter = gr.Button("检测语言，并整理为 MIX 格式", variant="primary")
                 speaker = gr.Dropdown(
                     choices=speakers, value=speakers[0], label="Speaker"
@@ -434,26 +424,26 @@ if __name__ == "__main__":
                     label="Audio prompt", type="filepath", visible=False
                 )
                 sdp_ratio = gr.Slider(
-                    minimum=0, maximum=1, value=0.5, step=0.01, label="SDP Ratio"
                 )
                 noise_scale = gr.Slider(
-                    minimum=0.1, maximum=2, value=0.5, step=0.01, label="Noise"
                 )
                 noise_scale_w = gr.Slider(
-                    minimum=0.1, maximum=2, value=0.9, step=0.01, label="Noise_W"
                 )
                 length_scale = gr.Slider(
-                    minimum=0.1, maximum=2, value=1.0, step=0.01, label="Length"
                 )
                 language = gr.Dropdown(
                     choices=languages, value=languages[0], label="Language"
                 )
-                btn = gr.Button("点击生成", variant="primary")
             with gr.Column():
-                with gr.Accordion("融合文本语义（实验功能）", open=False):
                     gr.Markdown(
                         value="使用辅助文本的语意来辅助生成对话（语言保持与主文本相同）\n\n"
-                        "**注意**：请使用**带有强烈情感的文本**（如：我好快乐！）\n\n"
                         "效果较不明确，留空即为不使用该功能"
                     )
                     style_text = gr.Textbox(label="辅助文本")
@@ -512,6 +502,12 @@ if __name__ == "__main__":
             ],
             outputs=[text_output, audio_output],
         )
         slicer.click(
             tts_split,
             inputs=[
@@ -545,6 +541,12 @@ if __name__ == "__main__":
             outputs=[audio_prompt],
         )
     print("推理页面已开启!")
     webbrowser.open(f"http://127.0.0.1:{config.webui_config.port}")
     app.launch(share=config.webui_config.share, server_port=config.webui_config.port)

 logger = logging.getLogger(__name__)
 import torch
 import utils
 from infer import infer, latest_version, get_net_g, infer_multilang
 import gradio as gr
     with gr.Blocks() as app:
         with gr.Row():
             with gr.Column():
                 text = gr.TextArea(
                     label="输入文本内容",
                     placeholder="""
+                    如果你选择语言为\'mix\'，必须按照格式输入，否则报错:
+                        格式举例(zh是中文，jp是日语，不区分大小写；说话人举例:gongzi):
+                         [说话人1]<zh>你好，こんにちは！ <jp>こんにちは，世界。
+                         [说话人2]<zh>你好吗？<jp>元気ですか？
+                         [说话人3]<zh>谢谢。<jp>どういたしまして。
+                         ...
+                    另外，所有的语言选项都可以用'|'分割长段实现分句生成。
                     """,
                 )
+                trans = gr.Button("中翻日", variant="primary")
+                slicer = gr.Button("快速切分", variant="primary")
                 formatter = gr.Button("检测语言，并整理为 MIX 格式", variant="primary")
                 speaker = gr.Dropdown(
                     choices=speakers, value=speakers[0], label="Speaker"
                     label="Audio prompt", type="filepath", visible=False
                 )
                 sdp_ratio = gr.Slider(
+                    minimum=0, maximum=1, value=0.5, step=0.1, label="SDP Ratio"
                 )
                 noise_scale = gr.Slider(
+                    minimum=0.1, maximum=2, value=0.6, step=0.1, label="Noise"
                 )
                 noise_scale_w = gr.Slider(
+                    minimum=0.1, maximum=2, value=0.9, step=0.1, label="Noise_W"
                 )
                 length_scale = gr.Slider(
+                    minimum=0.1, maximum=2, value=1.0, step=0.1, label="Length"
                 )
                 language = gr.Dropdown(
                     choices=languages, value=languages[0], label="Language"
                 )
+                btn = gr.Button("生成音频！", variant="primary")
             with gr.Column():
+                with gr.Accordion("融合文本语义", open=False):
                     gr.Markdown(
                         value="使用辅助文本的语意来辅助生成对话（语言保持与主文本相同）\n\n"
+                        "**注意**：不要使用**指令式文本**（如：开心），要使用**带有强烈情感的文本**（如：我好快乐！！！）\n\n"
                         "效果较不明确，留空即为不使用该功能"
                     )
                     style_text = gr.Textbox(label="辅助文本")
             ],
             outputs=[text_output, audio_output],
         )
+        trans.click(
+            translate,
+            inputs=[text],
+            outputs=[text],
+        )
         slicer.click(
             tts_split,
             inputs=[
             outputs=[audio_prompt],
         )
+        formatter.click(
+            format_utils,
+            inputs=[text, speaker],
+            outputs=[language, text],
+        )
     print("推理页面已开启!")
     webbrowser.open(f"http://127.0.0.1:{config.webui_config.port}")
     app.launch(share=config.webui_config.share, server_port=config.webui_config.port)