Spaces:

skytnt
/

moe-tts

Running on CPU Upgrade

App Files Files Community

skytnt commited on Jun 7, 2024

Commit

93e3f47

1 Parent(s): 3442bb6

updrade gradio version

Browse files

Files changed (2) hide show

README.md +1 -1
app.py +12 -40

README.md CHANGED Viewed

@@ -4,7 +4,7 @@ emoji: 😊🎙️
 colorFrom: red
 colorTo: pink
 sdk: gradio
-sdk_version: 3.40.1
 app_file: app.py
 pinned: false
 license: mit

 colorFrom: red
 colorTo: pink
 sdk: gradio
+sdk_version: 4.36.0
 app_file: app.py
 pinned: false
 license: mit

app.py CHANGED Viewed

@@ -8,6 +8,7 @@ from pathlib import Path
 import librosa
 import numpy as np
 import torch
 from torch import no_grad, LongTensor
 import commons
 import utils
@@ -20,18 +21,6 @@ from mel_processing import spectrogram_torch
 limitation = os.getenv("SYSTEM") == "spaces"  # limit text and audio length in huggingface spaces
-audio_postprocess_ori = gr.Audio.postprocess
-def audio_postprocess(self, y):
-    data = audio_postprocess_ori(self, y)
-    if data is None:
-        return None
-    return gr_processing_utils.encode_url_or_file_to_base64(data["name"])
-gr.Audio.postprocess = audio_postprocess
 def get_text(text, hps, is_symbol):
     text_norm = text_to_sequence(text, hps.symbols, [] if is_symbol else hps.data.text_cleaners)
@@ -99,10 +88,7 @@ def create_vc_fn(model, hps, speaker_ids):
 def create_soft_vc_fn(model, hps, speaker_ids):
-    def soft_vc_fn(target_speaker, input_audio1, input_audio2):
-        input_audio = input_audio1
-        if input_audio is None:
-            input_audio = input_audio2
         if input_audio is None:
             return "You need to upload an audio", None
         sampling_rate, audio = input_audio
@@ -206,7 +192,7 @@ if __name__ == '__main__':
     with app:
         gr.Markdown("# Moe TTS And Voice Conversion Using VITS Model\n\n"
-                    "![visitor badge](https://visitor-badge.glitch.me/badge?page_id=skytnt.moegoe)\n\n"
                     "[Open In Colab]"
                     "(https://colab.research.google.com/drive/14Pb8lpmwZL-JI5Ub6jpG4sz2-8KS0kbS?usp=sharing)"
                     " without queue and length limitation.\n\n"
@@ -230,7 +216,7 @@ if __name__ == '__main__':
                                                          type="index", value=speakers[0])
                                 tts_input3 = gr.Slider(label="Speed", value=1, minimum=0.5, maximum=2, step=0.1)
                                 with gr.Accordion(label="Advanced Options", open=False):
-                                    temp_text_var = gr.Variable()
                                     symbol_input = gr.Checkbox(value=False, label="Symbol input")
                                     symbol_list = gr.Dataset(label="Symbol list", components=[tts_input1],
                                                              samples=[[x] for x in symbols],
@@ -239,16 +225,13 @@ if __name__ == '__main__':
                                 tts_submit = gr.Button("Generate", variant="primary")
                                 tts_output1 = gr.Textbox(label="Output Message")
                                 tts_output2 = gr.Audio(label="Output Audio", elem_id=f"tts-audio{i}")
-                                download = gr.Button("Download Audio")
-                                download.click(None, [], [], _js=download_audio_js.format(audio_id=f"tts-audio{i}"))
                                 tts_submit.click(tts_fn, [tts_input1, tts_input2, tts_input3, symbol_input],
-                                                 [tts_output1, tts_output2])
                                 symbol_input.change(to_symbol_fn,
                                                     [symbol_input, tts_input1, temp_text_var],
                                                     [tts_input1, temp_text_var])
                                 symbol_list.click(None, [symbol_list, symbol_list_json], [],
-                                                  _js=f"""
                                 (i,symbols) => {{
                                     let root = document.querySelector("body > gradio-app");
                                     if (root.shadowRoot != null)
@@ -284,9 +267,8 @@ if __name__ == '__main__':
                             vc_submit = gr.Button("Convert", variant="primary")
                             vc_output1 = gr.Textbox(label="Output Message")
                             vc_output2 = gr.Audio(label="Output Audio", elem_id=f"vc-audio{i}")
-                            download = gr.Button("Download Audio")
-                            download.click(None, [], [], _js=download_audio_js.format(audio_id=f"vc-audio{i}"))
-                            vc_submit.click(vc_fn, [vc_input1, vc_input2, vc_input3], [vc_output1, vc_output2])
             with gr.TabItem("Soft Voice Conversion"):
                 with gr.Tabs():
                     for i, (name, author, cover_path, speakers, soft_vc_fn) in enumerate(models_soft_vc):
@@ -297,22 +279,12 @@ if __name__ == '__main__':
                                         f"model author: {author}")
                             vc_input1 = gr.Dropdown(label="Target Speaker", choices=speakers, type="index",
                                                     value=speakers[0])
-                            source_tabs = gr.Tabs()
-                            with source_tabs:
-                                with gr.TabItem("microphone"):
-                                    vc_input2 = gr.Audio(label="Input Audio (30s limitation)", source="microphone")
-                                with gr.TabItem("upload"):
-                                    vc_input3 = gr.Audio(label="Input Audio (30s limitation)", source="upload")
                             vc_submit = gr.Button("Convert", variant="primary")
                             vc_output1 = gr.Textbox(label="Output Message")
                             vc_output2 = gr.Audio(label="Output Audio", elem_id=f"svc-audio{i}")
-                            download = gr.Button("Download Audio")
-                            download.click(None, [], [], _js=download_audio_js.format(audio_id=f"svc-audio{i}"))
-                            # clear inputs
-                            source_tabs.set_event_trigger("select", None, [], [vc_input2, vc_input3],
-                                                          js="()=>[null,null]")
-                            vc_submit.click(soft_vc_fn, [vc_input1, vc_input2, vc_input3],
-                                            [vc_output1, vc_output2])
         gr.Markdown(
             "unofficial demo for \n\n"
             "- [https://github.com/CjangCjengh/MoeGoe](https://github.com/CjangCjengh/MoeGoe)\n"
@@ -320,4 +292,4 @@ if __name__ == '__main__':
             "- [https://github.com/luoyily/MoeTTS](https://github.com/luoyily/MoeTTS)\n"
             "- [https://github.com/Francis-Komizu/Sovits](https://github.com/Francis-Komizu/Sovits)"
         )
-    app.queue(concurrency_count=3).launch(show_api=False, share=args.share)

 import librosa
 import numpy as np
 import torch
+from gradio import FileData
 from torch import no_grad, LongTensor
 import commons
 import utils
 limitation = os.getenv("SYSTEM") == "spaces"  # limit text and audio length in huggingface spaces
 def get_text(text, hps, is_symbol):
     text_norm = text_to_sequence(text, hps.symbols, [] if is_symbol else hps.data.text_cleaners)
 def create_soft_vc_fn(model, hps, speaker_ids):
+    def soft_vc_fn(target_speaker, input_audio):
         if input_audio is None:
             return "You need to upload an audio", None
         sampling_rate, audio = input_audio
     with app:
         gr.Markdown("# Moe TTS And Voice Conversion Using VITS Model\n\n"
+                    "![visitor badge](https://api.visitorbadge.io/api/visitors?path=skytnt.moe-tts&countColor=%23263759&style=flat&labelStyle=lower)\n\n"
                     "[Open In Colab]"
                     "(https://colab.research.google.com/drive/14Pb8lpmwZL-JI5Ub6jpG4sz2-8KS0kbS?usp=sharing)"
                     " without queue and length limitation.\n\n"
                                                          type="index", value=speakers[0])
                                 tts_input3 = gr.Slider(label="Speed", value=1, minimum=0.5, maximum=2, step=0.1)
                                 with gr.Accordion(label="Advanced Options", open=False):
+                                    temp_text_var = gr.State()
                                     symbol_input = gr.Checkbox(value=False, label="Symbol input")
                                     symbol_list = gr.Dataset(label="Symbol list", components=[tts_input1],
                                                              samples=[[x] for x in symbols],
                                 tts_submit = gr.Button("Generate", variant="primary")
                                 tts_output1 = gr.Textbox(label="Output Message")
                                 tts_output2 = gr.Audio(label="Output Audio", elem_id=f"tts-audio{i}")
                                 tts_submit.click(tts_fn, [tts_input1, tts_input2, tts_input3, symbol_input],
+                                                 [tts_output1, tts_output2], concurrency_limit=3)
                                 symbol_input.change(to_symbol_fn,
                                                     [symbol_input, tts_input1, temp_text_var],
                                                     [tts_input1, temp_text_var])
                                 symbol_list.click(None, [symbol_list, symbol_list_json], [],
+                                                  js=f"""
                                 (i,symbols) => {{
                                     let root = document.querySelector("body > gradio-app");
                                     if (root.shadowRoot != null)
                             vc_submit = gr.Button("Convert", variant="primary")
                             vc_output1 = gr.Textbox(label="Output Message")
                             vc_output2 = gr.Audio(label="Output Audio", elem_id=f"vc-audio{i}")
+                            vc_submit.click(vc_fn, [vc_input1, vc_input2, vc_input3], [vc_output1, vc_output2],
+                                            concurrency_limit=3)
             with gr.TabItem("Soft Voice Conversion"):
                 with gr.Tabs():
                     for i, (name, author, cover_path, speakers, soft_vc_fn) in enumerate(models_soft_vc):
                                         f"model author: {author}")
                             vc_input1 = gr.Dropdown(label="Target Speaker", choices=speakers, type="index",
                                                     value=speakers[0])
+                            vc_input2 = gr.Audio(label="Input Audio (30s limitation)")
                             vc_submit = gr.Button("Convert", variant="primary")
                             vc_output1 = gr.Textbox(label="Output Message")
                             vc_output2 = gr.Audio(label="Output Audio", elem_id=f"svc-audio{i}")
+                            vc_submit.click(soft_vc_fn, [vc_input1, vc_input2],
+                                            [vc_output1, vc_output2], concurrency_limit=3)
         gr.Markdown(
             "unofficial demo for \n\n"
             "- [https://github.com/CjangCjengh/MoeGoe](https://github.com/CjangCjengh/MoeGoe)\n"
             "- [https://github.com/luoyily/MoeTTS](https://github.com/luoyily/MoeTTS)\n"
             "- [https://github.com/Francis-Komizu/Sovits](https://github.com/Francis-Komizu/Sovits)"
         )
+    app.launch(show_api=False, share=args.share, allowed_paths=["./saved_model"])