Spaces:

fishaudio
/

fish-speech-1

Running on L4

App Files Files Community

lengyue233 commited on Dec 5, 2024

Commit

2dc5ce9

verified ·

1 Parent(s): a53df75

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -16

app.py CHANGED Viewed

@@ -300,12 +300,6 @@ def normalize_text(user_input, use_normalization):
     else:
         return user_input
-def update_examples():
-    examples_dir = Path("references")
-    examples_dir.mkdir(parents=True, exist_ok=True)
-    example_audios = list_files(examples_dir, AUDIO_EXTENSIONS, recursive=True)
-    return gr.Dropdown(choices=example_audios + [""])
 def build_app():
     with gr.Blocks(theme=gr.themes.Base()) as app:
         gr.Markdown(HEADER_MD)
@@ -396,14 +390,21 @@ def build_app():
                             with gr.Row():
                                 gr.Markdown(
                                     i18n(
-                                        "5 to 10 seconds of reference audio, useful for specifying speaker."
                                     )
                                 )
-                            with gr.Row():
-                                reference_id = gr.Textbox(
-                                    label=i18n("Reference ID"),
-                                    placeholder="Leave empty to use uploaded references",
-                                )
                             with gr.Row():
                                 use_memory_cache = gr.Radio(
@@ -452,7 +453,6 @@ def build_app():
         def inference_wrapper(
             text,
             normalize,
-            reference_id,
             reference_audio,
             reference_text,
             max_new_tokens,
@@ -475,7 +475,7 @@ def build_app():
             req = ServeTTSRequest(
                 text=text,
                 normalize=normalize,
-                reference_id=reference_id if reference_id else None,
                 references=references,
                 max_new_tokens=max_new_tokens,
                 chunk_length=chunk_length,
@@ -494,13 +494,34 @@ def build_app():
             return None, i18n("No audio generated")
         # Submit
         generate.click(
             inference_wrapper,
             [
                 refined_text,
-                normalize,
-                reference_id,
                 reference_audio,
                 reference_text,
                 max_new_tokens,

     else:
         return user_input
 def build_app():
     with gr.Blocks(theme=gr.themes.Base()) as app:
         gr.Markdown(HEADER_MD)
                             with gr.Row():
                                 gr.Markdown(
                                     i18n(
+                                        "15 to 60 seconds of reference audio, useful for specifying speaker."
                                     )
                                 )
+                            enable_reference_audio = gr.Checkbox(
+                                label="Enable Reference Audio",
+                            )
+                            # Add dropdown for selecting example audio files
+                            example_audio_files = [f for f in os.listdir("examples") if f.endswith(".wav")]
+                            example_audio_dropdown = gr.Dropdown(
+                                label="Select Example Audio",
+                                choices=[""] + example_audio_files,
+                                value=""
+                            )
                             with gr.Row():
                                 use_memory_cache = gr.Radio(
         def inference_wrapper(
             text,
             normalize,
             reference_audio,
             reference_text,
             max_new_tokens,
             req = ServeTTSRequest(
                 text=text,
                 normalize=normalize,
+                reference_id=None,
                 references=references,
                 max_new_tokens=max_new_tokens,
                 chunk_length=chunk_length,
             return None, i18n("No audio generated")
+        def select_example_audio(audio_file):
+            if audio_file:
+                audio_path = os.path.join("examples", audio_file)
+                lab_file = os.path.splitext(audio_file)[0] + ".lab"
+                lab_path = os.path.join("examples", lab_file)
+                if os.path.exists(lab_path):
+                    with open(lab_path, "r", encoding="utf-8") as f:
+                        lab_content = f.read().strip()
+                else:
+                    lab_content = ""
+                return audio_path, lab_content, True
+            return None, "", False
+        # Connect the dropdown to update reference audio and text
+        example_audio_dropdown.change(
+            fn=select_example_audio,
+            inputs=[example_audio_dropdown],
+            outputs=[reference_audio, reference_text, enable_reference_audio]
+        )
         # Submit
         generate.click(
             inference_wrapper,
             [
                 refined_text,
+                enable_reference_audio,
                 reference_audio,
                 reference_text,
                 max_new_tokens,