Spaces:

mazalaai
/

tts

Sleeping

App Files Files Community

MAZALA2024 commited on Oct 18, 2024

Commit

a487ae6

verified ·

1 Parent(s): 9f55e76

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -27

app.py CHANGED Viewed

@@ -1,11 +1,11 @@
 import gradio as gr
-import base64
-import numpy as np
-from scipy.io import wavfile
-from voice_processing import parallel_tts, get_model_names, voice_mapping
-from io import BytesIO
 import asyncio
 import logging
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
@@ -18,8 +18,7 @@ async def convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uplo
         voice_upload_file = None
         if use_uploaded_voice and voice_upload is not None:
-            with open(voice_upload.name, 'rb') as f:
-                voice_upload_file = f.read()
         # Create task for parallel processing
         task = (
@@ -27,7 +26,7 @@ async def convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uplo
         )
         # Asynchronous call to your tts processing function using parallel processing
-        result = await asyncio.get_event_loop().run_in_executor(None, parallel_tts, [task])
         info, _, (tgt_sr, audio_output) = result[0]
         return {"info": info}, (tgt_sr, audio_output)
@@ -43,23 +42,26 @@ def get_voices():
     return list(voice_mapping.keys())
 # Initialize the Gradio interface
-iface = gr.Interface(
-    fn=convert_tts,
-    inputs=[
-        gr.Dropdown(choices=get_models(), label="Model", interactive=True),
-        gr.Textbox(label="Text", placeholder="Enter text here"),
-        gr.Dropdown(choices=get_voices(), label="Voice", interactive=True),
-        gr.Slider(minimum=0, maximum=1, step=0.01, label="Slang Rate"),
-        gr.Checkbox(label="Use Uploaded Voice"),
-        gr.File(label="Voice File")
-    ],
-    outputs=[
-        gr.JSON(label="Info"),
-        gr.Audio(label="Generated Audio", type="numpy")
-    ],
-    title="Text-to-Speech Conversion"
-).queue(concurrency_count=16)  # Adjust based on your server's capacity
-# Launch the interface
-if __name__ == "__main__":
-    iface.launch(debug=True)

 import gradio as gr
+import sys
 import asyncio
 import logging
+from voice_processing import parallel_tts, get_model_names, voice_mapping
+print(f"Python version: {sys.version}")
+print(f"Gradio version: {gr.__version__}")
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
         voice_upload_file = None
         if use_uploaded_voice and voice_upload is not None:
+            voice_upload_file = voice_upload
         # Create task for parallel processing
         task = (
         )
         # Asynchronous call to your tts processing function using parallel processing
+        result = await asyncio.to_thread(parallel_tts, [task])
         info, _, (tgt_sr, audio_output) = result[0]
         return {"info": info}, (tgt_sr, audio_output)
     return list(voice_mapping.keys())
 # Initialize the Gradio interface
+with gr.Blocks() as iface:
+    with gr.Row():
+        with gr.Column():
+            model_name = gr.Dropdown(choices=get_models(), label="Model", interactive=True)
+            tts_text = gr.Textbox(label="Text", placeholder="Enter text here")
+            selected_voice = gr.Dropdown(choices=get_voices(), label="Voice", interactive=True)
+            slang_rate = gr.Slider(minimum=0, maximum=1, step=0.01, label="Slang Rate")
+            use_uploaded_voice = gr.Checkbox(label="Use Uploaded Voice")
+            voice_upload = gr.File(label="Voice File")
+            submit_btn = gr.Button("Generate Audio")
+        with gr.Column():
+            info_output = gr.JSON(label="Info")
+            audio_output = gr.Audio(label="Generated Audio", type="numpy")
+    submit_btn.click(
+        fn=convert_tts,
+        inputs=[model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload],
+        outputs=[info_output, audio_output],
+        api_name="convert_tts"
+    )
+iface.launch()