Spaces:

mazalaai
/

tts

Sleeping

App Files Files Community

Vijish commited on Jul 10, 2024

Commit

8398686

verified ·

1 Parent(s): 5f79421

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -34

app.py CHANGED Viewed

@@ -5,18 +5,7 @@ from scipy.io import wavfile
 from voice_processing import tts, get_model_names, voice_mapping
 from io import BytesIO
 import asyncio
-from concurrent.futures import ThreadPoolExecutor
-import multiprocessing
-# Determine the optimal number of threads
-def get_optimal_threads():
-    cpu_count = multiprocessing.cpu_count()
-    # Assuming you want to use 75% of the available cores
-    optimal_threads = int(cpu_count * 0.75)
-    return optimal_threads
-# Initialize the ThreadPoolExecutor with the optimal number of threads
-executor = ThreadPoolExecutor(max_workers=get_optimal_threads())
 async def convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload):
     edge_tts_voice = voice_mapping.get(selected_voice)
@@ -28,14 +17,12 @@ async def convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uplo
         with open(voice_upload.name, 'rb') as f:
             voice_upload_file = f.read()
-    # Process the text input or uploaded voice
     info, edge_tts_output_path, tts_output_data, edge_output_file = await tts(
         model_name, tts_text, edge_tts_voice, slang_rate, use_uploaded_voice, voice_upload_file
     )
     _, audio_output = tts_output_data
-    # Return audio data as bytes
     audio_bytes = None
     if isinstance(audio_output, np.ndarray):
         byte_io = BytesIO()
@@ -48,39 +35,68 @@ async def convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uplo
     audio_data_uri = f"data:audio/wav;base64,{base64.b64encode(audio_bytes).decode('utf-8')}"
     return {"info": info}, audio_data_uri
 def get_models():
     return get_model_names()
 def get_voices():
     return list(voice_mapping.keys())
-def parallel_convert_tts(input_data):
-    model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload = input_data
-    loop = asyncio.new_event_loop()
-    asyncio.set_event_loop(loop)
-    return loop.run_until_complete(
-        convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload)
-    )
-def run_parallel_conversion(inputs):
-    futures = [
-        executor.submit(parallel_convert_tts, input_data) for input_data in inputs
-    ]
-    results = [future.result() for future in futures]
-    return results
 iface = gr.Interface(
-    fn=run_parallel_conversion,
     inputs=[
-        gr.JSON(label="Batch Inputs")
     ],
     outputs=[
         gr.JSON(label="Info"),
-        gr.JSON(label="Audio URIs")
     ],
-    title="Parallel Text-to-Speech Conversion"
 )
-iface.launch(share=True)

 from voice_processing import tts, get_model_names, voice_mapping
 from io import BytesIO
 import asyncio
+import json
 async def convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload):
     edge_tts_voice = voice_mapping.get(selected_voice)
         with open(voice_upload.name, 'rb') as f:
             voice_upload_file = f.read()
     info, edge_tts_output_path, tts_output_data, edge_output_file = await tts(
         model_name, tts_text, edge_tts_voice, slang_rate, use_uploaded_voice, voice_upload_file
     )
     _, audio_output = tts_output_data
     audio_bytes = None
     if isinstance(audio_output, np.ndarray):
         byte_io = BytesIO()
     audio_data_uri = f"data:audio/wav;base64,{base64.b64encode(audio_bytes).decode('utf-8')}"
     return {"info": info}, audio_data_uri
+async def batch_convert_tts(json_file):
+    results = []
+    tasks = []
+    with open(json_file.name, 'r') as file:
+        batch_data = json.load(file)
+    for entry in batch_data:
+        model_name = entry.get("model_name")
+        tts_text = entry.get("text")
+        selected_voice = entry.get("voice")
+        slang_rate = entry.get("slang_rate", 0.5)
+        use_uploaded_voice = entry.get("use_uploaded_voice", False)
+        voice_upload = entry.get("voice_upload", None)
+        tasks.append(convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload))
+    responses = await asyncio.gather(*tasks)
+    for response in responses:
+        results.append({"info": response[0], "audio_uri": response[1]})
+    return results
 def get_models():
     return get_model_names()
 def get_voices():
     return list(voice_mapping.keys())
 iface = gr.Interface(
+    fn=convert_tts,
     inputs=[
+        gr.Dropdown(choices=get_models(), label="Model", interactive=True),
+        gr.Textbox(label="Text", placeholder="Enter text here"),
+        gr.Dropdown(choices=get_voices(), label="Voice", interactive=True),
+        gr.Slider(minimum=0, maximum=1, step=0.01, label="Slang Rate"),
+        gr.Checkbox(label="Use Uploaded Voice"),
+        gr.File(label="Voice File")
     ],
     outputs=[
         gr.JSON(label="Info"),
+        gr.Textbox(label="Audio URI")
     ],
+    title="Text-to-Speech Conversion",
+    allow_flagging="never"
+)
+batch_iface = gr.Interface(
+    fn=batch_convert_tts,
+    inputs=gr.File(label="JSON File"),
+    outputs=gr.JSON(label="Batch Results"),
+    title="Batch Text-to-Speech Conversion",
+    allow_flagging="never"
 )
+app = gr.TabbedInterface(
+    interface_list=[iface, batch_iface],
+    tab_names=["Single Conversion", "Batch Conversion"]
+)
+app.launch()