Spaces:

mazalaai
/

tts

Sleeping

App Files Files Community

Vijish commited on Jul 10, 2024

Commit

e94f976

verified ·

1 Parent(s): eb0534b

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -40

app.py CHANGED Viewed

@@ -5,13 +5,20 @@ from scipy.io import wavfile
 from voice_processing import tts, get_model_names, voice_mapping
 from io import BytesIO
 import asyncio
-# Constants for limits
-MAX_TEXT_FILES = 20  # Maximum number of text files processed concurrently
-MAX_WORDS = 5000  # Maximum number of words processed concurrently
-BATCH_SIZE = 5  # Number of texts to process in parallel
-async def process_tts_request(model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload):
     edge_tts_voice = voice_mapping.get(selected_voice)
     if not edge_tts_voice:
         return {"error": f"Invalid voice '{selected_voice}'."}, None
@@ -38,32 +45,8 @@ async def process_tts_request(model_name, tts_text, selected_voice, slang_rate,
     else:
         audio_bytes = audio_output
-    return {"info": info}, audio_bytes
-async def convert_tts(model_name, tts_texts, selected_voice, slang_rate, use_uploaded_voice, voice_upload):
-    # Enforce limits
-    if len(tts_texts) > MAX_TEXT_FILES:
-        return {"error": f"Number of text files should not exceed {MAX_TEXT_FILES}."}, None
-    word_count = sum(len(tts_text.split()) for tts_text in tts_texts)
-    if word_count > MAX_WORDS:
-        return {"error": f"Total number of words should not exceed {MAX_WORDS}."}, None
-    # Process texts in batches
-    results = []
-    for i in range(0, len(tts_texts), BATCH_SIZE):
-        batch_texts = tts_texts[i:i+BATCH_SIZE]
-        tasks = [
-            process_tts_request(model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload)
-            for tts_text in batch_texts
-        ]
-        batch_results = await asyncio.gather(*tasks)
-        results.extend(batch_results)
-    info_list = [{"info": info} for info, _ in results]
-    audio_uris = [f"data:audio/wav;base64,{base64.b64encode(audio_bytes).decode('utf-8')}" for _, audio_bytes in results]
-    return info_list, audio_uris
 def get_models():
     return get_model_names()
@@ -71,24 +54,36 @@ def get_models():
 def get_voices():
     return list(voice_mapping.keys())
 iface = gr.Interface(
-    fn=convert_tts,
     inputs=[
-        gr.Dropdown(choices=get_models(), label="Model", interactive=True),
-        gr.Textbox(label="Text", placeholder="Enter text here (one per line)", lines=10, interactive=True),  # Allow multiple lines of text input
-        gr.Dropdown(choices=get_voices(), label="Voice", interactive=True),
         gr.Slider(minimum=0, maximum=1, step=0.01, label="Slang Rate"),
         gr.Checkbox(label="Use Uploaded Voice"),
         gr.File(label="Voice File")
     ],
     outputs=[
         gr.JSON(label="Info"),
-        gr.JSON(label="Audio URIs")
     ],
-    title="Text-to-Speech Conversion"
 )
 iface.launch()

 from voice_processing import tts, get_model_names, voice_mapping
 from io import BytesIO
 import asyncio
+from concurrent.futures import ThreadPoolExecutor
+import multiprocessing
+# Determine the optimal number of threads
+def get_optimal_threads():
+    cpu_count = multiprocessing.cpu_count()
+    # Assuming you want to use 75% of the available cores
+    optimal_threads = int(cpu_count * 0.75)
+    return optimal_threads
+# Initialize the ThreadPoolExecutor with the optimal number of threads
+executor = ThreadPoolExecutor(max_workers=get_optimal_threads())
+async def convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload):
     edge_tts_voice = voice_mapping.get(selected_voice)
     if not edge_tts_voice:
         return {"error": f"Invalid voice '{selected_voice}'."}, None
     else:
         audio_bytes = audio_output
+    audio_data_uri = f"data:audio/wav;base64,{base64.b64encode(audio_bytes).decode('utf-8')}"
+    return {"info": info}, audio_data_uri
 def get_models():
     return get_model_names()
 def get_voices():
     return list(voice_mapping.keys())
+def parallel_convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload):
+    loop = asyncio.new_event_loop()
+    asyncio.set_event_loop(loop)
+    return loop.run_until_complete(
+        convert_tts(model_name, tts_text, selected_voice, slang_rate, use_uploaded_voice, voice_upload)
+    )
+def run_parallel_conversion(inputs):
+    futures = [
+        executor.submit(parallel_convert_tts, *input_data) for input_data in inputs
+    ]
+    results = [future.result() for future in futures]
+    return results
 iface = gr.Interface(
+    fn=run_parallel_conversion,
     inputs=[
+        gr.Dropdown(choices=get_models(), label="Model", interactive=True, multiselect=True),
+        gr.Textbox(label="Text", placeholder="Enter text here", lines=2),
+        gr.Dropdown(choices=get_voices(), label="Voice", interactive=True, multiselect=True),
         gr.Slider(minimum=0, maximum=1, step=0.01, label="Slang Rate"),
         gr.Checkbox(label="Use Uploaded Voice"),
         gr.File(label="Voice File")
     ],
     outputs=[
         gr.JSON(label="Info"),
+        gr.Textbox(label="Audio URI")
     ],
+    title="Parallel Text-to-Speech Conversion"
 )
 iface.launch()