Spaces:

mazalaai
/

tts

Sleeping

App Files Files Community

MAZALA2024 commited on Dec 14, 2024

Commit

95cace6

verified ·

1 Parent(s): be4df6b

Update voice_processing.py

Browse files

Files changed (1) hide show

voice_processing.py +13 -15

voice_processing.py CHANGED Viewed

@@ -92,25 +92,30 @@ def process_audio(model, audio_file, logger, index_rate=0, use_uploaded_voice=Tr
     try:
         logger.info("Starting audio processing")
-        # Get model name from audio file path
-        model_name = os.path.basename(os.path.dirname(audio_file))
         logger.info(f"Processing for model: {model_name}")
         # Load audio using librosa directly
         audio, sr = librosa.load(audio_file, sr=16000, mono=True)
         logger.info(f"Loaded audio: sr={sr}Hz, shape={audio.shape}")
-        # Get model data
         tgt_sr, net_g, vc, version, index_file, if_f0 = model_data(model_name)
         # Set RMVPE
         vc.model_rmvpe = rmvpe_model
-        # Process using VC pipeline
         times = [0, 0, 0]
         audio_opt = vc.pipeline(
-            hubert_model,
-            net_g,
             0,  # speaker id
             audio,
             audio_file,
@@ -243,7 +248,7 @@ def run_async_in_thread(fn, *args):
     loop.close()
     return result
-def parallel_tts(tasks):  # Remove any async here
     """Process multiple TTS tasks"""
     logger.info(f"Received {len(tasks)} tasks for processing")
     results = []
@@ -261,14 +266,7 @@ def parallel_tts(tasks):  # Remove any async here
                 results.append(None)
                 continue
-            result = process_audio(
-                model=model,
-                audio_file=audio_file,
-                logger=logger,
-                index_rate=0,
-                use_uploaded_voice=use_uploaded_voice,
-                uploaded_voice=None
-            )
             logger.info(f"Processing completed for task {i+1}")
             results.append(result)

     try:
         logger.info("Starting audio processing")
+        # The model name should come from parallel_tts task parameters
+        model_name = [d for d in os.listdir(model_root) if os.path.isdir(f"{model_root}/{d}")][0]
+        for m in os.listdir(model_root):
+            if os.path.isdir(f"{model_root}/{m}") and "mongolian7-male" in m:
+                model_name = m
+                break
         logger.info(f"Processing for model: {model_name}")
         # Load audio using librosa directly
         audio, sr = librosa.load(audio_file, sr=16000, mono=True)
         logger.info(f"Loaded audio: sr={sr}Hz, shape={audio.shape}")
+        # Get model data using existing function
         tgt_sr, net_g, vc, version, index_file, if_f0 = model_data(model_name)
         # Set RMVPE
         vc.model_rmvpe = rmvpe_model
+        # Process using the VC pipeline
         times = [0, 0, 0]
         audio_opt = vc.pipeline(
+            hubert_model,  # Use global hubert model
+            net_g,  # Use the generator from model_data
             0,  # speaker id
             audio,
             audio_file,
     loop.close()
     return result
+def parallel_tts(tasks):
     """Process multiple TTS tasks"""
     logger.info(f"Received {len(tasks)} tasks for processing")
     results = []
                 results.append(None)
                 continue
+            result = process_audio(model, audio_file, logger)
             logger.info(f"Processing completed for task {i+1}")
             results.append(result)