Spaces:

mazalaai
/

tts

Sleeping

App Files Files Community

MAZALA2024 commited on Dec 14, 2024

Commit

8ebe7fa

verified ·

1 Parent(s): 2a969d1

Update voice_processing.py

Browse files

Files changed (1) hide show

voice_processing.py +32 -41

voice_processing.py CHANGED Viewed

@@ -95,47 +95,38 @@ def process_audio(model, audio_file, logger, index_rate=0, use_uploaded_voice=Tr
         if model is None:
             logger.error("No model provided for processing")
             return None
-        # Load audio
-        sr, audio = wavfile.read(audio_file)
-        logger.info(f"Loaded audio: sr={sr}Hz, shape={audio.shape}")
-        # Convert to mono if needed
-        if len(audio.shape) > 1:
-            audio = np.mean(audio, axis=1)
-        audio = audio.astype(np.float32)
-        # Prepare input tensor
-        input_tensor = torch.FloatTensor(audio)
-        if torch.cuda.is_available():
-            input_tensor = input_tensor.cuda()
-            model = model.cuda()
-        # Process through model
-        with torch.no_grad():
-            # Prepare required arguments for model.infer()
-            phone = input_tensor.unsqueeze(0)  # Add batch dimension [1, sequence_length]
-            phone_lengths = torch.LongTensor([len(input_tensor)]).to(input_tensor.device)
-            pitch = torch.zeros(1, len(input_tensor)).to(input_tensor.device)  # Default pitch
-            nsff0 = torch.zeros_like(pitch).to(input_tensor.device)
-            sid = torch.LongTensor([0]).to(input_tensor.device)  # Speaker ID
-            # Call infer with all required arguments
-            output = model.infer(
-                phone=phone,
-                phone_lengths=phone_lengths,
-                pitch=pitch,
-                nsff0=nsff0,
-                sid=sid
-            )
-            if torch.cuda.is_available():
-                output = output.cpu()
-            output = output.numpy()
-        logger.info(f"Processing complete, output shape: {output.shape}")
-        return (None, None, (sr, output))
     except Exception as e:
         logger.error(f"Error processing audio: {str(e)}")
         logger.error(traceback.format_exc())

         if model is None:
             logger.error("No model provided for processing")
             return None
+        # Load and process audio
+        tgt_sr, net_g, vc, version, index_file, if_f0 = model_data(model_name)
+        if f0_method == "rmvpe":
+            vc.model_rmvpe = rmvpe_model
+        times = [0, 0, 0]
+        audio_opt = vc.pipeline(
+            hubert_model,
+            net_g,
+            0,  # sid
+            audio,
+            audio_file,
+            times,
+            f0_up_key=0,
+            f0_method="rmvpe",
+            index_file=index_file,
+            index_rate=index_rate,
+            if_f0=if_f0,
+            filter_radius=3,
+            tgt_sr=tgt_sr,
+            resample_sr=0,
+            rms_mix_rate=0.25,
+            version=version,
+            protect=0.33,
+            f0_file=None
+        )
+        info = f"Success. Time: npy: {times[0]}s, f0: {times[1]}s, infer: {times[2]}s"
+        logger.info(info)
+        return (info, None, (tgt_sr, audio_opt))
     except Exception as e:
         logger.error(f"Error processing audio: {str(e)}")
         logger.error(traceback.format_exc())