Spaces:

mazalaai
/

tts

Sleeping

MAZALA2024 commited on Dec 14, 2024

Commit

2a969d1

verified ·

1 Parent(s): 069aba2

Update voice_processing.py

Files changed (1) hide show

voice_processing.py CHANGED Viewed

@@ -114,6 +114,7 @@ def process_audio(model, audio_file, logger, index_rate=0, use_uploaded_voice=Tr
         # Process through model
         with torch.no_grad():
             # Prepare required arguments for model.infer()
             phone_lengths = torch.LongTensor([len(input_tensor)]).to(input_tensor.device)
             pitch = torch.zeros(1, len(input_tensor)).to(input_tensor.device)  # Default pitch
             nsff0 = torch.zeros_like(pitch).to(input_tensor.device)
@@ -121,6 +122,7 @@ def process_audio(model, audio_file, logger, index_rate=0, use_uploaded_voice=Tr
             # Call infer with all required arguments
             output = model.infer(
                 phone_lengths=phone_lengths,
                 pitch=pitch,
                 nsff0=nsff0,

         # Process through model
         with torch.no_grad():
             # Prepare required arguments for model.infer()
+            phone = input_tensor.unsqueeze(0)  # Add batch dimension [1, sequence_length]
             phone_lengths = torch.LongTensor([len(input_tensor)]).to(input_tensor.device)
             pitch = torch.zeros(1, len(input_tensor)).to(input_tensor.device)  # Default pitch
             nsff0 = torch.zeros_like(pitch).to(input_tensor.device)
             # Call infer with all required arguments
             output = model.infer(
+                phone=phone,
                 phone_lengths=phone_lengths,
                 pitch=pitch,
                 nsff0=nsff0,