Spaces:

snnithya
/

GaMaDHaNi

Sleeping

App Files Files Community

Nithya commited on Sep 27, 2024

Commit

a16f46b

1 Parent(s): 85b0298

added more logging

Browse files

Files changed (1) hide show

app.py +7 -3

app.py CHANGED Viewed

@@ -108,10 +108,11 @@ def generate_audio(audio_model, f0s, invert_audio_fn, singers=[3], num_steps=100
     return audio
-@spaces.GPU(duration=120)
 def generate(pitch, num_samples=1, num_steps=100, singers=[3], outfolder='temp', audio_seq_len=750, pitch_qt=None ):
     logging.log(logging.INFO, 'Generate function')
     pitch, inverted_pitch = generate_pitch_reinterp(pitch, pitch_model, invert_pitch_fn, num_samples=num_samples, num_steps=100)
     if pitch_qt is not None:
         # if there is not pitch quantile transformer, undo the default quantile transformation that occurs
@@ -124,6 +125,7 @@ def generate(pitch, num_samples=1, num_steps=100, singers=[3], outfolder='temp',
     interpolated_pitch = p2a.interpolate_pitch(pitch=pitch, audio_seq_len=audio_seq_len)    # interpolate pitch values to match the audio model's input size
     interpolated_pitch = torch.nan_to_num(interpolated_pitch, nan=196)  # replace nan values with silent token
     interpolated_pitch = interpolated_pitch.squeeze(1) # to match input size by removing the extra dimension
     audio = generate_audio(audio_model, interpolated_pitch, invert_audio_fn, singers=singers, num_steps=100)
     audio = audio.detach().cpu().numpy()
     pitch = pitch.detach().cpu().numpy()
@@ -151,7 +153,7 @@ audio_model, audio_qt, audio_seq_len, invert_audio_fn = load_audio_fns(
 )
 partial_generate = partial(generate, num_samples=1, num_steps=100, singers=[3], outfolder=None, pitch_qt=pitch_qt)  # generate function with default arguments
-@spaces.GPU(duration=120)
 def set_guide_and_generate(audio):
     global selected_prime, pitch_task_fn
@@ -168,6 +170,7 @@ def set_guide_and_generate(audio):
     audio = audio[-12*16000:] # consider only last 12 s
     _, f0, _ = extract_pitch(audio)
     mic_f0 = f0.copy() # save the user input pitch values
     f0 = pitch_task_fn(**{
         'inputs': {
             'pitch': {
@@ -182,6 +185,7 @@ def set_guide_and_generate(audio):
     # pdb.set_trace()
     f0 = f0.reshape(1, 1, -1)
     f0 = torch.tensor(f0).to(pitch_model.device).float()
     audio, pitch, _ = partial_generate(f0)
     mic_f0 = np.where(mic_f0 == 0, np.nan, mic_f0)
     # plot user input
@@ -203,7 +207,7 @@ with gr.Blocks() as demo:
 def main(argv):
-    demo.launch(share=True)
 if __name__ == '__main__':
     main(sys.argv)

     return audio
+@spaces.GPU(duration=180)
 def generate(pitch, num_samples=1, num_steps=100, singers=[3], outfolder='temp', audio_seq_len=750, pitch_qt=None ):
     logging.log(logging.INFO, 'Generate function')
+    logging.log(logging.INFO, 'Generating pitch')
     pitch, inverted_pitch = generate_pitch_reinterp(pitch, pitch_model, invert_pitch_fn, num_samples=num_samples, num_steps=100)
     if pitch_qt is not None:
         # if there is not pitch quantile transformer, undo the default quantile transformation that occurs
     interpolated_pitch = p2a.interpolate_pitch(pitch=pitch, audio_seq_len=audio_seq_len)    # interpolate pitch values to match the audio model's input size
     interpolated_pitch = torch.nan_to_num(interpolated_pitch, nan=196)  # replace nan values with silent token
     interpolated_pitch = interpolated_pitch.squeeze(1) # to match input size by removing the extra dimension
+    logging.log(logging.INFO, 'Generating audio')
     audio = generate_audio(audio_model, interpolated_pitch, invert_audio_fn, singers=singers, num_steps=100)
     audio = audio.detach().cpu().numpy()
     pitch = pitch.detach().cpu().numpy()
 )
 partial_generate = partial(generate, num_samples=1, num_steps=100, singers=[3], outfolder=None, pitch_qt=pitch_qt)  # generate function with default arguments
+@spaces.GPU(duration=180)
 def set_guide_and_generate(audio):
     global selected_prime, pitch_task_fn
     audio = audio[-12*16000:] # consider only last 12 s
     _, f0, _ = extract_pitch(audio)
     mic_f0 = f0.copy() # save the user input pitch values
+    logging.log(logging.INFO, 'Pitch extracted')
     f0 = pitch_task_fn(**{
         'inputs': {
             'pitch': {
     # pdb.set_trace()
     f0 = f0.reshape(1, 1, -1)
     f0 = torch.tensor(f0).to(pitch_model.device).float()
+    logging.log(logging.INFO, 'Calling generate function')
     audio, pitch, _ = partial_generate(f0)
     mic_f0 = np.where(mic_f0 == 0, np.nan, mic_f0)
     # plot user input
 def main(argv):
+    demo.launch()
 if __name__ == '__main__':
     main(sys.argv)