Spaces:

amphion
/

PicoAudio

Running on Zero

ZeyuXie commited on Jul 16

Commit

c2201d6

•

1 Parent(s): ccb7c0b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -32,9 +32,9 @@ class InferRunner:
         ).eval().to(device)
         self.scheduler = DDPMScheduler.from_pretrained(train_args.scheduler_name, subfolder="scheduler")
-def infer(caption, runner):
     with torch.no_grad():
-        latents = runner.picomodel.demo_inference(caption, runner.scheduler, num_steps=200, guidance=3.0, num_samples=1, audio_len=16000*10, disable_progress=True)
         mel = runner.vae.decode_first_stage(latents)
         wave = runner.vae.decode_to_waveform(mel)[0][:audio_len]
     sf.write(f"synthesized/{caption}.wav", wave, samplerate=16000, subtype='PCM_16')
@@ -50,7 +50,7 @@ with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column():
             prompt = gr.Textbox(label="Prompt: Input your caption formatted as 'event1 at onset1-offset1_onset2-offset2 and event2 at onset1-offset1.",
-                value="spraying at 0.38-1.176_3.06-3.856 and gunshot at 1.729-3.729_4.367-6.367_7.031-9.031.")
             run_button = gr.Button()
             with gr.Accordion("Advanced options", open=False):
@@ -64,7 +64,7 @@ with gr.Blocks() as demo:
             outaudio = gr.Audio()
     run_button.click(fn=infer, inputs=[
-                    prompt, num_steps, guidance], outputs=[outaudio])
     # with gr.Row():
     #     with gr.Column():
     #         gr.Examples(

         ).eval().to(device)
         self.scheduler = DDPMScheduler.from_pretrained(train_args.scheduler_name, subfolder="scheduler")
+def infer(caption, runner, num_steps=200, guidance=3.0):
     with torch.no_grad():
+        latents = runner.picomodel.demo_inference(caption, runner.scheduler, num_steps=num_steps, guidance=guidance, num_samples=1, audio_len=16000*10, disable_progress=True)
         mel = runner.vae.decode_first_stage(latents)
         wave = runner.vae.decode_to_waveform(mel)[0][:audio_len]
     sf.write(f"synthesized/{caption}.wav", wave, samplerate=16000, subtype='PCM_16')
     with gr.Row():
         with gr.Column():
             prompt = gr.Textbox(label="Prompt: Input your caption formatted as 'event1 at onset1-offset1_onset2-offset2 and event2 at onset1-offset1.",
+                value="spraying at 0.38-1.176_3.06-3.856 and gunshot at 1.729-3.729_4.367-6.367_7.031-9.031.",)
             run_button = gr.Button()
             with gr.Accordion("Advanced options", open=False):
             outaudio = gr.Audio()
     run_button.click(fn=infer, inputs=[
+                    prompt, infer_runner, num_steps, guidance], outputs=[outaudio])
     # with gr.Row():
     #     with gr.Column():
     #         gr.Examples(