asr

Paused

App Files Files Community

kgout commited on Jul 14, 2024

Commit

9781a06

verified ·

1 Parent(s): 8778797

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -18

app.py CHANGED Viewed

@@ -353,10 +353,10 @@ class AudioUpscaler:
         print(f"File created: {output_file}")
         # Cleanup
-        del waveform
         gc.collect()
         torch.cuda.empty_cache()
-        return output_file
@@ -386,7 +386,7 @@ def inference(audio_file, model_name, guidance_scale, ddim_steps, seed):
     return (48000, waveform)
 def upscale_audio(
     input_file,
     output_folder,
@@ -415,10 +415,13 @@ def upscale_audio(
     Returns:
         tuple: Upscaled audio data and sample rate.
     """
     upscaler = AudioUpscaler()
     upscaler.setup()
-    output_file = upscaler.predict(
         input_file,
         output_folder,
         ddim_steps=ddim_steps,
@@ -435,7 +438,7 @@ def upscale_audio(
     gc.collect()
-    return output_file
 os.getcwd()
 gr.Textbox
@@ -453,18 +456,6 @@ iface = gr.Interface(
         gr.Checkbox(label="Multiband Ensemble", value=False, info="Enhance high frequencies"),
         gr.Slider(500, 15000, value=9000, step=500, label="Crossover Frequency (Hz)", info="For multiband processing", visible=True)
     ],
-iface = gr.Interface(
-    fn=inference,
-    inputs=[
-        gr.Audio(type="filepath", label="Input Audio"),
-        gr.Dropdown(["basic", "speech"], value="basic", label="Model"),
-        gr.Slider(1, 10, value=3.5, step=0.1, label="Guidance Scale", info="Guidance scale (Large => better quality and relavancy to text; Small => better diversity)"),
-        gr.Slider(1, 100, value=50, step=1, label="DDIM Steps", info="The sampling step for DDIM"),
-        gr.Number(value=42, precision=0, label="Seed", info="Changing this value (any integer number) will lead to a different generation result, put 0 for a random one.")
-    ],
     outputs=gr.Audio(type="numpy", label="Output Audio"),
     title="AudioSR",
     description="Audio Super Resolution with AudioSR"

         print(f"File created: {output_file}")
         # Cleanup
         gc.collect()
         torch.cuda.empty_cache()
+        return waveform
+        # return output_file
     return (48000, waveform)
+@spaces.GPU
 def upscale_audio(
     input_file,
     output_folder,
     Returns:
         tuple: Upscaled audio data and sample rate.
     """
+    if torch.cuda.is_avaible():
+        torch.cuda.empty_cache()
+    gc.collect()
     upscaler = AudioUpscaler()
     upscaler.setup()
+    waveform = upscaler.predict(
         input_file,
         output_folder,
         ddim_steps=ddim_steps,
     gc.collect()
+    return waveform
 os.getcwd()
 gr.Textbox
         gr.Checkbox(label="Multiband Ensemble", value=False, info="Enhance high frequencies"),
         gr.Slider(500, 15000, value=9000, step=500, label="Crossover Frequency (Hz)", info="For multiband processing", visible=True)
     ],
     outputs=gr.Audio(type="numpy", label="Output Audio"),
     title="AudioSR",
     description="Audio Super Resolution with AudioSR"