Spaces:

hkchengrex
/

MMAudio

Running on Zero

Rex Cheng commited on 3 days ago

Commit

6ab1a8e

•

1 Parent(s): c58ca4b

faster encode/decode with a longer GPU duration

Files changed (1) hide show

app.py CHANGED Viewed

@@ -58,7 +58,7 @@ def get_model() -> tuple[MMAudio, FeaturesUtils, SequenceConfig]:
 net, feature_utils, seq_cfg = get_model()
-@spaces.GPU
 @torch.inference_mode()
 def video_to_audio(video: gr.Video, prompt: str, negative_prompt: str, seed: int, num_steps: int,
                    cfg_strength: float, duration: float):
@@ -95,7 +95,7 @@ def video_to_audio(video: gr.Video, prompt: str, negative_prompt: str, seed: int
     return video_save_path
-@spaces.GPU
 @torch.inference_mode()
 def text_to_audio(prompt: str, negative_prompt: str, seed: int, num_steps: int, cfg_strength: float,
                   duration: float):
@@ -126,6 +126,12 @@ def text_to_audio(prompt: str, negative_prompt: str, seed: int, num_steps: int,
 video_to_audio_tab = gr.Interface(
     fn=video_to_audio,
     inputs=[
         gr.Video(),
         gr.Text(label='Prompt'),

 net, feature_utils, seq_cfg = get_model()
+@spaces.GPU(duration=120)
 @torch.inference_mode()
 def video_to_audio(video: gr.Video, prompt: str, negative_prompt: str, seed: int, num_steps: int,
                    cfg_strength: float, duration: float):
     return video_save_path
+@spaces.GPU(duration=120)
 @torch.inference_mode()
 def text_to_audio(prompt: str, negative_prompt: str, seed: int, num_steps: int, cfg_strength: float,
                   duration: float):
 video_to_audio_tab = gr.Interface(
     fn=video_to_audio,
+    description="""
+    Project page: <a href="https://hkchengrex.com/MMAudio/">https://hkchengrex.com/MMAudio/</a><br>
+    Code: <a href="https://github.com/hkchengrex/MMAudio">https://github.com/hkchengrex/MMAudio</a><br>
+    NOTE: It takes longer to process high-resolution videos (>384 px on the shorter side) and does not improve results.
+    """,
     inputs=[
         gr.Video(),
         gr.Text(label='Prompt'),