Spaces:

fffiloni
/

Music-To-Image

Paused

fffiloni commited on Aug 1, 2023

Commit

3ca7acb

1 Parent(s): 4b738f1

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -71,7 +71,7 @@ def infer(audio_file):
     print(result)
-    images = pipe(prompt=result).images[0]
     #return cap_result, result, images
     return images
@@ -95,16 +95,17 @@ with gr.Blocks(css=css) as demo:
                 </h1>
                 </div>
                 <p style="margin-bottom: 10px; font-size: 94%">
-                Sends an audio in to <a href="https://huggingface.co/spaces/seungheondoh/LP-Music-Caps-demo" target="_blank">LP-Music-Caps</a>
-                to generate a audio cpation which is then translated to an illustrative image description with Llama2, then run through
-                Stable Diffusion XL to generate an image from the audio !
                 </p>
             </div>""")
         audio_input = gr.Audio(type="filepath", source="upload")
-        infer_btn = gr.Button("Generate")
-        lpmc_cap = gr.Textbox(label="Lp Music Caps caption")
-        llama_trans_cap = gr.Textbox(label="Llama translation")
-        img_result = gr.Image(label="Result")
     #infer_btn.click(fn=infer, inputs=[audio_input], outputs=[lpmc_cap, llama_trans_cap, img_result])
     infer_btn.click(fn=infer, inputs=[audio_input], outputs=[img_result])

     print(result)
+    images = pipe(prompt=result).images
     #return cap_result, result, images
     return images
                 </h1>
                 </div>
                 <p style="margin-bottom: 10px; font-size: 94%">
+                Sends an audio into <a href="https://huggingface.co/spaces/seungheondoh/LP-Music-Caps-demo" target="_blank">LP-Music-Caps</a>
+                to generate a audio caption which is then translated to an illustrative image description with Llama2, and finally run through
+                Stable Diffusion XL to generate an image from the audio ! <br /><br />
+                Note: Only the first 30 seconds of your audio will be used for inference.
                 </p>
             </div>""")
         audio_input = gr.Audio(type="filepath", source="upload")
+        infer_btn = gr.Button("Generate Image from Music")
+        #lpmc_cap = gr.Textbox(label="Lp Music Caps caption")
+        #llama_trans_cap = gr.Textbox(label="Llama translation")
+        img_result = gr.gallerG(label="Result", grid=2)
     #infer_btn.click(fn=infer, inputs=[audio_input], outputs=[lpmc_cap, llama_trans_cap, img_result])
     infer_btn.click(fn=infer, inputs=[audio_input], outputs=[img_result])