TXT-2-IMG-2-MUSIC-2-VIDEO-w-RIFFUSION

Runtime error

App Files Files Community

DGSpitzer commited on Dec 17, 2022

Commit

c170719

•

1 Parent(s): f25290d

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -19

app.py CHANGED Viewed

@@ -24,6 +24,7 @@ import mutagen
 from mutagen.mp3 import MP3
 img_to_text = gr.Blocks.load(name="spaces/pharma/CLIP-Interrogator")
 language_translation_model = hub.Module(name='baidu_translate')
 language_recognition_model = hub.Module(name='baidu_language_recognition')
@@ -71,7 +72,7 @@ def translate_language(text_prompts):
-def get_result(text_prompts, style_indx):
     style = style_list[style_indx]
     prompt = style + "," + text_prompts
@@ -90,25 +91,53 @@ def get_result(text_prompts, style_indx):
     interrogate_prompt = img_to_text(imagefile, "ViT-L (best for Stable Diffusion 1.*)", "fast", fn_index=1)[0]
     print(interrogate_prompt)
-    spec_image, music_output = get_music(interrogate_prompt + ", " + style_list_EN[style_indx])
     video_merged = merge_video(music_output, image_output)
     return {spec_result:spec_image, video_result:video_merged, status_text:'Success'}
-def get_music(prompt):
-  spec = pipe2(prompt).images[0]
-  print(spec)
-  wav = wav_bytes_from_spectrogram_image(spec)
-  with open("output.wav", "wb") as f:
-    f.write(wav[0].getbuffer())
-  return spec, 'output.wav'
-def merge_video(music, image):
-    #Convert to mp3
-    mp3file_name = "audio.mp3"
-    wavfile = AudioSegment.from_wav(music)
-    wavfile.export(mp3file_name, format="mp3")
     print('wav audio converted to mp3 audio' )
     print('now getting duration of this mp3 audio' )
     #getting audio clip's duration
@@ -252,7 +281,7 @@ examples = [
         '概念艺术(Conceptual Art)'
     ],
     [
-        '嫦娥在时代广场，戏曲',
         '写实风格(Realistic style)'
     ],
     [
@@ -395,7 +424,7 @@ with block:
                <h1 style="font-weight: 900; margin-bottom: 7px;">Text to Image to Music to Video</h1>
               </div>
               <p style="margin-bottom: 10px; font-size: 94%">
-                Powered by <a href="https://huggingface.co/riffusion/riffusion-model-v1" target="_blank">Riffusion Model V1</a>, <a href="https://huggingface.co/spaces/runwayml/stable-diffusion-v1-5" target="_blank">Stable Diffusion V1.5</a>, <a href="https://huggingface.co/spaces/pharma/CLIP-Interrogator" target="_blank">CLIP Interrogator</a>, fffiloni's <a href="https://huggingface.co/spaces/fffiloni/spectrogram-to-music" target="_blank">Riffusion Text-to-Music</a> and Baidu Language Translation projects
               </p>
             </div>
         """
@@ -423,6 +452,7 @@ with block:
         '卡通(Cartoon)', '二次元(Anime)', '浮世绘(Ukiyoe)', '蒸汽波艺术(Vaporwave)', 'low poly',
         '像素风格(Pixel Style)', '概念艺术(Conceptual Art)', '未来主义(Futurism)', '赛博朋克(Cyberpunk)', '写实风格(Realistic style)',
         '洛丽塔风格(Lolita style)', '巴洛克风格(Baroque style)', '超现实主义(Surrealism)', '默认(Default)'], value='默认(Default)', type="index")
         status_text = gr.Textbox(
             label="处理状态(Process status)",
             show_label=True,
@@ -430,8 +460,8 @@ with block:
             interactive=False
         )
-        spec_result = gr.Image()
         video_result = gr.Video(type=None, label='Final Merged video')
         trigger_component = gr.Textbox(vaule="", visible=False) # This component is used for triggering inference funtion.
         translated_language = gr.Textbox(vaule="", visible=False)
@@ -443,7 +473,7 @@ with block:
         text.submit(translate_language, inputs=[text], outputs=[language_tips_text, status_text, trigger_component, translated_language])
         btn.click(translate_language, inputs=[text], outputs=[language_tips_text, status_text, trigger_component, translated_language])
-        trigger_component.change(fn=get_result, inputs=[translated_language, styles], outputs=[spec_result, video_result, status_text])
         gr.Markdown(

 from mutagen.mp3 import MP3
 img_to_text = gr.Blocks.load(name="spaces/pharma/CLIP-Interrogator")
+text_to_music = gr.Interface.load("spaces/fffiloni/text-2-music")
 language_translation_model = hub.Module(name='baidu_translate')
 language_recognition_model = hub.Module(name='baidu_language_recognition')
+def get_result(text_prompts, style_indx, musicAI_indx):
     style = style_list[style_indx]
     prompt = style + "," + text_prompts
     interrogate_prompt = img_to_text(imagefile, "ViT-L (best for Stable Diffusion 1.*)", "fast", fn_index=1)[0]
     print(interrogate_prompt)
+    spec_image, music_output = get_music(interrogate_prompt + ", " + style_list_EN[style_indx], musicAI_indx)
     video_merged = merge_video(music_output, image_output)
     return {spec_result:spec_image, video_result:video_merged, status_text:'Success'}
+def get_music(prompt, musicAI_indx):
+    if musicAI_indx == 0:
+        spec = pipe2(prompt).images[0]
+        print(spec)
+        wav = wav_bytes_from_spectrogram_image(spec)
+        with open("output.wav", "wb") as f:
+            f.write(wav[0].getbuffer())
+        #Convert to mp3
+        mp3file_name = "audio.mp3"
+        #wavfile = AudioSegment.from_wav(wavfilename)
+        wav.export(mp3file_name, format="mp3")
+        return spec, mp3file_name
+    else:
+        result = text_to_music(prompt, fn_index=0)
+        print(f"""—————
+        NEW RESULTS
+        prompt : {prompt}
+        music : {result}
+        ———————
+        """)
+        url = result
+        mp3file_name = "file.mp3"
+        data = urllib.request.urlopen(url)
+        f = open(mp3file_name,'wb')
+        f.write(data.read())
+        f.close()
+        #wave_file="file.wav"
+        #sound = AudioSegment.from_mp3(save_as)
+        #sound.export(wave_file, format="wav")
+        return None, mp3file_name
+def merge_video(mp3file_name, image):
     print('wav audio converted to mp3 audio' )
     print('now getting duration of this mp3 audio' )
     #getting audio clip's duration
         '概念艺术(Conceptual Art)'
     ],
     [
+        '少女在时代广场，舞蹈',
         '写实风格(Realistic style)'
     ],
     [
                <h1 style="font-weight: 900; margin-bottom: 7px;">Text to Image to Music to Video</h1>
               </div>
               <p style="margin-bottom: 10px; font-size: 94%">
+                Powered by <a href="https://huggingface.co/riffusion/riffusion-model-v1" target="_blank">Riffusion Model V1</a>, <a href="https://huggingface.co/spaces/Mubert/Text-to-Music" target="_blank">Mubert AI</a>, <a href="https://huggingface.co/spaces/runwayml/stable-diffusion-v1-5" target="_blank">Stable Diffusion V1.5</a>, <a href="https://huggingface.co/spaces/pharma/CLIP-Interrogator" target="_blank">CLIP Interrogator</a>, fffiloni's <a href="https://huggingface.co/spaces/fffiloni/spectrogram-to-music" target="_blank">Riffusion Text-to-Music</a> and Baidu Language Translation projects
               </p>
             </div>
         """
         '卡通(Cartoon)', '二次元(Anime)', '浮世绘(Ukiyoe)', '蒸汽波艺术(Vaporwave)', 'low poly',
         '像素风格(Pixel Style)', '概念艺术(Conceptual Art)', '未来主义(Futurism)', '赛博朋克(Cyberpunk)', '写实风格(Realistic style)',
         '洛丽塔风格(Lolita style)', '巴洛克风格(Baroque style)', '超现实主义(Surrealism)', '默认(Default)'], value='默认(Default)', type="index")
+        musicAI = gr.Dropdown(label="音乐生成技术(AI Music Generator)", choices=['Riffusion', 'Mubert AI'], value='Riffusion', type="index")
         status_text = gr.Textbox(
             label="处理状态(Process status)",
             show_label=True,
             interactive=False
         )
         video_result = gr.Video(type=None, label='Final Merged video')
+        spec_result = gr.Image()
         trigger_component = gr.Textbox(vaule="", visible=False) # This component is used for triggering inference funtion.
         translated_language = gr.Textbox(vaule="", visible=False)
         text.submit(translate_language, inputs=[text], outputs=[language_tips_text, status_text, trigger_component, translated_language])
         btn.click(translate_language, inputs=[text], outputs=[language_tips_text, status_text, trigger_component, translated_language])
+        trigger_component.change(fn=get_result, inputs=[translated_language, styles, musicAI], outputs=[spec_result, video_result, status_text])
         gr.Markdown(