rvc-models

Running

App Files Files Community

ArkanDash commited on May 6, 2023

Commit

e9edf68

•

1 Parent(s): 65c00af

feat(gcolab): youtube feature

Browse files

Files changed (1) hide show

app.py +54 -1

app.py CHANGED Viewed

@@ -9,6 +9,12 @@ import librosa
 import torch
 import asyncio
 import edge_tts
 from datetime import datetime
 from fairseq import checkpoint_utils
 from infer_pack.models import SynthesizerTrnMs256NSFsid, SynthesizerTrnMs256NSFsid_nono
@@ -78,6 +84,42 @@ def create_vc_fn(tgt_sr, net_g, vc, if_f0, file_index, file_big_npy):
             return info, (None, None)
     return vc_fn
 def load_hubert():
     global hubert_model
     models, _, _ = checkpoint_utils.load_model_ensemble_and_task(
@@ -142,7 +184,6 @@ if __name__ == '__main__':
             "![visitor badge](https://visitor-badge.glitch.me/badge?page_id=ArkanDash.Rvc-Models)\n\n"
             "[![image](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1hx6kKvIuv5XNY1Gai2PEuZhpO5z6xpVh?usp=sharing)\n\n"
             "[![Original Repo](https://badgen.net/badge/icon/github?icon=github&label=Original%20Repo)](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI)"
         )
         with gr.Tabs():
             for (name, title, author, cover, vc_fn) in models:
@@ -156,6 +197,13 @@ if __name__ == '__main__':
                             '</div>'
                         )
                     with gr.Row():
                         with gr.Column():
                             if args.files:
                                 vc_input = gr.Textbox(label="Input audio path")
@@ -182,6 +230,11 @@ if __name__ == '__main__':
                         with gr.Column():
                             vc_output1 = gr.Textbox(label="Output Message")
                             vc_output2 = gr.Audio(label="Output Audio")
                 vc_submit.click(vc_fn, [vc_input, vc_transpose, vc_f0method, vc_index_ratio, tts_mode, tts_text, tts_voice], [vc_output1, vc_output2])
                 tts_mode.change(change_to_tts_mode, [tts_mode], [vc_input, tts_text, tts_voice])
         app.queue(concurrency_count=1, max_size=20, api_open=args.api).launch(share=args.share)

 import torch
 import asyncio
 import edge_tts
+import yt_dlp
+import ffmpeg
+import subprocess
+import sys
+import io
+import wave
 from datetime import datetime
 from fairseq import checkpoint_utils
 from infer_pack.models import SynthesizerTrnMs256NSFsid, SynthesizerTrnMs256NSFsid_nono
             return info, (None, None)
     return vc_fn
+def cut_vocal_and_inst(yt_url):
+    if yt_url != "":
+        if not os.path.exists("/content/youtube_audio"):
+            os.mkdir("/content/youtube_audio")
+        ydl_opts = {
+            'format': 'bestaudio/best',
+            'postprocessors': [{
+                'key': 'FFmpegExtractAudio',
+                'preferredcodec': 'wav',
+            }],
+            "outtmpl": '/content/youtube_audio/audio',
+        }
+        with yt_dlp.YoutubeDL(ydl_opts) as ydl:
+            ydl.download([yt_url])
+        yt_audio_path = "/content/youtube_audio/audio.wav"
+        command = f"demucs --two-stems=vocals {yt_audio_path}"
+        result = subprocess.run(command.split(), stdout=subprocess.PIPE)
+        print(result.stdout.decode())
+        return ("/content/rvc-models/separated/htdemucs/audio/vocals.wav", "/content/rvc-models/separated/htdemucs/audio/no_vocals.wav", yt_audio_path, "/content/rvc-models/separated/htdemucs/audio/vocals.wav")
+def combine_vocal_and_inst(audio_data):
+    print(audio_data)
+    if not os.path.exists("/content/result"):
+        os.mkdir("/content/result")
+    vocal_path = "/content/result/output.wav"
+    inst_path = "/content/rvc-models/separated/htdemucs/audio/no_vocals.wav"
+    output_path = "/content/result/combine.mp3"
+    with wave.open(vocal_path, "w") as wave_file:
+        wave_file.setnchannels(1)
+        wave_file.setsampwidth(2)
+        wave_file.setframerate(audio_data[0])
+        wave_file.writeframes(audio_data[1].tobytes())
+    command =  f'ffmpeg -y -i {inst_path} -i {vocal_path} -filter_complex amix=inputs=2:duration=longest -b:a 320k -c:a libmp3lame {output_path}'
+    result = subprocess.run(command.split(), stdout=subprocess.PIPE)
+    return output_path
 def load_hubert():
     global hubert_model
     models, _, _ = checkpoint_utils.load_model_ensemble_and_task(
             "![visitor badge](https://visitor-badge.glitch.me/badge?page_id=ArkanDash.Rvc-Models)\n\n"
             "[![image](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1hx6kKvIuv5XNY1Gai2PEuZhpO5z6xpVh?usp=sharing)\n\n"
             "[![Original Repo](https://badgen.net/badge/icon/github?icon=github&label=Original%20Repo)](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI)"
         )
         with gr.Tabs():
             for (name, title, author, cover, vc_fn) in models:
                             '</div>'
                         )
                     with gr.Row():
+                        if args.files:
+                            with gr.Column():
+                                vc_youtube = gr.Textbox(label="Youtube URL")
+                                vc_convert = gr.Button("Convert", variant="primary")
+                                vc_vocal_preview = gr.Audio(label="Vocal Preview")
+                                vc_inst_preview = gr.Audio(label="Instrumental Preview")
+                                vc_audio_preview = gr.Audio(label="Audio Preview")
                         with gr.Column():
                             if args.files:
                                 vc_input = gr.Textbox(label="Input audio path")
                         with gr.Column():
                             vc_output1 = gr.Textbox(label="Output Message")
                             vc_output2 = gr.Audio(label="Output Audio")
+                            vc_combine =  gr.Button("Combine",variant="primary")
+                            vc_outputCombine = gr.Audio(label="Output Combined Audio")
                 vc_submit.click(vc_fn, [vc_input, vc_transpose, vc_f0method, vc_index_ratio, tts_mode, tts_text, tts_voice], [vc_output1, vc_output2])
                 tts_mode.change(change_to_tts_mode, [tts_mode], [vc_input, tts_text, tts_voice])
+                if args.files:
+                    vc_convert.click(cut_vocal_and_inst, vc_youtube, [vc_vocal_preview, vc_inst_preview, vc_audio_preview, vc_input])
+                    vc_combine.click(combine_vocal_and_inst, vc_output2, vc_outputCombine)
         app.queue(concurrency_count=1, max_size=20, api_open=args.api).launch(share=args.share)