so-vits-svc-api

Sleeping

App Files Files Community

next-playground commited on 23 days ago

Commit

fc2fb4c

•

1 Parent(s): db1e6f3

Update flask_api_full_song.py

Browse files

Files changed (1) hide show

flask_api_full_song.py +86 -34

flask_api_full_song.py CHANGED Viewed

@@ -1,56 +1,108 @@
-import io
 import numpy as np
 import soundfile
-from flask import Flask, request, send_file
 from inference import infer_tool, slicer
 import requests
 import os
 from qcloud_cos import CosConfig
 from qcloud_cos import CosS3Client
 app = Flask(__name__)
 @app.route("/wav2wav", methods=["POST"])
 def wav2wav():
     request_form = request.form
-    audio_path = request_form.get("audio_path", None)  # wav文件地址
     tran = int(float(request_form.get("tran", 0)))  # 音调
     spk = request_form.get("spk", 0)  # 说话人(id或者name都可以,具体看你的config)
     wav_format = request_form.get("wav_format", 'wav')  # 范围文件格式
-    infer_tool.format_wav(audio_path)
-    chunks = slicer.cut(audio_path, db_thresh=-40)
-    audio_data, audio_sr = slicer.chunks2audio(audio_path, chunks)
-    audio = []
-    for (slice_tag, data) in audio_data:
-        print(f'#=====segment start, {round(len(data) / audio_sr, 3)}s======')
-        length = int(np.ceil(len(data) / audio_sr * svc_model.target_sample))
-        if slice_tag:
-            print('jump empty segment')
-            _audio = np.zeros(length)
-        else:
-            # padd
-            pad_len = int(audio_sr * 0.5)
-            data = np.concatenate([np.zeros([pad_len]), data, np.zeros([pad_len])])
-            raw_path = io.BytesIO()
-            soundfile.write(raw_path, data, audio_sr, format="wav")
-            raw_path.seek(0)
-            out_audio, out_sr = svc_model.infer(spk, tran, raw_path)
-            svc_model.clear_empty()
-            _audio = out_audio.cpu().numpy()
-            pad_len = int(svc_model.target_sample * 0.5)
-            _audio = _audio[pad_len:-pad_len]
-        audio.extend(list(infer_tool.pad_array(_audio, length)))
-    out_wav_path = io.BytesIO()
-    soundfile.write(out_wav_path, audio, svc_model.target_sample, format=wav_format)
-    out_wav_path.seek(0)
-    return send_file(out_wav_path, download_name=f"temp.{wav_format}", as_attachment=True)
 if __name__ == '__main__':

 import numpy as np
 import soundfile
+from flask import Flask, request, send_file, jsonify
 from inference import infer_tool, slicer
 import requests
 import os
+import uuid
+import threading
 from qcloud_cos import CosConfig
 from qcloud_cos import CosS3Client
+tasks = {}
+running_threads = 0
+condition = threading.Condition()
+def infer(audio_path, tran, spk, wav_format, task_id):
+    global running_threads
+    with condition:
+        while running_threads >= 1:
+            tasks[task_id] = {"status": "queue"}
+            condition.wait()
+        running_threads += 1
+    tasks[task_id] = {"status": "processing"}
+    try:
+        audio_name = audio_path.split('/')[-1]
+        infer_tool.format_wav(audio_path)
+        chunks = slicer.cut(audio_path, db_thresh=-40)
+        audio_data, audio_sr = slicer.chunks2audio(audio_path, chunks)
+        audio = []
+        for (slice_tag, data) in audio_data:
+            print(f'#=====segment start, {round(len(data) / audio_sr, 3)}s======')
+            length = int(np.ceil(len(data) / audio_sr * svc_model.target_sample))
+            if slice_tag:
+                print('jump empty segment')
+                _audio = np.zeros(length)
+            else:
+                # padd
+                pad_len = int(audio_sr * 0.5)
+                data = np.concatenate([np.zeros([pad_len]), data, np.zeros([pad_len])])
+                raw_path = io.BytesIO()
+                soundfile.write(raw_path, data, audio_sr, format="wav")
+                raw_path.seek(0)
+                out_audio, out_sr = svc_model.infer(spk, tran, raw_path)
+                svc_model.clear_empty()
+                _audio = out_audio.cpu().numpy()
+                pad_len = int(svc_model.target_sample * 0.5)
+                _audio = _audio[pad_len:-pad_len]
+            audio.extend(list(infer_tool.pad_array(_audio, length)))
+        out_wav_path = "/tmp/" + audio_name
+        soundfile.write(out_wav_path, audio, svc_model.target_sample, format=wav_format)
+        out_wav_path.seek(0)
+        # 提供文件的永久直链
+        result_audio_url = f"/download/{os.path.basename(out_wav_path)}"
+        # 更新任务状态
+        tasks[task_id] = {
+            "status": "completed",
+            "url": result_audio_url,
+        }
+    except Exception as e:
+        tasks[task_id] = {
+            "status": "error",
+            "message": str(e)
+        }
+    with condition:
+            running_threads -= 1
+            condition.notify_all()
 app = Flask(__name__)
 @app.route("/wav2wav", methods=["POST"])
 def wav2wav():
+    task_id = str(uuid.uuid4())
+    tasks[task_id] = {"status": "processing"}
     request_form = request.form
+    audio_result = requests.get(request_form.get("audio_path", ""))
+    if audio_result.status_code != 200:
+        raise Exception("无效的 URL")
+    with open("/tmp/" + request_form.get("audio_path", "").split('/')[-1], 'wb') as f:
+        f.write(audio_result.content)
+    audio_path = "/tmp/" + request_form.get("audio_path", "").split('/')[-1]  # wav文件地址
     tran = int(float(request_form.get("tran", 0)))  # 音调
     spk = request_form.get("spk", 0)  # 说话人(id或者name都可以,具体看你的config)
     wav_format = request_form.get("wav_format", 'wav')  # 范围文件格式
+    threading.Thread(target=infer, args=(audio_path, tran, spk, wav_format)).start()
+    return jsonify({"task_id": task_id}), 202
+@app.route('/api/tasks/<task_id>', methods=['GET'])
+def get_task_status(task_id):
+    task = tasks.get(task_id)
+    if task:
+        return jsonify(task)
+    else:
+        return jsonify({"error": "Task not found"}), 404
+@app.route('/download/<filename>', methods=['GET'])
+def download(filename):
+    return send_file("/tmp/" + filename, as_attachment=True)
 if __name__ == '__main__':