BangDream-Bert-VITS2

Build error

App Files Files Community

Mahiruoshi commited on Dec 19, 2023

Commit

f4cadb2

1 Parent(s): 24fbdec

Update server.py

Browse files

Files changed (1) hide show

server.py +60 -19

server.py CHANGED Viewed

@@ -4,8 +4,8 @@ from pathlib import Path
 import logging
 import re_matching
-from flask import Flask, request, jsonify
 from flask_cors import CORS
 logging.getLogger("numba").setLevel(logging.WARNING)
@@ -28,7 +28,7 @@ from tqdm import tqdm
 import utils
 from config import config
 import torch
 import commons
 from text import cleaned_text_to_sequence, get_bert
@@ -44,9 +44,6 @@ import sys
 from scipy.io.wavfile import write
 net_g = None
-'''
 device = (
         "cuda:0"
         if torch.cuda.is_available()
@@ -56,8 +53,8 @@ device = (
             else "cpu"
         )
     )
-'''
-device = 'cpu'
 def get_net_g(model_path: str,  device: str, hps):
     net_g = SynthesizerTrn(
@@ -161,8 +158,9 @@ def infer(
         del x_tst, tones, lang_ids, bert, x_tst_lengths, speakers, ja_bert, en_bert, emo
         if torch.cuda.is_available():
             torch.cuda.empty_cache()
-        write("temp.wav", 44100, audio)
-        return 'success'
 def is_japanese(string):
         for ch in string:
@@ -171,16 +169,29 @@ def is_japanese(string):
         return False
 def loadmodel(model):
-    _ = net_g.eval()
-    _ = utils.load_checkpoint(model, net_g, None, skip_optimizer=True)
-    return "success"
 app = Flask(__name__)
 CORS(app)
-@app.route('/tts')
 def tts():
-    # 这些没必要改
     speaker = request.args.get('speaker')
     sdp_ratio = float(request.args.get('sdp_ratio', 0.2))
     noise_scale = float(request.args.get('noise_scale', 0.6))
@@ -188,13 +199,41 @@ def tts():
     length_scale = float(request.args.get('length_scale', 1))
     emotion = request.args.get('emotion', 'happy')
     text = request.args.get('text')
-    status = infer(text, sdp_ratio=sdp_ratio, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale,sid = speaker, reference_audio=None, emotion=emotion)
-    with open('temp.wav','rb') as bit:
-        wav_bytes = bit.read()
     headers = {
             'Content-Type': 'audio/wav',
-            'Text': status.encode('utf-8')}
     return wav_bytes, 200, headers
@@ -210,4 +249,6 @@ if __name__ == "__main__":
     )
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
     app.run(host="0.0.0.0", port=5000)

 import logging
 import re_matching
+import uuid
+from flask import Flask, request, jsonify, render_template_string
 from flask_cors import CORS
 logging.getLogger("numba").setLevel(logging.WARNING)
 import utils
 from config import config
+import requests
 import torch
 import commons
 from text import cleaned_text_to_sequence, get_bert
 from scipy.io.wavfile import write
 net_g = None
 device = (
         "cuda:0"
         if torch.cuda.is_available()
             else "cpu"
         )
     )
+#device = 'cpu'
 def get_net_g(model_path: str,  device: str, hps):
     net_g = SynthesizerTrn(
         del x_tst, tones, lang_ids, bert, x_tst_lengths, speakers, ja_bert, en_bert, emo
         if torch.cuda.is_available():
             torch.cuda.empty_cache()
+        unique_filename = f"temp{uuid.uuid4()}.wav"
+        write(unique_filename, 44100, audio)
+        return unique_filename
 def is_japanese(string):
         for ch in string:
         return False
 def loadmodel(model):
+    try:
+        _ = net_g.eval()
+        _ = utils.load_checkpoint(model, net_g, None, skip_optimizer=True)
+        return "success"
+    except:
+        return "error"
+def send_audio_to_server(audio_path,text):
+    url="http://127.0.0.1:3000/response"
+    files = {'file': open(audio_path, 'rb')}
+    data = {'text': text}
+    try:
+        response = requests.post(url, files=files,data=data)
+        return response.status_code, response.text
+    except Exception as e:
+        return 500, str(e)
 app = Flask(__name__)
 CORS(app)
+@app.route('/')
 def tts():
+    global last_text, last_model
     speaker = request.args.get('speaker')
     sdp_ratio = float(request.args.get('sdp_ratio', 0.2))
     noise_scale = float(request.args.get('noise_scale', 0.6))
     length_scale = float(request.args.get('length_scale', 1))
     emotion = request.args.get('emotion', 'happy')
     text = request.args.get('text')
+    is_chat = request.args.get('is_chat', 'false').lower() == 'true'
+    model = request.args.get('model',modelPaths[-1])
+    if not speaker or not text:
+        return render_template_string("""
+            <!DOCTYPE html>
+            <html>
+            <head>
+                <title>TTS API Documentation</title>
+            </head>
+            <body>
+                <iframe src="http://love.soyorin.top" style="width:100%; height:100vh; border:none;"></iframe>
+            </body>
+            </html>
+        """)
+    if model != last_model:
+        unique_filename  = loadmodel(model)
+        last_model = model
+    if is_chat and text == last_text:
+        # Generate 1 second of silence and return
+        unique_filename = 'blank.wav'
+        silence = np.zeros(44100, dtype=np.int16)
+        write(unique_filename , 44100, silence)
+    else:
+        last_text = text
+        unique_filename  = infer(text, sdp_ratio=sdp_ratio, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale,sid = speaker, reference_audio=None, emotion=emotion)
+        status_code, response_text = send_audio_to_server(unique_filename,text)
+        print(f"Response from server: {response_text} (Status code: {status_code})")
+    with open(unique_filename ,'rb') as bit:
+        wav_bytes = bit.read()
+    os.remove(unique_filename)
     headers = {
             'Content-Type': 'audio/wav',
+            'Text': unique_filename .encode('utf-8')}
     return wav_bytes, 200, headers
     )
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
+    last_text = ""
+    last_model = modelPaths[-1]
     app.run(host="0.0.0.0", port=5000)