Spaces:

ntt123
/

WaveGRU-Text-To-Speech

Runtime error

NTT123 commited on Mar 27, 2022

Commit

7383c33

•

1 Parent(s): fb9df88

update

Files changed (2) hide show

app.py CHANGED Viewed

@@ -5,22 +5,24 @@
 import gradio as gr
 from inference import load_tacotron_model, load_wavegru_net, mel_to_wav, text_to_mel
 from wavegru_cpp import extract_weight_mask, load_wavegru_cpp
-alphabet, tacotron_net, tacotron_config = load_tacotron_model(
-    "./alphabet.txt", "./tacotron.toml", "./pretrained_model_ljs_600k.ckpt"
-)
-wavegru_config, wavegru_net = load_wavegru_net("./wavegru.yaml", "./wavegru_vocoder_1024_v3_1330000.ckpt")
-wave_cpp_weight_mask = extract_weight_mask(wavegru_net)
-wavecpp = load_wavegru_cpp(wave_cpp_weight_mask, wavegru_config["upsample_factors"][-1])
-def speak(text):
     mel = text_to_mel(tacotron_net, text, alphabet, tacotron_config)
     y = mel_to_wav(wavegru_net, wavecpp, mel, wavegru_config)
     return 24_000, y

 import gradio as gr
 from inference import load_tacotron_model, load_wavegru_net, mel_to_wav, text_to_mel
 from wavegru_cpp import extract_weight_mask, load_wavegru_cpp
+def speak(text):
+    alphabet, tacotron_net, tacotron_config = load_tacotron_model(
+        "./alphabet.txt", "./tacotron.toml", "./pretrained_model_ljs_600k.ckpt"
+    )
+    wavegru_config, wavegru_net = load_wavegru_net(
+        "./wavegru.yaml", "./wavegru_vocoder_1024_v3_1330000.ckpt"
+    )
+    wave_cpp_weight_mask = extract_weight_mask(wavegru_net)
+    wavecpp = load_wavegru_cpp(
+        wave_cpp_weight_mask, wavegru_config["upsample_factors"][-1]
+    )
     mel = text_to_mel(tacotron_net, text, alphabet, tacotron_config)
     y = mel_to_wav(wavegru_net, wavecpp, mel, wavegru_config)
     return 24_000, y

inference.py CHANGED Viewed

@@ -67,7 +67,7 @@ def mel_to_wav(net, netcpp, mel, config):
     if len(mel.shape) == 2:
         mel = mel[None]
     pad = config["num_pad_frames"] // 2 + 2
-    mel = np.pad(mel, [(0, 0), (pad, pad), (0, 0)], mode="reflect")
     ft = wavegru_inference(net, mel)
     ft = jax.device_get(ft[0])
     wav = netcpp.inference(ft, 1.0)

     if len(mel.shape) == 2:
         mel = mel[None]
     pad = config["num_pad_frames"] // 2 + 2
+    mel = np.pad(mel, [(0, 0), (pad, pad), (0, 0)], mode="edge")
     ft = wavegru_inference(net, mel)
     ft = jax.device_get(ft[0])
     wav = netcpp.inference(ft, 1.0)