Spaces:

JackismyShephard
/

danish-speech-synthesis

Running

App Files Files Community

JackismyShephard commited on Feb 23

Commit

5ed78b8

•

1 Parent(s): 1d1e03e

remove speech enhancement

Browse files

Files changed (2) hide show

app.py +3 -21
requirements.txt +1 -2

app.py CHANGED Viewed

@@ -4,12 +4,10 @@ import torch
 from transformers import pipeline
-from resemble_enhance.enhancer.inference import denoise, enhance
 checkpoint_finetuned = "JackismyShephard/speecht5_tts-finetuned-nst-da"
 revision = "5af228df418092b681cf31c31e413bdd2b5f9c8c"
-device = 0 if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
     "text-to-speech",
@@ -35,7 +33,7 @@ target_dtype = np.int16
 max_range = np.iinfo(target_dtype).max
-def predict(text, speaker, post_process):
     if len(text.strip()) == 0:
         return (16000, np.zeros(0))
@@ -52,10 +50,7 @@ def predict(text, speaker, post_process):
     forward_params = {"speaker_embeddings": speaker_embedding}
     speech = pipe(text, forward_params=forward_params)
-    if post_process:
-        sr, audio = enhance_audio(speech["audio"], speech["sampling_rate"], device)
-    else:
-        sr, audio = speech["sampling_rate"], speech["audio"]
     audio = (audio * max_range).astype(np.int16)
@@ -90,17 +85,6 @@ replacements = [
     ("ü", "y"),
 ]
-def enhance_audio(waveform, sr, device="cuda"):
-    tensor = torch.tensor(waveform).float()
-    denoised, new_sr = denoise(tensor, sr, device)
-    enhanced, new_sr = enhance(
-        denoised, new_sr, device, nfe=64, solver="midpoint", lambd=0.1, tau=0.5
-    )
-    enhanced_cpu = enhanced.cpu().numpy()
-    return new_sr, enhanced_cpu
 title = "Danish Speech Synthesis"
 description = (
@@ -113,7 +97,6 @@ examples = [
     [
         "I sin oprindelige før-kristne form blev alferne sandsynligvis opfattet som en personificering af det land og den natur, der omgav menneskene, dvs. den opdyrkede jord, gården og de naturressourcer, som hørte dertil. De var guddommelige eller delvis guddommelige væsener, der besad magiske kræfter, som de brugte både til fordel og ulempe for menneskene.",
         "F23 (Female, 23, Vestjylland)",
-        True,
     ],
 ]
@@ -133,7 +116,6 @@ demo = gr.Interface(
             ],
             value="F23 (Female, 23, Vestjylland)",
         ),
-        gr.Checkbox(label="Enhance audio (takes substantially longer)"),
     ],
     outputs=[
         gr.Audio(label="Generated Speech", type="numpy"),

 from transformers import pipeline
 checkpoint_finetuned = "JackismyShephard/speecht5_tts-finetuned-nst-da"
 revision = "5af228df418092b681cf31c31e413bdd2b5f9c8c"
+device = "cuda" if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
     "text-to-speech",
 max_range = np.iinfo(target_dtype).max
+def predict(text, speaker):
     if len(text.strip()) == 0:
         return (16000, np.zeros(0))
     forward_params = {"speaker_embeddings": speaker_embedding}
     speech = pipe(text, forward_params=forward_params)
+    sr, audio = speech["sampling_rate"], speech["audio"]
     audio = (audio * max_range).astype(np.int16)
     ("ü", "y"),
 ]
 title = "Danish Speech Synthesis"
 description = (
     [
         "I sin oprindelige før-kristne form blev alferne sandsynligvis opfattet som en personificering af det land og den natur, der omgav menneskene, dvs. den opdyrkede jord, gården og de naturressourcer, som hørte dertil. De var guddommelige eller delvis guddommelige væsener, der besad magiske kræfter, som de brugte både til fordel og ulempe for menneskene.",
         "F23 (Female, 23, Vestjylland)",
     ],
 ]
             ],
             value="F23 (Female, 23, Vestjylland)",
         ),
     ],
     outputs=[
         gr.Audio(label="Generated Speech", type="numpy"),

requirements.txt CHANGED Viewed

@@ -1,4 +1,3 @@
 torch
 transformers
-sentencepiece
-resemble-enhance

 torch
 transformers
+sentencepiece