styletts2-public

Sleeping

App Files Files Community

mrfakename commited on Nov 22, 2023

Commit

addff22

1 Parent(s): 5cf7b18

Gruut doesn't work

Browse files

Files changed (2) hide show

app.py +4 -4
styletts2importable.py +6 -18

app.py CHANGED Viewed

@@ -16,13 +16,13 @@ voices = {}
 # else:
 for v in voicelist:
     voices[v] = styletts2importable.compute_style(f'voices/{v}.wav')
-def synthesize(text, voice, use_gruut):
     if text.strip() == "":
         raise gr.Error("You must enter some text")
     if len(text) > 300:
         raise gr.Error("Text must be under 300 characters")
     v = voice.lower()
-    return (24000, styletts2importable.inference(text, voices[v], alpha=0.3, beta=0.7, diffusion_steps=7, embedding_scale=1, use_gruut=use_gruut))
 def clsynthesize(text, voice):
     if text.strip() == "":
         raise gr.Error("You must enter some text")
@@ -43,11 +43,11 @@ with gr.Blocks() as vctk:
         with gr.Column(scale=1):
             inp = gr.Textbox(label="Text", info="What would you like StyleTTS 2 to read? It works better on full sentences.", interactive=True)
             voice = gr.Dropdown(voicelist, label="Voice", info="Select a default voice.", value='m-us-1', interactive=True)
-            use_gruut = gr.Checkbox(label="Use alternate phonemizer (Gruut) - Experimental")
         with gr.Column(scale=1):
             btn = gr.Button("Synthesize", variant="primary")
             audio = gr.Audio(interactive=False, label="Synthesized Audio")
-            btn.click(synthesize, inputs=[inp, voice, use_gruut], outputs=[audio], concurrency_limit=4)
 with gr.Blocks() as clone:
     with gr.Row():
         with gr.Column(scale=1):

 # else:
 for v in voicelist:
     voices[v] = styletts2importable.compute_style(f'voices/{v}.wav')
+def synthesize(text, voice):
     if text.strip() == "":
         raise gr.Error("You must enter some text")
     if len(text) > 300:
         raise gr.Error("Text must be under 300 characters")
     v = voice.lower()
+    return (24000, styletts2importable.inference(text, voices[v], alpha=0.3, beta=0.7, diffusion_steps=7, embedding_scale=1))
 def clsynthesize(text, voice):
     if text.strip() == "":
         raise gr.Error("You must enter some text")
         with gr.Column(scale=1):
             inp = gr.Textbox(label="Text", info="What would you like StyleTTS 2 to read? It works better on full sentences.", interactive=True)
             voice = gr.Dropdown(voicelist, label="Voice", info="Select a default voice.", value='m-us-1', interactive=True)
+            # use_gruut = gr.Checkbox(label="Use alternate phonemizer (Gruut) - Experimental")
         with gr.Column(scale=1):
             btn = gr.Button("Synthesize", variant="primary")
             audio = gr.Audio(interactive=False, label="Synthesized Audio")
+            btn.click(synthesize, inputs=[inp, voice], outputs=[audio], concurrency_limit=4)
 with gr.Blocks() as clone:
     with gr.Row():
         with gr.Column(scale=1):

styletts2importable.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from cached_path import cached_path
-print("GRUUT")
-from gruut_phonemize import gphonemize
 # from dp.phonemizer import Phonemizer
 print("NLTK")
@@ -135,10 +135,7 @@ sampler = DiffusionSampler(
 def inference(text, ref_s, alpha = 0.3, beta = 0.7, diffusion_steps=5, embedding_scale=1, use_gruut=False):
     text = text.strip()
-    if use_gruut:
-        ps = gphonemize(text)
-    else:
-        ps = global_phonemizer.phonemize([text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
     tokens = textclenaer(ps)
@@ -207,10 +204,7 @@ def inference(text, ref_s, alpha = 0.3, beta = 0.7, diffusion_steps=5, embedding
 def LFinference(text, s_prev, ref_s, alpha = 0.3, beta = 0.7, t = 0.7, diffusion_steps=5, embedding_scale=1, use_gruut=False):
     text = text.strip()
-    if use_gruut:
-        ps = gphonemize(text)
-    else:
-        ps = global_phonemizer.phonemize([text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
     ps = ps.replace('``', '"')
@@ -287,10 +281,7 @@ def LFinference(text, s_prev, ref_s, alpha = 0.3, beta = 0.7, t = 0.7, diffusion
 def STinference(text, ref_s, ref_text, alpha = 0.3, beta = 0.7, diffusion_steps=5, embedding_scale=1, use_gruut=False):
     text = text.strip()
-    if use_gruut:
-        ps = gphonemize(text)
-    else:
-        ps = global_phonemizer.phonemize([text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
@@ -299,10 +290,7 @@ def STinference(text, ref_s, ref_text, alpha = 0.3, beta = 0.7, diffusion_steps=
     tokens = torch.LongTensor(tokens).to(device).unsqueeze(0)
     ref_text = ref_text.strip()
-    if use_gruut:
-        ps = gphonemize(text)
-    else:
-        ps = global_phonemizer.phonemize([ref_text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)

 from cached_path import cached_path
+# print("GRUUT")
+# from gruut_phonemize import gphonemize
 # from dp.phonemizer import Phonemizer
 print("NLTK")
 def inference(text, ref_s, alpha = 0.3, beta = 0.7, diffusion_steps=5, embedding_scale=1, use_gruut=False):
     text = text.strip()
+    ps = global_phonemizer.phonemize([text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
     tokens = textclenaer(ps)
 def LFinference(text, s_prev, ref_s, alpha = 0.3, beta = 0.7, t = 0.7, diffusion_steps=5, embedding_scale=1, use_gruut=False):
     text = text.strip()
+    ps = global_phonemizer.phonemize([text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
     ps = ps.replace('``', '"')
 def STinference(text, ref_s, ref_text, alpha = 0.3, beta = 0.7, diffusion_steps=5, embedding_scale=1, use_gruut=False):
     text = text.strip()
+    ps = global_phonemizer.phonemize([text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)
     tokens = torch.LongTensor(tokens).to(device).unsqueeze(0)
     ref_text = ref_text.strip()
+    ps = global_phonemizer.phonemize([ref_text])
     ps = word_tokenize(ps[0])
     ps = ' '.join(ps)