Spaces:

ixxan
/

uyghur-speech-models

Running

Irpan commited on Dec 23, 2024

Commit

30e5da4

1 Parent(s): 4c14db4

asr

Files changed (2) hide show

app.py CHANGED Viewed

@@ -37,7 +37,7 @@ mms_synthesize = gr.Interface(
         )
     ],
     outputs=[
-        gr.Audio(label="Generated Audio", type="numpy"),
     ],
     #examples=TTS_EXAMPLES,
     title="Text-to-speech",

         )
     ],
     outputs=[
+        gr.Audio(label="Generated Audio"),
     ],
     #examples=TTS_EXAMPLES,
     title="Text-to-speech",

tts.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from transformers import VitsModel, AutoTokenizer
 import torch
-import numpy as np
 # Load processor and model
 models_info = {
@@ -9,15 +9,18 @@ models_info = {
         "model": VitsModel.from_pretrained("facebook/mms-tts-uig-script_arabic"),
     },
 }
 def synthesize(text, model_id):
     processor = models_info[model_id]["processor"]
-    model = models_info[model_id]["model"]
-    inputs = processor(text, return_tensors="pt")
     with torch.no_grad():
-        output = model(**inputs).waveform.cpu().float().numpy()
-    sampling_rate = 22050
-    return (sampling_rate, output)

 from transformers import VitsModel, AutoTokenizer
 import torch
+import scipy.io.wavfile
 # Load processor and model
 models_info = {
         "model": VitsModel.from_pretrained("facebook/mms-tts-uig-script_arabic"),
     },
 }
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 def synthesize(text, model_id):
     processor = models_info[model_id]["processor"]
+    model = models_info[model_id]["model"].to(device)
+    inputs = processor(text, return_tensors="pt").to(device)
     with torch.no_grad():
+        output = tts_model(**inputs).waveform.cpu()  # Move output back to CPU for saving
+    output_path = "tts_output.wav"
+    sample_rate = 16000
+    scipy.io.wavfile.write(output_path, rate=sample_rate, data=output.numpy()[0])
+    return output_path