dtp-asr-demo-v2

Running

App Files Files Community

anderbogia commited on Jul 18, 2024

Commit

431e989

verified ·

1 Parent(s): 8a04c2b

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -10

app.py CHANGED Viewed

@@ -6,16 +6,15 @@ os.system("pip install transformers==4.30.2") #Some interoperability issue with
 os.system("pip install tokenizers fairseq")
 os.system("pip install numpy==1.24") #NumPy 1.24 or less needed by Numba. Use 1.23, librosa still uses np.complex which was dropped in NumPy 1.24
 #os.system("pip install git+https://github.com/huggingface/transformers datasets[torch]")
-os.system("pip install torch accelerate torchaudio datasets easymms")
 os.system("pip install librosa==0.9.0")
 import gradio as gr
-from transformers import pipeline, Wav2Vec2ForCTC, AutoProcessor
 from datasets import load_dataset, Audio, Dataset
 import torch
 import librosa #For converting audio sample rate to 16k
-from easymms.models.tts import TTSModel #For TTS inference using EasyMMS
 LANG = "dtp" #Change to tih for Timugon Murut or iba for Iban
 model_id = "facebook/mms-1b-all"
@@ -27,6 +26,9 @@ model.load_adapter(LANG)
 asr_pipeline = pipeline(task = "automatic-speech-recognition", model = model_id) #Function that returns a dict, transcription stored in item with key "text"
 def preprocess(input): #Sets recording sampling rate to 16k and returns numpy ndarray from audio
   speech, sample_rate = librosa.load(input)
   speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
@@ -61,13 +63,15 @@ with gr.Blocks(theme = gr.themes.Soft()) as demo:
             </div>
         """)
-    tts = TTSModel(LANG)
-    def fn2(input):
-        res = tts.synthesize(input)
-        flip_tuple = (res[1], res[0]) #EasyMMS synthesize() returns Tuple(data, sample_rate) where data is a numpy.array and sample_rate is int,
-                                      #but Gradio Audio() expects the same tuple but with the elements flipped
-        return flip_tuple
     with gr.Row():
       with gr.Column(scale = 1):
@@ -89,6 +93,6 @@ with gr.Blocks(theme = gr.themes.Soft()) as demo:
               input_text = gr.components.Textbox(label = "Ginarit", placeholder = "Potutakai suat nu hiti")
               button2 = gr.Button("Poulayo'")
               output_audio = gr.components.Audio(label = "Rolou pinoulai")
-              button2.click(fn2, inputs = input_text, outputs = output_audio)
 demo.launch(debug = True)

 os.system("pip install tokenizers fairseq")
 os.system("pip install numpy==1.24") #NumPy 1.24 or less needed by Numba. Use 1.23, librosa still uses np.complex which was dropped in NumPy 1.24
 #os.system("pip install git+https://github.com/huggingface/transformers datasets[torch]")
+os.system("pip install torch accelerate torchaudio datasets")
 os.system("pip install librosa==0.9.0")
 import gradio as gr
+from transformers import pipeline, Wav2Vec2ForCTC, AutoProcessor, VitsModel, AutoTokenizer
 from datasets import load_dataset, Audio, Dataset
 import torch
 import librosa #For converting audio sample rate to 16k
 LANG = "dtp" #Change to tih for Timugon Murut or iba for Iban
 model_id = "facebook/mms-1b-all"
 asr_pipeline = pipeline(task = "automatic-speech-recognition", model = model_id) #Function that returns a dict, transcription stored in item with key "text"
+model_tts = VitsModel.from_pretrained("facebook/mms-tts-dtp")
+tokenizer_tts = AutoTokenizer.from_pretrained("facebook/mms-tts-dtp")
 def preprocess(input): #Sets recording sampling rate to 16k and returns numpy ndarray from audio
   speech, sample_rate = librosa.load(input)
   speech = librosa.resample(speech, orig_sr=sample_rate, target_sr=16000)
             </div>
         """)
+    def tts_run(input):
+        tokenizer(input, return_tensors="pt")
+        with torch.no_grad():
+            output = model(**inputs).waveform
+        gradio_tuple = [16000, output]
+        return gradio_tuple
     with gr.Row():
       with gr.Column(scale = 1):
               input_text = gr.components.Textbox(label = "Ginarit", placeholder = "Potutakai suat nu hiti")
               button2 = gr.Button("Poulayo'")
               output_audio = gr.components.Audio(label = "Rolou pinoulai")
+              button2.click(tts_run, inputs = input_text, outputs = output_audio)
 demo.launch(debug = True)