dtp-asr-demo-v2

Running

App Files Files Community

anderbogia commited on Jul 18, 2024

Commit

2854844

verified ·

1 Parent(s): 97a5e71

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -6

app.py CHANGED Viewed

@@ -2,14 +2,14 @@ import os
 #os.system("curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y") #Installing Rust manually
 #os.system("exec bash")
 #os.system("pip install --upgrade pip")
-os.system("pip install transformers==4.33")
 os.system("pip install tokenizers fairseq")
 os.system("pip install numpy==1.24") #NumPy 1.24 or less needed by Numba. Use 1.23, librosa still uses np.complex which was dropped in NumPy 1.24
 #os.system("pip install git+https://github.com/huggingface/transformers datasets[torch]")
-os.system("pip install torch accelerate torchaudio datasets")
 os.system("pip install librosa==0.9.0")
 import gradio as gr
 from transformers import pipeline, Wav2Vec2ForCTC, AutoProcessor, VitsModel, AutoTokenizer
 from datasets import load_dataset, Audio, Dataset
@@ -69,8 +69,8 @@ with gr.Blocks(theme = gr.themes.Soft()) as demo:
         with torch.no_grad():
             output = model_tts(**tokenized_input).waveform
-        gradio_tuple = (16000, output[0])
         return gradio_tuple
@@ -85,7 +85,7 @@ with gr.Blocks(theme = gr.themes.Soft()) as demo:
           """)
       with gr.Column(scale = 4):
           with gr.Tab("Rolou kumaa ginarit"):
-              input_audio = gr.Audio(sources = ['microphone'], type = 'filepath', label = "Gakamai rolou nu", format = 'wav')
               output_text = gr.components.Textbox(label = "Dalinsuat")
               button1 = gr.Button("Dalinsuato' | Transcribe")
               button1.click(transcribe, inputs = input_audio, outputs = output_text)

 #os.system("curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y") #Installing Rust manually
 #os.system("exec bash")
 #os.system("pip install --upgrade pip")
+os.system("pip install --upgrade transformers accelerate")
 os.system("pip install tokenizers fairseq")
 os.system("pip install numpy==1.24") #NumPy 1.24 or less needed by Numba. Use 1.23, librosa still uses np.complex which was dropped in NumPy 1.24
 #os.system("pip install git+https://github.com/huggingface/transformers datasets[torch]")
+os.system("pip install torch transformers accelerate torchaudio datasets")
 os.system("pip install librosa==0.9.0")
+import scipy
 import gradio as gr
 from transformers import pipeline, Wav2Vec2ForCTC, AutoProcessor, VitsModel, AutoTokenizer
 from datasets import load_dataset, Audio, Dataset
         with torch.no_grad():
             output = model_tts(**tokenized_input).waveform
+        gradio_tuple = (16000, output[0].detach().cpu().numpy())
         return gradio_tuple
           """)
       with gr.Column(scale = 4):
           with gr.Tab("Rolou kumaa ginarit"):
+              input_audio = gr.Audio(sources = ['microphone'], type = 'filepath', label = "Gakamai rolou nu", format = 'mp3')
               output_text = gr.components.Textbox(label = "Dalinsuat")
               button1 = gr.Button("Dalinsuato' | Transcribe")
               button1.click(transcribe, inputs = input_audio, outputs = output_text)