Spaces:

unijoh
/

metaambod

Running

unijoh commited on Jun 14, 2024

Commit

7a86b92

verified ·

1 Parent(s): 8c28ece

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,31 +1,41 @@
-import gradio as gr
-from asr import transcribe
-from tts import synthesize_speech
-from lid import identify
-def main():
-    with gr.Blocks() as demo:
-        gr.Markdown("# Faroese ASR, TTS, and LID Demo")
-        with gr.Tab("ASR"):
-            audio_input = gr.Audio(source="microphone", type="filepath")
-            transcribe_button = gr.Button("Transcribe")
-            transcribe_output = gr.Textbox()
-            transcribe_button.click(fn=transcribe, inputs=audio_input, outputs=transcribe_output)
-        with gr.Tab("TTS"):
-            text_input = gr.Textbox(label="Text Input")
-            synthesize_button = gr.Button("Synthesize")
-            synthesize_output = gr.Audio()
-            synthesize_button.click(fn=synthesize_speech, inputs=text_input, outputs=synthesize_output)
-        with gr.Tab("LID"):
-            audio_input_lid = gr.Audio(source="microphone", type="filepath")
-            identify_button = gr.Button("Identify Language")
-            identify_output = gr.Textbox()
-            identify_button.click(fn=identify, inputs=audio_input_lid, outputs=identify_output)
-    demo.launch()
 if __name__ == "__main__":
-    main()

+import os
+import subprocess
+# Run the setup script
+subprocess.run(['bash', 'setup.sh'], check=True)
+import gradio as gr
+import torch
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
+import librosa
+# Load pre-trained model and processor
+model_name = "facebook/wav2vec2-base-960h"
+processor = Wav2Vec2Processor.from_pretrained(model_name)
+model = Wav2Vec2ForCTC.from_pretrained(model_name)
+def transcribe(audio):
+    # Load audio
+    audio_input, _ = librosa.load(audio, sr=16000)
+    # Tokenize and process
+    inputs = processor(audio_input, sampling_rate=16000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits
+    # Get predicted ids
+    predicted_ids = torch.argmax(logits, dim=-1)
+    # Decode the ids to text
+    transcription = processor.batch_decode(predicted_ids)
+    return transcription[0]
+# Define the Gradio interface
+iface = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(source="microphone", type="filepath"),
+    outputs="text"
+)
 if __name__ == "__main__":
+    iface.launch()