Spaces:

pratikshahp
/

speech-to-text

Sleeping

pratikshahp commited on Mar 26, 2024

Commit

7f020a5

verified ·

1 Parent(s): d330003

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,31 +1,27 @@
-#import librosa
 import torch
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
 import streamlit as st
 from audio_recorder_streamlit import audio_recorder
 audio_bytes = audio_recorder(pause_threshold=3.0, sample_rate=16_000)
 if audio_bytes:
     st.audio(audio_bytes, format="audio/wav")
-#load pre-trained model and tokenizer
-tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")
-model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
-#load audio file
-#speech, rate = librosa.load("/hip-voice.m4a",sr=16000)
-#import IPython.display as display
-#display.Audio("batman1.wav", autoplay=True)
-input_values = tokenizer(audio_bytes, return_tensors = 'pt').input_values
-#input_values = tokenizer(speech, return_tensors = 'pt').input_values
-logits = model(input_values).logits
-predicted_ids = torch.argmax(logits, dim =-1)
-#decode the audio to generate text
-transcriptions = tokenizer.decode(predicted_ids[0])
-print(transcriptions)

 import torch
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer
 import streamlit as st
 from audio_recorder_streamlit import audio_recorder
 audio_bytes = audio_recorder(pause_threshold=3.0, sample_rate=16_000)
 if audio_bytes:
     st.audio(audio_bytes, format="audio/wav")
+    # Load pre-trained model and tokenizer
+    tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")
+    model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
+    # Tokenize the audio input
+    input_values = tokenizer(audio_bytes, return_tensors='pt').input_values
+    # Perform inference
+    logits = model(input_values).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    # Decode the audio to generate text
+    transcriptions = tokenizer.decode(predicted_ids[0])
+    st.write(transcriptions)
+else:
+    st.write("No audio recorded.")