Spaces:

mobinln
/

najva

Runtime error

mobinln commited on Jun 29, 2024

Commit

128581e

1 Parent(s): 460d74e

working version

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import gradio as gr
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import librosa
@@ -11,37 +12,23 @@ def transcribe(audio):
     if audio is None:
         return "No audio input provided. Please record or upload an audio file."
-    sample_rate, array = audio
     sr = 16000
     array = librosa.to_mono(array)
-    array = librosa.resample(array, orig_sr=sample_rate, target_sr=16000)
     input_features = processor(array, sampling_rate=sr, return_tensors="pt").input_features
-    # generate token ids
     predicted_ids = model.generate(input_features)
-    # decode token ids to text
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-    return transcription
-# input_audio = gr.Audio(
-#     sources=["microphone"],
-#     waveform_options=gr.WaveformOptions(
-#         waveform_color="#01C6FF",
-#         waveform_progress_color="#0066B4",
-#         skip_length=2,
-#         show_controls=True,
-#     ),
-# )
-# demo = gr.Interface(
-#     fn=reverse_audio,
-#     inputs=input_audio,
-#     outputs="text"
-# )
 demo = gr.Interface(
     fn=transcribe,
-    inputs=[gr.Audio(sources=["microphone"])],
-    outputs="text"
 )
 if __name__ == "__main__":

 import gradio as gr
+import numpy as np
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
 import librosa
     if audio is None:
         return "No audio input provided. Please record or upload an audio file."
+    array, sample_rate = librosa.load(audio)
+    array = array.astype(np.float32)
     sr = 16000
     array = librosa.to_mono(array)
+    array = librosa.resample(array, orig_sr=sample_rate, target_sr=sr)
     input_features = processor(array, sampling_rate=sr, return_tensors="pt").input_features
     predicted_ids = model.generate(input_features)
     transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
+    return transcription[0]
 demo = gr.Interface(
     fn=transcribe,
+    inputs=[gr.Audio(sources=["microphone"], type='filepath')],
+    outputs="text",
+    allow_flagging="never",
 )
 if __name__ == "__main__":

requirements.txt CHANGED Viewed

@@ -1,6 +1,8 @@
 huggingface_hub==0.22.2
-transformers
-librosa
 torch
 torchvision
-torchaudio

 huggingface_hub==0.22.2
+transformers~=4.42.3
+librosa~=0.10.2.post1
 torch
 torchvision
+torchaudio
+gradio~=4.36.1
+numpy~=1.24.3