Spaces:

nunenuh
/

whisper_simple

Runtime error

nunenuh commited on Aug 11, 2023

Commit

70c05b8

•

1 Parent(s): 8d023c9

feat: fix with original whisper

Files changed (7) hide show

app.py CHANGED Viewed

@@ -9,19 +9,27 @@ audio_examples = [
     [None, "assets/audio/female-english.wav", None],
 ]
 demo = gr.Interface(
     fn=infer.predict,
     inputs=[
         gr.Radio(label="Language",
                  choices=["indonesian","english"],
                  value="indonesian"),
-        gr.Audio(label="Speak", source="microphone", type="numpy"),
-        gr.Audio(label="Upload Audio", source="upload", type="numpy"),
     ],
     outputs=[gr.TextArea(label="Output Text"),],
-    title="OpenAI Whisper Base",
-    description=utils.parsing_text("assets/descriptions.md"),
-    article=utils.parsing_text("assets/articles.md"),
     # examples=audio_examples,
 )

     [None, "assets/audio/female-english.wav", None],
 ]
+TITLE = "OpenAI Whisper"
+DESCRIPTION = utils.parsing_text("assets/descriptions.md")
+ARTICLE = utils.parsing_text("assets/articles.md")
 demo = gr.Interface(
     fn=infer.predict,
     inputs=[
+        gr.Dropdown(
+            label="Model",
+            choices=["tiny","small","base","medium","large","large-v2"],
+            value="base"),
         gr.Radio(label="Language",
                  choices=["indonesian","english"],
                  value="indonesian"),
+        gr.Audio(label="Speak", source="microphone", type="filepath"),
+        gr.Audio(label="Upload Audio", source="upload", type="filepath"),
     ],
     outputs=[gr.TextArea(label="Output Text"),],
+    title=TITLE,
+    description=DESCRIPTION,
+    article=ARTICLE,
     # examples=audio_examples,
 )

flagged/log.csv ADDED Viewed


1	+ audio,state,output 0,state,flag,username,timestamp
2	+ ,,,,,,2023-08-11 19:42:07.779875

requirements.txt CHANGED Viewed

@@ -1,3 +1,8 @@
-torch
 transformers
-librosa

+git+https://github.com/huggingface/transformers
+git+https://github.com/openai/whisper.git
 transformers
+ffmpeg-python==0.2.0
+gradio==3.38.0
+torchaudio
+altair
+json5

src/__pycache__/infer.cpython-310.pyc CHANGED Viewed

Binary files a/src/__pycache__/infer.cpython-310.pyc and b/src/__pycache__/infer.cpython-310.pyc differ

src/__pycache__/utils.cpython-310.pyc CHANGED Viewed

Binary files a/src/__pycache__/utils.cpython-310.pyc and b/src/__pycache__/utils.cpython-310.pyc differ

src/infer.py CHANGED Viewed

@@ -2,27 +2,18 @@
 from typing import *
 from src import utils
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
-model_name: str  = f"openai/whisper-medium"
-processor: Any = WhisperProcessor.from_pretrained(model_name)
-model: Any = WhisperForConditionalGeneration.from_pretrained(model_name)
-sample_rate: int = 16000
-float_factor: float = 32678.0
-def predict(language, mic_audio=None, audio=None):
     if mic_audio is not None:
-        sampling_rate, waveform = mic_audio
     elif audio is not None:
-        sampling_rate, waveform = audio
     else:
         return "(please provide audio)"
-    forced_decoder_ids = processor.get_decoder_prompt_ids(language=language, task="transcribe")
-    waveform = utils.preprocess_audio(sampling_rate, waveform)
-    inputs = processor(audio=waveform, sampling_rate=sample_rate, return_tensors="pt")
-    predicted_ids = model.generate(**inputs, max_length=400, forced_decoder_ids=forced_decoder_ids)
-    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
-    return transcription[0]

 from typing import *
 from src import utils
 from transformers import WhisperProcessor, WhisperForConditionalGeneration
+import whisper
+def predict(model_name, language, mic_audio=None, audio=None):
     if mic_audio is not None:
+        voice = mic_audio
     elif audio is not None:
+        voice = audio
     else:
         return "(please provide audio)"
+    voice = utils.preprocess_audio(voice)
+    model = whisper.load_model(model_name)
+    result = model.transcribe(voice, language=language)
+    return result["text"]

src/utils.py CHANGED Viewed

@@ -2,25 +2,18 @@
 import librosa
 import torch
 from pathlib import Path
 sample_rate: int = 16000
 float_factor: float = 32678.0
-def preprocess_audio(sampling_rate, waveform):
-    waveform: float = waveform / float_factor
-    if len(waveform.shape) > 1:
-        waveform = librosa.to_mono(waveform.T)
-    if sampling_rate != sample_rate:
-        waveform = librosa.resample(waveform, orig_sr=sampling_rate, target_sr=sample_rate)
-    # limit to 30 seconds
-    waveform: float = waveform[:sample_rate * 30]
-    waveform: float = torch.tensor(waveform)
-    return waveform
 def parsing_text(filepath: str):
     path = Path(filepath)

 import librosa
 import torch
 from pathlib import Path
+import whisper
 sample_rate: int = 16000
 float_factor: float = 32678.0
+def preprocess_audio(filepath: str):
+    # load audio and pad/trim it to fit 30 seconds
+    audio = whisper.load_audio(filepath)
+    audio = whisper.pad_or_trim(audio)
+    return audio
 def parsing_text(filepath: str):
     path = Path(filepath)