Spaces:

aka7774
/

faster_whisper

Sleeping

aka7774 commited on Apr 30

Commit

00f6f1d

•

1 Parent(s): 3ec3dc7

Upload 3 files

Files changed (3) hide show

app.py CHANGED Viewed

@@ -3,13 +3,26 @@ import gradio as gr
 fn.load_model('large-v3')
-demo = gr.Interface(
-    fn=fn.speech_to_text,
-    inputs=[
-        gr.Audio(sources="upload", type="filepath"),
-        gr.Dropdown(value='large-v3', choices=["tiny", "base", "small", "medium", "large", "large-v2", "large-v3"]),
-        ],
-    outputs=["text", "text"])
 if __name__ == '__main__':
     demo.launch()

 fn.load_model('large-v3')
+with gr.Blocks() as demo:
+    audio = gr.Audio(sources="upload", type="filepath")
+    model = gr.Dropdown(value='large-v3', choices=["tiny", "base", "small", "medium", "large", "large-v2", "large-v3"])
+    run_button = gr.Button(value='Run')
+    prompt = gr.Textbox(label='prompt')
+    set_button = gr.Button(value='Set Prompt')
+    text_only = gr.Textbox(label='output')
+    text_with_timestamps = gr.Textbox(label='timestamps')
+    run_button.click(
+        fn=fn.speech_to_text,
+        inputs=[audio, model],
+        outputs=[text_only, text_with_timestamps],
+    )
+    set_button.click(
+        fn=fn.set_prompt,
+        inputs=[prompt],
+        outputs=[],
+    )
 if __name__ == '__main__':
     demo.launch()

fn.py CHANGED Viewed

@@ -2,6 +2,7 @@ from faster_whisper import WhisperModel
 model = None
 model_size = None
 def load_model(_model_size):
     global model_size, model
@@ -14,6 +15,10 @@ def load_model(_model_size):
     except:
         model = WhisperModel(model_size, device="cpu", compute_type="int8")
 def speech_to_text(audio_file, _model_size = None):
     global model_size, model
@@ -21,6 +26,7 @@ def speech_to_text(audio_file, _model_size = None):
     segments, info = model.transcribe(
         audio_file,
         language='ja',
         beam_size=5,
         vad_filter=True,

 model = None
 model_size = None
+initial_prompt = None
 def load_model(_model_size):
     global model_size, model
     except:
         model = WhisperModel(model_size, device="cpu", compute_type="int8")
+def set_prompt(prompt):
+    global initial_prompt
+    initial_prompt = prompt
 def speech_to_text(audio_file, _model_size = None):
     global model_size, model
     segments, info = model.transcribe(
         audio_file,
+        initial_prompt=initial_prompt,
         language='ja',
         beam_size=5,
         vad_filter=True,

main.py CHANGED Viewed

@@ -40,3 +40,12 @@ async def transcribe_audio(file: UploadFile = Form(...)):
         return {"transcription": text_only, "text_with_timestamps": text_with_timestamps}
     except Exception as e:
         return {"error": str(e)}

         return {"transcription": text_only, "text_with_timestamps": text_with_timestamps}
     except Exception as e:
         return {"error": str(e)}
+@app.post("/set_prompt")
+async def set_prompt(prompt: str):
+    try:
+        fn.set_prompt(prompt)
+        return {"status": 0}
+    except Exception as e:
+        return {"error": str(e)}