Spaces:

AkitoP
/

whisper-japanese-phone-demo

Running

AkitoP commited on Oct 15, 2024

Commit

478bebc

1 Parent(s): 955c5ad

final

Files changed (1) hide show

app.py CHANGED Viewed

@@ -15,7 +15,6 @@ is_hf = os.getenv("SYSTEM") == "spaces"
 # reference from litagin / galgame-whisper-wip
 generate_kwargs = {
-    "language": "Japanese",
     "max_new_tokens": 256,
 }
@@ -27,13 +26,8 @@ pipe = pipeline(
 @spaces.GPU
-def transcribe(audio: str) -> tuple[str, float]:
-    filename = Path(audio).name
-    # Read and resample audio to 16kHz
-    y, sr = librosa.load(audio, mono=True, sr=16000)
-    # Get duration of audio
-    result = pipe(y, generate_kwargs=generate_kwargs)["text"]
-    print(result)
     return result
@@ -46,10 +40,8 @@ A Whisper model fine-tuned to transcribe Japanese speech into Katakana with pitc
 with gr.Blocks() as app:
     gr.Markdown(initial_md)
     audio = gr.Audio(type="filepath")
-    transcribe_btn = gr.Button(label="Transcribe")
     output = gr.Textbox(label="Result")
-    transcribe_btn.click(transcribe(audio=audio),inputs=[audio], outputs=[output])
-    # app.load(warmup, inputs=[], outputs=[warmup_result], queue=True)
 app.launch(inbrowser=True)

 # reference from litagin / galgame-whisper-wip
 generate_kwargs = {
     "max_new_tokens": 256,
 }
 @spaces.GPU
+def transcribe(audio: str) -> str:
+    result = pipe(audio, generate_kwargs=generate_kwargs)["text"]
     return result
 with gr.Blocks() as app:
     gr.Markdown(initial_md)
     audio = gr.Audio(type="filepath")
+    transcribe_btn = gr.Button("Transcribe")
     output = gr.Textbox(label="Result")
+    transcribe_btn.click(fn=transcribe,inputs=[audio], outputs=[output])
 app.launch(inbrowser=True)