Spaces:

AkitoP
/

whisper-japanese-phone-demo

Running

AkitoP commited on Oct 15, 2024

Commit

08ab644

•

1 Parent(s): 478bebc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,47 +1,48 @@
-import os
-import time
-import warnings
-from pathlib import Path
-import gradio as gr
-import librosa
-import spaces
-import torch
-from transformers import pipeline
-warnings.filterwarnings("ignore")
-is_hf = os.getenv("SYSTEM") == "spaces"
-# reference from litagin / galgame-whisper-wip
-generate_kwargs = {
-    "max_new_tokens": 256,
-}
-pipe = pipeline(
-    "automatic-speech-recognition",
-    model="AkitoP/whisper-large-v3-japense-phone_accent",
-    device="cuda" if torch.cuda.is_available() else "cpu",
-)
-@spaces.GPU
-def transcribe(audio: str) -> str:
-    result = pipe(audio, generate_kwargs=generate_kwargs)["text"]
-    return result
-initial_md = """
-# Whisper Large V3 Japanese Phone Accent
-A Whisper model fine-tuned to transcribe Japanese speech into Katakana with pitch accent annotations. Built on whisper-large-v3-turbo, it uses a subset (1/20) of the Galgame-Speech dataset and the jsut-5000 dataset.
-"""
-with gr.Blocks() as app:
-    gr.Markdown(initial_md)
-    audio = gr.Audio(type="filepath")
-    transcribe_btn = gr.Button("Transcribe")
-    output = gr.Textbox(label="Result")
-    transcribe_btn.click(fn=transcribe,inputs=[audio], outputs=[output])
 app.launch(inbrowser=True)

+import os
+import time
+import warnings
+from pathlib import Path
+import gradio as gr
+import librosa
+import spaces
+import torch
+from transformers import pipeline
+warnings.filterwarnings("ignore")
+is_hf = os.getenv("SYSTEM") == "spaces"
+# reference from litagin / galgame-whisper-wip
+generate_kwargs = {
+    "max_new_tokens": 256,
+}
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model="AkitoP/whisper-large-v3-japense-phone_accent",
+    device="cuda" if torch.cuda.is_available() else "cpu",
+)
+@spaces.GPU
+def transcribe(audio: str) -> str:
+    result = pipe(audio, generate_kwargs=generate_kwargs)["text"]
+    print(result)
+    return result
+initial_md = """
+# Whisper Large V3 Japanese Phone Accent
+A Whisper model fine-tuned to transcribe Japanese speech into Katakana with pitch accent annotations. Built on whisper-large-v3-turbo, it uses a subset (1/20) of the Galgame-Speech dataset and the jsut-5000 dataset.
+"""
+with gr.Blocks() as app:
+    gr.Markdown(initial_md)
+    audio = gr.Audio(type="filepath")
+    transcribe_btn = gr.Button("Transcribe")
+    output = gr.Textbox(label="Result")
+    transcribe_btn.click(fn=transcribe,inputs=[audio], outputs=[output])
 app.launch(inbrowser=True)