indonesian-whisperer

Runtime error

App Files Files Community

cahya commited on Dec 31, 2022

Commit

86c3abc

•

1 Parent(s): 1c4ea70

add system info

Browse files

Files changed (1) hide show

app.py +18 -16

app.py CHANGED Viewed

@@ -8,8 +8,7 @@ import time
 import psutil
 from mtranslate import translate
-MODEL_NAME = "cahya/whisper-medium-id" #this always needs to stay in line 8 :D sorry for the hackiness
 lang = "id"
 title = "Indonesian Whisperer"
 description = "Cross Language Speech to Speech (Indonesian/English to 25 other languages) using OpenAI Whisper and Coqui TTS"
@@ -43,7 +42,6 @@ languages = {
     'Maltese': 'mt'
 }
 device = 0 if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
@@ -82,6 +80,7 @@ coquiTTS = CoquiTTS()
 def tts(language: str, audio_microphone: str, audio_file: str):
     language = languages[language]
     print(f"### {datetime.now()} TTS", language, audio_file)
     transcription = transcribe(audio_microphone, audio_file)
     print(f"### {datetime.now()} transcribed:", transcription)
@@ -89,8 +88,15 @@ def tts(language: str, audio_microphone: str, audio_file: str):
     # return output
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
         coquiTTS.get_tts(translation, fp, speaker={"language": language})
         print(f"### {datetime.now()} fp.name:", fp.name)
-        return transcription, translation, fp.name
 with gr.Blocks() as blocks:
@@ -98,12 +104,12 @@ with gr.Blocks() as blocks:
                 + title
                 + "</h1>")
     gr.Markdown(description)
-    with gr.Row():# equal_height=False
-        with gr.Column():# variant="panel"
             audio_microphone = gr.Audio(label="Microphone", source="microphone", type="filepath", optional=True)
             audio_upload = gr.Audio(label="Upload", source="upload", type="filepath", optional=True)
             language = gr.Dropdown([lang for lang in languages.keys()], label="Target Language", value="English")
-            with gr.Row(): # mobile_collapse=False
                 submit = gr.Button("Submit", variant="primary")
             examples = gr.Examples(examples=["data/Jokowi - 2022.mp3", "data/Soekarno - 1963.mp3", "data/JFK.mp3"],
                                    label="Examples", inputs=[audio_upload])
@@ -111,23 +117,19 @@ with gr.Blocks() as blocks:
             text_source = gr.Textbox(label="Source Language")
             text_target = gr.Textbox(label="Target Language")
             audio = gr.Audio(label="Target Audio", interactive=False)
-    memory = psutil.virtual_memory()
     gr.Markdown(info)
-    system_status = info = f"""
-            *Memory: {memory.total/(1024*1024*1024):.2f}GB, used: {memory.percent}%, available: {memory.available/(1024*1024*1024):.2f}GB*
-            """
-    gr.Markdown(system_status)
     gr.Markdown("<center>"
-                +f'<a href="https://github.com/cahya-wirawan/indonesian-whisperer"><img src={badge} alt="visitors badge"/></a>'
-                +"</center>")
     # actions
     submit.click(
         tts,
         [language, audio_microphone, audio_upload],
-        [text_source, text_target, audio],
     )
 blocks.launch()

 import psutil
 from mtranslate import translate
+MODEL_NAME = "cahya/whisper-medium-id"  # this always needs to stay in line 8 :D sorry for the hackiness
 lang = "id"
 title = "Indonesian Whisperer"
 description = "Cross Language Speech to Speech (Indonesian/English to 25 other languages) using OpenAI Whisper and Coqui TTS"
     'Maltese': 'mt'
 }
 device = 0 if torch.cuda.is_available() else "cpu"
 pipe = pipeline(
 def tts(language: str, audio_microphone: str, audio_file: str):
     language = languages[language]
+    time_start = time.time()
     print(f"### {datetime.now()} TTS", language, audio_file)
     transcription = transcribe(audio_microphone, audio_file)
     print(f"### {datetime.now()} transcribed:", transcription)
     # return output
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as fp:
         coquiTTS.get_tts(translation, fp, speaker={"language": language})
+        time_end = time.time()
+        time_diff = time_end - time_start
+        memory = psutil.virtual_memory()
+        system_info = f"""
+        *Memory: {memory.total / (1024 * 1024 * 1024):.2f}GB, used: {memory.percent}%, available: {memory.available / (1024 * 1024 * 1024):.2f}GB*
+        *Processing time: {time_diff:.5} seconds*
+        """
         print(f"### {datetime.now()} fp.name:", fp.name)
+        return transcription, translation, fp.name, system_info
 with gr.Blocks() as blocks:
                 + title
                 + "</h1>")
     gr.Markdown(description)
+    with gr.Row():  # equal_height=False
+        with gr.Column():  # variant="panel"
             audio_microphone = gr.Audio(label="Microphone", source="microphone", type="filepath", optional=True)
             audio_upload = gr.Audio(label="Upload", source="upload", type="filepath", optional=True)
             language = gr.Dropdown([lang for lang in languages.keys()], label="Target Language", value="English")
+            with gr.Row():  # mobile_collapse=False
                 submit = gr.Button("Submit", variant="primary")
             examples = gr.Examples(examples=["data/Jokowi - 2022.mp3", "data/Soekarno - 1963.mp3", "data/JFK.mp3"],
                                    label="Examples", inputs=[audio_upload])
             text_source = gr.Textbox(label="Source Language")
             text_target = gr.Textbox(label="Target Language")
             audio = gr.Audio(label="Target Audio", interactive=False)
+            memory = psutil.virtual_memory()
+            system_info = gr.Markdown(f"*Memory: {memory.total / (1024 * 1024 * 1024):.2f}GB, used: {memory.percent}%, available: {memory.available / (1024 * 1024 * 1024):.2f}GB*")
     gr.Markdown(info)
     gr.Markdown("<center>"
+                + f'<a href="https://github.com/cahya-wirawan/indonesian-whisperer"><img src={badge} alt="visitors badge"/></a>'
+                + "</center>")
     # actions
     submit.click(
         tts,
         [language, audio_microphone, audio_upload],
+        [text_source, text_target, audio, system_info],
     )
 blocks.launch()