Spaces:

kadirnar
/

Audio-WebUI

Sleeping

App Files Files Community

kadirnar commited on May 3

Commit

4f7fe11

•

1 Parent(s): c12540c

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -11

app.py CHANGED Viewed

@@ -29,8 +29,9 @@ def youtube_url_to_text(url, model_id, language_choice):
         video_path (str): The path of the downloaded video.
     """
     video_path = download_and_convert_to_mp3(url)
-    pipeline = SpeechToTextPipeline(model_id)
-    transcript = pipeline(audio_path=video_path, language=language_choice)
     return transcript, video_path
@@ -114,7 +115,7 @@ def youtube_url_to_text_app():
             examples=[
                 [
                     "https://www.youtube.com/watch?v=di3rHkEZuUw",
-                    "openai/whisper-large-v3",
                     "English",
                 ],
             ],
@@ -125,7 +126,7 @@ def youtube_url_to_text_app():
                 language_choice,
             ],
             outputs=[output_text, output_audio],
-            cache_examples=False,
         )
@@ -138,13 +139,10 @@ def speaker_diarization_app():
                 whisper_model_id = gr.Dropdown(
                     choices=[
                         "openai/whisper-large-v3",
-                        "openai/whisper-large",
-                        "openai/whisper-medium",
-                        "openai/whisper-base",
-                        "openai/whisper-small",
-                        "openai/whisper-tiny",
                     ],
-                    value="openai/whisper-large-v3",
                     label="Whisper Model",
                 )
                 num_speakers = gr.Number(value=2, label="Number of Speakers")
@@ -171,7 +169,7 @@ def speaker_diarization_app():
             examples=[
                 [
                     "https://www.youtube.com/shorts/o8PgLUgte2k",
-                    "openai/whisper-large-v3",
                     2,
                     1,
                     2,

         video_path (str): The path of the downloaded video.
     """
     video_path = download_and_convert_to_mp3(url)
+    output = SpeechToTextPipeline(model_id)
+    print(video_path)
+    transcript = output(audio_path=video_path, language=language_choice)
     return transcript, video_path
             examples=[
                 [
                     "https://www.youtube.com/watch?v=di3rHkEZuUw",
+                    "distil-whisper/distil-large-v3",
                     "English",
                 ],
             ],
                 language_choice,
             ],
             outputs=[output_text, output_audio],
+            cache_examples=True,
         )
                 whisper_model_id = gr.Dropdown(
                     choices=[
                         "openai/whisper-large-v3",
+                        "distil-whisper/distil-large-v3",
+                        "distil-whisper/distil-large-v2",
                     ],
+                    value="distil-whisper/distil-large-v3",
                     label="Whisper Model",
                 )
                 num_speakers = gr.Number(value=2, label="Number of Speakers")
             examples=[
                 [
                     "https://www.youtube.com/shorts/o8PgLUgte2k",
+                    "distil-whisper/distil-large-v3",
                     2,
                     1,
                     2,