Spaces:

hadxu
/

youtube-whisper

Running

hadxu commited on Mar 19, 2024

Commit

cd864c2

1 Parent(s): 65c9185

add openai whisper

Files changed (2) hide show

app.py CHANGED Viewed

@@ -1,11 +1,14 @@
 import gradio as gr
 import yt_dlp
 import os
-from faster_whisper import WhisperModel
 # tiny, tiny.en, base, base.en, small, small.en, medium, medium.en, large-v1, large-v2, large-v3, or large
-model_name = 'base'
-model = WhisperModel(model_name, device="cpu", download_root="./models")
 ydl_opts = {
     'outtmpl': 'demo.m4a',
@@ -24,13 +27,15 @@ def download_audio(url):
         code = ydl.download([url])
     assert code == 0, "Failed to download audio"
-    segments, info = model.transcribe("demo.m4a", beam_size=5)
-    print("Transcript:", info.language)
-    partial_message = ""
-    for segment in segments:
-        msg = "[%.2fs -> %.2fs] %s\n" % (segment.start, segment.end, segment.text)
-        partial_message += msg
-        yield partial_message
 with gr.Blocks() as demo:
     with gr.Column():
@@ -41,10 +46,9 @@ with gr.Blocks() as demo:
         output = gr.TextArea(label="Output")
     button.click(
-        download_audio,
         inputs=[name],
         outputs=[output],
     )
 demo.launch()

 import gradio as gr
 import yt_dlp
 import os
+from openai import OpenAI
+client = OpenAI(api_key=os.environ['OPENAI_API_KEY'])
+# from faster_whisper import WhisperModel
 # tiny, tiny.en, base, base.en, small, small.en, medium, medium.en, large-v1, large-v2, large-v3, or large
+# model_name = 'base'
+# model = WhisperModel(model_name, device="cpu", download_root="./models")
 ydl_opts = {
     'outtmpl': 'demo.m4a',
         code = ydl.download([url])
     assert code == 0, "Failed to download audio"
+def generate_text(url):
+    download_audio(url)
+    with open("demo.m4a", "rb") as f:
+        transcription = client.audio.transcriptions.create(
+            model="whisper-1",
+            file=f,
+            response_format="text"
+        )
+    return transcription.text
 with gr.Blocks() as demo:
     with gr.Column():
         output = gr.TextArea(label="Output")
     button.click(
+        generate_text,
         inputs=[name],
         outputs=[output],
     )
 demo.launch()

utils.py CHANGED Viewed

@@ -1,43 +0,0 @@
-import google.generativeai as genai
-API_KEY = "AIzaSyCkqv9dWrlbRjv9fHO_O8jBORGfYVPJTnY"
-def call_gemini(prompt="", given_text=None, given_image=None, generation_config=None, safety_settings=None):
-    genai.configure(api_key=API_KEY)
-    generation_config = {
-            "temperature": 0.8,
-            "top_p": 1,
-            "top_k": 32,
-            "max_output_tokens": 8192,
-    }
-    safety_settings = [
-            {
-                "category": "HARM_CATEGORY_HARASSMENT",
-                "threshold": "BLOCK_ONLY_HIGH"
-            },
-            {
-                "category": "HARM_CATEGORY_HATE_SPEECH",
-                "threshold": "BLOCK_ONLY_HIGH"
-            },
-            {
-                "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
-                "threshold": "BLOCK_ONLY_HIGH"
-            },
-            {
-                "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
-                "threshold": "BLOCK_ONLY_HIGH"
-            },
-        ]
-    model = genai.GenerativeModel(model_name='gemini-pro',
-                                generation_config=generation_config,
-                                safety_settings=safety_settings)
-    prompt_parts = "如何学习rust语言?"
-    response = model.generate_content(prompt_parts)
-    print(response.text)
-if __name__ == "__main__":
-    call_gemini()