kindahex
/

youtube-summarizer

Model card Files Files and versions Community

justyoung commited on Nov 26, 2024

Commit

047fd82

verified ·

1 Parent(s): a3a25bd

Upload 8 files

Browse files

Files changed (8) hide show

.gitattributes +35 -35
.gitignore +2 -0
README.md +3 -3
packages.txt +1 -0
requirements.txt +10 -0
setup.py +33 -0
tes.py +2 -0
youtube-summarizer/app.py +155 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,35 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ .env
2	+ venv/

README.md CHANGED Viewed

@@ -1,3 +1,3 @@
----
-license: afl-3.0
----


1	+ # Youtube AI Summarizer
2	+
3	+

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ ffmpeg

requirements.txt ADDED Viewed

	@@ -0,0 +1,10 @@

+# --extra-index-url https://download.pytorch.org/whl/cu118
+# torch==2.3.1+cu118
+torch
+git+https://github.com/huggingface/transformers
+gradio
+python-dotenv==1.0.1
+yt_dlp==2024.8.6
+google-generativeai==0.7.2
+numpy<2
+spaces

setup.py ADDED Viewed

	@@ -0,0 +1,33 @@

+from setuptools import setup, find_packages
+setup(
+    name="youtube-summarizer",
+    version="0.1.0",
+    packages=find_packages(),
+    install_requires=[
+        "torch",
+        "transformers",
+        "gradio",
+        "python-dotenv>=1.0.1",
+        "yt_dlp>=2024.8.6",
+        "google-generativeai>=0.7.2",
+        "numpy<2",
+    ],
+    entry_points={
+        "console_scripts": [
+            "youtube-summarizer=app:main",
+        ],
+    },
+    author="",
+    author_email="",
+    description="AI-powered YouTube video transcription and summarization tool",
+    long_description=open("README.md").read(),
+    long_description_content_type="text/markdown",
+    url="",
+    classifiers=[
+        "Programming Language :: Python :: 3",
+        "License :: OSI Approved :: MIT License",
+        "Operating System :: OS Independent",
+    ],
+    python_requires=">=3.8",
+)

tes.py ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ import torch
2	+ print(torch.__version__)

youtube-summarizer/app.py ADDED Viewed

	@@ -0,0 +1,155 @@

+import argparse
+import yt_dlp
+from dotenv import load_dotenv
+import os
+import google.generativeai as genai
+import re
+import torch
+from transformers import pipeline
+from transformers.pipelines.audio_utils import ffmpeg_read
+import time
+load_dotenv()
+default_gemini_api_key = os.getenv('gemini_api_key')
+device = 0 if torch.cuda.is_available() else "cpu"
+def load_pipeline(model_name):
+    return pipeline(
+        task="automatic-speech-recognition",
+        model=model_name,
+        chunk_length_s=30,
+        device=device,
+    )
+def configure_genai(api_key, model_variant):
+    genai.configure(api_key=api_key)
+    return genai.GenerativeModel(model_variant)
+def extract_youtube_id(youtube_url):
+    youtube_id_match = re.search(r'(?:v=|\/)([0-9A-Za-z_-]{11}).*', youtube_url)
+    if youtube_id_match:
+        return youtube_id_match.group(1)
+    return None
+def download_youtube_audio(youtube_url, output_filename):
+    ydl_opts = {
+        'format': 'bestaudio/best',
+        'postprocessors': [{
+            'key': 'FFmpegExtractAudio',
+            'preferredcodec': 'mp3',
+            'preferredquality': '192',
+        }],
+        'outtmpl': output_filename,
+    }
+    try:
+        with yt_dlp.YoutubeDL(ydl_opts) as ydl:
+            ydl.download([youtube_url])
+        print(f"Downloaded audio from YouTube URL: {youtube_url}")
+        return output_filename
+    except Exception as e:
+        print(f"Error downloading YouTube audio: {str(e)}")
+        raise Exception(f"Failed to download YouTube audio: {str(e)}")
+def summarize_transcription(transcription, model, gemini_prompt):
+    try:
+        prompt = f"{gemini_prompt}:\n\n{transcription}"
+        response = model.generate_content(prompt)
+        return response.text
+    except Exception as e:
+        print(f"Error summarizing transcription: {str(e)}")
+        return f"Error summarizing transcription: {str(e)}"
+def process_audio(audio_file, language, whisper_model):
+    print("Starting transcription...")
+    start_time = time.time()
+    if device == 0:
+        pipe = load_pipeline(whisper_model)
+    else:
+        pipe = load_pipeline("openai/whisper-tiny")
+    with open(audio_file, "rb") as f:
+        inputs = f.read()
+    inputs = ffmpeg_read(inputs, pipe.feature_extractor.sampling_rate)
+    inputs = {"array": inputs, "sampling_rate": pipe.feature_extractor.sampling_rate}
+    if language:
+        print(f"Using language: {language}")
+        transcription = pipe(inputs, batch_size=8, generate_kwargs={"task": "transcribe", "language": language}, return_timestamps=True)["text"]
+    else:
+        print("No language defined, using default language")
+        transcription = pipe(inputs, batch_size=8, generate_kwargs={"task": "transcribe"}, return_timestamps=True)["text"]
+    end_time = time.time()
+    processing_time = round(end_time - start_time, 2)
+    return transcription, processing_time
+def main():
+    parser = argparse.ArgumentParser(description='YouTube Video Transcriber and Summarizer')
+    input_group = parser.add_mutually_exclusive_group(required=True)
+    input_group.add_argument('--youtube-url', help='YouTube video URL to process')
+    input_group.add_argument('--audio-file', help='Local audio file to process')
+    parser.add_argument('--whisper-model', default='openai/whisper-large-v3',
+                      choices=['openai/whisper-tiny', 'openai/whisper-base', 'openai/whisper-small',
+                              'openai/whisper-medium', 'openai/whisper-large-v3'],
+                      help='Whisper model to use for transcription')
+    parser.add_argument('--gemini-api-key', help='Gemini API key (optional)')
+    parser.add_argument('--gemini-model', default='gemini-1.5-pro',
+                      choices=['gemini-1.5-flash', 'gemini-1.5-pro'],
+                      help='Gemini model variant to use')
+    parser.add_argument('--language', help='Language code for transcription (e.g., en, es, fr)')
+    parser.add_argument('--prompt', default='Create a resume from this transcript',
+                      help='Prompt for Gemini summarization')
+    args = parser.parse_args()
+    try:
+        print("Initializing...")
+        gemini_api_key = args.gemini_api_key if args.gemini_api_key else default_gemini_api_key
+        model = configure_genai(gemini_api_key, args.gemini_model)
+        if args.youtube_url:
+            print("Processing YouTube URL...")
+            youtube_id = extract_youtube_id(args.youtube_url)
+            output_filename = youtube_id if youtube_id else "unknown"
+            print("Downloading YouTube audio...")
+            audio_file = download_youtube_audio(args.youtube_url, output_filename)
+            audio_file = f"{audio_file}.mp3"
+            print(f"Audio file downloaded: {audio_file}")
+        else:
+            print("Processing local audio file...")
+            audio_file = args.audio_file
+            print(f"Using audio file: {audio_file}")
+        print("Starting transcription...")
+        transcription, processing_time = process_audio(audio_file, args.language, args.whisper_model)
+        if args.youtube_url and os.path.exists(audio_file):
+            os.remove(audio_file)
+            print(f"Deleted temporary audio file: {audio_file}")
+        print("Summarizing transcription...")
+        summary = summarize_transcription(transcription, model, args.prompt)
+        print("\nSaving outputs...")
+        with open("transcription_output.txt", "w", encoding="utf-8") as f:
+            f.write(transcription)
+        with open("summary_output.txt", "w", encoding="utf-8") as f:
+            f.write(summary)
+        print("\nResults:")
+        print(f"\nTranscription (saved to transcription_output.txt):")
+        print(transcription)
+        print(f"\nSummary (saved to summary_output.txt):")
+        print(summary)
+        print(f"\nProcessing time: {processing_time} seconds")
+    except Exception as e:
+        print(f"Error: {str(e)}")
+        exit(1)
+if __name__ == "__main__":
+    main()