Spaces:

Oshchepkov
/

youtube_summurize_subtitles

Runtime error

App Files Files Community

Oshchepkov commited on Feb 11, 2023

Commit

a88932d

1 Parent(s): 18dce9e

Add application file

Browse files

Files changed (1) hide show

app.py +47 -0

app.py ADDED Viewed

	@@ -0,0 +1,47 @@

+import streamlit as st
+# https://pypi.org/project/youtube-transcript-api/
+from youtube_transcript_api import YouTubeTranscriptApi
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+def get_video_id(url: str) -> str:
+    """
+    https://github.com/KennethSC/YouTube-Captions-Formatter/blob/master/YouTube_Captions.py
+    """
+    split_at = 'watch?v='
+    if 'https://www.youtube.com/watch?v=' in url:
+        video_id = url.partition(split_at)[2]
+    else:
+        raise Exception("This is not a valid video URL")
+    return video_id
+def get_youtube_subtitle(video_id: str) -> str:
+    try:
+        parse = YouTubeTranscriptApi.get_transcript(video_id, languages=['ru'])
+        result = ''
+        for i in parse:
+            if (i['text'][0] =='[') & (i['text'][-1] ==']'):
+                continue
+            result += ' ' + i['text']
+        return result
+    except:
+        raise Exception("This video doesn't have a captions transcript")
+url = st.text_input('Enter the URL of the Youtube video', 'https://www.youtube.com/watch?v=yR4VmxwZh0s')
+video_id = get_video_id(url)
+subtitle = get_youtube_subtitle(video_id)
+st.write('Video_id', video_id)
+st.text(subtitle)
+m_name = 'summarize1'
+tokenizer = AutoTokenizer.from_pretrained(m_name)
+inputs = tokenizer(subtitle[:1024], return_tensors="pt").input_ids
+model = AutoModelForSeq2SeqLM.from_pretrained(m_name)
+outputs = model.generate(inputs, max_new_tokens=100, do_sample=False)
+summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
+st.write('subtitle', "")
+st.text(summary)