Spaces:

SUHHHH
/

youtube_test

Sleeping

SUHHHH commited on Sep 17, 2024

Commit

5d64735

verified ·

1 Parent(s): 23ac44b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,9 +1,9 @@
 from pytube import YouTube
 from google.cloud import speech_v1p1beta1 as speech
-from pydub import AudioSegment  # 오디오 변환을 위한 라이브러리
 import io
-import openai
 import os
 import gradio as gr
 # 유튜브 비디오 ID 추출 함수
@@ -38,25 +38,34 @@ def download_and_convert_audio(youtube_url):
     return wav_audio_path
 # Google Speech-to-Text API를 사용하여 오디오를 텍스트로 변환
 def speech_to_text(audio_path):
     client = speech.SpeechClient()
-    with io.open(audio_path, "rb") as audio_file:
-        content = audio_file.read()
-    audio = speech.RecognitionAudio(content=content)
-    config = speech.RecognitionConfig(
-        encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
-        sample_rate_hertz=16000,  # 16000Hz 샘플 레이트
-        language_code="ko-KR"  # 한국어 인식
-    )
-    response = client.recognize(config=config, audio=audio)
-    transcript = ""
-    for result in response.results:
-        transcript += result.alternatives[0].transcript + " "
     return transcript.strip()

 from pytube import YouTube
 from google.cloud import speech_v1p1beta1 as speech
+from pydub import AudioSegment
 import io
 import os
+import openai
 import gradio as gr
 # 유튜브 비디오 ID 추출 함수
     return wav_audio_path
+# 오디오를 청크로 나누는 함수
+def split_audio(audio_path, chunk_length_ms=60000):
+    audio = AudioSegment.from_wav(audio_path)
+    chunks = [audio[i:i + chunk_length_ms] for i in range(0, len(audio), chunk_length_ms)]
+    return chunks
 # Google Speech-to-Text API를 사용하여 오디오를 텍스트로 변환
 def speech_to_text(audio_path):
     client = speech.SpeechClient()
+    chunks = split_audio(audio_path)  # 오디오를 청크로 나눔
+    transcript = ""
+    for chunk in chunks:
+        with io.BytesIO() as audio_file:
+            chunk.export(audio_file, format="wav")
+            audio_file.seek(0)
+            content = audio_file.read()
+            audio = speech.RecognitionAudio(content=content)
+            config = speech.RecognitionConfig(
+                encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
+                sample_rate_hertz=16000,  # 16000Hz 샘플 레이트
+                language_code="ko-KR"  # 한국어 인식
+            )
+            response = client.recognize(config=config, audio=audio)
+            for result in response.results:
+                transcript += result.alternatives[0].transcript + " "
     return transcript.strip()