Spaces:

StarPigeon
/

ViDove

Sleeping

App Files Files Community

JiaenLiu commited on Mar 30, 2023

Commit

32b8dd4

1 Parent(s): 9518a49

prompt solve whisper

Browse files

Former-commit-id: 7735223b44e4f9f285459419e031e50ad816d7ec

Files changed (1) hide show

pipeline.py +4 -8

pipeline.py CHANGED Viewed

@@ -5,6 +5,8 @@ import os
 from tqdm import tqdm
 from SRT import SRT_script
 import stable_whisper
 import subprocess
 import time
@@ -95,14 +97,7 @@ elif args.video_file is not None:
         audio_file= open(args.audio_file, "rb")
         audio_path = args.audio_file
     else:
-        # escaped_video_path = args.video_file.replace('(', '\(').replace(')', '\)').replace(' ', '\ ')
-        # print(escaped_video_path)
-        # os.system(f'ffmpeg -i {escaped_video_path} -f mp3 -ab 192000 -vn {DOWNLOAD_PATH}/audio/{VIDEO_NAME}.mp3')
-        # audio_file= open(f'{DOWNLOAD_PATH}/audio/{VIDEO_NAME}.mp3', "rb")
-        # audio_path = f'{DOWNLOAD_PATH}/audio/{VIDEO_NAME}.mp3'
         output_audio_path = f'{DOWNLOAD_PATH}/audio/{VIDEO_NAME}.mp3'
-        # print(video_path)
-        # print(output_audio_path)
         subprocess.run(['ffmpeg', '-i', video_path, '-f', 'mp3', '-ab', '192000', '-vn', output_audio_path])
         audio_file = open(output_audio_path, "rb")
         audio_path = output_audio_path
@@ -133,7 +128,7 @@ else:
         # use stable-whisper
         model = stable_whisper.load_model('base')
-        transcript = model.transcribe(audio_path, regroup = False)
         (
             transcript
             .split_by_punctuation(['.', '。', '?'])
@@ -143,6 +138,7 @@ else:
         )
         # transcript.to_srt_vtt(srt_file_en)
         transcript = transcript.to_dict()
         srt = SRT_script(transcript['segments']) # read segments to SRT class
         #Write SRT file

 from tqdm import tqdm
 from SRT import SRT_script
 import stable_whisper
+import whisper
 import subprocess
 import time
         audio_file= open(args.audio_file, "rb")
         audio_path = args.audio_file
     else:
         output_audio_path = f'{DOWNLOAD_PATH}/audio/{VIDEO_NAME}.mp3'
         subprocess.run(['ffmpeg', '-i', video_path, '-f', 'mp3', '-ab', '192000', '-vn', output_audio_path])
         audio_file = open(output_audio_path, "rb")
         audio_path = output_audio_path
         # use stable-whisper
         model = stable_whisper.load_model('base')
+        transcript = model.transcribe(audio_path, regroup = False, initial_prompt="Hello, welcome to my lecture. Are you good my friend?")
         (
             transcript
             .split_by_punctuation(['.', '。', '?'])
         )
         # transcript.to_srt_vtt(srt_file_en)
         transcript = transcript.to_dict()
+        # print(transcript)
         srt = SRT_script(transcript['segments']) # read segments to SRT class
         #Write SRT file