Spaces:

abnerh
/

video-to-subs

Paused

abnerh commited on Nov 8, 2021

Commit

1221d26

•

1 Parent(s): e9c72a6

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,10 +13,6 @@ import gradio as gr
 model = "facebook/wav2vec2-large-960h-lv60-self"
 tokenizer = Wav2Vec2Tokenizer.from_pretrained(model)
 asr_model = Wav2Vec2ForCTC.from_pretrained(model)#.to('cuda')
-vocab_dict = tokenizer.get_vocab()
-sort_vocab = sorted((value, key) for (key,value) in vocab_dict.items())
-vocab =  ([x[1].replace("|", " ") if x[1] not in tokenizer.all_special_tokens else "_" for x in sort_vocab])
 # Line count for SRT file
 line_count = 0
@@ -27,7 +23,6 @@ def sort_alphanumeric(data):
     return sorted(data, key = alphanum_key)
 def transcribe_audio(tokenizer, asr_model, audio_file, file_handle):
     # Run Wav2Vec2.0 inference on each audio file generated after VAD segmentation.
     global line_count
@@ -49,8 +44,7 @@ def transcribe_audio(tokenizer, asr_model, audio_file, file_handle):
     if len(infered_text) > 1:
         line_count += 1
         write_to_file(file_handle, infered_text, line_count, limits)
 def get_subs(input_file):
     # Get directory for audio
     base_directory = os.getcwd()

 model = "facebook/wav2vec2-large-960h-lv60-self"
 tokenizer = Wav2Vec2Tokenizer.from_pretrained(model)
 asr_model = Wav2Vec2ForCTC.from_pretrained(model)#.to('cuda')
 # Line count for SRT file
 line_count = 0
     return sorted(data, key = alphanum_key)
 def transcribe_audio(tokenizer, asr_model, audio_file, file_handle):
     # Run Wav2Vec2.0 inference on each audio file generated after VAD segmentation.
     global line_count
     if len(infered_text) > 1:
         line_count += 1
         write_to_file(file_handle, infered_text, line_count, limits)
 def get_subs(input_file):
     # Get directory for audio
     base_directory = os.getcwd()