Spaces:

StarPigeon
/

ViDove

Sleeping

ViDove / SRT.py

Eason Lu

TO DO: need debug timestamp

cf5f1c9 almost 2 years ago

3.48 kB

	from datetime import timedelta
	import os
	import whisper

	class SRT_segment(object):
	def __init__(self, *args) -> None:
	if isinstance(args[0], dict):
	segment = args[0]
	self.start_time_str = str(0)+str(timedelta(seconds=int(segment['start'])))+',000'
	self.end_time_str = str(0)+str(timedelta(seconds=int(segment['end'])))+',000'
	self.segment_id = segment['id']+1
	self.source_text = segment['text']
	self.duration = f"{self.start_time_str} --> {self.end_time_str}"
	self.translation = ""
	elif isinstance(args[0], list):
	self.segment_id = args[0][0]
	self.source_text = args[0][2]
	self.duration = args[0][1]
	self.start_time_str = self.duration.split("-->")[0]
	self.end_time_str = self.duration.split("-->")[1]
	self.translation = ""

	def __str__(self) -> str:
	return f'{self.segment_id}\n{self.duration}\n{self.source_text}\n\n'

	def get_trans_str(self) -> str:
	return f'{self.segment_id}\n{self.duration}\n{self.translation}\n\n'

	def get_bilingual_str(self) -> str:
	return f'{self.segment_id}\n{self.duration}\n{self.source_text}\n{self.translation}\n\n'

	class SRT_script():
	def __init__(self, segments) -> None:
	self.segments = []
	for seg in segments:
	srt_seg = SRT_segment(seg)
	self.segments.append(srt_seg)

	@classmethod
	def parse_from_srt_file(cls, path:str):
	with open(path, 'r', encoding="utf-8") as f:
	script_lines = f.read().splitlines()

	segments = []
	for i in range(len(script_lines)):
	if i % 4 == 0:
	segments.append(list(script_lines[i:i+4]))

	return cls(segments)

	def set_translation(self, translate:str, id_range:tuple):
	start_seg_id = id_range[0]
	end_seg_id = id_range[1]

	lines = translate.split('\n\n')
	print(id_range)
	print(translate)
	# print(len(translate))

	for i, seg in enumerate(self.segments[start_seg_id-1:end_seg_id]):
	seg.translation = lines[i]
	pass

	def get_source_only(self):
	# return a string with pure source text
	result = ""
	for seg in self.segments:
	result+=f'{seg.source_text}\n\n'

	return result

	def reform_src_str(self):
	result = ""
	for seg in self.segments:
	result += str(seg)
	return result

	def reform_trans_str(self):
	result = ""
	for seg in self.segments:
	result += seg.get_trans_str()
	return result

	def form_bilingual_str(self):
	result = ""
	for seg in self.segments:
	result += seg.get_bilingual_str()
	return result

	def write_srt_file_src(self, path:str):
	# write srt file to path
	with open(path, "w", encoding='utf-8') as f:
	f.write(self.reform_src_str())
	pass

	def write_srt_file_translate(self, path:str):
	with open(path, "w", encoding='utf-8') as f:
	f.write(self.reform_trans_str())
	pass

	def write_srt_file_bilingual(self, path:str):
	with open(path, "w", encoding='utf-8') as f:
	f.write(self.form_bilingual_str())
	pass

	def correct_with_force_term():
	# force term correction

	pass