Spaces:

StarPigeon
/

ViDove

Sleeping

App Files Files Community

worldqwq commited on Mar 28, 2023

Commit

c0481ec

1 Parent(s): 96fb84a

Added log.csv creation

Browse files

Former-commit-id: 736ed1428a98e09c934c9ab1e255e7b054d46548

Files changed (1) hide show

SRT.py +16 -25

SRT.py CHANGED Viewed

@@ -3,6 +3,7 @@ from csv import reader
 from datetime import datetime
 import re
 import openai
 from collections import deque
 class SRT_segment(object):
@@ -62,16 +63,6 @@ class SRT_segment(object):
     def get_bilingual_str(self) -> str:
         return f'{self.duration}\n{self.source_text}\n{self.translation}\n\n'
-    # def set_translation(self, trans):
-    #     if trans[0] == '，':
-    #         trans = trans[1:]
-    #     self.translation = trans
-    # def set_src_text(self, src_text):
-    #     if src_text[0] == ',':
-    #         src_text = src_text[1:]
-    #     self.source_text = src_text
 class SRT_script():
     def __init__(self, segments) -> None:
         self.segments = []
@@ -120,7 +111,7 @@ class SRT_script():
-    def set_translation(self, translate:str, id_range:tuple, model):
         start_seg_id = id_range[0]
         end_seg_id = id_range[1]
@@ -140,6 +131,7 @@ class SRT_script():
         lines = translate.split('\n\n')
         if len(lines) < (end_seg_id - start_seg_id + 1):
             count = 0
             while count<5 and len(lines) != (end_seg_id - start_seg_id + 1):
                 count += 1
@@ -167,6 +159,13 @@ class SRT_script():
             if len(lines) < (end_seg_id - start_seg_id + 1):
                 print("Failed Solving unmatched lines, Manually parse needed")
             print(lines)
             #print(id_range)
             #for i, seg in enumerate(self.segments[start_seg_id-1:end_seg_id]):
@@ -191,12 +190,8 @@ class SRT_script():
                     #print(lines[i])
         pass
-    def split_seg(self, seg, threshold):
-        # evenly split seg to 2 parts and add new seg into self.segments
-        if seg.source_text[:2] == ', ':
-            seg.source_text = seg.source_text[2:]
-        if seg.translation[0] == '，':
-            seg.translation = seg.translation[1:]
         source_text = seg.source_text
         translation = seg.translation
         src_commas = [m.start() for m in re.finditer(',', source_text)]
@@ -205,10 +200,7 @@ class SRT_script():
             src_split_idx = src_commas[len(src_commas)//2] if len(src_commas) % 2 == 1 else src_commas[len(src_commas)//2 - 1]
         else:
             src_space = [m.start() for m in re.finditer(' ', source_text)]
-            if len(src_space) > 0:
-                src_split_idx = src_space[len(src_space)//2] if len(src_space) % 2 == 1 else src_space[len(src_space)//2 - 1]
-            else:
-                src_split_idx = 0
         if len(trans_commas) != 0:
             trans_split_idx = trans_commas[len(trans_commas)//2] if len(trans_commas) % 2 == 1 else trans_commas[len(trans_commas)//2 - 1]
@@ -250,9 +242,8 @@ class SRT_script():
         return result_list
-    def check_len_and_split(self, threshold=30):
-        # DEPRECATED
-        # if sentence length >= threshold, split this segments to two
         segments = []
         for seg in self.segments:
             if len(seg.translation) > threshold:
@@ -266,7 +257,7 @@ class SRT_script():
         pass
     def check_len_and_split_range(self, range, threshold=30):
-        # if sentence length >= threshold, split this segments to two
         start_seg_id = range[0]
         end_seg_id = range[1]
         extra_len = 0

 from datetime import datetime
 import re
 import openai
+import os
 from collections import deque
 class SRT_segment(object):
     def get_bilingual_str(self) -> str:
         return f'{self.duration}\n{self.source_text}\n{self.translation}\n\n'
 class SRT_script():
     def __init__(self, segments) -> None:
         self.segments = []
+    def set_translation(self, translate:str, id_range:tuple, model,vid_link=None):
         start_seg_id = id_range[0]
         end_seg_id = id_range[1]
         lines = translate.split('\n\n')
         if len(lines) < (end_seg_id - start_seg_id + 1):
             count = 0
+            solved = False
             while count<5 and len(lines) != (end_seg_id - start_seg_id + 1):
                 count += 1
             if len(lines) < (end_seg_id - start_seg_id + 1):
                 print("Failed Solving unmatched lines, Manually parse needed")
+            log_file = "log.csv"
+            log_exist = os.path.exists(log_file)
+            with open(log_file,"a") as log:
+                if not log_exist:
+                    log.write("range_of_text,content_range,iterations_solving,solved,file_length,video_link")
+                log.write(range+','+range+','+count+','+solved+','+len(self.segments)+','+vid_link)
             print(lines)
             #print(id_range)
             #for i, seg in enumerate(self.segments[start_seg_id-1:end_seg_id]):
                     #print(lines[i])
         pass
+    def split_seg(self, seg, threshold=500):
+        # TODO: evenly split seg to 2 parts and add new seg into self.segments
         source_text = seg.source_text
         translation = seg.translation
         src_commas = [m.start() for m in re.finditer(',', source_text)]
             src_split_idx = src_commas[len(src_commas)//2] if len(src_commas) % 2 == 1 else src_commas[len(src_commas)//2 - 1]
         else:
             src_space = [m.start() for m in re.finditer(' ', source_text)]
+            src_split_idx = src_space[len(src_space)//2] if len(src_space) % 2 == 1 else src_space[len(src_space)//2 - 1]
         if len(trans_commas) != 0:
             trans_split_idx = trans_commas[len(trans_commas)//2] if len(trans_commas) % 2 == 1 else trans_commas[len(trans_commas)//2 - 1]
         return result_list
+    def check_len_and_split(self, threshold=30000):
+        # TODO: if sentence length >= threshold, split this segments to two
         segments = []
         for seg in self.segments:
             if len(seg.translation) > threshold:
         pass
     def check_len_and_split_range(self, range, threshold=30):
+        # TODO: if sentence length >= threshold, split this segments to two
         start_seg_id = range[0]
         end_seg_id = range[1]
         extra_len = 0