Spaces:

Mahiruoshi
/

BangStarlight

Running

Mahiruoshi commited on Feb 4, 2024

Commit

1a0a988

•

1 Parent(s): a88d850

Update tools/sentence.py

Files changed (1) hide show

tools/sentence.py CHANGED Viewed

@@ -127,36 +127,20 @@ def merge_adjacent_japanese(sentences):
 def extrac(text):
     text = replace_quotes(remove_numeric_annotations(text))  # 替换引号
     text = re.sub("<[^>]*>", "", text)  # 移除 HTML 标签
-    # 使用换行符和标点符号进行初步分割
-    preliminary_sentences = re.split(r'([\n。；！？\.\?!])', text)
     final_sentences = []
-    preliminary_sentences = re.split(r'([\n。；！？\.\?!])', text)
     for piece in preliminary_sentences:
         if is_single_language(piece):
             final_sentences.append(piece)
         else:
             sub_sentences = split_mixed_language(piece)
             final_sentences.extend(sub_sentences)
-    # 处理长句子，使用jieba进行分词
-    split_sentences = []
-    for sentence in final_sentences:
-        split_sentences.extend(split_long_sentences(sentence))
-    # 合并相邻的日语句子
-    merged_japanese_sentences = merge_adjacent_japanese(split_sentences)
-    # 剔除只包含标点符号的元素
-    clean_sentences = [s for s in merged_japanese_sentences if not is_only_punctuation(s)]
-    # 移除空字符串并去除多余引号
-    return [s.replace('"','').strip() for s in clean_sentences if s]
-  # 移除空字符串
 def is_mixed_language(sentence):
     contains_chinese = re.search(r'[\u4e00-\u9fff]', sentence) is not None

 def extrac(text):
     text = replace_quotes(remove_numeric_annotations(text))  # 替换引号
     text = re.sub("<[^>]*>", "", text)  # 移除 HTML 标签
+    # 使用换行符和标点符号进行初步分割，确保标点符号保留在句子末尾
+    preliminary_sentences = re.split(r'(?<=[\n。；！？\.\?!])', text)
     final_sentences = []
     for piece in preliminary_sentences:
         if is_single_language(piece):
             final_sentences.append(piece)
         else:
             sub_sentences = split_mixed_language(piece)
             final_sentences.extend(sub_sentences)
+    # 移除双引号和空白字符
+    return [s.replace('"', '').strip() for s in final_sentences if s]
 def is_mixed_language(sentence):
     contains_chinese = re.search(r'[\u4e00-\u9fff]', sentence) is not None