File size: 1,949 Bytes
17d75f1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
import string, re, opencc


全型2半型= str.maketrans(
    ' 0123456789'
    'abcdefghijklmnopqrstuvwxyz'
    'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
    '!゛#$%&()*+、ー。/:;〈=〉?@[]^_‘{|}~',
    ' 0123456789'
    'abcdefghijklmnopqrstuvwxyz'
    'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
    '!"#$%&()*+,-./:;<=>?@[]^_`{|}~'
    )

def 把怪字修進unicode(xStr):
    xStr= re.sub('\uf5c3','𪜶', xStr)
    return xStr

def ryNormText(s):
    """
    <<<None>>> ==> 刪除
    標點 ==> 空白
    連續空白 ==> 1個空白
    簡繁
    """

    punc1= string.punctuation  # 這是為英文
    punc1
    punc2= '。,﹐、!?::;『』「」…,\n' # 這是為中文,尚未完備!!

    punc= f"[{punc1}{punc2}]"  ## 這是 regular expression 的 pattern

    ## <<<None>>> ==> 刪除
    s= re.sub('<<<None>>>','',s)

    # 標點 ==> 空白
    s= re.sub(punc,' ',s)
    

    # 連續空白 ==> 1個空白
    s= re.sub('[ ]+',' ',s)
    
    
    # 空白 ==> 刪除
    s= re.sub(' ','',s)
    
    s= 把怪字修進unicode(s)

    # 簡繁
    s= opencc.OpenCC('s2tw').convert(s)
    

    return s

import unicodedata
import re


def separ_char_word(inputString= '我是呂仁園 Renyuan Lyu'):

    inputString= 把怪字修進unicode(inputString)

    y= ''
    for x in inputString:
        y += x
        try:
            un= unicodedata.name(x)
            if un.startswith('CJK'):
                y += ' '
            else:
                pass
        except Exception as ex:
            y = ' '+y+' '
            print(f'ryErr:(def 中英分開:){ex= }\t【{x= }】\t{inputString= }')

    y= re.sub('[ ]+',' ', y) #連續空白只保留1個空白
    return y

#q= 中英分開('大家好 da jia hao 我是呂仁園 I am Renyuan Lyu')

#print(q)