Spaces:

firsk
/

ai_otto

Sleeping

ai_otto / text /symbols.py

Upload 42 files

d85acc0 about 1 year ago

2.23 kB

	punctuation = ["!", "?", "…", ",", ".", "'", "-"]
	pu_symbols = punctuation + ["SP", "UNK"]
	pad = "_"

	# chinese
	zh_symbols = [
	"E",
	"En",
	"a",
	"ai",
	"an",
	"ang",
	"ao",
	"b",
	"c",
	"ch",
	"d",
	"e",
	"ei",
	"en",
	"eng",
	"er",
	"f",
	"g",
	"h",
	"i",
	"i0",
	"ia",
	"ian",
	"iang",
	"iao",
	"ie",
	"in",
	"ing",
	"iong",
	"ir",
	"iu",
	"j",
	"k",
	"l",
	"m",
	"n",
	"o",
	"ong",
	"ou",
	"p",
	"q",
	"r",
	"s",
	"sh",
	"t",
	"u",
	"ua",
	"uai",
	"uan",
	"uang",
	"ui",
	"un",
	"uo",
	"v",
	"van",
	"ve",
	"vn",
	"w",
	"x",
	"y",
	"z",
	"zh",
	"AA",
	"EE",
	"OO",
	]
	num_zh_tones = 6

	# japanese
	ja_symbols = [
	"N",
	"a",
	"a:",
	"b",
	"by",
	"ch",
	"d",
	"dy",
	"e",
	"e:",
	"f",
	"g",
	"gy",
	"h",
	"hy",
	"i",
	"i:",
	"j",
	"k",
	"ky",
	"m",
	"my",
	"n",
	"ny",
	"o",
	"o:",
	"p",
	"py",
	"q",
	"r",
	"ry",
	"s",
	"sh",
	"t",
	"ts",
	"ty",
	"u",
	"u:",
	"w",
	"y",
	"z",
	"zy",
	]
	num_ja_tones = 1

	# English
	en_symbols = [
	"aa",
	"ae",
	"ah",
	"ao",
	"aw",
	"ay",
	"b",
	"ch",
	"d",
	"dh",
	"eh",
	"er",
	"ey",
	"f",
	"g",
	"hh",
	"ih",
	"iy",
	"jh",
	"k",
	"l",
	"m",
	"n",
	"ng",
	"ow",
	"oy",
	"p",
	"r",
	"s",
	"sh",
	"t",
	"th",
	"uh",
	"uw",
	"V",
	"w",
	"y",
	"z",
	"zh",
	]
	num_en_tones = 4

	# combine all symbols
	normal_symbols = sorted(set(zh_symbols + ja_symbols + en_symbols))
	symbols = [pad] + normal_symbols + pu_symbols
	sil_phonemes_ids = [symbols.index(i) for i in pu_symbols]

	# combine all tones
	num_tones = num_zh_tones + num_ja_tones + num_en_tones

	# language maps
	language_id_map = {"ZH": 0, "JP": 1, "EN": 2}
	num_languages = len(language_id_map.keys())

	language_tone_start_map = {
	"ZH": 0,
	"JP": num_zh_tones,
	"EN": num_zh_tones + num_ja_tones,
	}

	if __name__ == "__main__":
	a = set(zh_symbols)
	b = set(en_symbols)
	print(sorted(a & b))