Spaces:

amphion
/

maskgct

Running on Zero

App Files Files Community

簡體字和繁體字

by yiwei0730 - opened Nov 25, 2024

Discussion

yiwei0730

Nov 25, 2024

想詢問有關簡體字和繁體字的問題
我打上繁體字的時候，有時候他會直接跳過某些字發音，但簡體字的話則不會有這個問題。
想請教一下這個問題該怎麼解決呢?

HarryHe

Amphion org Nov 25, 2024

可以考虑用OpenCC对繁体中文做预处理 https://github.com/BYVoid/OpenCC

yiwei0730

Nov 26, 2024

了解，只是我想了解一下為什麼會有這樣的問題，就是輸入繁體中文和簡體中文對於模型輸入的差異。
一般來說其他使用的模型好像沒遇過這樣的狀況，有點特殊。

HarryHe

Amphion org Nov 26, 2024

了解，只是我想了解一下為什麼會有這樣的問題，就是輸入繁體中文和簡體中文對於模型輸入的差異。
一般來說其他使用的模型好像沒遇過這樣的狀況，有點特殊。

我的猜测跟Emilia-Pipe的ASR部分有关，在Emilia数据集 https://huggingface.co/datasets/amphion/Emilia-Dataset 里，我们尽量保存了简体中文转录文本，因此模型主要基于Emilia的简体中文训练。

yiwei0730

Nov 26, 2024

•

edited Nov 26, 2024

對的我在思考是哪裡出了問題，是不是L239: target_phone_id = g2p_(target_text, target_language)[1]
連結到models/tts/maskgct/g2p/g2p_generation.py中的
L9: from models.tts.maskgct.g2p.g2p import PhonemeBpeTokenizer
的這個tokenizer有關係

所以如果要根本性的解決問題，是否是需要增加繁體中文的資料集後，再把模型整個重新訓練一遍，才能解決問題嗎?

HarryHe

Amphion org Nov 26, 2024

對的我在思考是哪裡出了問題，是不是L239: target_phone_id = g2p_(target_text, target_language)[1]
連結到models/tts/maskgct/g2p/g2p_generation.py中的
L9: from models.tts.maskgct.g2p.g2p import PhonemeBpeTokenizer
的這個tokenizer有關係

所以如果要根本性的解決問題，應該是要把模型整個重新訓練一遍，才能解決問題嗎?

我个人猜测问题来自训练数据没有（或者只有少量）繁体中文，在繁体中文的数据集finetune可能就行

yiwei0730

Nov 26, 2024

•

edited Nov 27, 2024

了解，想要詢問一下作者大大，目前MaskGCT有釋出可訓練或Finetune的版本嗎? 看了一下官方目前似乎並無相關敘述? 只有看到issue說好像再train一個新版本的

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

Your need to confirm your account before you can post a new comment.

· Sign up or log in to comment