Spaces:
Running
on
Zero
voice cloning
Підкажіть будь ласка як досягти такої якості клонування голосу. Чи можна десь подивитись параметри і код для fine tuning?
Я додав власний семпл (20 секунд, 24кгц) в директорію voices, але генерація навіть близько не схожа.
Клонування голосу в styletts2 працює погано, плюс потрібно дуже багато різних спікерів щоб його покращити. Тому тут спрацює лише файн тюнінг. Але я виклав лише інференс модель щоб не можна було файн тюнити. Для чого ви хочете використовувати цю модель?
Я веду ютуб канал, але озвучка це не те, що мені подобається в цій справі, якщо б модель могла гарно відтворювати мій голос, то можливо трохи допомогла б з цим.
Дивіться, щоб зробити модель вашим голосом, потрібен датасет, якщо ви готові записати датасет і дозволите його викласти в відкритий доступ, я тоді готовий натренувати модель на цьому датасеті і викласти її також в відкритий доступ. Програма для створення датасетів з текстами які треба прочитати в мене є, потрібно лише начитати(мінімум 10 годин).
Уфф, 10 годин начитки це грандіозна робота, я це не потягну.
Ну ок я би хотів 10 годин, але 2 годин для файн тюну буде достатньо. Так що подумайте.