omogr/xtts-ru-ipa · youtube dataset collector

Привет, тоже занимался файнтюнингом этой модельки на русский. Получилось неплохо, но все еще недостаточно хорошо. Пока текущий результат меня устраивает, поэтому лень дальше дообучать. Хочу с тобой поделиться блокнотом сбора датасета из youtube видосов, он берет аудио дорожку видео и сопоставляет с субтитрами. Лучше всего выбирать те видео где есть ручные субтитры. У меня он пылится, надеюсь хоть кому нибудь пригодится!

Если вдруг будет полезно и чо-то толковое обучится, то буду благодарен, если поделитесь весами :)

https://colab.research.google.com/drive/1fayid8evDgGO030DDZAe8LnITDRRbxUE?usp=sharing