youtube dataset collector
Привет, тоже занимался файнтюнингом этой модельки на русский. Получилось неплохо, но все еще недостаточно хорошо. Пока текущий результат меня устраивает, поэтому лень дальше дообучать. Хочу с тобой поделиться блокнотом сбора датасета из youtube видосов, он берет аудио дорожку видео и сопоставляет с субтитрами. Лучше всего выбирать те видео где есть ручные субтитры. У меня он пылится, надеюсь хоть кому нибудь пригодится!
Если вдруг будет полезно и чо-то толковое обучится, то буду благодарен, если поделитесь весами :)
https://colab.research.google.com/drive/1fayid8evDgGO030DDZAe8LnITDRRbxUE?usp=sharing
Как мне кажется основное преимущество Ютуба в том, что там гораздо натуральнее интонации. В большинстве датасетов очень монотонно зачитывают какой-то текст и модель в итоге звучит как робот