youtube dataset collector

#2
by rootiks - opened

Привет, тоже занимался файнтюнингом этой модельки на русский. Получилось неплохо, но все еще недостаточно хорошо. Пока текущий результат меня устраивает, поэтому лень дальше дообучать. Хочу с тобой поделиться блокнотом сбора датасета из youtube видосов, он берет аудио дорожку видео и сопоставляет с субтитрами. Лучше всего выбирать те видео где есть ручные субтитры. У меня он пылится, надеюсь хоть кому нибудь пригодится!

Если вдруг будет полезно и чо-то толковое обучится, то буду благодарен, если поделитесь весами :)

https://colab.research.google.com/drive/1fayid8evDgGO030DDZAe8LnITDRRbxUE?usp=sharing

Как мне кажется основное преимущество Ютуба в том, что там гораздо натуральнее интонации. В большинстве датасетов очень монотонно зачитывают какой-то текст и модель в итоге звучит как робот

Sign up or log in to comment