Edit model card
YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

XTTSv2 Banana finetune - Russian informal speech

Разговорный файнтюн XTTSv2 для русского языка. Основан на 9 минутах голосовых сообщениях с матом от 5 разных девушек.

Видео сравнение с оригиналом: https://www.youtube.com/watch?v=hPS7dtJn00s

Особенности

  • добавляет больше интонаций, эмоциональности, придыханий, делая речь более живой.
  • лучше справляется с ударениями в словах (мат, разговорная лексика).
  • только для русского языка. В английском на коротких фразах типа Yes./No./Well. появились звуковые галлюцинации, на длинных почти не заметно. На русском все ок.
  • основан на женских голосах, поэтому все мужские голоса будут слегка феминными.
  • весит 5 GB, но VRAM занимает ровно столько же, сколько и оригинал (2.6 GB).
  • обучение на 9 минутах голосовых сообщений заняло 70 минут и 10 эпох на 3060 12 GB, дальше была только потеря качества (loss). Чем больше датасет, тем больше требуется VRAM и времени.
  • для дальнейшего улучшения качества ударений требуется еще больший датасет с проблемными словами и ручная проверка распознанного Виспером текста.

Использование

  • у вас должен быть установлен Couqi TTS либо xtts_api_server
  • скачать все файлы сохраняя структуру папок (/model_banana/v2.0.2/...)
  • для xtts_api_server: в папке на одну выше, чем /model_banana запустить cmd: python -m xtts_api_server -d=cuda -mf model_banana
  • Инструкция как дообучить xtts для своего голоса: https://docs.coqui.ai/en/latest/models/xtts.html#training (нужно 16-20 GB VRAM, но shared vram тоже подойдет, просто будет чуть медленнее)

Мой русский неформальный голосовой помощник: https://github.com/Mozer/talk-llama-fast

ТГ: https://t.me/tensorbanana

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference API
Unable to determine this model's library. Check the docs .