English | 中文简体 | 日本語 | 한국어 (韓國語) | Türkçe
デモ動画はこちらでご覧ください。
RVCによるリアルタイム音声変換: w-okada/voice-changer
著作権侵害を心配することなく使用できるように、基底モデルは約50時間の高品質なオープンソースデータセットで訓練されています。
今後も、次々と使用許可のある高品質な歌声の資料集を追加し、基底モデルを訓練する予定です。
はじめに
本リポジトリには下記の特徴があります。
- Top1検索を用いることで、生の特徴量を訓練用データセット特徴量に変換し、トーンリーケージを削減します。
- 比較的貧弱なGPUでも、高速かつ簡単に訓練できます。
- 少量のデータセットからでも、比較的良い結果を得ることができます。(10分以上のノイズの少ない音声を推奨します。)
- モデルを融合することで、音声を混ぜることができます。(ckpt processingタブの、ckpt mergeを使用します。)
- 使いやすいWebUI。
- UVR5 Modelも含んでいるため、人の声とBGMを素早く分離できます。
環境構築
Poetryで依存関係をインストールすることをお勧めします。
下記のコマンドは、Python3.8以上の環境で実行する必要があります:
# PyTorch関連の依存関係をインストール。インストール済の場合は省略。
# 参照先: https://pytorch.org/get-started/locally/
pip install torch torchvision torchaudio
#Windows+ Nvidia Ampere Architecture(RTX30xx)の場合、 #21 に従い、pytorchに対応するcuda versionを指定する必要があります。
#pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117
# PyTorch関連の依存関係をインストール。インストール済の場合は省略。
# 参照先: https://python-poetry.org/docs/#installation
curl -sSL https://install.python-poetry.org | python3 -
# Poetry経由で依存関係をインストール
poetry install
pipでも依存関係のインストールが可能です:
pip install -r requirements.txt
基底modelsを準備
RVCは推論/訓練のために、様々な事前訓練を行った基底モデルを必要とします。
modelsはHugging Face spaceからダウンロードできます。
以下は、RVCに必要な基底モデルやその他のファイルの一覧です。
./assets/hubert/hubert_base.pt
./assets/pretrained
./assets/uvr5_weights
V2のモデルを使用するには、追加でファイルをダウンロードする必要があります
./assets/pretrained_v2
# ffmpegがすでにinstallされている場合は省略
./ffmpeg
その後、下記のコマンドでWebUIを起動します。
python infer-web.py
Windowsをお使いの方は、直接RVC-beta.7z
をダウンロード後に展開し、go-web.bat
をクリックすることで、WebUIを起動することができます。(7zipが必要です。)
また、リポジトリに小白简易教程.docがありますので、参考にしてください(中国語版のみ)。