Retrieval-based-Voice-Conversion-WebUI

VITSに基づく使いやすい音声変換（voice changer）framework

更新日誌

English | 中文简体 | 日本語 | 한국어 (韓國語) | Türkçe

デモ動画はこちらでご覧ください。

RVCによるリアルタイム音声変換: w-okada/voice-changer

著作権侵害を心配することなく使用できるように、基底モデルは約50時間の高品質なオープンソースデータセットで訓練されています。

今後も、次々と使用許可のある高品質な歌声の資料集を追加し、基底モデルを訓練する予定です。

はじめに

本リポジトリには下記の特徴があります。

Top1検索を用いることで、生の特徴量を訓練用データセット特徴量に変換し、トーンリーケージを削減します。
比較的貧弱なGPUでも、高速かつ簡単に訓練できます。
少量のデータセットからでも、比較的良い結果を得ることができます。（10分以上のノイズの少ない音声を推奨します。）
モデルを融合することで、音声を混ぜることができます。（ckpt processingタブの、ckpt mergeを使用します。）
使いやすいWebUI。
UVR5 Modelも含んでいるため、人の声とBGMを素早く分離できます。

環境構築

Poetryで依存関係をインストールすることをお勧めします。

下記のコマンドは、Python3.8以上の環境で実行する必要があります:

# PyTorch関連の依存関係をインストール。インストール済の場合は省略。
# 参照先: https://pytorch.org/get-started/locally/
pip install torch torchvision torchaudio

#Windows＋ Nvidia Ampere Architecture(RTX30xx)の場合、 #21 に従い、pytorchに対応するcuda versionを指定する必要があります。
#pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

# PyTorch関連の依存関係をインストール。インストール済の場合は省略。
# 参照先: https://python-poetry.org/docs/#installation
curl -sSL https://install.python-poetry.org | python3 -

# Poetry経由で依存関係をインストール
poetry install

pipでも依存関係のインストールが可能です:

pip install -r requirements.txt

基底modelsを準備

RVCは推論/訓練のために、様々な事前訓練を行った基底モデルを必要とします。

modelsはHugging Face spaceからダウンロードできます。

以下は、RVCに必要な基底モデルやその他のファイルの一覧です。

./assets/hubert/hubert_base.pt

./assets/pretrained 

./assets/uvr5_weights

V2のモデルを使用するには、追加でファイルをダウンロードする必要があります

./assets/pretrained_v2

# ffmpegがすでにinstallされている場合は省略
./ffmpeg

その後、下記のコマンドでWebUIを起動します。

python infer-web.py

Windowsをお使いの方は、直接RVC-beta.7zをダウンロード後に展開し、go-web.batをクリックすることで、WebUIを起動することができます。(7zipが必要です。)

また、リポジトリに小白简易教程.docがありますので、参考にしてください（中国語版のみ）。

netynet
/

Nex-RVC

Retrieval-based-Voice-Conversion-WebUI

はじめに

環境構築

基底modelsを準備

参考プロジェクト

貢献者(contributor)の皆様の尽力に感謝します