Spaces:

Artrajz
/

vits-simple-api-gsv

Sleeping

App Files Files Community

vits-simple-api-gsv / README_zh.md

Artrajz

init

960cd20 4 months ago

preview code

raw history blame contribute delete

No virus

27.4 kB

	<div class="title" align=center>
	<h1>vits-simple-api</h1>
	<div>Simply call the vits api</div>
	<br/>
	<br/>
	<p>
	<img src="https://img.shields.io/github/license/Artrajz/vits-simple-api">
	<img src="https://img.shields.io/badge/python-3.10-green">
	<a href="https://hub.docker.com/r/artrajz/vits-simple-api">
	<img src="https://img.shields.io/docker/pulls/artrajz/vits-simple-api"></a>
	</p>
	<a href="https://github.com/Artrajz/vits-simple-api/blob/main/README.md">English</a>\|<a href="https://github.com/Artrajz/vits-simple-api/blob/main/README_zh.md">中文文档</a>
	<br/>
	</div>





	# Feature

	- [x] VITS语音合成，语音转换
	- [x] HuBert-soft VITS模型
	- [x] W2V2 VITS / [emotional-vits](https://github.com/innnky/emotional-vits)维度情感模型
	- [x] [vits_chinese](https://github.com/PlayVoice/vits_chinese)
	- [x] [Bert-VITS2](https://github.com/Stardust-minus/Bert-VITS2)
	- [x] [GPT-SoVITS](https://github.com/RVC-Boss/GPT-SoVITS)
	- [x] 加载多模型
	- [x] 自动识别语言并处理，根据模型的cleaner设置语言类型识别的范围，支持自定义语言类型范围
	- [x] 自定义默认参数
	- [x] 长文本批处理
	- [x] GPU加速推理
	- [x] SSML语音合成标记语言（完善中...）


	## 在线demo

	[![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Hugging%20Face-Spaces-blue)](https://huggingface.co/spaces/Artrajz/vits-simple-api) 感谢hugging face喵

	注意不同的id支持的语言可能有所不同。[speakers](https://artrajz-vits-simple-api.hf.space/voice/speakers)


	- `https://artrajz-vits-simple-api.hf.space/voice/vits?text=你好,こんにちは&id=164`
	- `https://artrajz-vits-simple-api.hf.space/voice/vits?text=我觉得1%2B1≠3&id=164&lang=zh`（get中一些字符需要转义不然会被过滤掉）
	- `https://artrajz-vits-simple-api.hf.space/voice/vits?text=Difficult the first time, easy the second.&id=4`
	- 激动：`https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=111`
	- 小声：`https://artrajz-vits-simple-api.hf.space/voice/w2v2-vits?text=こんにちは&id=3&emotion=2077`

	https://user-images.githubusercontent.com/73542220/237995061-c1f25b4e-dd86-438a-9363-4bb1fe65b425.mov

	# 部署

	有两种部署方式可供选择。不论你选择哪一种，完成部署后都需要导入模型才能使用。

	## Docker部署（Linux推荐）

	### 步骤1: 镜像拉取

	运行以下命令以拉取 Docker 镜像，根据脚本中的提示选择需要下载的必要文件和拉取镜像：

	```bash
	bash -c "$(wget -O- https://raw.githubusercontent.com/Artrajz/vits-simple-api/main/vits-simple-api-installer-latest.sh)"
	```

	项目配置文件以及模型文件夹的默认路径为`/usr/local/vits-simple-api/`

	### 步骤2: 启动

	运行以下命令启动容器：

	```bash
	docker-compose up -d
	```

	### 镜像更新

	运行以下命令更新镜像：

	```bash
	docker-compose pull
	```

	重新启动容器：

	```bash
	docker-compose up -d
	```

	## 虚拟环境部署

	### 步骤1: 克隆项目

	使用以下命令克隆项目仓库：

	```bash
	git clone https://github.com/Artrajz/vits-simple-api.git
	```

	### 步骤2: 下载 Python 依赖

	推荐使用 Python 3.10版本的虚拟环境。运行以下命令安装项目所需的 Python 依赖：

	如果遇到某些无法安装的依赖，请看下面的常见问题。

	```bash
	pip install -r requirements.txt
	```

	### 步骤3: 启动

	运行以下命令启动程序：

	```bash
	python app.py
	```

	## Windows快速部署包

	### 步骤1：下载并解压部署包

	进入[releases页面](https://github.com/Artrajz/vits-simple-api/releases)下载并解压最新的部署包

	### 步骤2：启动

	运行start.bat启动程序

	## 模型加载

	### 步骤1: 下载 VITS 模型

	将 VITS 模型文件下载并放入 `data/models`文件夹。

	### 步骤2: 加载模型

	#### 自动加载模型

	v0.6.6版本之后默认会自动加载`data/models`文件夹下的所有模型，方便新手使用。

	#### 手动加载模型

	首次启动之后会生成一个config.yaml配置文件，需要将`tts_config.auto_load`改为`false`以启用手动加载模式。

	可以修改配置文件中的`tts_config.models`或者在浏览器中进入管理员后台进行修改。

	注意：v0.6.6版本之后已修改模型读取路径，请重新按照以下步骤配置模型路径！

	路径可填绝对路径或相对路径，相对路径则是从项目根目录中的`data/models`文件夹开始。

	比如`data/models`文件夹中有如下文件

	```
	├─model1
	│ │─G_1000.pth
	│ └─config.json
	└─model2
	│─G_1000.pth
	└─config.json
	```

	填写

	```yaml
	tts_config:
	auto_load: false
	models:
	- config_path: model1/config.json
	model_path: model1/G_1000.pth
	- config_path: model2/config.json
	model_path: model2/G_1000.pth
	# GPT-SoVITS则为
	- sovits_path: gpt_sovits1/model1_e8_s11536.pth
	gpt_path: gpt_sovits1/model1-e15.ckpt
	- sovits_path: gpt_sovits2/model2_e8_s11536.pth
	gpt_path: gpt_sovits2/model2-e15.ckpt

	```

	在管理员后台加载模型比较方便，但如果想加载`data/models`文件夹之外的模型，则只能通过修改config.yaml配置文件来加载，方法是直接填写绝对路径。

	绝对路径填写：

	```yaml
	tts_config:
	auto_load: false
	models:
	- config_path: D://model3/config.json
	model_path: D://model3/G_1000.pth
	```

	- models_path:是相对于data目录下的模型文件夹，默认为models，auto_load为true时将会加载models_path目录下的所有模型。

	#### 其他模型

	bert模型以及情感模型下载之后放在`data/bert`文件夹和`data/emotional`文件夹中，找到对应名字放入即可。

	# GPU 加速

	## windows

	### 安装CUDA

	查看显卡最高支持CUDA的版本

	```
	nvidia-smi
	```

	以CUDA11.7为例，[官网](https://developer.nvidia.com/cuda-11-7-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_local)

	### 安装GPU版pytorch

	CUDA11.7对应的pytorch是用这个命令安装，推荐使用1.13.1+cu117，其他版本可能存在内存不稳定的问题。

	```
	pip install torch==1.13.1+cu117 --extra-index-url https://download.pytorch.org/whl/cu117
	```

	## Linux

	安装过程类似，可以查阅网上的安装资料。也可以直接使用docker部署脚本中的gpu版本。

	# WebUI

	## 推理前端

	http://127.0.0.1:23456

	*在默认端口为23456的情况下，端口可修改

	## 管理员后台

	默认为http://127.0.0.1:23456/admin

	初始账号密码在初次启动后，在config.yaml中搜索admin可找到。

	# 功能选项说明

	## 关闭管理员后台

	由于管理员后台可以对模型进行加载和卸载操作，虽然有登录验证的保障，为了绝对安全，当对公网开放时，可以在`config.yaml`中关闭管理员后台：

	```yaml
	'IS_ADMIN_ENABLED': !!bool 'false'
	```

	## Bert-VITS2配置使用语言/Bert模型

	在Bert-VITS2 v2.0以后，一个模型需要加载三个不同语言的Bert模型。如果只需要使用其中一或两种语言，可以在模型的config.json的data中，添加`lang`参数，值为`['zh']`，表示该模型只使用中文，同时也只会加载中文的Bert模型。值为`['zh','ja']`表示只使用中日双语，同时也只会加载中文和日文的Bert模型。以此类推。

	示例：

	```json
	"data": {
	"lang": ["zh","ja"],
	"training_files": "filelists/train.list",
	"validation_files": "filelists/val.list",
	"max_wav_value": 32768.0,
	...
	```

	## 自定义中文多音字词典

	如果遇到多音字发音不正确，可以尝试用这种办法解决。

	在data目录创建并打开phrases_dict.txt添加多音字词。

	```python
	{
	"一骑当千": [["yí"], ["jì"], ["dāng"], ["qiān"]],
	}
	```

	## GPT-SoVITS参考音频预设

	在config.yaml中找到gpt_sovits的配置，在presets下添加预设，预设可添加多个，其中key作为预设名称，如下有两个默认的预设default和default2：

	```
	gpt_sovits_config:
	hz: 50
	is_half: false
	id: 0
	lang: auto
	format: wav
	segment_size: 50
	presets:
	default:
	refer_wav_path: null
	prompt_text: null
	prompt_lang: auto
	default2:
	refer_wav_path: null
	prompt_text: null
	prompt_lang: auto
	```

	## 阅读API

	在[开源阅读](https://gedoor.github.io/)中测试

	可使用多种模型朗读，包括VITS，Bert-VITS2，GPT-SoVITS，`in`开头的参数配置的是对话即引号中的文本的说话人，`nr`开头的参数配置的是旁白。

	使用GPT-SoVITS需要提前在`config.yaml`配置好`presets`里的参考音频，并修改下方url中的preset

	url中的IP可在API启动后找到，一般使用192.168开头的局域网IP。

	修改好后，选择朗读引擎-添加朗读引擎-粘贴源，并启用该朗读引擎。

	```js
	{
	"concurrentRate": "1",
	"contentType": "audio/wav",
	"enabledCookieJar": false,
	"header": "",
	"id": 1709643305070,
	"lastUpdateTime": 1709821070082,
	"loginCheckJs": "",
	"loginUi": "",
	"loginUrl": "",
	"name": "vits-simple-api",
	"url": "http://192.168.xxx.xxx:23456/voice/reading?text={{java.encodeURI(speakText)}}&in_model_type=GPT-SOVITS&in_id=0&in_preset=default&nr_model_type=BERT-VITS2&nr_id=0&nr_preset=default&format=wav&lang=zh"
	}
	```



	# 常见问题

	## fasttext依赖安装问题

	windows下可能安装不了fasttext,可以用以下命令安装，附[wheels下载地址](https://www.lfd.uci.edu/~gohlke/pythonlibs/#fasttext)

	```
	# python3.10 win_amd64
	pip install https://github.com/Artrajz/archived/raw/main/fasttext/fasttext-0.9.2-cp310-cp310-win_amd64.whl
	```

	或者

	```
	pip install fasttext -i https://pypi.artrajz.cn/simple
	```

	## pyopenjtalk依赖安装问题

	由于pypi.org没有pyopenjtalk的whl文件，通常需要从源代码来安装，这一过程对于一些人来说可能比较麻烦，所以你也可以使用我构建的whl来安装。

	```
	pip install pyopenjtalk -i https://pypi.artrajz.cn/simple
	```

	## Bert-VITS2版本兼容

	修改Bert-VITS2模型的config.json，加入版本号参数`"version": "x.x.x"`，比如模型版本为1.0.1时，配置文件应该写成：

	```
	{
	"version": "1.0.1",
	"train": {
	"log_interval": 10,
	"eval_interval": 100,
	"seed": 52,
	...
	```

	需要注意的是，中文特化版的版本号应改为`extra`或`zh-clap`，特化修复版的版本号为`2.4`或`extra-fix`。

	# API

	## GET

	#### speakers list

	- GET http://127.0.0.1:23456/voice/speakers

	返回id对应角色的映射表

	#### voice vits

	- GET http://127.0.0.1:23456/voice/vits?text=text

	其他参数不指定时均为默认值

	- GET http://127.0.0.1:23456/voice/vits?text=[ZH]text[ZH][JA]text[JA]&lang=mix

	lang=mix时文本要标注

	- GET http://127.0.0.1:23456/voice/vits?text=text&id=142&format=wav&lang=zh&length=1.4

	文本为text，角色id为142，音频格式为wav，文本语言为zh，语音长度为1.4，其余参数默认

	#### check

	- GET http://127.0.0.1:23456/voice/check?id=0&model=vits

	## POST

	- 见`api_test.py`



	## API KEY

	在config.yaml中设置`api_key_enabled: true`以启用，api key填写：`api_key: api-key`。

	启用后，GET请求中使用需要增加参数api_key，POST请求中使用需要在header中添加参数`X-API-KEY`。

	# Parameter

	## VITS语音合成

	\| Name \| Parameter \| Is must \| Default \| Type \| Instruction \|
	\| ------------- \| ------------ \| ------- \| -------------------- \| ----- \| ------------------------------------------------------------ \|
	\| 合成文本 \| text \| true \| \| str \| 需要合成语音的文本。 \|
	\| 角色id \| id \| false \| 从`config.yaml`中获取 \| int \| 即说话人id。 \|
	\| 音频格式 \| format \| false \| 从`config.yaml`中获取 \| str \| 支持wav,ogg,silk,mp3,flac \|
	\| 文本语言 \| lang \| false \| 从`config.yaml`中获取 \| str \| auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。 \|
	\| 语音长度/语速 \| length \| false \| 从`config.yaml`中获取 \| float \| 调节语音长度，相当于调节语速，该数值越大语速越慢。 \|
	\| 噪声 \| noise \| false \| 从`config.yaml`中获取 \| float \| 样本噪声，控制合成的随机性。 \|
	\| sdp噪声 \| noisew \| false \| 从`config.yaml`中获取 \| float \| 随机时长预测器噪声，控制音素发音长度。 \|
	\| 分段阈值 \| segment_size \| false \| 从`config.yaml`中获取 \| int \| 按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段。 \|
	\| 流式响应 \| streaming \| false \| false \| bool \| 流式合成语音，更快的首包响应。 \|

	## VITS 语音转换

	\| Name \| Parameter \| Is must \| Default \| Type \| Instruction \|
	\| ---------- \| ----------- \| ------- \| ------- \| ---- \| ---------------------- \|
	\| 上传音频 \| upload \| true \| \| file \| wav or ogg \|
	\| 源角色id \| original_id \| true \| \| int \| 上传文件所使用的角色id \|
	\| 目标角色id \| target_id \| true \| \| int \| 要转换的目标角色id \|

	## HuBert-VITS 语音转换

	\| Name \| Parameter \| Is must \| Default \| Type \| Instruction \|
	\| ------------- \| --------- \| ------- \| ------- \| ----- \| ------------------------------------------------ \|
	\| 上传音频 \| upload \| true \| \| file \| 需要转换说话人的音频文件。 \|
	\| 目标角色id \| id \| true \| \| int \| 目标说话人id。 \|
	\| 音频格式 \| format \| true \| \| str \| wav,ogg,silk \|
	\| 语音长度/语速 \| length \| true \| \| float \| 调节语音长度，相当于调节语速，该数值越大语速越慢 \|
	\| 噪声 \| noise \| true \| \| float \| 样本噪声，控制合成的随机性。 \|
	\| sdp噪声 \| noisew \| true \| \| float \| 随机时长预测器噪声，控制音素发音长度。 \|

	## W2V2-VITS

	\| Name \| Parameter \| Is must \| Default \| Type \| Instruction \|
	\| ------------- \| ------------ \| ------- \| -------------------- \| ----- \| ------------------------------------------------------------ \|
	\| 合成文本 \| text \| true \| \| str \| 需要合成语音的文本。 \|
	\| 角色id \| id \| false \| 从`config.yaml`中获取 \| int \| 即说话人id。 \|
	\| 音频格式 \| format \| false \| 从`config.yaml`中获取 \| str \| 支持wav,ogg,silk,mp3,flac \|
	\| 文本语言 \| lang \| false \| 从`config.yaml`中获取 \| str \| auto为自动识别语言模式，也是默认模式。lang=mix时，文本应该用[ZH] 或 [JA] 包裹。方言无法自动识别。 \|
	\| 语音长度/语速 \| length \| false \| 从`config.yaml`中获取 \| float \| 调节语音长度，相当于调节语速，该数值越大语速越慢 \|
	\| 噪声 \| noise \| false \| 从`config.yaml`中获取 \| float \| 样本噪声，控制合成的随机性。 \|
	\| sdp噪声 \| noisew \| false \| 从`config.yaml`中获取 \| float \| 随机时长预测器噪声，控制音素发音长度。 \|
	\| 分段阈值 \| segment_size \| false \| 从`config.yaml`中获取 \| int \| 按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段。 \|
	\| 维度情感 \| emotion \| false \| 0 \| int \| 范围取决于npy情感参考文件，如[innnky](https://huggingface.co/spaces/innnky/nene-emotion/tree/main)的all_emotions.npy模型范围是0-5457 \|

	## Dimensional emotion

	\| Name \| Parameter \| Is must \| Default \| Type \| Instruction \|
	\| -------- \| --------- \| ------- \| ------- \| ---- \| ----------------------------- \|
	\| 上传音频 \| upload \| true \| \| file \| 返回存储维度情感向量的npy文件 \|

	## Bert-VITS2语音合成

	\| Name \| Parameter \| Is must \| Default \| Type \| Instruction \|
	\| -------------- \| --------------- \| ------- \| -------------------- \| ----- \| ------------------------------------------------------------ \|
	\| 合成文本 \| text \| true \| \| str \| 需要合成语音的文本。 \|
	\| 角色id \| id \| false \| 从`config.yaml`中获取 \| int \| 即说话人id。 \|
	\| 音频格式 \| format \| false \| 从`config.yaml`中获取 \| str \| 支持wav,ogg,silk,mp3,flac \|
	\| 文本语言 \| lang \| false \| 从`config.yaml`中获取 \| str \| auto为自动识别语言模式，也是默认模式，但目前只支持识别整段文本的语言，无法细分到每个句子。其余可选语言zh和ja。 \|
	\| 语音长度/语速 \| length \| false \| 从`config.yaml`中获取 \| float \| 调节语音长度，相当于调节语速，该数值越大语速越慢。 \|
	\| 噪声 \| noise \| false \| 从`config.yaml`中获取 \| float \| 样本噪声，控制合成的随机性。 \|
	\| sdp噪声 \| noisew \| false \| 从`config.yaml`中获取 \| float \| 随机时长预测器噪声，控制音素发音长度。 \|
	\| 分段阈值 \| segment_size \| false \| 从`config.yaml`中获取 \| int \| 按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段。 \|
	\| SDP/DP混合比 \| sdp_ratio \| false \| 从`config.yaml`中获取 \| int \| SDP在合成时的占比，理论上此比率越高，合成的语音语调方差越大。 \|
	\| 情感控制 \| emotion \| false \| 从`config.yaml`中获取 \| int \| Bert-VITS2 v2.1可用，范围为0-9 \|
	\| 情感参考音频 \| reference_audio \| false \| None \| \| Bert-VITS2 v2.1 使用参考音频来控制合成音频的情感 \|
	\| 文本提示词 \| text_prompt \| false \| 从`config.yaml`中获取 \| str \| Bert-VITS2 v2.2 文本提示词，用于控制情感 \|
	\| 文本提示词 \| style_text \| false \| 从`config.yaml`中获取 \| str \| Bert-VITS2 v2.3 文本提示词，用于控制情感 \|
	\| 文本提示词权重 \| style_weight \| false \| 从`config.yaml`中获取 \| float \| Bert-VITS2 v2.3 文本提示词，用于提示词权重 \|
	\| 流式响应 \| streaming \| false \| false \| bool \| 流式合成语音，更快的首包响应。 \|

	## GPT-SoVITS语音合成

	\| Name \| Parameter \| Is must \| Default \| Type \| Instruction \|
	\| ------------ \| --------------- \| ------- \| --------------------- \| ----- \| ------------------------------------------------------------ \|
	\| 合成文本 \| text \| true \| \| str \| 需要合成语音的文本。 \|
	\| 角色id \| id \| false \| 从`config.yaml`中获取 \| int \| 即说话人id。在GPT-SoVITS中，每一个模型作为一个角色id，音色通过参考音频预设来切换。 \|
	\| 音频格式 \| format \| false \| 从`config.yaml`中获取 \| str \| 支持wav,ogg,silk,mp3,flac \|
	\| 文本语言 \| lang \| false \| 从`config.yaml`中获取 \| str \| auto为自动识别语言模式，也是默认模式，但目前只支持识别整段文本的语言，无法细分到每个句子。 \|
	\| 参考音频 \| reference_audio \| false \| None \| \| 参考音频是必须的，但是可以被预设代替 \|
	\| 参考音频文本 \| prompt_text \| false \| 从`config.yaml`中获取 \| float \| 需要和参考音频实际文本保持一致。 \|
	\| 参考音频语言 \| prompt_lang \| false \| 从`config.yaml`中获取 \| str \| 默认为auto，自动识别文本语言。如果识别失败则手动填写，中文就是zh，日文是ja，英文是en。 \|
	\| 参考音频预设 \| preset \| false \| default \| str \| 通过提前设置好的预设代替参考音频，可设置多个预设。 \|


	## SSML语音合成标记语言

	目前支持的元素与属性

	`speak`元素

	\| Attribute \| Description \| Is must \|
	\| ------------ \| ------------------------------------------------------------ \| ------- \|
	\| id \| 默认值从`config.yaml`中读取 \| false \|
	\| lang \| 默认值从`config.yaml`中读取 \| false \|
	\| length \| 默认值从`config.yaml`中读取 \| false \|
	\| noise \| 默认值从`config.yaml`中读取 \| false \|
	\| noisew \| 默认值从`config.yaml`中读取 \| false \|
	\| segment_size \| 按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段，这里默认为0。 \| false \|
	\| model_type \| 默认为VITS，可选W2V2-VITS，BERT-VITS2 \| false \|
	\| emotion \| 只有用W2V2-VITS时`emotion`才会生效，范围取决于npy情感参考文件 \| false \|
	\| sdp_ratio \| 只有用BERT-VITS2时`sdp_ratio`才会生效 \| false \|

	`voice`元素

	优先级大于`speak`

	\| Attribute \| Description \| Is must \|
	\| ------------ \| ------------------------------------------------------------ \| ------- \|
	\| id \| 默认值从`config.yaml`中读取 \| false \|
	\| lang \| 默认值从`config.yaml`中读取 \| false \|
	\| length \| 默认值从`config.yaml`中读取 \| false \|
	\| noise \| 默认值从`config.yaml`中读取 \| false \|
	\| noisew \| 默认值从`config.yaml`中读取 \| false \|
	\| segment_size \| 按标点符号分段，加起来大于segment_size时为一段文本。segment_size<=0表示不分段，这里默认为0。 \| false \|
	\| model_type \| 默认为VITS，可选W2V2-VITS，BERT-VITS2 \| false \|
	\| emotion \| 只有用W2V2-VITS时`emotion`才会生效，范围取决于npy情感参考文件 \| false \|
	\| sdp_ratio \| 只有用BERT-VITS2时`sdp_ratio`才会生效 \| false \|

	`break`元素

	\| Attribute \| Description \| Is must \|
	\| --------- \| ------------------------------------------------------------ \| ------- \|
	\| strength \| x-weak,weak,medium（默认值）,strong,x-strong \| false \|
	\| time \| 暂停的绝对持续时间，以秒为单位（例如 `2s`）或以毫秒为单位（例如 `500ms`）。有效值的范围为 0 到 5000 毫秒。如果设置的值大于支持的最大值，则服务将使用 `5000ms`。如果设置了 `time` 属性，则会忽略 `strength` 属性。 \| false \|

	\| Strength \| Relative Duration \|
	\| :------- \| :---------------- \|
	\| x-weak \| 250 毫秒 \|
	\| weak \| 500 毫秒 \|
	\| Medium \| 750 毫秒 \|
	\| Strong \| 1000 毫秒 \|
	\| x-strong \| 1250 毫秒 \|

	## 阅读

	\| Name \| Parameter \| Is must \| Default \| Type \| Instruction \|
	\| -------------------- \| ------------- \| ------- \| --------------------- \| ---- \| ------------------------------------------------------------ \|
	\| 合成文本 \| text \| true \| \| str \| 需要合成语音的文本。 \|
	\| 对话角色模型类型 \| in_model_type \| false \| 从`config.yaml`中获取 \| str \| \|
	\| 对话角色id \| in_id \| false \| 从`config.yaml`中获取 \| int \| \|
	\| 对话角色参考音频预设 \| in_preset \| false \| default \| str \| 通过提前设置好的预设代替参考音频，可设置多个预设。 \|
	\| 旁白角色模型类型 \| nr_model_type \| false \| 从`config.yaml`中获取 \| str \| \|
	\| 旁白角色id \| nr_id \| false \| 从`config.yaml`中获取 \| int \| \|
	\| 旁白角色参考音频预设 \| nr_preset \| false \| default \| str \| 通过提前设置好的预设代替参考音频，可设置多个预设。 \|
	\| 音频格式 \| format \| false \| 从`config.yaml`中获取 \| str \| 支持wav,ogg,silk,mp3,flac \|
	\| 文本语言 \| lang \| false \| 从`config.yaml`中获取 \| str \| auto为自动识别语言模式，也是默认模式，但目前只支持识别整段文本的语言，无法细分到每个句子。 \|

	模型的其他参数将使用config.yaml文件中对应模型的默认参数。



	## 示例

	见`api_test.py`

	# 交流平台

	现在只有 [Q群](https://qm.qq.com/cgi-bin/qm/qr?k=-1GknIe4uXrkmbDKBGKa1aAUteq40qs_&jump_from=webapi&authKey=x5YYt6Dggs1ZqWxvZqvj3fV8VUnxRyXm5S5Kzntc78+Nv3iXOIawplGip9LWuNR/)

	# 鸣谢

	- vits:https://github.com/jaywalnut310/vits
	- MoeGoe:https://github.com/CjangCjengh/MoeGoe
	- emotional-vits:https://github.com/innnky/emotional-vits
	- vits-uma-genshin-honkai:https://huggingface.co/spaces/zomehwh/vits-uma-genshin-honkai
	- vits_chinese:https://github.com/PlayVoice/vits_chinese
	- Bert_VITS2:https://github.com/fishaudio/Bert-VITS2
	- GPT-SoVITS:https://github.com/RVC-Boss/GPT-SoVITS

	# 感谢所有的贡献者

	<a href="https://github.com/artrajz/vits-simple-api/graphs/contributors" target="_blank">
	<img src="https://contrib.rocks/image?repo=artrajz/vits-simple-api"/></a>