hk-gosuto commited on
Commit
f3f66e2
·
1 Parent(s): ee5c678
.gitignore CHANGED
@@ -165,8 +165,6 @@ cython_debug/
165
 
166
  filelists/*
167
  !/filelists/esd.list
168
- data/*
169
- /*.yml
170
  !/default_config.yml
171
  /Web/
172
  /emotional/*/*.bin
@@ -178,8 +176,6 @@ data/*
178
  asr_transcript.py
179
  extract_list.py
180
  dataset
181
- /Data
182
  Model
183
  raw/
184
  logs/
185
- Data/*
 
165
 
166
  filelists/*
167
  !/filelists/esd.list
 
 
168
  !/default_config.yml
169
  /Web/
170
  /emotional/*/*.bin
 
176
  asr_transcript.py
177
  extract_list.py
178
  dataset
 
179
  Model
180
  raw/
181
  logs/
 
Data/configs/config.json ADDED
@@ -0,0 +1,96 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "train": {
3
+ "log_interval": 200,
4
+ "eval_interval": 1000,
5
+ "seed": 42,
6
+ "epochs": 1000,
7
+ "learning_rate": 0.0002,
8
+ "betas": [
9
+ 0.8,
10
+ 0.99
11
+ ],
12
+ "eps": 1e-09,
13
+ "batch_size": 10,
14
+ "fp16_run": false,
15
+ "lr_decay": 0.99995,
16
+ "segment_size": 16384,
17
+ "init_lr_ratio": 1,
18
+ "warmup_epochs": 0,
19
+ "c_mel": 45,
20
+ "c_kl": 1.0,
21
+ "skip_optimizer": true
22
+ },
23
+ "data": {
24
+ "training_files": "filelists/train.list",
25
+ "validation_files": "filelists/val.list",
26
+ "max_wav_value": 32768.0,
27
+ "sampling_rate": 44100,
28
+ "filter_length": 2048,
29
+ "hop_length": 512,
30
+ "win_length": 2048,
31
+ "n_mel_channels": 128,
32
+ "mel_fmin": 0.0,
33
+ "mel_fmax": null,
34
+ "add_blank": true,
35
+ "n_speakers": 896,
36
+ "cleaned_text": true,
37
+ "spk2id": {
38
+ "johnny": 0
39
+ }
40
+ },
41
+ "model": {
42
+ "use_spk_conditioned_encoder": true,
43
+ "use_noise_scaled_mas": true,
44
+ "use_mel_posterior_encoder": false,
45
+ "use_duration_discriminator": true,
46
+ "inter_channels": 192,
47
+ "hidden_channels": 192,
48
+ "filter_channels": 768,
49
+ "n_heads": 2,
50
+ "n_layers": 6,
51
+ "kernel_size": 3,
52
+ "p_dropout": 0.1,
53
+ "resblock": "1",
54
+ "resblock_kernel_sizes": [
55
+ 3,
56
+ 7,
57
+ 11
58
+ ],
59
+ "resblock_dilation_sizes": [
60
+ [
61
+ 1,
62
+ 3,
63
+ 5
64
+ ],
65
+ [
66
+ 1,
67
+ 3,
68
+ 5
69
+ ],
70
+ [
71
+ 1,
72
+ 3,
73
+ 5
74
+ ]
75
+ ],
76
+ "upsample_rates": [
77
+ 8,
78
+ 8,
79
+ 2,
80
+ 2,
81
+ 2
82
+ ],
83
+ "upsample_initial_channel": 512,
84
+ "upsample_kernel_sizes": [
85
+ 16,
86
+ 16,
87
+ 8,
88
+ 2,
89
+ 2
90
+ ],
91
+ "n_layers_q": 3,
92
+ "use_spectral_norm": false,
93
+ "gin_channels": 256
94
+ },
95
+ "version": "2.1"
96
+ }
Data/johnny_v2/models/DUR_10000.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5e72b6b63d495287fbe87ed69b3aa48fb1119d4bc9f2af11ab4d62b5ede2ac26
3
+ size 6891852
Data/johnny_v2/models/D_10000.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4f13a0ad18c5ef83b8d8aadcdd1d8a109956d7f48a1bde63a6212a582e6a319c
3
+ size 561098682
Data/johnny_v2/models/G_10000.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f29f7d4686aecf0759cab59e637626e6531705b364629c165ce47aeccf8de41f
3
+ size 721511718
Data/johnny_v2/models/githash ADDED
@@ -0,0 +1 @@
 
 
1
+ badb12585adf04740013ccbcc43a82c843450490
config.yml ADDED
@@ -0,0 +1,174 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # 全局配置
2
+ # 对于希望在同一时间使用多个配置文件的情况,例如两个GPU同时跑两个训练集:通过环境变量指定配置文件,不指定则默认为./config.yml
3
+
4
+ # 拟提供通用路径配置,统一存放数据,避免数据放得很乱
5
+ # 每个数据集与其对应的模型存放至统一路径下,后续所有的路径配置均为相对于datasetPath的路径
6
+ # 不填或者填空则路径为相对于项目根目录的路径
7
+ dataset_path: "Data/"
8
+
9
+ # 模型镜像源,默认huggingface,使用openi镜像源需指定openi_token
10
+ mirror: ""
11
+ openi_token: "" # openi token
12
+
13
+ # resample 音频重采样配置
14
+ # 注意, “:” 后需要加空格
15
+ resample:
16
+ # 目标重采样率
17
+ sampling_rate: 44100
18
+ # 音频文件输入路径,重采样会将该路径下所有.wav音频文件重采样
19
+ # 请填入相对于datasetPath的相对路径
20
+ in_dir: "audios/raw" # 相对于根目录的路径为 /datasetPath/in_dir
21
+ # 音频文件重采样后输出路径
22
+ out_dir: "audios/wavs"
23
+
24
+
25
+ # preprocess_text 数据集预处理相关配置
26
+ # 注意, “:” 后需要加空格
27
+ preprocess_text:
28
+ # 原始文本文件路径,文本格式应为{wav_path}|{speaker_name}|{language}|{text}。
29
+ transcription_path: "filelists/你的数据集文本.list"
30
+ # 数据清洗后文本路径,可以不填。不填则将在原始文本目录生成
31
+ cleaned_path: ""
32
+ # 训练集路径
33
+ train_path: "filelists/train.list"
34
+ # 验证集路径
35
+ val_path: "filelists/val.list"
36
+ # 配置文件路径
37
+ config_path: "config.json"
38
+ # 每个speaker的验证集条数
39
+ val_per_spk: 4
40
+ # 验证集最大条数,多于的会被截断并放到训练集中
41
+ max_val_total: 8
42
+ # 是否进行数据清洗
43
+ clean: true
44
+
45
+
46
+ # bert_gen 相关配置
47
+ # 注意, “:” 后需要加空格
48
+ bert_gen:
49
+ # 训练数据集配置文件路径
50
+ config_path: "config.json"
51
+ # 并行数
52
+ num_processes: 2
53
+ # 使用设备:可选项 "cuda" 显卡推理,"cpu" cpu推理
54
+ # 该选项同时决定了get_bert_feature的默认设备
55
+ device: "cuda"
56
+ # 使用多卡推理
57
+ use_multi_device: false
58
+
59
+ # emo_gen 相关配置
60
+ # 注意, “:” 后需要加空格
61
+ emo_gen:
62
+ # 训练数据集配置文件路径
63
+ config_path: "config.json"
64
+ # 并行数
65
+ num_processes: 2
66
+ # 使用设备:可选项 "cuda" 显卡推理,"cpu" cpu推理
67
+ device: "cuda"
68
+
69
+ # train 训练配置
70
+ # 注意, “:” 后需要加空格
71
+ train_ms:
72
+ env:
73
+ MASTER_ADDR: "localhost"
74
+ MASTER_PORT: 10086
75
+ WORLD_SIZE: 1
76
+ LOCAL_RANK: 0
77
+ RANK: 0
78
+ # 可以填写任意名的环境变量
79
+ # THE_ENV_VAR_YOU_NEED_TO_USE: "1234567"
80
+ # 底模设置
81
+ base:
82
+ use_base_model: false
83
+ repo_id: "Stardust_minus/Bert-VITS2"
84
+ model_image: "Bert-VITS2_2.1-Emo底模" # openi网页的模型名
85
+ # 训练模型存储目录:与旧版本的区别,原先数据集是存放在logs/model_name下的,现在改为统一存放在Data/你的数据集/models下
86
+ model: "models"
87
+ # 配置文件路径
88
+ config_path: "configs/config.json"
89
+ # 训练使用的worker,不建议超过CPU核心数
90
+ num_workers: 16
91
+ # 关闭此项可以节约接近50%的磁盘空间,但是可能导致实际训练速度变慢和更高的CPU使用率。
92
+ spec_cache: True
93
+ # 保存的检查点数量,多于此数目的权重会被删除来节省空间。
94
+ keep_ckpts: 8
95
+
96
+
97
+ # webui webui配置
98
+ # 注意, “:” 后需要加空格
99
+ webui:
100
+ # 推理设备
101
+ device: "cuda"
102
+ # 模型路径
103
+ model: "johnny_v2/models/G_10000.pth"
104
+ # 配置文件路径
105
+ config_path: "configs/config.json"
106
+ # 端口号
107
+ port: 7860
108
+ # 是否公开部署,对外网开放
109
+ share: true
110
+ # 是否开启debug模式
111
+ debug: false
112
+ # 语种识别库,可选langid, fastlid
113
+ language_identification_library: "langid"
114
+
115
+
116
+ # server api配置
117
+ # 注意, “:” 后需要加空格
118
+ # 注意,本配置下的所有配置均为相对于根目录的路径
119
+ server:
120
+ # 端口号
121
+ port: 5000
122
+ # 模型默认使用设备:但是当前并没有实现这个配置。
123
+ device: "cuda"
124
+ # 需要加载的所有模型的配置
125
+ # 注意,所有模型都必须正确配置model与config的路径,空路径会导致加载错误。
126
+ models:
127
+ - # 模型的路径
128
+ model: ""
129
+ # 模型config.json的路径
130
+ config: ""
131
+ # 模型使用设备,若填写则会覆盖默认配置
132
+ device: "cuda"
133
+ # 模型默认使用的语言
134
+ language: "ZH"
135
+ # 模型人物默认参数
136
+ # 不必填写所有人物,不填的使用默认值
137
+ # 暂时不用填写,当前尚未实现按人区分配置
138
+ speakers:
139
+ - speaker: "科比"
140
+ sdp_ratio: 0.2
141
+ noise_scale: 0.6
142
+ noise_scale_w: 0.8
143
+ length_scale: 1
144
+ - speaker: "五条悟"
145
+ sdp_ratio: 0.3
146
+ noise_scale: 0.7
147
+ noise_scale_w: 0.8
148
+ length_scale: 0.5
149
+ - speaker: "安倍晋三"
150
+ sdp_ratio: 0.2
151
+ noise_scale: 0.6
152
+ noise_scale_w: 0.8
153
+ length_scale: 1.2
154
+ - # 模型的路径
155
+ model: ""
156
+ # 模型config.json的路径
157
+ config: ""
158
+ # 模型使用设备,若填写则会覆盖默认配置
159
+ device: "cpu"
160
+ # 模型默认使用的语言
161
+ language: "JP"
162
+ # 模型人物默认参数
163
+ # 不必填写所有人物,不填的使用默认值
164
+ speakers: [ ] # 也可以不填
165
+
166
+
167
+ # 百度翻译开放平台 api配置
168
+ # api接入文档 https://api.fanyi.baidu.com/doc/21
169
+ # 请不要在github等网站公开分享你的app id 与 key
170
+ translate:
171
+ # 你的APPID
172
+ "app_key": ""
173
+ # 你的密钥
174
+ "secret_key": ""