novateur
/

aaa

Model card Files Files and versions Community

aaa / wavvae3.py

novateur

Upload 2 files

26b7fce verified 8 days ago

raw

history blame contribute delete

12.9 kB

	import argparse
	import filecmp
	import multiprocessing
	import os
	import subprocess
	import librosa
	from functools import partial
	from multiprocessing import Pool, Process

	import numpy as np
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import torch.distributed as dist
	from torch.optim import AdamW

	from modules.vocoder.commons.stft_loss import MultiResolutionSTFTLoss
	from modules.vocoder.hifigan.hifigan import MultiPeriodDiscriminator, MultiScaleDiscriminator, \
	generator_loss, feature_loss, discriminator_loss
	from modules.vocoder.hifigan.mel_utils import mel_spectrogram
	from modules.vocoder.univnet.mrd import MultiResolutionDiscriminator
	from modules.tts.wavvae.decoder.wavvae_v3 import WavVAE_V3
	from tasks.tts.utils.audio import torch_wav2spec
	from tasks.tts.utils.audio.align import mel2token_to_dur
	from utils.commons.ckpt_utils import load_ckpt
	from utils.commons.hparams import hparams

	from attrdict import AttrDict
	from tasks.tts.dataset_mixin import TTSDatasetMixin
	from utils.commons.base_task import BaseTask
	from utils.commons.import_utils import import_module_bystr
	from utils.nn.schedulers import WarmupSchedule, CosineSchedule


	class WavVAETask(TTSDatasetMixin, BaseTask):
	def __init__(self):
	super().__init__()
	self.dataset_cls = import_module_bystr(hparams['dataset_cls'])
	self.val_dataset_cls = import_module_bystr(hparams['val_dataset_cls'])
	self.processer_fn = import_module_bystr(hparams['processer_fn'])
	self.build_fast_dataloader = import_module_bystr(hparams['build_fast_dataloader'])
	self.hparams = hparams
	self.config = AttrDict(hparams)

	# Online load mel with GPU
	sample_rate = hparams["audio_sample_rate"]
	fft_size = hparams["win_size"]
	win_size = hparams["win_size"]
	hop_size = hparams["hop_size"]
	num_mels = hparams["audio_num_mel_bins"]
	fmin = hparams["fmin"]
	fmax = hparams["fmax"]
	mel_basis = librosa.filters.mel(
	sr=sample_rate, n_fft=fft_size, n_mels=num_mels, fmin=fmin, fmax=fmax
	)
	self.torch_wav2spec_ = partial(
	torch_wav2spec, mel_basis=mel_basis, fft_size=fft_size, hop_size=hop_size, win_length=win_size,
	)

	def build_model(self):
	self.model_gen = WavVAE_V3(hparams=hparams)

	self.model_disc = torch.nn.ModuleDict()
	self.model_disc['mpd'] = MultiPeriodDiscriminator(hparams['mpd'], use_cond=hparams['use_cond_disc'])
	self.model_disc['msd'] = MultiScaleDiscriminator(use_cond=hparams['use_cond_disc'])
	if hparams['use_mrd']:
	self.model_disc['mrd'] = MultiResolutionDiscriminator(hparams)
	self.stft_loss = MultiResolutionSTFTLoss()

	load_ckpt(self.model_gen.encoder, './checkpoints/1231_megatts3_wavvae_v2_25hz', 'model.module.encoder', strict=False)
	load_ckpt(self.model_gen.decoder, './checkpoints/1117_melgan-nsf_full_1', 'model_gen', force=True, strict=True)
	load_ckpt(self.model_disc, './checkpoints/1117_melgan-nsf_full_1', 'model_disc', force=True, strict=True)
	return {'trainable': [self.model_gen, self.model_disc['mpd'], self.model_disc['msd'], self.model_disc['mrd']], 'others': []}

	def load_model(self):
	if hparams.get('load_ckpt', '') != '':
	load_ckpt(self.model, hparams['load_ckpt'], 'model', strict=False)

	def build_optimizer(self):
	optimizer_gen = torch.optim.AdamW(self.model_gen.parameters(), lr=hparams['lr'],
	betas=[hparams['adam_b1'], hparams['adam_b2']])
	optimizer_disc = torch.optim.AdamW(self.model_disc.parameters(),
	lr=hparams.get('disc_lr', hparams['lr']),
	betas=[hparams['adam_b1'], hparams['adam_b2']])
	return [optimizer_gen, optimizer_disc]

	def build_scheduler(self, optimizer):
	return None

	def _training_step(self, sample, batch_idx, optimizer_idx):
	log_outputs = {}
	loss_weights = {}
	sample['wavs'] = sample['wavs'].float()
	# return None, {}

	if self.global_step % 100 == 0:
	devices = os.environ.get('CUDA_VISIBLE_DEVICES', '').split(",")
	for d in devices:
	os.system(f'pkill -f "voidgpu{d}"')

	y = sample['wavs']
	loss_output = {}
	if optimizer_idx == 0:
	#######################
	# Generator #
	#######################
	y_, posterior = self.model_gen(y)
	y = y.unsqueeze(1)
	y_mel = mel_spectrogram(y.squeeze(1), hparams).transpose(1, 2)
	y_hat_mel = mel_spectrogram(y_.squeeze(1), hparams).transpose(1, 2)
	loss_output['mel'] = F.l1_loss(y_hat_mel, y_mel) * hparams['lambda_mel']
	if self.training:
	_, y_p_hat_g, fmap_f_r, fmap_f_g = self.model_disc['mpd'](y, y_, None)
	_, y_s_hat_g, fmap_s_r, fmap_s_g = self.model_disc['msd'](y, y_, None)
	loss_output['a_p'] = generator_loss(y_p_hat_g) * hparams['lambda_adv'] * hparams.get('lambda_mpd', 1.0)
	loss_output['a_s'] = generator_loss(y_s_hat_g) * hparams['lambda_adv'] * hparams.get('lambda_msd', 1.0)
	if hparams['use_mrd']:
	y_r_hat_g = [x[1] for x in self.model_disc['mrd'](y_)]
	loss_output['a_r'] = generator_loss(y_r_hat_g) \
	* hparams['lambda_adv'] * hparams.get('lambda_mrd', 1.0)
	if hparams['use_ms_stft']:
	loss_output['sc'], loss_output['mag'] = self.stft_loss(y.squeeze(1), y_.squeeze(1))
	loss_output['kl_loss'] = posterior.kl().mean() * hparams.get('lambda_kl', 1.0)
	self.y_ = y_.detach()
	else:
	#######################
	# Discriminator #
	#######################
	if not self.training:
	return None
	y = y.unsqueeze(1)
	y_ = self.y_
	# MPD
	y_p_hat_r, y_p_hat_g, _, _ = self.model_disc['mpd'](y, y_.detach(), None)
	loss_output['r_p'], loss_output['f_p'] = discriminator_loss(y_p_hat_r, y_p_hat_g)
	# MSD
	y_s_hat_r, y_s_hat_g, _, _ = self.model_disc['msd'](y, y_.detach(), None)
	loss_output['r_s'], loss_output['f_s'] = discriminator_loss(y_s_hat_r, y_s_hat_g)
	# MRD
	if hparams['use_mrd']:
	y_r_hat_r = [x[1] for x in self.model_disc['mrd'](y)]
	y_r_hat_g = [x[1] for x in self.model_disc['mrd'](y_.detach())]
	loss_output['r_r'], loss_output['f_r'] = discriminator_loss(y_r_hat_r, y_r_hat_g)
	total_loss = sum(loss_output.values())
	loss_output['bs'] = sample['wavs'].shape[0]
	return total_loss, loss_output

	def save_valid_result(self, sample, batch_idx, model_out):
	sr = hparams['audio_sample_rate']
	mel_out = model_out.get('mel_out')
	f0 = sample.get('f0')
	f0_gt = sample.get('f0')
	if f0 is not None:
	f0_gt = f0_gt.cpu()[-1]
	if mel_out is not None:
	f0_pred = self.predict_f0(sample['mels'])
	self.plot_mel(batch_idx, sample['mels'], mel_out, f0s={'f0': f0_pred, 'f0g': f0_gt})
	# gt wav
	if self.global_step <= hparams['valid_infer_interval']:
	mel_gt = sample['mels'][-1].cpu()
	f0 = self.predict_f0(sample['mels'][-1:])
	wav_gt = self.vocoder.spec2wav(mel_gt, f0=f0)
	self.logger.add_audio(f'wav_gt_{batch_idx}', wav_gt, self.global_step, sr)

	if self.global_step >= 0:
	# with gt duration
	model_out = self.run_model(sample, infer=True, infer_use_gt_dur=True)
	# dur_info = self.get_plot_dur_info(sample, model_out)
	# del dur_info['dur_pred']
	dur_info = None

	f0 = self.predict_f0(model_out['mel_out'])
	wav_pred = self.vocoder.spec2wav(model_out['mel_out'][-1].cpu(), f0=f0)
	self.logger.add_audio(f'wav_gdur_{batch_idx}', wav_pred, self.global_step, sr)
	self.plot_mel(batch_idx, sample['mels'][-1:], model_out['mel_out'][-1], f'mel_gdur_{batch_idx}',
	dur_info=dur_info, f0s={'f0': f0, 'f0g': f0_gt})

	# with pred duration
	if not hparams['use_gt_dur'] and not hparams['use_gt_latent']:
	model_out = self.run_model(sample, infer=True, infer_use_gt_dur=False)
	# dur_info = self.get_plot_dur_info(sample, model_out)
	dur_info = None
	f0 = self.predict_f0(model_out['mel_out'])
	self.plot_mel(
	batch_idx, sample['mels'], model_out['mel_out'][-1], f'mel_pdur_{batch_idx}',
	dur_info=dur_info, f0s={'f0': f0, 'f0g': f0_gt})
	wav_pred = self.vocoder.spec2wav(model_out['mel_out'][-1].cpu(), f0=f0)
	self.logger.add_audio(f'wav_pdur_{batch_idx}', wav_pred, self.global_step, sr)

	def get_plot_dur_info(self, sample, model_out):
	T_txt = sample['txt_tokens'].shape[1]
	dur_gt = mel2token_to_dur(sample['mel2ph'], T_txt)[-1]
	dur_pred = model_out['dur'] if 'dur' in model_out else dur_gt
	txt = self.token_encoder.decode(sample['txt_tokens'][-1].cpu().numpy())
	txt = txt.split(" ")
	return {'dur_gt': dur_gt, 'dur_pred': dur_pred, 'txt': txt}

	def on_before_optimization(self, opt_idx):
	if opt_idx == 0:
	nn.utils.clip_grad_norm_(self.model_gen.parameters(), hparams['generator_grad_norm'])
	else:
	nn.utils.clip_grad_norm_(self.model_disc.parameters(), hparams["discriminator_grad_norm"])

	def to(self, device=None, dtype=None):
	super().to(device=device, dtype=dtype)
	# trainer doesn't move ema to device automatically, we do it mannually
	if hparams.get('use_ema', False):
	self.ema.to(device=device, dtype=dtype)

	def cuda(self,device):
	super().cuda(device)
	if hparams.get('use_ema', False):
	self.ema.to(device=device)

	@torch.no_grad()
	def validation_step(self, sample, batch_idx):
	infer_steps = self.hparams.get('infer_steps', 12)
	outputs = self._validation_step(sample, batch_idx, infer_steps)
	return outputs

	def _validation_step(self, sample, batch_idx, infer_steps):
	outputs = {}
	if self.trainer.proc_rank == 0:
	# self.vae.eval()
	# with torch.inference_mode():
	# with torch.cuda.amp.autocast(dtype=torch.bfloat16, enabled=True):
	# lat = self.vae.get_latent(sample["mels"])
	# lat_lens = latent_lengths.clamp(max=lat.size(1))
	# mel = self.vae.decode(lat)
	pass
	# outputs['losses'], _ = self.run_model(sample)
	# _, model_out = self.run_model(sample, infer=True, infer_steps=infer_steps)
	# outputs = tensors_to_scalars(outputs)
	# output_ldm = model_out['ldm_out']
	# T = output_ldm.shape[1]
	# ldm = sample['kps'][:, :T] # [B, T, nkp, kp_dim] [0, 1]
	# B, T, nkp, kp_dim = ldm.shape
	# output_ldm = self.denormalize_ldm(output_ldm)
	# recon_ldm = model_out['recon_ldm']
	# recon_ldm = self.denormalize_ldm(recon_ldm)

	# results_dir = f"{hparams['work_dir']}/results/{self.global_step}_infersteps{infer_steps}_cfg{hparams['cfg_w']}"
	# os.makedirs(results_dir, exist_ok=True)
	# n_ctx = model_out['ctx_mask'][0, :, 0].sum().long().item()
	# writer_kp = imageio.get_writer(f"{results_dir}/{batch_idx:06d}_kp.sil.mp4", fps=25)
	# writer_gt = imageio.get_writer(f"{results_dir}/{batch_idx:06d}_gt.sil.mp4", fps=25)
	# writer_pred = imageio.get_writer(f"{results_dir}/{batch_idx:06d}_pred.sil.mp4", fps=25)
	# for i in range(T):
	# img = self.draw_ldm(recon_ldm[0, i])
	# writer_gt.append_data(img)
	# img = self.draw_ldm(ldm[0, i])
	# writer_kp.append_data(img)
	# if i < n_ctx:
	# writer_pred.append_data(img)
	# else:
	# img = self.draw_ldm(
	# output_ldm[0, i], color=(255, 255, 0),
	# )
	# writer_pred.append_data(img)
	# writer_gt.close()
	# writer_kp.close()
	# writer_pred.close()
	return outputs

	@torch.no_grad()
	def test_step(self, sample, batch_idx):
	infer_steps = hparams['infer_steps']
	return self._validation_step(sample, batch_idx, infer_steps)