Spaces:

JacobLinCool
/

ZeroRVC

Runtime error

ZeroRVC / zerorvc /synthesizer /models.py

github-actions[bot]

Sync to HuggingFace Spaces

b4d60ce 18 days ago

29.7 kB

	import math
	import logging
	from typing import List, Literal, Optional

	import torch
	from torch import nn
	from torch.nn import functional as F
	from torch.nn.utils import remove_weight_norm, spectral_norm
	from torch.nn.utils.parametrizations import weight_norm
	from huggingface_hub import PyTorchModelHubMixin

	from . import attentions, commons, modules
	from .commons import get_padding, init_weights

	logger = logging.getLogger(__name__)


	class TextEncoder(nn.Module):
	def __init__(
	self,
	in_channels: int,
	out_channels: int,
	hidden_channels: int,
	filter_channels: int,
	n_heads: int,
	n_layers: int,
	kernel_size: int,
	p_dropout: float,
	f0=True,
	):
	super().__init__()
	self.out_channels = out_channels
	self.hidden_channels = hidden_channels
	self.filter_channels = filter_channels
	self.n_heads = n_heads
	self.n_layers = n_layers
	self.kernel_size = kernel_size
	self.p_dropout = float(p_dropout)
	self.emb_phone = nn.Linear(in_channels, hidden_channels)
	self.lrelu = nn.LeakyReLU(0.1, inplace=True)
	if f0 == True:
	self.emb_pitch = nn.Embedding(256, hidden_channels) # pitch 256
	self.encoder = attentions.Encoder(
	hidden_channels,
	filter_channels,
	n_heads,
	n_layers,
	kernel_size,
	float(p_dropout),
	)
	self.proj = nn.Conv1d(hidden_channels, out_channels * 2, 1)

	def forward(
	self,
	phone: torch.Tensor,
	pitch: torch.Tensor,
	lengths: torch.Tensor,
	skip_head: Optional[torch.Tensor] = None,
	):
	if pitch is None:
	x = self.emb_phone(phone)
	else:
	x = self.emb_phone(phone) + self.emb_pitch(pitch)
	x = x * math.sqrt(self.hidden_channels) # [b, t, h]
	x = self.lrelu(x)
	x = torch.transpose(x, 1, -1) # [b, h, t]
	x_mask = torch.unsqueeze(commons.sequence_mask(lengths, x.size(2)), 1).to(
	x.dtype
	)
	x = self.encoder(x * x_mask, x_mask)
	if skip_head is not None:
	assert isinstance(skip_head, torch.Tensor)
	head = int(skip_head.item())
	x = x[:, :, head:]
	x_mask = x_mask[:, :, head:]
	stats = self.proj(x) * x_mask
	m, logs = torch.split(stats, self.out_channels, dim=1)
	return m, logs, x_mask


	class ResidualCouplingBlock(nn.Module):
	def __init__(
	self,
	channels: int,
	hidden_channels: int,
	kernel_size: int,
	dilation_rate: float,
	n_layers: int,
	n_flows=4,
	gin_channels=0,
	):
	super().__init__()
	self.channels = channels
	self.hidden_channels = hidden_channels
	self.kernel_size = kernel_size
	self.dilation_rate = dilation_rate
	self.n_layers = n_layers
	self.n_flows = n_flows
	self.gin_channels = gin_channels

	self.flows = nn.ModuleList()
	for i in range(n_flows):
	self.flows.append(
	modules.ResidualCouplingLayer(
	channels,
	hidden_channels,
	kernel_size,
	dilation_rate,
	n_layers,
	gin_channels=gin_channels,
	mean_only=True,
	)
	)
	self.flows.append(modules.Flip())

	def forward(
	self,
	x: torch.Tensor,
	x_mask: torch.Tensor,
	g: Optional[torch.Tensor] = None,
	reverse: bool = False,
	):
	if not reverse:
	for flow in self.flows:
	x, _ = flow(x, x_mask, g=g, reverse=reverse)
	else:
	for flow in self.flows[::-1]:
	x, _ = flow.forward(x, x_mask, g=g, reverse=reverse)
	return x

	def remove_weight_norm(self):
	for i in range(self.n_flows):
	self.flows[i * 2].remove_weight_norm()


	class PosteriorEncoder(nn.Module):
	def __init__(
	self,
	in_channels: int,
	out_channels: int,
	hidden_channels: int,
	kernel_size: int,
	dilation_rate: float,
	n_layers: int,
	gin_channels=0,
	):
	super().__init__()
	self.in_channels = in_channels
	self.out_channels = out_channels
	self.hidden_channels = hidden_channels
	self.kernel_size = kernel_size
	self.dilation_rate = dilation_rate
	self.n_layers = n_layers
	self.gin_channels = gin_channels

	self.pre = nn.Conv1d(in_channels, hidden_channels, 1)
	self.enc = modules.WN(
	hidden_channels,
	kernel_size,
	dilation_rate,
	n_layers,
	gin_channels=gin_channels,
	)
	self.proj = nn.Conv1d(hidden_channels, out_channels * 2, 1)

	def forward(
	self, x: torch.Tensor, x_lengths: torch.Tensor, g: Optional[torch.Tensor] = None
	):
	x_mask = torch.unsqueeze(commons.sequence_mask(x_lengths, x.size(2)), 1).to(
	x.dtype
	)
	x = self.pre(x) * x_mask
	x = self.enc(x, x_mask, g=g)
	stats = self.proj(x) * x_mask
	m, logs = torch.split(stats, self.out_channels, dim=1)
	z = (m + torch.randn_like(m) * torch.exp(logs)) * x_mask
	return z, m, logs, x_mask

	def remove_weight_norm(self):
	self.enc.remove_weight_norm()


	class Generator(torch.nn.Module):
	def __init__(
	self,
	initial_channel: int,
	resblock: Literal["1", "2"],
	resblock_kernel_sizes,
	resblock_dilation_sizes,
	upsample_rates,
	upsample_initial_channel: int,
	upsample_kernel_sizes,
	gin_channels=0,
	):
	super().__init__()
	self.num_kernels = len(resblock_kernel_sizes)
	self.num_upsamples = len(upsample_rates)
	self.conv_pre = nn.Conv1d(
	initial_channel, upsample_initial_channel, 7, 1, padding=3
	)
	resblock = modules.ResBlock1 if resblock == "1" else modules.ResBlock2

	self.ups = nn.ModuleList()
	for i, (u, k) in enumerate(zip(upsample_rates, upsample_kernel_sizes)):
	self.ups.append(
	weight_norm(
	nn.ConvTranspose1d(
	upsample_initial_channel // (2**i),
	upsample_initial_channel // (2 ** (i + 1)),
	k,
	u,
	padding=(k - u) // 2,
	)
	)
	)

	self.resblocks = nn.ModuleList()
	for i in range(len(self.ups)):
	ch = upsample_initial_channel // (2 ** (i + 1))
	for j, (k, d) in enumerate(
	zip(resblock_kernel_sizes, resblock_dilation_sizes)
	):
	self.resblocks.append(resblock(ch, k, d))

	self.conv_post = nn.Conv1d(ch, 1, 7, 1, padding=3, bias=False)
	self.ups.apply(init_weights)

	if gin_channels != 0:
	self.cond = nn.Conv1d(gin_channels, upsample_initial_channel, 1)

	def forward(
	self,
	x: torch.Tensor,
	g: Optional[torch.Tensor] = None,
	n_res: Optional[torch.Tensor] = None,
	):
	if n_res is not None:
	assert isinstance(n_res, torch.Tensor)
	n = int(n_res.item())
	if n != x.shape[-1]:
	x = F.interpolate(x, size=n, mode="linear")
	x = self.conv_pre(x)
	if g is not None:
	x = x + self.cond(g)

	for i in range(self.num_upsamples):
	x = F.leaky_relu(x, modules.LRELU_SLOPE)
	x = self.ups[i](x)
	xs = None
	for j in range(self.num_kernels):
	if xs is None:
	xs = self.resblocks[i * self.num_kernels + j](x)
	else:
	xs += self.resblocks[i * self.num_kernels + j](x)
	x = xs / self.num_kernels
	x = F.leaky_relu(x)
	x = self.conv_post(x)
	x = torch.tanh(x)

	return x

	def remove_weight_norm(self):
	for l in self.ups:
	remove_weight_norm(l)
	for l in self.resblocks:
	l.remove_weight_norm()


	class SineGen(torch.nn.Module):
	"""Definition of sine generator
	SineGen(samp_rate, harmonic_num = 0,
	sine_amp = 0.1, noise_std = 0.003,
	voiced_threshold = 0,
	flag_for_pulse=False)
	samp_rate: sampling rate in Hz
	harmonic_num: number of harmonic overtones (default 0)
	sine_amp: amplitude of sine-wavefrom (default 0.1)
	noise_std: std of Gaussian noise (default 0.003)
	voiced_thoreshold: F0 threshold for U/V classification (default 0)
	flag_for_pulse: this SinGen is used inside PulseGen (default False)
	Note: when flag_for_pulse is True, the first time step of a voiced
	segment is always sin(torch.pi) or cos(0)
	"""

	def __init__(
	self,
	samp_rate,
	harmonic_num=0,
	sine_amp=0.1,
	noise_std=0.003,
	voiced_threshold=0,
	flag_for_pulse=False,
	):
	super().__init__()
	self.sine_amp = sine_amp
	self.noise_std = noise_std
	self.harmonic_num = harmonic_num
	self.dim = self.harmonic_num + 1
	self.sampling_rate = samp_rate
	self.voiced_threshold = voiced_threshold

	def _f02uv(self, f0):
	# generate uv signal
	uv = torch.ones_like(f0)
	uv = uv * (f0 > self.voiced_threshold)
	return uv

	def forward(self, f0: torch.Tensor, upp: int):
	"""sine_tensor, uv = forward(f0)
	input F0: tensor(batchsize=1, length, dim=1)
	f0 for unvoiced steps should be 0
	output sine_tensor: tensor(batchsize=1, length, dim)
	output uv: tensor(batchsize=1, length, 1)
	"""
	with torch.no_grad():
	f0 = f0[:, None].transpose(1, 2)
	f0_buf = torch.zeros(f0.shape[0], f0.shape[1], self.dim, device=f0.device)
	# fundamental component
	f0_buf[:, :, 0] = f0[:, :, 0]
	for idx in range(self.harmonic_num):
	f0_buf[:, :, idx + 1] = f0_buf[:, :, 0] * (
	idx + 2
	) # idx + 2: the (idx+1)-th overtone, (idx+2)-th harmonic
	rad_values = (f0_buf / self.sampling_rate) % 1 ###%1意味着n_har的乘积无法后处理优化
	rand_ini = torch.rand(
	f0_buf.shape[0], f0_buf.shape[2], device=f0_buf.device
	)
	rand_ini[:, 0] = 0
	rad_values[:, 0, :] = rad_values[:, 0, :] + rand_ini
	tmp_over_one = torch.cumsum(rad_values, 1) # % 1 #####%1意味着后面的cumsum无法再优化
	tmp_over_one *= upp
	tmp_over_one = F.interpolate(
	tmp_over_one.transpose(2, 1),
	scale_factor=float(upp),
	mode="linear",
	align_corners=True,
	).transpose(2, 1)
	rad_values = F.interpolate(
	rad_values.transpose(2, 1), scale_factor=float(upp), mode="nearest"
	).transpose(
	2, 1
	) #######
	tmp_over_one %= 1
	tmp_over_one_idx = (tmp_over_one[:, 1:, :] - tmp_over_one[:, :-1, :]) < 0
	cumsum_shift = torch.zeros_like(rad_values)
	cumsum_shift[:, 1:, :] = tmp_over_one_idx * -1.0
	sine_waves = torch.sin(
	torch.cumsum(rad_values + cumsum_shift, dim=1) * 2 * torch.pi
	)
	sine_waves = sine_waves * self.sine_amp
	uv = self._f02uv(f0)
	uv = F.interpolate(
	uv.transpose(2, 1), scale_factor=float(upp), mode="nearest"
	).transpose(2, 1)
	noise_amp = uv * self.noise_std + (1 - uv) * self.sine_amp / 3
	noise = noise_amp * torch.randn_like(sine_waves)
	sine_waves = sine_waves * uv + noise
	return sine_waves, uv, noise


	class SourceModuleHnNSF(torch.nn.Module):
	"""SourceModule for hn-nsf
	SourceModule(sampling_rate, harmonic_num=0, sine_amp=0.1,
	add_noise_std=0.003, voiced_threshod=0)
	sampling_rate: sampling_rate in Hz
	harmonic_num: number of harmonic above F0 (default: 0)
	sine_amp: amplitude of sine source signal (default: 0.1)
	add_noise_std: std of additive Gaussian noise (default: 0.003)
	note that amplitude of noise in unvoiced is decided
	by sine_amp
	voiced_threshold: threhold to set U/V given F0 (default: 0)
	Sine_source, noise_source = SourceModuleHnNSF(F0_sampled)
	F0_sampled (batchsize, length, 1)
	Sine_source (batchsize, length, 1)
	noise_source (batchsize, length 1)
	uv (batchsize, length, 1)
	"""

	def __init__(
	self,
	sampling_rate: int,
	harmonic_num=0,
	sine_amp=0.1,
	add_noise_std=0.003,
	voiced_threshod=0,
	):
	super().__init__()

	self.sine_amp = sine_amp
	self.noise_std = add_noise_std
	# to produce sine waveforms
	self.l_sin_gen = SineGen(
	sampling_rate, harmonic_num, sine_amp, add_noise_std, voiced_threshod
	)

	# to merge source harmonics into a single excitation
	self.l_linear = torch.nn.Linear(harmonic_num + 1, 1)
	self.l_tanh = torch.nn.Tanh()
	# self.ddtype:int = -1

	def forward(self, x: torch.Tensor, upp: int = 1):
	# if self.ddtype ==-1:
	# self.ddtype = self.l_linear.weight.dtype
	sine_wavs, uv, _ = self.l_sin_gen(x, upp)
	# print(x.dtype,sine_wavs.dtype,self.l_linear.weight.dtype)
	# sine_merge = self.l_tanh(self.l_linear(sine_wavs.to(x)))
	# print(sine_wavs.dtype,self.ddtype)
	# if sine_wavs.dtype != self.l_linear.weight.dtype:
	sine_wavs = sine_wavs.to(dtype=self.l_linear.weight.dtype)
	sine_merge = self.l_tanh(self.l_linear(sine_wavs))
	return sine_merge, None, None # noise, uv


	class GeneratorNSF(torch.nn.Module):
	def __init__(
	self,
	initial_channel,
	resblock,
	resblock_kernel_sizes,
	resblock_dilation_sizes,
	upsample_rates,
	upsample_initial_channel,
	upsample_kernel_sizes,
	gin_channels,
	sr,
	):
	super().__init__()
	self.num_kernels = len(resblock_kernel_sizes)
	self.num_upsamples = len(upsample_rates)

	self.f0_upsamp = torch.nn.Upsample(scale_factor=math.prod(upsample_rates))
	self.m_source = SourceModuleHnNSF(
	sampling_rate=sr,
	harmonic_num=0,
	)
	self.noise_convs = nn.ModuleList()
	self.conv_pre = nn.Conv1d(
	initial_channel, upsample_initial_channel, 7, 1, padding=3
	)
	resblock = modules.ResBlock1 if resblock == "1" else modules.ResBlock2

	self.ups = nn.ModuleList()
	for i, (u, k) in enumerate(zip(upsample_rates, upsample_kernel_sizes)):
	c_cur = upsample_initial_channel // (2 ** (i + 1))
	self.ups.append(
	weight_norm(
	nn.ConvTranspose1d(
	upsample_initial_channel // (2**i),
	upsample_initial_channel // (2 ** (i + 1)),
	k,
	u,
	padding=(k - u) // 2,
	)
	)
	)
	if i + 1 < len(upsample_rates):
	stride_f0 = math.prod(upsample_rates[i + 1 :])
	self.noise_convs.append(
	nn.Conv1d(
	1,
	c_cur,
	kernel_size=stride_f0 * 2,
	stride=stride_f0,
	padding=stride_f0 // 2,
	)
	)
	else:
	self.noise_convs.append(nn.Conv1d(1, c_cur, kernel_size=1))

	self.resblocks = nn.ModuleList()
	for i in range(len(self.ups)):
	ch = upsample_initial_channel // (2 ** (i + 1))
	for j, (k, d) in enumerate(
	zip(resblock_kernel_sizes, resblock_dilation_sizes)
	):
	self.resblocks.append(resblock(ch, k, d))

	self.conv_post = nn.Conv1d(ch, 1, 7, 1, padding=3, bias=False)
	self.ups.apply(init_weights)

	if gin_channels != 0:
	self.cond = nn.Conv1d(gin_channels, upsample_initial_channel, 1)

	self.upp = math.prod(upsample_rates)

	self.lrelu_slope = modules.LRELU_SLOPE

	def forward(
	self,
	x,
	f0,
	g: Optional[torch.Tensor] = None,
	n_res: Optional[torch.Tensor] = None,
	):
	har_source, noi_source, uv = self.m_source(f0, self.upp)
	har_source = har_source.transpose(1, 2)
	if n_res is not None:
	assert isinstance(n_res, torch.Tensor)
	n = int(n_res.item())
	if n * self.upp != har_source.shape[-1]:
	har_source = F.interpolate(har_source, size=n * self.upp, mode="linear")
	if n != x.shape[-1]:
	x = F.interpolate(x, size=n, mode="linear")
	x = self.conv_pre(x)
	if g is not None:
	x = x + self.cond(g)
	for i, (ups, noise_convs) in enumerate(zip(self.ups, self.noise_convs)):
	if i < self.num_upsamples:
	x = F.leaky_relu(x, self.lrelu_slope)
	x = ups(x)
	x_source = noise_convs(har_source)
	x = x + x_source
	xs: torch.Tensor = None
	l = [i * self.num_kernels + j for j in range(self.num_kernels)]
	for j, resblock in enumerate(self.resblocks):
	if j in l:
	if xs is None:
	xs = resblock(x)
	else:
	xs += resblock(x)
	x = xs / self.num_kernels
	x = F.leaky_relu(x)
	x = self.conv_post(x)
	x = torch.tanh(x)

	return x

	def remove_weight_norm(self):
	for l in self.ups:
	remove_weight_norm(l)
	for l in self.resblocks:
	l.remove_weight_norm()


	class SynthesizerTrnMs256NSFsid(nn.Module):
	def __init__(
	self,
	spec_channels,
	segment_size,
	inter_channels,
	hidden_channels,
	filter_channels,
	n_heads,
	n_layers,
	kernel_size,
	p_dropout,
	resblock,
	resblock_kernel_sizes,
	resblock_dilation_sizes,
	upsample_rates,
	upsample_initial_channel,
	upsample_kernel_sizes,
	spk_embed_dim,
	gin_channels,
	sr,
	):
	super().__init__()
	self.spec_channels = spec_channels
	self.inter_channels = inter_channels
	self.hidden_channels = hidden_channels
	self.filter_channels = filter_channels
	self.n_heads = n_heads
	self.n_layers = n_layers
	self.kernel_size = kernel_size
	self.p_dropout = float(p_dropout)
	self.resblock = resblock
	self.resblock_kernel_sizes = resblock_kernel_sizes
	self.resblock_dilation_sizes = resblock_dilation_sizes
	self.upsample_rates = upsample_rates
	self.upsample_initial_channel = upsample_initial_channel
	self.upsample_kernel_sizes = upsample_kernel_sizes
	self.segment_size = segment_size
	self.gin_channels = gin_channels
	# self.hop_length = hop_length#
	self.spk_embed_dim = spk_embed_dim
	self.enc_p = TextEncoder(
	256,
	inter_channels,
	hidden_channels,
	filter_channels,
	n_heads,
	n_layers,
	kernel_size,
	float(p_dropout),
	)
	self.dec = GeneratorNSF(
	inter_channels,
	resblock,
	resblock_kernel_sizes,
	resblock_dilation_sizes,
	upsample_rates,
	upsample_initial_channel,
	upsample_kernel_sizes,
	gin_channels=gin_channels,
	sr=sr,
	)
	self.enc_q = PosteriorEncoder(
	spec_channels,
	inter_channels,
	hidden_channels,
	5,
	1,
	16,
	gin_channels=gin_channels,
	)
	self.flow = ResidualCouplingBlock(
	inter_channels, hidden_channels, 5, 1, 3, gin_channels=gin_channels
	)
	self.emb_g = nn.Embedding(self.spk_embed_dim, gin_channels)
	logger.debug(
	"gin_channels: "
	+ str(gin_channels)
	+ ", self.spk_embed_dim: "
	+ str(self.spk_embed_dim)
	)

	def remove_weight_norm(self):
	self.dec.remove_weight_norm()
	self.flow.remove_weight_norm()
	if hasattr(self, "enc_q"):
	self.enc_q.remove_weight_norm()

	def forward(
	self,
	phone: torch.Tensor,
	phone_lengths: torch.Tensor,
	pitch: torch.Tensor,
	pitchf: torch.Tensor,
	y: torch.Tensor,
	y_lengths: torch.Tensor,
	ds: Optional[torch.Tensor] = None,
	): # 这里ds是id，[bs,1]
	# print(1,pitch.shape)#[bs,t]
	g = self.emb_g(ds).unsqueeze(-1) # [b, 256, 1]##1是t，广播的
	m_p, logs_p, x_mask = self.enc_p(phone, pitch, phone_lengths)
	z, m_q, logs_q, y_mask = self.enc_q(y, y_lengths, g=g)
	z_p = self.flow(z, y_mask, g=g)
	z_slice, ids_slice = commons.rand_slice_segments(
	z, y_lengths, self.segment_size
	)
	# print(-1,pitchf.shape,ids_slice,self.segment_size,self.hop_length,self.segment_size//self.hop_length)
	pitchf = commons.slice_segments2(pitchf, ids_slice, self.segment_size)
	# print(-2,pitchf.shape,z_slice.shape)
	o = self.dec(z_slice, pitchf, g=g)
	return o, ids_slice, x_mask, y_mask, (z, z_p, m_p, logs_p, m_q, logs_q)

	def infer(
	self,
	phone: torch.Tensor,
	phone_lengths: torch.Tensor,
	pitch: torch.Tensor,
	nsff0: torch.Tensor,
	sid: torch.Tensor,
	skip_head: Optional[torch.Tensor] = None,
	return_length: Optional[torch.Tensor] = None,
	return_length2: Optional[torch.Tensor] = None,
	):
	g = self.emb_g(sid).unsqueeze(-1)
	if skip_head is not None and return_length is not None:
	assert isinstance(skip_head, torch.Tensor)
	assert isinstance(return_length, torch.Tensor)
	head = int(skip_head.item())
	length = int(return_length.item())
	flow_head = torch.clamp(skip_head - 24, min=0)
	dec_head = head - int(flow_head.item())
	m_p, logs_p, x_mask = self.enc_p(phone, pitch, phone_lengths, flow_head)
	z_p = (m_p + torch.exp(logs_p) * torch.randn_like(m_p) * 0.66666) * x_mask
	z = self.flow(z_p, x_mask, g=g, reverse=True)
	z = z[:, :, dec_head : dec_head + length]
	x_mask = x_mask[:, :, dec_head : dec_head + length]
	nsff0 = nsff0[:, head : head + length]
	else:
	m_p, logs_p, x_mask = self.enc_p(phone, pitch, phone_lengths)
	z_p = (m_p + torch.exp(logs_p) * torch.randn_like(m_p) * 0.66666) * x_mask
	z = self.flow(z_p, x_mask, g=g, reverse=True)
	o = self.dec(z * x_mask, nsff0, g=g, n_res=return_length2)
	return o, x_mask, (z, z_p, m_p, logs_p)


	class SynthesizerTrnMs768NSFsid(SynthesizerTrnMs256NSFsid, PyTorchModelHubMixin):
	def __init__(
	self,
	spec_channels: int,
	segment_size: int,
	inter_channels: int,
	hidden_channels: int,
	filter_channels: int,
	n_heads: int,
	n_layers: int,
	kernel_size: int,
	p_dropout: float,
	resblock: Literal["1", "2"],
	resblock_kernel_sizes: List[int],
	resblock_dilation_sizes: list[list[int]],
	upsample_rates: list[int],
	upsample_initial_channel: int,
	upsample_kernel_sizes: list[int],
	spk_embed_dim: int,
	gin_channels: int,
	sr: int,
	):
	super().__init__(
	spec_channels,
	segment_size,
	inter_channels,
	hidden_channels,
	filter_channels,
	n_heads,
	n_layers,
	kernel_size,
	p_dropout,
	resblock,
	resblock_kernel_sizes,
	resblock_dilation_sizes,
	upsample_rates,
	upsample_initial_channel,
	upsample_kernel_sizes,
	spk_embed_dim,
	gin_channels,
	sr,
	)
	del self.enc_p
	self.enc_p = TextEncoder(
	768,
	inter_channels,
	hidden_channels,
	filter_channels,
	n_heads,
	n_layers,
	kernel_size,
	float(p_dropout),
	)


	class MultiPeriodDiscriminator(torch.nn.Module):
	def __init__(self, use_spectral_norm=False):
	super().__init__()
	# periods = [2, 3, 5, 7, 11, 17]
	periods = [2, 3, 5, 7, 11, 17, 23, 37]

	discs = [DiscriminatorS(use_spectral_norm=use_spectral_norm)]
	discs = discs + [
	DiscriminatorP(i, use_spectral_norm=use_spectral_norm) for i in periods
	]
	self.discriminators = nn.ModuleList(discs)

	def forward(self, y, y_hat):
	y_d_rs = [] #
	y_d_gs = []
	fmap_rs = []
	fmap_gs = []
	for i, d in enumerate(self.discriminators):
	y_d_r, fmap_r = d(y)
	y_d_g, fmap_g = d(y_hat)
	# for j in range(len(fmap_r)):
	# print(i,j,y.shape,y_hat.shape,fmap_r[j].shape,fmap_g[j].shape)
	y_d_rs.append(y_d_r)
	y_d_gs.append(y_d_g)
	fmap_rs.append(fmap_r)
	fmap_gs.append(fmap_g)

	return y_d_rs, y_d_gs, fmap_rs, fmap_gs


	class DiscriminatorS(torch.nn.Module):
	def __init__(self, use_spectral_norm=False):
	super().__init__()
	norm_f = weight_norm if use_spectral_norm == False else spectral_norm
	self.convs = nn.ModuleList(
	[
	norm_f(nn.Conv1d(1, 16, 15, 1, padding=7)),
	norm_f(nn.Conv1d(16, 64, 41, 4, groups=4, padding=20)),
	norm_f(nn.Conv1d(64, 256, 41, 4, groups=16, padding=20)),
	norm_f(nn.Conv1d(256, 1024, 41, 4, groups=64, padding=20)),
	norm_f(nn.Conv1d(1024, 1024, 41, 4, groups=256, padding=20)),
	norm_f(nn.Conv1d(1024, 1024, 5, 1, padding=2)),
	]
	)
	self.conv_post = norm_f(nn.Conv1d(1024, 1, 3, 1, padding=1))

	def forward(self, x):
	fmap = []

	for l in self.convs:
	x = l(x)
	x = F.leaky_relu(x, modules.LRELU_SLOPE)
	fmap.append(x)
	x = self.conv_post(x)
	fmap.append(x)
	x = torch.flatten(x, 1, -1)

	return x, fmap


	class DiscriminatorP(torch.nn.Module):
	def __init__(self, period, kernel_size=5, stride=3, use_spectral_norm=False):
	super().__init__()
	self.period = period
	self.use_spectral_norm = use_spectral_norm
	norm_f = weight_norm if use_spectral_norm == False else spectral_norm
	self.convs = nn.ModuleList(
	[
	norm_f(
	nn.Conv2d(
	1,
	32,
	(kernel_size, 1),
	(stride, 1),
	padding=(get_padding(kernel_size, 1), 0),
	)
	),
	norm_f(
	nn.Conv2d(
	32,
	128,
	(kernel_size, 1),
	(stride, 1),
	padding=(get_padding(kernel_size, 1), 0),
	)
	),
	norm_f(
	nn.Conv2d(
	128,
	512,
	(kernel_size, 1),
	(stride, 1),
	padding=(get_padding(kernel_size, 1), 0),
	)
	),
	norm_f(
	nn.Conv2d(
	512,
	1024,
	(kernel_size, 1),
	(stride, 1),
	padding=(get_padding(kernel_size, 1), 0),
	)
	),
	norm_f(
	nn.Conv2d(
	1024,
	1024,
	(kernel_size, 1),
	1,
	padding=(get_padding(kernel_size, 1), 0),
	)
	),
	]
	)
	self.conv_post = norm_f(nn.Conv2d(1024, 1, (3, 1), 1, padding=(1, 0)))

	def forward(self, x):
	fmap = []

	# 1d to 2d
	b, c, t = x.shape
	if t % self.period != 0: # pad first
	n_pad = self.period - (t % self.period)
	x = F.pad(x, (0, n_pad), "reflect")
	t = t + n_pad
	x = x.view(b, c, t // self.period, self.period)

	for l in self.convs:
	x = l(x)
	x = F.leaky_relu(x, modules.LRELU_SLOPE)
	fmap.append(x)
	x = self.conv_post(x)
	fmap.append(x)
	x = torch.flatten(x, 1, -1)

	return x, fmap