Spaces:

marigold334
/

Glow-HiFi-TTS

Runtime error

marigold334 commited on Jun 15, 2023

Commit

5e764fc

1 Parent(s): 8346e07

Update Tmodel.py (#31)

Files changed (1) hide show

Tmodel.py CHANGED Viewed

@@ -14,7 +14,7 @@ class GlowTTS(nn.Module):
         self.encoder = Encoder()
         self.decoder = Decoder()
-    def forward(self, text, text_len, mel=None, mel_len=None, inference=False):
         """
         =====inputs=====
         text: (B, T)
@@ -45,7 +45,7 @@ class GlowTTS(nn.Module):
         if not inference: # training
             y_max_len = y.size(2)
         else: # inference
-            dur = torch.exp(x_log_dur) * x_mask # (B, 1, T)
             ceil_dur = torch.ceil(dur) # (B, 1, T)
             y_len = torch.clamp_min(torch.sum(ceil_dur, [1, 2]), 1).long() # (B)
                 # ceil_dur을 [1, 2] 축에 대해 sum한 뒤 최솟값이 1이상이 되도록 설정. 정수 long 타입으로 반환한다.
@@ -99,7 +99,7 @@ class GlowTTS(nn.Module):
             z_log_std = z_log_std.transpose(1, 2) # (B, 80, F)
             log_d = torch.log(1e-8 + torch.sum(attention_alignment, -1)).unsqueeze(1) * x_mask # (B, 1, T) | alignment에서 형성된 duration의 log scale
-            z = (z_mean + torch.exp(z_log_std) * torch.randn_like(z_mean)) * z_mask # z(latent representation) 생성
             y, log_det = self.decoder(z, z_mask, reverse=True) # mel-spectrogram 생성
             return (y, z_mean, z_log_std, log_det, z_mask), (x_mean, x_log_std, x_mask), (attention_alignment, x_log_dur, log_d)

         self.encoder = Encoder()
         self.decoder = Decoder()
+    def forward(self, text, text_len, mel=None, mel_len=None, inference=False, noise_scale=1., length_scale=1.):
         """
         =====inputs=====
         text: (B, T)
         if not inference: # training
             y_max_len = y.size(2)
         else: # inference
+            dur = torch.exp(x_log_dur) * x_mask  * length_scale # (B, 1, T)
             ceil_dur = torch.ceil(dur) # (B, 1, T)
             y_len = torch.clamp_min(torch.sum(ceil_dur, [1, 2]), 1).long() # (B)
                 # ceil_dur을 [1, 2] 축에 대해 sum한 뒤 최솟값이 1이상이 되도록 설정. 정수 long 타입으로 반환한다.
             z_log_std = z_log_std.transpose(1, 2) # (B, 80, F)
             log_d = torch.log(1e-8 + torch.sum(attention_alignment, -1)).unsqueeze(1) * x_mask # (B, 1, T) | alignment에서 형성된 duration의 log scale
+            z = (z_mean + torch.exp(z_log_std) * torch.randn_like(z_mean) * noise_scale) * z_mask # z(latent representation) 생성
             y, log_det = self.decoder(z, z_mask, reverse=True) # mel-spectrogram 생성
             return (y, z_mean, z_log_std, log_det, z_mask), (x_mean, x_log_std, x_mask), (attention_alignment, x_log_dur, log_d)