Spaces:

ORI-Muchim
/

BlueArchiveTTS

Running

App Files Files Community

ORI-Muchim commited on Feb 17, 2024

Commit

1f3f80b

verified ·

1 Parent(s): e9d239b

Update mel_processing.py

Browse files

Files changed (1) hide show

mel_processing.py +31 -4

mel_processing.py CHANGED Viewed

@@ -1,5 +1,17 @@
 import torch
 import torch.utils.data
 from librosa.filters import mel as librosa_mel_fn
 MAX_WAV_VALUE = 32768.0
@@ -52,9 +64,13 @@ def spectrogram_torch(y, n_fft, sampling_rate, hop_size, win_size, center=False)
     y = torch.nn.functional.pad(y.unsqueeze(1), (int((n_fft-hop_size)/2), int((n_fft-hop_size)/2)), mode='reflect')
     y = y.squeeze(1)
-    spec = torch.stft(y, n_fft, hop_length=hop_size, win_length=win_size, window=hann_window[wnsize_dtype_device],
-                      center=center, pad_mode='reflect', normalized=False, onesided=True, return_complex=False)
     spec = torch.sqrt(spec.pow(2).sum(-1) + 1e-6)
     return spec
@@ -90,8 +106,19 @@ def mel_spectrogram_torch(y, n_fft, num_mels, sampling_rate, hop_size, win_size,
     y = torch.nn.functional.pad(y.unsqueeze(1), (int((n_fft-hop_size)/2), int((n_fft-hop_size)/2)), mode='reflect')
     y = y.squeeze(1)
-    spec = torch.stft(y, n_fft, hop_length=hop_size, win_length=win_size, window=hann_window[wnsize_dtype_device],
                       center=center, pad_mode='reflect', normalized=False, onesided=True)
     spec = torch.sqrt(spec.pow(2).sum(-1) + 1e-6)

+import math
+import os
+from packaging import version
+import random
 import torch
+from torch import nn
+import torch.nn.functional as F
 import torch.utils.data
+import numpy as np
+import librosa
+import librosa.util as librosa_util
+from librosa.util import normalize, pad_center, tiny
+from scipy.signal import get_window
+from scipy.io.wavfile import read
 from librosa.filters import mel as librosa_mel_fn
 MAX_WAV_VALUE = 32768.0
     y = torch.nn.functional.pad(y.unsqueeze(1), (int((n_fft-hop_size)/2), int((n_fft-hop_size)/2)), mode='reflect')
     y = y.squeeze(1)
+    if version.parse(torch.__version__) >= version.parse("2"):
+        spec = torch.stft(y, n_fft, hop_length=hop_size, win_length=win_size, window=hann_window[wnsize_dtype_device],
+                          center=center, pad_mode='reflect', normalized=False, onesided=True, return_complex=False)
+    else:
+        spec = torch.stft(y, n_fft, hop_length=hop_size, win_length=win_size, window=hann_window[wnsize_dtype_device],
+                      center=center, pad_mode='reflect', normalized=False, onesided=True)
     spec = torch.sqrt(spec.pow(2).sum(-1) + 1e-6)
     return spec
     y = torch.nn.functional.pad(y.unsqueeze(1), (int((n_fft-hop_size)/2), int((n_fft-hop_size)/2)), mode='reflect')
     y = y.squeeze(1)
+    if version.parse(torch.__version__) >= version.parse("2"):
+        spec = torch.stft(y, n_fft, hop_length=hop_size, win_length=win_size, window=hann_window[wnsize_dtype_device],
+                          center=center, pad_mode='reflect', normalized=False, onesided=True, return_complex=False)
+    else:
+        spec = torch.stft(y, n_fft, hop_length=hop_size, win_length=win_size, window=hann_window[wnsize_dtype_device],
                       center=center, pad_mode='reflect', normalized=False, onesided=True)
+    '''
+    #- reserve : from https://github.com/jaywalnut310/vits/issues/15#issuecomment-1084148441
+    with autocast(enabled=False):
+        y = y.float()
+        spec = torch.stft(y, n_fft, hop_length=hop_size, win_length=win_size, window=hann_window[wnsize_dtype_device],
+                        center=center, pad_mode='reflect', normalized=False, onesided=True)
+    '''
     spec = torch.sqrt(spec.pow(2).sum(-1) + 1e-6)