Spaces:

innnky
/

soft-vits-singingvc

Runtime error

rcell commited on Sep 13, 2022

Commit

5c37b3d

1 Parent(s): 26e83c1

优化F0提取速度

Files changed (2) hide show

app.py CHANGED Viewed

@@ -15,19 +15,21 @@ import utils
 from models import SynthesizerTrn
 from text.symbols import symbols
 from text import text_to_sequence
 def resize2d(source, target_len):
     source[source<0.001] = np.nan
     target = np.interp(np.arange(0, len(source)*target_len, len(source))/ target_len, np.arange(0, len(source)), source)
     return np.nan_to_num(target)
-def convert_wav_22050_to_f0(audio):
-    tmp = librosa.pyin(audio,
-                fmin=librosa.note_to_hz('C0'),
-                fmax=librosa.note_to_hz('C7'),
-                frame_length=1780)[0]
     f0 = np.zeros_like(tmp)
-    f0[tmp>0] = tmp[tmp>0]
     return f0
 def get_text(text, hps):
     text_norm = text_to_sequence(text, hps.data.text_cleaners)
     if hps.data.add_blank:

 from models import SynthesizerTrn
 from text.symbols import symbols
 from text import text_to_sequence
+import torchcrepe
 def resize2d(source, target_len):
     source[source<0.001] = np.nan
     target = np.interp(np.arange(0, len(source)*target_len, len(source))/ target_len, np.arange(0, len(source)), source)
     return np.nan_to_num(target)
+def convert_wav_22050_to_f0(path):
+    audio, sr = torchcrepe.load.audio(path)
+    tmp = torchcrepe.predict(audio=audio, fmin=50, fmax=550,
+                             sample_rate=22050, model='full',
+                             batch_size=2048, device='cuda:0').numpy()[0]
     f0 = np.zeros_like(tmp)
+    f0[tmp > 0] = tmp[tmp > 0]
     return f0
 def get_text(text, hps):
     text_norm = text_to_sequence(text, hps.data.text_cleaners)
     if hps.data.add_blank:

requirements.txt CHANGED Viewed

@@ -8,4 +8,5 @@ tensorboard==2.3.0
 torch
 torchvision
 Unidecode==1.1.1
-torchaudio

 torch
 torchvision
 Unidecode==1.1.1
+torchaudio
+torchcrepe