Spaces:

mazalaai
/

tts

Sleeping

App Files Files Community

MAZALA2024 commited on Oct 18, 2024

Commit

8077420

verified ·

1 Parent(s): b1745b8

Update vc_infer_pipeline.py

Browse files

Files changed (1) hide show

vc_infer_pipeline.py +11 -39

vc_infer_pipeline.py CHANGED Viewed

@@ -205,6 +205,9 @@ class VC(object):
             feats = model.final_proj(logits[0]) if version == "v1" else logits[0]
         if protect < 0.5 and pitch is not None and pitchf is not None:
             feats0 = feats.clone()
         if (
             index is not None
             and big_npy is not None
@@ -265,7 +268,7 @@ class VC(object):
         times[2] += t2 - t1
         logger.info(f"VC output shape: {audio1.shape}")
         return audio1
     def pipeline(
         self,
         model,
@@ -318,6 +321,11 @@ class VC(object):
                     )[0][0]
                 )
         logger.info(f"Number of opt_ts: {len(opt_ts)}")
         s = 0
         audio_opt = []
         t = None
@@ -392,45 +400,9 @@ class VC(object):
             logger.info(f"Segment {i+1} shape: {segment.shape}")
             audio_opt.append(segment)
             s = t
-        if t is not None:
-            logger.info("Processing final segment")
-            if if_f0 == 1:
-                audio_opt.append(
-                    self.vc(
-                        model,
-                        net_g,
-                        sid,
-                        audio_pad[t:],
-                        pitch[:, t // self.window :],
-                        pitchf[:, t // self.window :],
-                        times,
-                        index,
-                        big_npy,
-                        index_rate,
-                        version,
-                        protect,
-                    )[self.t_pad_tgt : -self.t_pad_tgt]
-                )
-            else:
-                audio_opt.append(
-                    self.vc(
-                        model,
-                        net_g,
-                        sid,
-                        audio_pad[t:],
-                        None,
-                        None,
-                        times,
-                        index,
-                        big_npy,
-                        index_rate,
-                        version,
-                        protect,
-                    )[self.t_pad_tgt : -self.t_pad_tgt]
-                )
-        logger.info(f"Number of audio segments: {len(audio_opt)}")
         if not audio_opt:
             raise ValueError("No audio segments were generated")

             feats = model.final_proj(logits[0]) if version == "v1" else logits[0]
         if protect < 0.5 and pitch is not None and pitchf is not None:
             feats0 = feats.clone()
+        logger.info(f"Feats shape after processing: {feats.shape}")
         if (
             index is not None
             and big_npy is not None
         times[2] += t2 - t1
         logger.info(f"VC output shape: {audio1.shape}")
         return audio1
     def pipeline(
         self,
         model,
                     )[0][0]
                 )
         logger.info(f"Number of opt_ts: {len(opt_ts)}")
+        if len(opt_ts) == 0:
+            logger.info("No optimal time steps found. Processing entire audio.")
+            opt_ts = [audio.shape[0]]
         s = 0
         audio_opt = []
         t = None
             logger.info(f"Segment {i+1} shape: {segment.shape}")
             audio_opt.append(segment)
             s = t
+        logger.info(f"Number of audio segments: {len(audio_opt)}")
         if not audio_opt:
             raise ValueError("No audio segments were generated")