Spaces:

AisakaMikoto
/

CLAPSep

Running

AisakaMikoto commited on Feb 29, 2024

Commit

5961cfc

verified ·

1 Parent(s): 33171a6

Update model/CLAPSep.py

Files changed (1) hide show

model/CLAPSep.py CHANGED Viewed

@@ -69,17 +69,13 @@ class CLAPSep(nn.Module):
         pred = self.istft(mag_y * cos_y, mag_y * sin_y, length=length)
         return pred
-    def inference_from_data(self, mixed, pos_prompt, neg_prompt):
         self.eval()
         real, imag = self.stft(mixed)
         mag, cos, sin = magphase(real, imag)
         self.features.append(mag)
         with torch.no_grad():
-            embed_pos, embed_neg = torch.chunk(self.clap_model.get_text_embedding(pos_prompt + neg_prompt,
-                                                                                  use_tensor=True), dim=0, chunks=2)
-            embed_pos = torch.zeros_like(embed_pos) if pos_prompt == '' else embed_pos
-            embed_neg = torch.zeros_like(embed_neg) if neg_prompt == '' else embed_neg
-            embed = torch.concat([embed_pos, embed_neg], dim=-1)
             self.audio_branch({"waveform": self.resampler(mixed)})
             mask = self.decoder_model(hidden_state=self.features[-1], skip_features=self.features[:-1], embed=embed)
             pred = self.wav_reconstruct(mask, mag, cos, sin, length=mixed.size(-1))

         pred = self.istft(mag_y * cos_y, mag_y * sin_y, length=length)
         return pred
+    def inference_from_data(self, mixed, embed_pos, embed_neg):
         self.eval()
         real, imag = self.stft(mixed)
         mag, cos, sin = magphase(real, imag)
         self.features.append(mag)
         with torch.no_grad():
+            embed = torch.nn.functional.normalize(torch.concat([embed_pos, embed_neg], dim=-1), dim=-1)
             self.audio_branch({"waveform": self.resampler(mixed)})
             mask = self.decoder_model(hidden_state=self.features[-1], skip_features=self.features[:-1], embed=embed)
             pred = self.wav_reconstruct(mask, mag, cos, sin, length=mixed.size(-1))