HuggingFaceM4
/

siglip-so400m-14-384-flash-attn2

@@ -1077,7 +1077,7 @@ class SiglipVisionTransformer(nn.Module):
     def forward(
         self,
         pixel_values,
-        pixel_attention_mask: Optional[torch.BoolTensor] = None,
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
@@ -1093,12 +1093,18 @@ class SiglipVisionTransformer(nn.Module):
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
         batch_size = pixel_values.size(0)
-        if pixel_attention_mask is None:
-            # assuming `pixel_attention_mask` is of size bs x h x w
-            pixel_attention_mask = torch.ones(size=(batch_size, pixel_values.size(2), pixel_values.size(3)), dtype=torch.bool, device=pixel_values.device)
-        subgrids = pixel_attention_mask.unfold(dimension=1, size=self.config.patch_size, step=self.config.patch_size).unfold(dimension=2, size=self.config.patch_size, step=self.config.patch_size)
-        patch_attention_mask = (subgrids.sum(dim=(-1, -2)) > 0).bool()
         hidden_states = self.embeddings(
             pixel_values=pixel_values,

     def forward(
         self,
         pixel_values,
+        patch_attention_mask: Optional[torch.BoolTensor] = None,
         output_attentions: Optional[bool] = None,
         output_hidden_states: Optional[bool] = None,
         return_dict: Optional[bool] = None,
         return_dict = return_dict if return_dict is not None else self.config.use_return_dict
         batch_size = pixel_values.size(0)
+        if patch_attention_mask is None:
+            patch_attention_mask = torch.ones(
+                size=(batch_size, pixel_values.size(2)//self.config.patch_size, pixel_values.size(3)//self.config.patch_size),
+                dtype=torch.bool,
+                device=pixel_values.device,
+            )
+        # if pixel_attention_mask is None:
+        #     # assuming `pixel_attention_mask` is of size bs x h x w
+        #     pixel_attention_mask = torch.ones(size=(batch_size, pixel_values.size(2), pixel_values.size(3)), dtype=torch.bool, device=pixel_values.device)
+        # subgrids = pixel_attention_mask.unfold(dimension=1, size=self.config.patch_size, step=self.config.patch_size).unfold(dimension=2, size=self.config.patch_size, step=self.config.patch_size)
+        # patch_attention_mask = (subgrids.sum(dim=(-1, -2)) > 0).bool()
         hidden_states = self.embeddings(
             pixel_values=pixel_values,