DAMO-NLP-SG
/

VideoLLaMA3-2B-Image

Visual Question Answering

videollama3_qwen2

text-generation

large-language-model

video-language-model

Model card Files Files and versions Community

lkhl commited on about 20 hours ago

Commit

5d426e9

·

verified ·

1 Parent(s): 2f04c2f

Update modeling_videollama3_encoder.py

Files changed (1) hide show

modeling_videollama3_encoder.py +1 -1

modeling_videollama3_encoder.py CHANGED Viewed

@@ -343,7 +343,7 @@ class VisionSdpaAttention(VisionAttention):
         attn_output = F.scaled_dot_product_attention(query_states, key_states, value_states, attention_mask, dropout_p=0.0)
         attn_output = attn_output.transpose(0, 1)
         attn_output = attn_output.reshape(seq_length, -1)
-        attn_output = self.proj(attn_output)
         return attn_output

         attn_output = F.scaled_dot_product_attention(query_states, key_states, value_states, attention_mask, dropout_p=0.0)
         attn_output = attn_output.transpose(0, 1)
         attn_output = attn_output.reshape(seq_length, -1)
+        attn_output = self.out_proj(attn_output)
         return attn_output