baichuan-inc
/

Baichuan2-13B-Chat

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

s-JoL commited on Sep 6, 2023

Commit

670d17e

·

1 Parent(s): 643a79d

Update modeling_baichuan.py

Files changed (1) hide show

modeling_baichuan.py +1 -0

modeling_baichuan.py CHANGED Viewed

@@ -181,6 +181,7 @@ class BaichuanAttention(torch.nn.Module):
             # )
             with torch.backends.cuda.sdp_kernel(enable_flash=True, enable_math=True, enable_mem_efficient=True):
                 attn_output = F.scaled_dot_product_attention(query_states, key_states, value_states, attn_mask = attention_mask)
         else:
             attn_weights = torch.matmul(
                 query_states, key_states.transpose(2, 3)

             # )
             with torch.backends.cuda.sdp_kernel(enable_flash=True, enable_math=True, enable_mem_efficient=True):
                 attn_output = F.scaled_dot_product_attention(query_states, key_states, value_states, attn_mask = attention_mask)
+            attn_output = attn_output.transpose(1, 2)
         else:
             attn_weights = torch.matmul(
                 query_states, key_states.transpose(2, 3)