orionweller
/

test-flex-gpt

Model card Files Files and versions Community

oweller2 commited on Nov 21, 2024

Commit

d831694

•

1 Parent(s): 7561dc4

update model

Files changed (2) hide show

modeling_flexbert.py +3 -6
pytorch_model.bin +1 -1

modeling_flexbert.py CHANGED Viewed

@@ -1654,7 +1654,7 @@ class FlexBertForCausalLM(FlexBertPreTrainedModel):
         hidden_states = self.bert(
             input_ids,
-            attention_mask=None,
             position_ids=position_ids,
             indices=indices,
             cu_seqlens=cu_seqlens,
@@ -1703,11 +1703,8 @@ class FlexBertForCausalLM(FlexBertPreTrainedModel):
                 shift_labels.view(-1)
             )
-        if self.unpad_embeddings:
-            try:
-                logits = logits.view(batch_size, -1, self.vocab_size)
-            except Exception as e:
-                breakpoint()
         if self.pad_logits:
             # print(f"Padding logits: {logits.shape}")

         hidden_states = self.bert(
             input_ids,
+            attention_mask=None, # let FA handle it
             position_ids=position_ids,
             indices=indices,
             cu_seqlens=cu_seqlens,
                 shift_labels.view(-1)
             )
+        if self.unpad_embeddings: # revert back to normal logits
+            logits = logits.view(batch_size, -1, self.vocab_size)
         if self.pad_logits:
             # print(f"Padding logits: {logits.shape}")

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fea155de40c6fd0d7f58f431f493c5f614a64dabe168b72cbc74421a9bf17baf
 size 598685038

 version https://git-lfs.github.com/spec/v1
+oid sha256:7863cc4c58494c661ffd3c77af90796f5caa8217917c2f6e7c99cc28d65b58c2
 size 598685038