THUDM
/

cogvlm-chat-hf

Text Generation

Model card Files Files and versions Community

nielsr HF staff commited on Mar 12

Commit

95f7894

•

1 Parent(s): f0f7034

Add print statements

Files changed (1) hide show

modeling_cogvlm.py +5 -0

modeling_cogvlm.py CHANGED Viewed

@@ -433,6 +433,9 @@ class CogVLMModel(CogVLMPreTrainedModel):
                 assert token_type_ids is not None, f"multi-modality requires `token_type_ids`!"
                 assert len(input_ids) == len(images), f"{len(input_ids)} {len(images)}"
                 inputs_embeds = self.embed_tokens(input_ids)
                 images_features = self.encode_images(images)
                 images_features = rearrange(images_features, 'b n d -> (b n) d')
                 images_features = images_features.to(dtype=inputs_embeds.dtype, device=inputs_embeds.device)
@@ -508,6 +511,8 @@ class CogVLMModel(CogVLMPreTrainedModel):
         else:
             position_ids = position_ids.view(-1, seq_length).long()
         if inputs_embeds is None:
             inputs_embeds = self.embed_tokens(input_ids)
         # embed positions

                 assert token_type_ids is not None, f"multi-modality requires `token_type_ids`!"
                 assert len(input_ids) == len(images), f"{len(input_ids)} {len(images)}"
                 inputs_embeds = self.embed_tokens(input_ids)
+                print("First values of text embeddings:", inputs_embeds[0, :3, :3])
                 images_features = self.encode_images(images)
                 images_features = rearrange(images_features, 'b n d -> (b n) d')
                 images_features = images_features.to(dtype=inputs_embeds.dtype, device=inputs_embeds.device)
         else:
             position_ids = position_ids.view(-1, seq_length).long()
+        print("Input ids:", input_ids)
         if inputs_embeds is None:
             inputs_embeds = self.embed_tokens(input_ids)
         # embed positions