RLHFlow
/

ArmoRM-Llama3-8B-v0.1

Text Classification

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

gabrielmbmb HF staff commited on Aug 1

Commit

8e79133

•

1 Parent(s): e0dce68

add align tensors

Files changed (1) hide show

modeling_custom.py +5 -0

modeling_custom.py CHANGED Viewed

@@ -96,6 +96,9 @@ class LlamaForRewardModelWithGating(LlamaPreTrainedModel):
                                     temperature=config_dict.get("gating_temperature", 10),
                                     hidden_dim=config_dict.get("gating_hidden_dim", 1024),
                                     n_hidden=config_dict.get("gating_n_hidden", 3))
     @add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
     def forward(
@@ -153,6 +156,8 @@ class LlamaForRewardModelWithGating(LlamaPreTrainedModel):
         prompt_embedding = tokens_hidden_states[dummy_iterator, gating_token_positions, :]
         gating_output = self.gating(prompt_embedding)
         rewards_adjusted = rewards @ self.reward_transform_matrix
         score = torch.sum(gating_output * rewards_adjusted, dim=1)

                                     temperature=config_dict.get("gating_temperature", 10),
                                     hidden_dim=config_dict.get("gating_hidden_dim", 1024),
                                     n_hidden=config_dict.get("gating_n_hidden", 3))
+    def align_tensor_devices(self, *tensors):
+        target_device = tensors[0].device
+        return [tensor.to(target_device) if tensor.device != target_device else tensor for tensor in tensors]
     @add_start_docstrings_to_model_forward(LLAMA_INPUTS_DOCSTRING)
     def forward(
         prompt_embedding = tokens_hidden_states[dummy_iterator, gating_token_positions, :]
         gating_output = self.gating(prompt_embedding)
+        rewards, self.reward_transform_matrix = self.align_tensor_devices(rewards, self.reward_transform_matrix)
         rewards_adjusted = rewards @ self.reward_transform_matrix
         score = torch.sum(gating_output * rewards_adjusted, dim=1)