RLHFlow
/

Decision-Tree-Reward-Llama-3.1-8B

@@ -93,5 +93,7 @@ class LlamaForDecisionTreeRewardModel(LlamaForSequenceClassification):
         rewards_2 = embedding_2 @ weight.T + bias
         rewards_diff = rewards_2 - rewards_1
         return {
-            "preference": self.tree.predict(rewards_diff)[0],       "rewards": np.stack([rewards_1, rewards_2]),
-            "attributes": self.attributes}

         rewards_2 = embedding_2 @ weight.T + bias
         rewards_diff = rewards_2 - rewards_1
         return {
+            "preference": self.tree.predict(rewards_diff)[0],
+            "rewards": np.concatenate([rewards_1, rewards_2]),
+            "attributes": self.attributes
+            }