End of training

Files changed (3) hide show

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 base_model: princeton-nlp/Llama-3-Base-8B-SFT
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
@@ -17,15 +18,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [princeton-nlp/Llama-3-Base-8B-SFT](https://huggingface.co/princeton-nlp/Llama-3-Base-8B-SFT) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5181
-- Rewards/chosen: 0.0150
-- Rewards/rejected: -0.7988
-- Rewards/accuracies: 0.7260
-- Rewards/margins: 0.8139
-- Logps/rejected: -284.6649
-- Logps/chosen: -292.3968
-- Logits/rejected: -0.3842
-- Logits/chosen: -0.4151
 ## Model description

 base_model: princeton-nlp/Llama-3-Base-8B-SFT
 library_name: peft
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 This model is a fine-tuned version of [princeton-nlp/Llama-3-Base-8B-SFT](https://huggingface.co/princeton-nlp/Llama-3-Base-8B-SFT) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5193
+- Rewards/chosen: 0.0154
+- Rewards/rejected: -0.7979
+- Rewards/accuracies: 0.7280
+- Rewards/margins: 0.8133
+- Logps/rejected: -284.6558
+- Logps/chosen: -292.3936
+- Logits/rejected: -0.3843
+- Logits/chosen: -0.4157
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,18 @@
 {
     "epoch": 0.9997382884061764,
     "total_flos": 0.0,
     "train_loss": 0.5431846207973221,
     "train_runtime": 19104.9346,

 {
     "epoch": 0.9997382884061764,
+    "eval_logits/chosen": -0.41565001010894775,
+    "eval_logits/rejected": -0.3842959403991699,
+    "eval_logps/chosen": -292.3936462402344,
+    "eval_logps/rejected": -284.65582275390625,
+    "eval_loss": 0.5193021297454834,
+    "eval_rewards/accuracies": 0.7279999852180481,
+    "eval_rewards/chosen": 0.015352733433246613,
+    "eval_rewards/margins": 0.813278079032898,
+    "eval_rewards/rejected": -0.7979253530502319,
+    "eval_runtime": 347.9856,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 5.747,
+    "eval_steps_per_second": 0.359,
     "total_flos": 0.0,
     "train_loss": 0.5431846207973221,
     "train_runtime": 19104.9346,

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 0.9997382884061764,
-    "eval_logits/chosen": -0.42172786593437195,
-    "eval_logits/rejected": -0.39140966534614563,
-    "eval_logps/chosen": -291.23876953125,
-    "eval_logps/rejected": -283.9595947265625,
-    "eval_loss": 0.5199193358421326,
-    "eval_rewards/accuracies": 0.7260000109672546,
-    "eval_rewards/chosen": -0.14773716032505035,
-    "eval_rewards/margins": 0.8024731278419495,
-    "eval_rewards/rejected": -0.9502103328704834,
-    "eval_runtime": 348.2733,
     "eval_samples": 2000,
-    "eval_samples_per_second": 5.743,
     "eval_steps_per_second": 0.359
 }

 {
     "epoch": 0.9997382884061764,
+    "eval_logits/chosen": -0.41565001010894775,
+    "eval_logits/rejected": -0.3842959403991699,
+    "eval_logps/chosen": -292.3936462402344,
+    "eval_logps/rejected": -284.65582275390625,
+    "eval_loss": 0.5193021297454834,
+    "eval_rewards/accuracies": 0.7279999852180481,
+    "eval_rewards/chosen": 0.015352733433246613,
+    "eval_rewards/margins": 0.813278079032898,
+    "eval_rewards/rejected": -0.7979253530502319,
+    "eval_runtime": 347.9856,
     "eval_samples": 2000,
+    "eval_samples_per_second": 5.747,
     "eval_steps_per_second": 0.359
 }