jikaixuan
/

zephyr-7b

@@ -1,10 +1,14 @@
 ---
 library_name: peft
 tags:
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 - name: zephyr-7b
   results: []
@@ -15,19 +19,19 @@ should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b
-This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6790
-- Rewards/chosen: -0.5476
-- Rewards/rejected: -0.8618
-- Rewards/accuracies: 0.3571
-- Rewards/margins: 0.3143
-- Logps/rejected: -161.5806
-- Logps/chosen: -123.6563
-- Logits/rejected: 1.4905
-- Logits/chosen: 1.3693
-- Use Label: 16436.9844
-- Pred Label: 2251.0159
 ## Model description

 ---
+license: apache-2.0
 library_name: peft
 tags:
+- alignment-handbook
 - trl
 - dpo
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
+datasets:
+- HuggingFaceH4/ultrafeedback_binarized
 model-index:
 - name: zephyr-7b
   results: []
 # zephyr-7b
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-qlora](https://huggingface.co/alignment-handbook/zephyr-7b-sft-qlora) on the HuggingFaceH4/ultrafeedback_binarized dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6789
+- Rewards/chosen: -0.5482
+- Rewards/rejected: -0.8623
+- Rewards/accuracies: 0.3591
+- Rewards/margins: 0.3141
+- Logps/rejected: -161.6313
+- Logps/chosen: -123.7209
+- Logits/rejected: 1.4916
+- Logits/chosen: 1.3712
+- Use Label: 17581.0469
+- Pred Label: 2490.9524
 ## Model description

all_results.json CHANGED Viewed

@@ -1,5 +1,20 @@
 {
     "epoch": 1.0,
     "train_loss": 0.6760230718482851,
     "train_runtime": 20063.9235,
     "train_samples": 61135,

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 1.3711830377578735,
+    "eval_logits/rejected": 1.4916048049926758,
+    "eval_logps/chosen": -123.7209243774414,
+    "eval_logps/rejected": -161.63131713867188,
+    "eval_loss": 0.6788680553436279,
+    "eval_pred_label": 2490.952392578125,
+    "eval_rewards/accuracies": 0.3591269850730896,
+    "eval_rewards/chosen": -0.548203706741333,
+    "eval_rewards/margins": 0.3141288757324219,
+    "eval_rewards/rejected": -0.8623325824737549,
+    "eval_runtime": 247.4536,
+    "eval_samples": 2000,
+    "eval_samples_per_second": 8.082,
+    "eval_steps_per_second": 0.255,
+    "eval_use_label": 17581.046875,
     "train_loss": 0.6760230718482851,
     "train_runtime": 20063.9235,
     "train_samples": 61135,

eval_results.json CHANGED Viewed

@@ -1,18 +1,18 @@
 {
     "epoch": 1.0,
-    "eval_logits/chosen": 13.463111877441406,
-    "eval_logits/rejected": 13.527791023254395,
-    "eval_logps/chosen": -15128.9541015625,
-    "eval_logps/rejected": -14704.759765625,
-    "eval_loss": 0.3621964752674103,
-    "eval_pred_label": 8140.01611328125,
-    "eval_rewards/accuracies": 0.2420634925365448,
-    "eval_rewards/chosen": -150.60052490234375,
-    "eval_rewards/margins": -4.306910991668701,
-    "eval_rewards/rejected": -146.29360961914062,
-    "eval_runtime": 245.5331,
     "eval_samples": 2000,
-    "eval_samples_per_second": 8.146,
-    "eval_steps_per_second": 0.257,
-    "eval_use_label": 11931.984375
 }

 {
     "epoch": 1.0,
+    "eval_logits/chosen": 1.3711830377578735,
+    "eval_logits/rejected": 1.4916048049926758,
+    "eval_logps/chosen": -123.7209243774414,
+    "eval_logps/rejected": -161.63131713867188,
+    "eval_loss": 0.6788680553436279,
+    "eval_pred_label": 2490.952392578125,
+    "eval_rewards/accuracies": 0.3591269850730896,
+    "eval_rewards/chosen": -0.548203706741333,
+    "eval_rewards/margins": 0.3141288757324219,
+    "eval_rewards/rejected": -0.8623325824737549,
+    "eval_runtime": 247.4536,
     "eval_samples": 2000,
+    "eval_samples_per_second": 8.082,
+    "eval_steps_per_second": 0.255,
+    "eval_use_label": 17581.046875
 }