Model save

Browse files

Files changed (6) hide show

README.md +15 -15
all_results.json +16 -16
eval_results.json +12 -12
runs/Dec14_12-12-04_uclaml03.cs.ucla.edu/events.out.tfevents.1702669747.uclaml03.cs.ucla.edu.3104594.1 +3 -0
train_results.json +4 -4
trainer_state.json +0 -0

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5667
-- Rewards/chosen: -0.0775
-- Rewards/rejected: -0.5353
-- Rewards/accuracies: 0.7060
-- Rewards/margins: 0.4578
-- Logps/rejected: -224.6374
-- Logps/chosen: -265.4360
-- Logits/rejected: -2.0010
-- Logits/chosen: -2.1218
 ## Model description
@@ -43,13 +43,13 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-07
-- train_batch_size: 2
 - eval_batch_size: 4
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 4
-- gradient_accumulation_steps: 32
-- total_train_batch_size: 256
 - total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
@@ -60,9 +60,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.6115        | 1.0   | 242  | 0.6071          | 0.0029         | -0.2411          | 0.6700             | 0.2439          | -221.6953      | -264.6323    | -2.0230         | -2.1432       |
-| 0.5855        | 2.0   | 484  | 0.5732          | -0.0602        | -0.4701          | 0.6920             | 0.4099          | -223.9853      | -265.2624    | -2.0070         | -2.1277       |
-| 0.5678        | 3.0   | 726  | 0.5667          | -0.0775        | -0.5353          | 0.7060             | 0.4578          | -224.6374      | -265.4360    | -2.0010         | -2.1218       |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5263
+- Rewards/chosen: -0.1493
+- Rewards/rejected: -0.8998
+- Rewards/accuracies: 0.7480
+- Rewards/margins: 0.7505
+- Logps/rejected: -228.2820
+- Logps/chosen: -266.1538
+- Logits/rejected: -1.9412
+- Logits/chosen: -2.0663
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-07
+- train_batch_size: 8
 - eval_batch_size: 4
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 4
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 64
 - total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.5506        | 1.0   | 968  | 0.5556          | -0.1128        | -0.6425          | 0.7120             | 0.5297          | -225.7089      | -265.7884    | -1.9914         | -2.1123       |
+| 0.545         | 2.0   | 1937 | 0.5313          | -0.1468        | -0.8623          | 0.7440             | 0.7156          | -227.9077      | -266.1287    | -1.9506         | -2.0746       |
+| 0.5342        | 3.0   | 2904 | 0.5263          | -0.1493        | -0.8998          | 0.7480             | 0.7505          | -228.2820      | -266.1538    | -1.9412         | -2.0663       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
     "epoch": 3.0,
-    "eval_logits/chosen": -2.1217968463897705,
-    "eval_logits/rejected": -2.000995397567749,
-    "eval_logps/chosen": -265.43603515625,
-    "eval_logps/rejected": -224.63743591308594,
-    "eval_loss": 0.5667475461959839,
-    "eval_rewards/accuracies": 0.7059999704360962,
-    "eval_rewards/chosen": -0.07752041518688202,
-    "eval_rewards/margins": 0.4577913284301758,
-    "eval_rewards/rejected": -0.5353116989135742,
-    "eval_runtime": 441.295,
     "eval_samples": 2000,
-    "eval_samples_per_second": 4.532,
-    "eval_steps_per_second": 0.283,
-    "train_loss": 0.6037136622532668,
-    "train_runtime": 61083.6691,
     "train_samples": 61966,
-    "train_samples_per_second": 3.043,
-    "train_steps_per_second": 0.012
 }

 {
     "epoch": 3.0,
+    "eval_logits/chosen": -2.0662753582000732,
+    "eval_logits/rejected": -1.9411602020263672,
+    "eval_logps/chosen": -266.15380859375,
+    "eval_logps/rejected": -228.28196716308594,
+    "eval_loss": 0.5263338685035706,
+    "eval_rewards/accuracies": 0.7480000257492065,
+    "eval_rewards/chosen": -0.14929771423339844,
+    "eval_rewards/margins": 0.7504671812057495,
+    "eval_rewards/rejected": -0.899764895439148,
+    "eval_runtime": 443.1683,
     "eval_samples": 2000,
+    "eval_samples_per_second": 4.513,
+    "eval_steps_per_second": 0.282,
+    "train_loss": 0.5640471254170105,
+    "train_runtime": 84492.9354,
     "train_samples": 61966,
+    "train_samples_per_second": 2.2,
+    "train_steps_per_second": 0.034
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 3.0,
-    "eval_logits/chosen": -2.1217968463897705,
-    "eval_logits/rejected": -2.000995397567749,
-    "eval_logps/chosen": -265.43603515625,
-    "eval_logps/rejected": -224.63743591308594,
-    "eval_loss": 0.5667475461959839,
-    "eval_rewards/accuracies": 0.7059999704360962,
-    "eval_rewards/chosen": -0.07752041518688202,
-    "eval_rewards/margins": 0.4577913284301758,
-    "eval_rewards/rejected": -0.5353116989135742,
-    "eval_runtime": 441.295,
     "eval_samples": 2000,
-    "eval_samples_per_second": 4.532,
-    "eval_steps_per_second": 0.283
 }

 {
     "epoch": 3.0,
+    "eval_logits/chosen": -2.0662753582000732,
+    "eval_logits/rejected": -1.9411602020263672,
+    "eval_logps/chosen": -266.15380859375,
+    "eval_logps/rejected": -228.28196716308594,
+    "eval_loss": 0.5263338685035706,
+    "eval_rewards/accuracies": 0.7480000257492065,
+    "eval_rewards/chosen": -0.14929771423339844,
+    "eval_rewards/margins": 0.7504671812057495,
+    "eval_rewards/rejected": -0.899764895439148,
+    "eval_runtime": 443.1683,
     "eval_samples": 2000,
+    "eval_samples_per_second": 4.513,
+    "eval_steps_per_second": 0.282
 }

runs/Dec14_12-12-04_uclaml03.cs.ucla.edu/events.out.tfevents.1702669747.uclaml03.cs.ucla.edu.3104594.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ea514858ec6c1cb9fb871f9820dd154de5a9c4135265689d4c0077071bae501
+size 828

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.6037136622532668,
-    "train_runtime": 61083.6691,
     "train_samples": 61966,
-    "train_samples_per_second": 3.043,
-    "train_steps_per_second": 0.012
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.5640471254170105,
+    "train_runtime": 84492.9354,
     "train_samples": 61966,
+    "train_samples_per_second": 2.2,
+    "train_steps_per_second": 0.034
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff