Training in progress, step 955

Browse files

Files changed (6) hide show

all_results.json +9 -0
generation_config.json +6 -0
model-00001-of-00003.safetensors +1 -1
runs/Dec25_18-35-31_ip-10-0-27-237.ec2.internal/events.out.tfevents.1735151795.ip-10-0-27-237.ec2.internal.18852.0 +2 -2
train_results.json +9 -0
trainer_state.json +1482 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9994767137624281,
+    "total_flos": 0.0,
+    "train_loss": 0.15591317970715268,
+    "train_runtime": 13974.7976,
+    "train_samples": 122268,
+    "train_samples_per_second": 8.749,
+    "train_steps_per_second": 0.068
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.46.3"
+}

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ea021ae914136c3094c2ff96199c13cdf60edf8e2d3847a4437321665ea98bd
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:b030ae9a61de1228d0be54c2700e14db8b35b81f95742f90a7bf10e63545337f
 size 4943162336

runs/Dec25_18-35-31_ip-10-0-27-237.ec2.internal/events.out.tfevents.1735151795.ip-10-0-27-237.ec2.internal.18852.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d02d968758128f0193281b1495f8dc3be1af68b5719521216c36e03fbab478c
-size 72291

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e69992077e35b1c0123d6bcd1db2b789047bad70743944481f2bc1ec6d84702
+size 72645

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9994767137624281,
+    "total_flos": 0.0,
+    "train_loss": 0.15591317970715268,
+    "train_runtime": 13974.7976,
+    "train_samples": 122268,
+    "train_samples_per_second": 8.749,
+    "train_steps_per_second": 0.068
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1482 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9994767137624281,
+  "eval_steps": 100,
+  "global_step": 955,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0010465724751439038,
+      "grad_norm": 9.516955534709263,
+      "learning_rate": 5.208333333333333e-09,
+      "logits/chosen": -3.21875,
+      "logits/rejected": -3.21875,
+      "logps/chosen": -250.0,
+      "logps/rejected": -364.0,
+      "loss": 0.6914,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.010465724751439037,
+      "grad_norm": 9.605250953667445,
+      "learning_rate": 5.208333333333333e-08,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.28125,
+      "logps/chosen": -298.0,
+      "logps/rejected": -278.0,
+      "loss": 0.6921,
+      "rewards/accuracies": 0.1527777761220932,
+      "rewards/chosen": -0.00176239013671875,
+      "rewards/margins": -0.0012969970703125,
+      "rewards/rejected": -0.0004596710205078125,
+      "step": 10
+    },
+    {
+      "epoch": 0.020931449502878074,
+      "grad_norm": 9.292065125128957,
+      "learning_rate": 1.0416666666666667e-07,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -286.0,
+      "logps/rejected": -294.0,
+      "loss": 0.6915,
+      "rewards/accuracies": 0.22499999403953552,
+      "rewards/chosen": -0.001617431640625,
+      "rewards/margins": -0.000492095947265625,
+      "rewards/rejected": -0.00112152099609375,
+      "step": 20
+    },
+    {
+      "epoch": 0.03139717425431711,
+      "grad_norm": 8.81073696781217,
+      "learning_rate": 1.5624999999999999e-07,
+      "logits/chosen": -3.21875,
+      "logits/rejected": -3.25,
+      "logps/chosen": -294.0,
+      "logps/rejected": -264.0,
+      "loss": 0.69,
+      "rewards/accuracies": 0.39375001192092896,
+      "rewards/chosen": -0.00153350830078125,
+      "rewards/margins": 0.003387451171875,
+      "rewards/rejected": -0.004913330078125,
+      "step": 30
+    },
+    {
+      "epoch": 0.04186289900575615,
+      "grad_norm": 9.511442470624056,
+      "learning_rate": 2.0833333333333333e-07,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.125,
+      "logps/chosen": -288.0,
+      "logps/rejected": -302.0,
+      "loss": 0.684,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.006072998046875,
+      "rewards/margins": 0.0186767578125,
+      "rewards/rejected": -0.0247802734375,
+      "step": 40
+    },
+    {
+      "epoch": 0.052328623757195186,
+      "grad_norm": 8.623245631146178,
+      "learning_rate": 2.604166666666667e-07,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.21875,
+      "logps/chosen": -318.0,
+      "logps/rejected": -302.0,
+      "loss": 0.6707,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.0244140625,
+      "rewards/margins": 0.0498046875,
+      "rewards/rejected": -0.07421875,
+      "step": 50
+    },
+    {
+      "epoch": 0.06279434850863422,
+      "grad_norm": 11.270983496881312,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -296.0,
+      "logps/rejected": -316.0,
+      "loss": 0.6463,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.046875,
+      "rewards/margins": 0.09375,
+      "rewards/rejected": -0.140625,
+      "step": 60
+    },
+    {
+      "epoch": 0.07326007326007326,
+      "grad_norm": 11.953436287497002,
+      "learning_rate": 3.645833333333333e-07,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -310.0,
+      "logps/rejected": -304.0,
+      "loss": 0.5956,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.0294189453125,
+      "rewards/margins": 0.26171875,
+      "rewards/rejected": -0.291015625,
+      "step": 70
+    },
+    {
+      "epoch": 0.0837257980115123,
+      "grad_norm": 24.459142709298142,
+      "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -326.0,
+      "logps/rejected": -348.0,
+      "loss": 0.518,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.1044921875,
+      "rewards/margins": 0.57421875,
+      "rewards/rejected": -0.6796875,
+      "step": 80
+    },
+    {
+      "epoch": 0.09419152276295134,
+      "grad_norm": 24.49272478624807,
+      "learning_rate": 4.6874999999999996e-07,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -324.0,
+      "logps/rejected": -352.0,
+      "loss": 0.4382,
+      "rewards/accuracies": 0.856249988079071,
+      "rewards/chosen": -0.255859375,
+      "rewards/margins": 0.69921875,
+      "rewards/rejected": -0.953125,
+      "step": 90
+    },
+    {
+      "epoch": 0.10465724751439037,
+      "grad_norm": 32.563301578465556,
+      "learning_rate": 4.999732492681437e-07,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -3.0,
+      "logps/chosen": -346.0,
+      "logps/rejected": -488.0,
+      "loss": 0.3249,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.46484375,
+      "rewards/margins": 1.4375,
+      "rewards/rejected": -1.90625,
+      "step": 100
+    },
+    {
+      "epoch": 0.1151229722658294,
+      "grad_norm": 29.67260704692337,
+      "learning_rate": 4.996723692767926e-07,
+      "logits/chosen": -2.984375,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -338.0,
+      "logps/rejected": -528.0,
+      "loss": 0.2642,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -0.59375,
+      "rewards/margins": 1.9296875,
+      "rewards/rejected": -2.515625,
+      "step": 110
+    },
+    {
+      "epoch": 0.12558869701726844,
+      "grad_norm": 36.130980567601185,
+      "learning_rate": 4.990375746213598e-07,
+      "logits/chosen": -2.875,
+      "logits/rejected": -2.84375,
+      "logps/chosen": -368.0,
+      "logps/rejected": -608.0,
+      "loss": 0.2784,
+      "rewards/accuracies": 0.8687499761581421,
+      "rewards/chosen": -0.9765625,
+      "rewards/margins": 2.109375,
+      "rewards/rejected": -3.09375,
+      "step": 120
+    },
+    {
+      "epoch": 0.1360544217687075,
+      "grad_norm": 39.623525128446786,
+      "learning_rate": 4.980697142834314e-07,
+      "logits/chosen": -2.8125,
+      "logits/rejected": -2.78125,
+      "logps/chosen": -390.0,
+      "logps/rejected": -588.0,
+      "loss": 0.2208,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.92578125,
+      "rewards/margins": 2.296875,
+      "rewards/rejected": -3.234375,
+      "step": 130
+    },
+    {
+      "epoch": 0.14652014652014653,
+      "grad_norm": 26.762330480495592,
+      "learning_rate": 4.967700826904229e-07,
+      "logits/chosen": -2.875,
+      "logits/rejected": -2.8125,
+      "logps/chosen": -360.0,
+      "logps/rejected": -664.0,
+      "loss": 0.2179,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -0.859375,
+      "rewards/margins": 2.9375,
+      "rewards/rejected": -3.796875,
+      "step": 140
+    },
+    {
+      "epoch": 0.15698587127158556,
+      "grad_norm": 40.56285073504209,
+      "learning_rate": 4.951404179843962e-07,
+      "logits/chosen": -2.765625,
+      "logits/rejected": -2.65625,
+      "logps/chosen": -438.0,
+      "logps/rejected": -668.0,
+      "loss": 0.1995,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.2734375,
+      "rewards/margins": 2.828125,
+      "rewards/rejected": -4.09375,
+      "step": 150
+    },
+    {
+      "epoch": 0.1674515960230246,
+      "grad_norm": 19.47918869184068,
+      "learning_rate": 4.931828996974498e-07,
+      "logits/chosen": -2.765625,
+      "logits/rejected": -2.6875,
+      "logps/chosen": -452.0,
+      "logps/rejected": -704.0,
+      "loss": 0.2069,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -1.2734375,
+      "rewards/margins": 2.90625,
+      "rewards/rejected": -4.1875,
+      "step": 160
+    },
+    {
+      "epoch": 0.17791732077446362,
+      "grad_norm": 54.76579795757994,
+      "learning_rate": 4.909001458367866e-07,
+      "logits/chosen": -2.71875,
+      "logits/rejected": -2.640625,
+      "logps/chosen": -366.0,
+      "logps/rejected": -716.0,
+      "loss": 0.2041,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.0234375,
+      "rewards/margins": 3.140625,
+      "rewards/rejected": -4.15625,
+      "step": 170
+    },
+    {
+      "epoch": 0.18838304552590268,
+      "grad_norm": 26.167531224154025,
+      "learning_rate": 4.882952093833627e-07,
+      "logits/chosen": -2.71875,
+      "logits/rejected": -2.578125,
+      "logps/chosen": -402.0,
+      "logps/rejected": -736.0,
+      "loss": 0.2019,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.28125,
+      "rewards/margins": 3.34375,
+      "rewards/rejected": -4.625,
+      "step": 180
+    },
+    {
+      "epoch": 0.1988487702773417,
+      "grad_norm": 19.72905224051703,
+      "learning_rate": 4.853715742087946e-07,
+      "logits/chosen": -2.515625,
+      "logits/rejected": -2.453125,
+      "logps/chosen": -434.0,
+      "logps/rejected": -768.0,
+      "loss": 0.1627,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.5703125,
+      "rewards/margins": 3.609375,
+      "rewards/rejected": -5.1875,
+      "step": 190
+    },
+    {
+      "epoch": 0.20931449502878074,
+      "grad_norm": 18.779653204870545,
+      "learning_rate": 4.821331504159906e-07,
+      "logits/chosen": -2.65625,
+      "logits/rejected": -2.40625,
+      "logps/chosen": -482.0,
+      "logps/rejected": -828.0,
+      "loss": 0.172,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.78125,
+      "rewards/margins": 3.734375,
+      "rewards/rejected": -5.5,
+      "step": 200
+    },
+    {
+      "epoch": 0.21978021978021978,
+      "grad_norm": 22.81262811076015,
+      "learning_rate": 4.785842691097342e-07,
+      "logits/chosen": -2.546875,
+      "logits/rejected": -2.40625,
+      "logps/chosen": -422.0,
+      "logps/rejected": -824.0,
+      "loss": 0.1704,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -1.34375,
+      "rewards/margins": 4.1875,
+      "rewards/rejected": -5.5,
+      "step": 210
+    },
+    {
+      "epoch": 0.2302459445316588,
+      "grad_norm": 44.85290714547607,
+      "learning_rate": 4.7472967660421603e-07,
+      "logits/chosen": -2.546875,
+      "logits/rejected": -2.4375,
+      "logps/chosen": -468.0,
+      "logps/rejected": -864.0,
+      "loss": 0.1787,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.703125,
+      "rewards/margins": 4.03125,
+      "rewards/rejected": -5.71875,
+      "step": 220
+    },
+    {
+      "epoch": 0.24071166928309787,
+      "grad_norm": 23.212078131512556,
+      "learning_rate": 4.705745280752585e-07,
+      "logits/chosen": -2.65625,
+      "logits/rejected": -2.46875,
+      "logps/chosen": -424.0,
+      "logps/rejected": -804.0,
+      "loss": 0.1676,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -1.2734375,
+      "rewards/margins": 3.984375,
+      "rewards/rejected": -5.25,
+      "step": 230
+    },
+    {
+      "epoch": 0.25117739403453687,
+      "grad_norm": 49.148200668176614,
+      "learning_rate": 4.6612438066572555e-07,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -496.0,
+      "logps/rejected": -976.0,
+      "loss": 0.1638,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -1.8515625,
+      "rewards/margins": 4.9375,
+      "rewards/rejected": -6.78125,
+      "step": 240
+    },
+    {
+      "epoch": 0.2616431187859759,
+      "grad_norm": 27.312656594695248,
+      "learning_rate": 4.6138518605333664e-07,
+      "logits/chosen": -2.484375,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -444.0,
+      "logps/rejected": -812.0,
+      "loss": 0.158,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.6171875,
+      "rewards/margins": 3.96875,
+      "rewards/rejected": -5.59375,
+      "step": 250
+    },
+    {
+      "epoch": 0.272108843537415,
+      "grad_norm": 22.296118147448365,
+      "learning_rate": 4.5636328249082514e-07,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -494.0,
+      "logps/rejected": -960.0,
+      "loss": 0.1445,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -2.015625,
+      "rewards/margins": 4.53125,
+      "rewards/rejected": -6.5625,
+      "step": 260
+    },
+    {
+      "epoch": 0.282574568288854,
+      "grad_norm": 22.50903492692647,
+      "learning_rate": 4.510653863290871e-07,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -2.0,
+      "logps/chosen": -448.0,
+      "logps/rejected": -904.0,
+      "loss": 0.1423,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.484375,
+      "rewards/margins": 4.84375,
+      "rewards/rejected": -6.34375,
+      "step": 270
+    },
+    {
+      "epoch": 0.29304029304029305,
+      "grad_norm": 28.21995400188032,
+      "learning_rate": 4.4549858303465737e-07,
+      "logits/chosen": -2.390625,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -516.0,
+      "logps/rejected": -980.0,
+      "loss": 0.1437,
+      "rewards/accuracies": 0.90625,
+      "rewards/chosen": -2.265625,
+      "rewards/margins": 4.5625,
+      "rewards/rejected": -6.84375,
+      "step": 280
+    },
+    {
+      "epoch": 0.3035060177917321,
+      "grad_norm": 40.19255553854356,
+      "learning_rate": 4.396703177135261e-07,
+      "logits/chosen": -2.21875,
+      "logits/rejected": -1.984375,
+      "logps/chosen": -568.0,
+      "logps/rejected": -1096.0,
+      "loss": 0.1329,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": -2.953125,
+      "rewards/margins": 5.5,
+      "rewards/rejected": -8.4375,
+      "step": 290
+    },
+    {
+      "epoch": 0.3139717425431711,
+      "grad_norm": 28.430828005352467,
+      "learning_rate": 4.335883851539693e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -1.9375,
+      "logps/chosen": -648.0,
+      "logps/rejected": -1168.0,
+      "loss": 0.1374,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -3.34375,
+      "rewards/margins": 5.4375,
+      "rewards/rejected": -8.75,
+      "step": 300
+    },
+    {
+      "epoch": 0.32443746729461015,
+      "grad_norm": 61.735019074562494,
+      "learning_rate": 4.272609194017105e-07,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -1.6953125,
+      "logps/chosen": -676.0,
+      "logps/rejected": -1224.0,
+      "loss": 0.1284,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -3.734375,
+      "rewards/margins": 5.5,
+      "rewards/rejected": -9.1875,
+      "step": 310
+    },
+    {
+      "epoch": 0.3349031920460492,
+      "grad_norm": 44.72666475922118,
+      "learning_rate": 4.2069638288135547e-07,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -1.796875,
+      "logps/chosen": -736.0,
+      "logps/rejected": -1360.0,
+      "loss": 0.1419,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -4.3125,
+      "rewards/margins": 6.34375,
+      "rewards/rejected": -10.625,
+      "step": 320
+    },
+    {
+      "epoch": 0.3453689167974882,
+      "grad_norm": 25.59488492513282,
+      "learning_rate": 4.139035550786494e-07,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -2.203125,
+      "logps/chosen": -684.0,
+      "logps/rejected": -1160.0,
+      "loss": 0.1288,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -4.0625,
+      "rewards/margins": 4.6875,
+      "rewards/rejected": -8.75,
+      "step": 330
+    },
+    {
+      "epoch": 0.35583464154892724,
+      "grad_norm": 39.490355460521485,
+      "learning_rate": 4.0689152079869306e-07,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -1.7109375,
+      "logps/chosen": -668.0,
+      "logps/rejected": -1336.0,
+      "loss": 0.1067,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -4.09375,
+      "rewards/margins": 6.84375,
+      "rewards/rejected": -10.9375,
+      "step": 340
+    },
+    {
+      "epoch": 0.3663003663003663,
+      "grad_norm": 40.05108849367682,
+      "learning_rate": 3.99669658015821e-07,
+      "logits/chosen": -2.0625,
+      "logits/rejected": -1.6796875,
+      "logps/chosen": -708.0,
+      "logps/rejected": -1344.0,
+      "loss": 0.1218,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -4.5,
+      "rewards/margins": 6.6875,
+      "rewards/rejected": -11.1875,
+      "step": 350
+    },
+    {
+      "epoch": 0.37676609105180536,
+      "grad_norm": 29.496296075978837,
+      "learning_rate": 3.92247625331392e-07,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -1.875,
+      "logps/chosen": -716.0,
+      "logps/rejected": -1296.0,
+      "loss": 0.1126,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -4.25,
+      "rewards/margins": 6.0625,
+      "rewards/rejected": -10.3125,
+      "step": 360
+    },
+    {
+      "epoch": 0.3872318158032444,
+      "grad_norm": 25.08871689723511,
+      "learning_rate": 3.846353490562664e-07,
+      "logits/chosen": -2.109375,
+      "logits/rejected": -1.5,
+      "logps/chosen": -776.0,
+      "logps/rejected": -1496.0,
+      "loss": 0.1248,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": -5.125,
+      "rewards/margins": 7.3125,
+      "rewards/rejected": -12.4375,
+      "step": 370
+    },
+    {
+      "epoch": 0.3976975405546834,
+      "grad_norm": 26.78647304619011,
+      "learning_rate": 3.768430099352445e-07,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -1.96875,
+      "logps/chosen": -756.0,
+      "logps/rejected": -1344.0,
+      "loss": 0.1186,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -4.46875,
+      "rewards/margins": 6.09375,
+      "rewards/rejected": -10.5625,
+      "step": 380
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 47.07672408947705,
+      "learning_rate": 3.6888102953122304e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -1.9765625,
+      "logps/chosen": -712.0,
+      "logps/rejected": -1336.0,
+      "loss": 0.103,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -4.21875,
+      "rewards/margins": 6.5,
+      "rewards/rejected": -10.75,
+      "step": 390
+    },
+    {
+      "epoch": 0.4186289900575615,
+      "grad_norm": 22.46877888992614,
+      "learning_rate": 3.607600562872785e-07,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -1.953125,
+      "logps/chosen": -876.0,
+      "logps/rejected": -1592.0,
+      "loss": 0.0937,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -5.34375,
+      "rewards/margins": 7.5625,
+      "rewards/rejected": -12.875,
+      "step": 400
+    },
+    {
+      "epoch": 0.4290947148090005,
+      "grad_norm": 31.318574320005773,
+      "learning_rate": 3.5249095128531856e-07,
+      "logits/chosen": -2.40625,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -796.0,
+      "logps/rejected": -1328.0,
+      "loss": 0.1072,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -4.59375,
+      "rewards/margins": 5.9375,
+      "rewards/rejected": -10.5,
+      "step": 410
+    },
+    {
+      "epoch": 0.43956043956043955,
+      "grad_norm": 23.57271093807849,
+      "learning_rate": 3.4408477372034736e-07,
+      "logits/chosen": -2.4375,
+      "logits/rejected": -2.09375,
+      "logps/chosen": -760.0,
+      "logps/rejected": -1368.0,
+      "loss": 0.1199,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -4.46875,
+      "rewards/margins": 6.625,
+      "rewards/rejected": -11.125,
+      "step": 420
+    },
+    {
+      "epoch": 0.4500261643118786,
+      "grad_norm": 20.257810507961672,
+      "learning_rate": 3.3555276610977276e-07,
+      "logits/chosen": -2.5,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -568.0,
+      "logps/rejected": -1184.0,
+      "loss": 0.0937,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.8125,
+      "rewards/margins": 6.125,
+      "rewards/rejected": -8.9375,
+      "step": 430
+    },
+    {
+      "epoch": 0.4604918890633176,
+      "grad_norm": 29.069836347407232,
+      "learning_rate": 3.269063392575352e-07,
+      "logits/chosen": -2.4375,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -628.0,
+      "logps/rejected": -1424.0,
+      "loss": 0.1044,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -3.5625,
+      "rewards/margins": 7.9375,
+      "rewards/rejected": -11.5,
+      "step": 440
+    },
+    {
+      "epoch": 0.47095761381475665,
+      "grad_norm": 28.99798773679313,
+      "learning_rate": 3.1815705699316964e-07,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -2.03125,
+      "logps/chosen": -700.0,
+      "logps/rejected": -1472.0,
+      "loss": 0.1061,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -3.984375,
+      "rewards/margins": 7.8125,
+      "rewards/rejected": -11.8125,
+      "step": 450
+    },
+    {
+      "epoch": 0.48142333856619574,
+      "grad_norm": 20.545878743670112,
+      "learning_rate": 3.0931662070620794e-07,
+      "logits/chosen": -2.21875,
+      "logits/rejected": -2.03125,
+      "logps/chosen": -776.0,
+      "logps/rejected": -1464.0,
+      "loss": 0.097,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -5.03125,
+      "rewards/margins": 7.0625,
+      "rewards/rejected": -12.125,
+      "step": 460
+    },
+    {
+      "epoch": 0.49188906331763477,
+      "grad_norm": 22.557933835618037,
+      "learning_rate": 3.003968536966078e-07,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -2.0625,
+      "logps/chosen": -760.0,
+      "logps/rejected": -1488.0,
+      "loss": 0.081,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": -4.46875,
+      "rewards/margins": 7.40625,
+      "rewards/rejected": -11.875,
+      "step": 470
+    },
+    {
+      "epoch": 0.5023547880690737,
+      "grad_norm": 28.131650321698604,
+      "learning_rate": 2.9140968536213693e-07,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -1.9609375,
+      "logps/chosen": -840.0,
+      "logps/rejected": -1584.0,
+      "loss": 0.1038,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -5.34375,
+      "rewards/margins": 7.75,
+      "rewards/rejected": -13.125,
+      "step": 480
+    },
+    {
+      "epoch": 0.5128205128205128,
+      "grad_norm": 22.231590737155383,
+      "learning_rate": 2.823671352438608e-07,
+      "logits/chosen": -2.4375,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -788.0,
+      "logps/rejected": -1432.0,
+      "loss": 0.099,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -5.0625,
+      "rewards/margins": 6.5625,
+      "rewards/rejected": -11.625,
+      "step": 490
+    },
+    {
+      "epoch": 0.5232862375719518,
+      "grad_norm": 32.66738645617045,
+      "learning_rate": 2.73281296951072e-07,
+      "logits/chosen": -2.421875,
+      "logits/rejected": -2.015625,
+      "logps/chosen": -880.0,
+      "logps/rejected": -1584.0,
+      "loss": 0.0906,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -5.84375,
+      "rewards/margins": 7.4375,
+      "rewards/rejected": -13.25,
+      "step": 500
+    },
+    {
+      "epoch": 0.533751962323391,
+      "grad_norm": 24.851145354651734,
+      "learning_rate": 2.641643219871597e-07,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -1.9921875,
+      "logps/chosen": -868.0,
+      "logps/rejected": -1536.0,
+      "loss": 0.09,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -5.625,
+      "rewards/margins": 7.03125,
+      "rewards/rejected": -12.6875,
+      "step": 510
+    },
+    {
+      "epoch": 0.54421768707483,
+      "grad_norm": 30.824666380700695,
+      "learning_rate": 2.550284034980507e-07,
+      "logits/chosen": -2.375,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -808.0,
+      "logps/rejected": -1504.0,
+      "loss": 0.11,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -5.0625,
+      "rewards/margins": 7.09375,
+      "rewards/rejected": -12.125,
+      "step": 520
+    },
+    {
+      "epoch": 0.554683411826269,
+      "grad_norm": 37.732613885821536,
+      "learning_rate": 2.4588575996495794e-07,
+      "logits/chosen": -2.578125,
+      "logits/rejected": -2.25,
+      "logps/chosen": -676.0,
+      "logps/rejected": -1352.0,
+      "loss": 0.1057,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -4.0625,
+      "rewards/margins": 7.0,
+      "rewards/rejected": -11.0625,
+      "step": 530
+    },
+    {
+      "epoch": 0.565149136577708,
+      "grad_norm": 23.236138548824204,
+      "learning_rate": 2.367486188632446e-07,
+      "logits/chosen": -2.53125,
+      "logits/rejected": -2.25,
+      "logps/chosen": -704.0,
+      "logps/rejected": -1376.0,
+      "loss": 0.0968,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -4.21875,
+      "rewards/margins": 6.6875,
+      "rewards/rejected": -10.875,
+      "step": 540
+    },
+    {
+      "epoch": 0.5756148613291471,
+      "grad_norm": 18.62210206857554,
+      "learning_rate": 2.276292003092593e-07,
+      "logits/chosen": -2.421875,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -836.0,
+      "logps/rejected": -1544.0,
+      "loss": 0.0824,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -5.5,
+      "rewards/margins": 7.28125,
+      "rewards/rejected": -12.75,
+      "step": 550
+    },
+    {
+      "epoch": 0.5860805860805861,
+      "grad_norm": 30.39956813704047,
+      "learning_rate": 2.185397007170141e-07,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -1.9375,
+      "logps/chosen": -964.0,
+      "logps/rejected": -1720.0,
+      "loss": 0.0776,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -6.84375,
+      "rewards/margins": 8.0,
+      "rewards/rejected": -14.875,
+      "step": 560
+    },
+    {
+      "epoch": 0.5965463108320251,
+      "grad_norm": 31.863861823036746,
+      "learning_rate": 2.094922764865619e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -932.0,
+      "logps/rejected": -1688.0,
+      "loss": 0.0778,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -6.3125,
+      "rewards/margins": 7.78125,
+      "rewards/rejected": -14.125,
+      "step": 570
+    },
+    {
+      "epoch": 0.6070120355834642,
+      "grad_norm": 22.78774525718653,
+      "learning_rate": 2.0049902774588797e-07,
+      "logits/chosen": -2.453125,
+      "logits/rejected": -2.15625,
+      "logps/chosen": -776.0,
+      "logps/rejected": -1528.0,
+      "loss": 0.0791,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": -5.03125,
+      "rewards/margins": 7.65625,
+      "rewards/rejected": -12.6875,
+      "step": 580
+    },
+    {
+      "epoch": 0.6174777603349032,
+      "grad_norm": 24.950505604608463,
+      "learning_rate": 1.9157198216806238e-07,
+      "logits/chosen": -2.453125,
+      "logits/rejected": -2.09375,
+      "logps/chosen": -776.0,
+      "logps/rejected": -1616.0,
+      "loss": 0.0779,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -5.03125,
+      "rewards/margins": 8.25,
+      "rewards/rejected": -13.3125,
+      "step": 590
+    },
+    {
+      "epoch": 0.6279434850863422,
+      "grad_norm": 39.70214338791234,
+      "learning_rate": 1.8272307888529274e-07,
+      "logits/chosen": -2.59375,
+      "logits/rejected": -2.375,
+      "logps/chosen": -824.0,
+      "logps/rejected": -1696.0,
+      "loss": 0.092,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -5.125,
+      "rewards/margins": 8.5625,
+      "rewards/rejected": -13.6875,
+      "step": 600
+    },
+    {
+      "epoch": 0.6384092098377813,
+      "grad_norm": 24.678139590765365,
+      "learning_rate": 1.7396415252139288e-07,
+      "logits/chosen": -2.421875,
+      "logits/rejected": -2.109375,
+      "logps/chosen": -768.0,
+      "logps/rejected": -1544.0,
+      "loss": 0.0796,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -4.78125,
+      "rewards/margins": 7.9375,
+      "rewards/rejected": -12.75,
+      "step": 610
+    },
+    {
+      "epoch": 0.6488749345892203,
+      "grad_norm": 29.19695220969592,
+      "learning_rate": 1.6530691736402316e-07,
+      "logits/chosen": -2.484375,
+      "logits/rejected": -2.21875,
+      "logps/chosen": -768.0,
+      "logps/rejected": -1544.0,
+      "loss": 0.0724,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -4.78125,
+      "rewards/margins": 7.9375,
+      "rewards/rejected": -12.6875,
+      "step": 620
+    },
+    {
+      "epoch": 0.6593406593406593,
+      "grad_norm": 17.517613098387617,
+      "learning_rate": 1.5676295169786864e-07,
+      "logits/chosen": -2.5,
+      "logits/rejected": -2.203125,
+      "logps/chosen": -828.0,
+      "logps/rejected": -1544.0,
+      "loss": 0.0929,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -5.1875,
+      "rewards/margins": 7.5625,
+      "rewards/rejected": -12.75,
+      "step": 630
+    },
+    {
+      "epoch": 0.6698063840920984,
+      "grad_norm": 18.336302496269198,
+      "learning_rate": 1.483436823197092e-07,
+      "logits/chosen": -2.5,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -804.0,
+      "logps/rejected": -1568.0,
+      "loss": 0.0861,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -5.28125,
+      "rewards/margins": 7.75,
+      "rewards/rejected": -13.0625,
+      "step": 640
+    },
+    {
+      "epoch": 0.6802721088435374,
+      "grad_norm": 19.399010068279768,
+      "learning_rate": 1.4006036925609243e-07,
+      "logits/chosen": -2.484375,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -888.0,
+      "logps/rejected": -1568.0,
+      "loss": 0.0706,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -5.875,
+      "rewards/margins": 7.125,
+      "rewards/rejected": -13.0,
+      "step": 650
+    },
+    {
+      "epoch": 0.6907378335949764,
+      "grad_norm": 24.671794614204327,
+      "learning_rate": 1.319240907040458e-07,
+      "logits/chosen": -2.4375,
+      "logits/rejected": -2.15625,
+      "logps/chosen": -844.0,
+      "logps/rejected": -1616.0,
+      "loss": 0.0735,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -5.4375,
+      "rewards/margins": 7.6875,
+      "rewards/rejected": -13.125,
+      "step": 660
+    },
+    {
+      "epoch": 0.7012035583464155,
+      "grad_norm": 21.656808943027293,
+      "learning_rate": 1.2394572821496948e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.015625,
+      "logps/chosen": -852.0,
+      "logps/rejected": -1720.0,
+      "loss": 0.0756,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -5.78125,
+      "rewards/margins": 8.75,
+      "rewards/rejected": -14.5625,
+      "step": 670
+    },
+    {
+      "epoch": 0.7116692830978545,
+      "grad_norm": 37.67983640549423,
+      "learning_rate": 1.1613595214152711e-07,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -2.046875,
+      "logps/chosen": -944.0,
+      "logps/rejected": -1800.0,
+      "loss": 0.0717,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -6.375,
+      "rewards/margins": 8.75,
+      "rewards/rejected": -15.125,
+      "step": 680
+    },
+    {
+      "epoch": 0.7221350078492935,
+      "grad_norm": 31.204304577384395,
+      "learning_rate": 1.0850520736699362e-07,
+      "logits/chosen": -2.46875,
+      "logits/rejected": -2.203125,
+      "logps/chosen": -960.0,
+      "logps/rejected": -1752.0,
+      "loss": 0.0799,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -6.46875,
+      "rewards/margins": 8.0625,
+      "rewards/rejected": -14.5,
+      "step": 690
+    },
+    {
+      "epoch": 0.7326007326007326,
+      "grad_norm": 14.65690246648118,
+      "learning_rate": 1.0106369933615042e-07,
+      "logits/chosen": -2.375,
+      "logits/rejected": -2.21875,
+      "logps/chosen": -892.0,
+      "logps/rejected": -1760.0,
+      "loss": 0.066,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -5.84375,
+      "rewards/margins": 8.6875,
+      "rewards/rejected": -14.5,
+      "step": 700
+    },
+    {
+      "epoch": 0.7430664573521716,
+      "grad_norm": 10.13345133625024,
+      "learning_rate": 9.382138040640714e-08,
+      "logits/chosen": -2.515625,
+      "logits/rejected": -2.15625,
+      "logps/chosen": -832.0,
+      "logps/rejected": -1752.0,
+      "loss": 0.0628,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -5.46875,
+      "rewards/margins": 9.0625,
+      "rewards/rejected": -14.5,
+      "step": 710
+    },
+    {
+      "epoch": 0.7535321821036107,
+      "grad_norm": 26.423649093017993,
+      "learning_rate": 8.678793653740632e-08,
+      "logits/chosen": -2.484375,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -956.0,
+      "logps/rejected": -1744.0,
+      "loss": 0.059,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -6.21875,
+      "rewards/margins": 8.375,
+      "rewards/rejected": -14.5625,
+      "step": 720
+    },
+    {
+      "epoch": 0.7639979068550498,
+      "grad_norm": 21.35868634461276,
+      "learning_rate": 7.997277433690983e-08,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.078125,
+      "logps/chosen": -984.0,
+      "logps/rejected": -1864.0,
+      "loss": 0.0766,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -7.0625,
+      "rewards/margins": 8.9375,
+      "rewards/rejected": -16.0,
+      "step": 730
+    },
+    {
+      "epoch": 0.7744636316064888,
+      "grad_norm": 19.914720577430103,
+      "learning_rate": 7.338500848029602e-08,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -1.984375,
+      "logps/chosen": -1020.0,
+      "logps/rejected": -1976.0,
+      "loss": 0.0593,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -7.21875,
+      "rewards/margins": 9.75,
+      "rewards/rejected": -17.0,
+      "step": 740
+    },
+    {
+      "epoch": 0.7849293563579278,
+      "grad_norm": 21.23435309177318,
+      "learning_rate": 6.70334495204884e-08,
+      "logits/chosen": -2.203125,
+      "logits/rejected": -1.859375,
+      "logps/chosen": -968.0,
+      "logps/rejected": -1928.0,
+      "loss": 0.048,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -7.0625,
+      "rewards/margins": 9.75,
+      "rewards/rejected": -16.75,
+      "step": 750
+    },
+    {
+      "epoch": 0.7953950811093669,
+      "grad_norm": 22.491426007618863,
+      "learning_rate": 6.092659210462231e-08,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -1.890625,
+      "logps/chosen": -1020.0,
+      "logps/rejected": -1992.0,
+      "loss": 0.0566,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -7.4375,
+      "rewards/margins": 9.9375,
+      "rewards/rejected": -17.375,
+      "step": 760
+    },
+    {
+      "epoch": 0.8058608058608059,
+      "grad_norm": 7.849882679120514,
+      "learning_rate": 5.507260361320737e-08,
+      "logits/chosen": -2.203125,
+      "logits/rejected": -1.8828125,
+      "logps/chosen": -1012.0,
+      "logps/rejected": -2064.0,
+      "loss": 0.0432,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -7.21875,
+      "rewards/margins": 10.75,
+      "rewards/rejected": -18.0,
+      "step": 770
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 16.662472392288155,
+      "learning_rate": 4.947931323697982e-08,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -1.9375,
+      "logps/chosen": -1064.0,
+      "logps/rejected": -2064.0,
+      "loss": 0.0665,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -7.625,
+      "rewards/margins": 10.375,
+      "rewards/rejected": -18.0,
+      "step": 780
+    },
+    {
+      "epoch": 0.826792255363684,
+      "grad_norm": 18.85427926276285,
+      "learning_rate": 4.415420150605398e-08,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -1.90625,
+      "logps/chosen": -932.0,
+      "logps/rejected": -1920.0,
+      "loss": 0.0661,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -6.65625,
+      "rewards/margins": 9.8125,
+      "rewards/rejected": -16.5,
+      "step": 790
+    },
+    {
+      "epoch": 0.837257980115123,
+      "grad_norm": 26.78574368890705,
+      "learning_rate": 3.9104390285376374e-08,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -2.0,
+      "logps/chosen": -928.0,
+      "logps/rejected": -1880.0,
+      "loss": 0.053,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -6.40625,
+      "rewards/margins": 9.4375,
+      "rewards/rejected": -15.875,
+      "step": 800
+    },
+    {
+      "epoch": 0.847723704866562,
+      "grad_norm": 16.63949668329954,
+      "learning_rate": 3.433663324986208e-08,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -2.046875,
+      "logps/chosen": -928.0,
+      "logps/rejected": -1816.0,
+      "loss": 0.0625,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -6.34375,
+      "rewards/margins": 8.8125,
+      "rewards/rejected": -15.125,
+      "step": 810
+    },
+    {
+      "epoch": 0.858189429618001,
+      "grad_norm": 32.084754893664645,
+      "learning_rate": 2.9857306851953897e-08,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -1.9140625,
+      "logps/chosen": -964.0,
+      "logps/rejected": -1888.0,
+      "loss": 0.054,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -6.875,
+      "rewards/margins": 9.4375,
+      "rewards/rejected": -16.375,
+      "step": 820
+    },
+    {
+      "epoch": 0.8686551543694401,
+      "grad_norm": 19.89404053118834,
+      "learning_rate": 2.567240179368185e-08,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -1.78125,
+      "logps/chosen": -1012.0,
+      "logps/rejected": -1976.0,
+      "loss": 0.0466,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -7.09375,
+      "rewards/margins": 10.0625,
+      "rewards/rejected": -17.125,
+      "step": 830
+    },
+    {
+      "epoch": 0.8791208791208791,
+      "grad_norm": 11.521868597924879,
+      "learning_rate": 2.1787515014630357e-08,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -1.890625,
+      "logps/chosen": -984.0,
+      "logps/rejected": -2080.0,
+      "loss": 0.0533,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -7.21875,
+      "rewards/margins": 10.75,
+      "rewards/rejected": -18.0,
+      "step": 840
+    },
+    {
+      "epoch": 0.8895866038723181,
+      "grad_norm": 20.478869887407328,
+      "learning_rate": 1.820784220652766e-08,
+      "logits/chosen": -2.25,
+      "logits/rejected": -1.9609375,
+      "logps/chosen": -1024.0,
+      "logps/rejected": -2040.0,
+      "loss": 0.0396,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -7.1875,
+      "rewards/margins": 10.25,
+      "rewards/rejected": -17.5,
+      "step": 850
+    },
+    {
+      "epoch": 0.9000523286237572,
+      "grad_norm": 27.37618448209703,
+      "learning_rate": 1.4938170864468636e-08,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -1.78125,
+      "logps/chosen": -984.0,
+      "logps/rejected": -2096.0,
+      "loss": 0.0529,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -7.1875,
+      "rewards/margins": 11.125,
+      "rewards/rejected": -18.375,
+      "step": 860
+    },
+    {
+      "epoch": 0.9105180533751962,
+      "grad_norm": 27.12820939331472,
+      "learning_rate": 1.1982873884064465e-08,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -1.90625,
+      "logps/chosen": -1020.0,
+      "logps/rejected": -1976.0,
+      "loss": 0.0596,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -7.09375,
+      "rewards/margins": 9.9375,
+      "rewards/rejected": -17.0,
+      "step": 870
+    },
+    {
+      "epoch": 0.9209837781266352,
+      "grad_norm": 22.490629878443173,
+      "learning_rate": 9.345903713082304e-09,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -1.734375,
+      "logps/chosen": -1088.0,
+      "logps/rejected": -2112.0,
+      "loss": 0.056,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -7.625,
+      "rewards/margins": 10.375,
+      "rewards/rejected": -18.0,
+      "step": 880
+    },
+    {
+      "epoch": 0.9314495028780743,
+      "grad_norm": 16.052382854562193,
+      "learning_rate": 7.030787065396865e-09,
+      "logits/chosen": -2.21875,
+      "logits/rejected": -1.78125,
+      "logps/chosen": -1004.0,
+      "logps/rejected": -2112.0,
+      "loss": 0.0556,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -7.09375,
+      "rewards/margins": 11.3125,
+      "rewards/rejected": -18.375,
+      "step": 890
+    },
+    {
+      "epoch": 0.9419152276295133,
+      "grad_norm": 7.2739971268908326,
+      "learning_rate": 5.04062020432286e-09,
+      "logits/chosen": -2.390625,
+      "logits/rejected": -1.8671875,
+      "logps/chosen": -1048.0,
+      "logps/rejected": -2080.0,
+      "loss": 0.0627,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -7.34375,
+      "rewards/margins": 10.5625,
+      "rewards/rejected": -17.875,
+      "step": 900
+    },
+    {
+      "epoch": 0.9523809523809523,
+      "grad_norm": 29.919042800555964,
+      "learning_rate": 3.3780648016376866e-09,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -1.8984375,
+      "logps/chosen": -1048.0,
+      "logps/rejected": -2000.0,
+      "loss": 0.0575,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -7.34375,
+      "rewards/margins": 9.875,
+      "rewards/rejected": -17.25,
+      "step": 910
+    },
+    {
+      "epoch": 0.9628466771323915,
+      "grad_norm": 50.810549611199676,
+      "learning_rate": 2.0453443778310766e-09,
+      "logits/chosen": -2.25,
+      "logits/rejected": -1.8125,
+      "logps/chosen": -992.0,
+      "logps/rejected": -1984.0,
+      "loss": 0.0484,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -7.09375,
+      "rewards/margins": 10.0625,
+      "rewards/rejected": -17.125,
+      "step": 920
+    },
+    {
+      "epoch": 0.9733124018838305,
+      "grad_norm": 20.362035094083513,
+      "learning_rate": 1.0442413283435758e-09,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -1.734375,
+      "logps/chosen": -964.0,
+      "logps/rejected": -1920.0,
+      "loss": 0.0598,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -7.0625,
+      "rewards/margins": 9.5625,
+      "rewards/rejected": -16.625,
+      "step": 930
+    },
+    {
+      "epoch": 0.9837781266352695,
+      "grad_norm": 22.983688568193077,
+      "learning_rate": 3.760945397705828e-10,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -1.96875,
+      "logps/chosen": -988.0,
+      "logps/rejected": -2016.0,
+      "loss": 0.0503,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -6.8125,
+      "rewards/margins": 10.3125,
+      "rewards/rejected": -17.125,
+      "step": 940
+    },
+    {
+      "epoch": 0.9942438513867086,
+      "grad_norm": 18.89450295595607,
+      "learning_rate": 4.17975992204056e-11,
+      "logits/chosen": -2.21875,
+      "logits/rejected": -1.828125,
+      "logps/chosen": -1024.0,
+      "logps/rejected": -2040.0,
+      "loss": 0.0406,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -7.125,
+      "rewards/margins": 10.4375,
+      "rewards/rejected": -17.5,
+      "step": 950
+    },
+    {
+      "epoch": 0.9994767137624281,
+      "step": 955,
+      "total_flos": 0.0,
+      "train_loss": 0.15591317970715268,
+      "train_runtime": 13974.7976,
+      "train_samples_per_second": 8.749,
+      "train_steps_per_second": 0.068
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 955,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}