Training in progress, epoch 2, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/global_step1668/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1668/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1668/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1668/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1668/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1668/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1263 -2

last-checkpoint/global_step1668/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf98bffcabab8218507bcba9b08368256926e85c99089424f03b54f5dd9bd564
+size 20308318462

last-checkpoint/global_step1668/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6966e5c95822174294276e262d2f292b9bfa7cf9e9a2fac124b02c3b7fb1339
+size 20308318462

last-checkpoint/global_step1668/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64973c0ff25dd503d332535a3c7d43691046968cdd5c0a3bd0ecb94abee6cc74
+size 20308318462

last-checkpoint/global_step1668/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92fc02ffa815494ea7895effd23c436d7e421c0c2bf2295fb48d6d736e572c37
+size 168021

last-checkpoint/global_step1668/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db2740855c548b88fdd2e6b1edadbbe5d6ba4d389780b6c44459f5c0eff7c91c
+size 168021

last-checkpoint/global_step1668/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a542c036900a4d52c338793db1098af73debb728de0d9d24f627e9ec9374933f
+size 168021

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step834~~


1	+ global_step1668

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8190906700ee780cdf9acef8480699fc35cfb00ff01029df21b9e5f7ab53641
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:602525917b9baaf9f4ce832e2e8edf65f80cd28df8d88e88a66c5455ad0b159f
 size 4877660776

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4dffbd398d07477c8a7667bb9c64c4f99a093d5c0e9a83c85a03ce07e380dd4
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f873ecc91c7a3d668d4c239cff7184b6e599c2084aa976701d7ecdcaaafc6b9
 size 4932751008

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d648bd6bf235062ab5f0b53f51b22a7a298cc0a91a896c228d384daa7816b75
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0d5018d005251b127a1846019c48d630f6d77fa79e87cde98f2bc6400bb7d91
 size 4330865200

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8acd8efe43798b3349ea7b07aca8ae9990b114f09dbe94b99ce669e8d7debe0e
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:03d7b7c489fa4f5c9a58e26ef7976f8463630dab2895a97e6c976a0edf022e0e
 size 1089994880

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b580656286e8a6f334aced7bdb46499a54f3bb95644a0167405da037afbd894d
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:9698021f2d84167912e7be6ba48d3d2b8d6b20894f23319f36df078c03b33a64
 size 14768

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a763d1d109f11374f3725ac97283433a5c2264a51fd11d55a5af0441e79bbe2c
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:90a140d1d010220b1679bf6e519f8d3d518cb57331e0e7fb30008dc00e427811
 size 14768

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5685be549346816d411abdb06552706ef94ec9c1b6cb3302d99d90f37622b797
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:19aef773503e08b43c9bd940d36e298220b8d39900e7bd698b6996ac3625e59e
 size 14768

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55febb44a9d245e649a9b6071529c6f084be4339b0c0578ab70892487be29366
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd0242fe78905f8cb32fe932e8bcb70076d2384705e561f1118d71e5d750d8b4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 834,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1283,6 +1283,1267 @@
       "eval_samples_per_second": 20.053,
       "eval_steps_per_second": 0.85,
       "step": 834
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 1668,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 20.053,
       "eval_steps_per_second": 0.85,
       "step": 834
+    },
+    {
+      "epoch": 1.0071942446043165,
+      "grad_norm": 18.731496491285114,
+      "learning_rate": 3.691692581075078e-07,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -2.375,
+      "logps/chosen": -237.0,
+      "logps/rejected": -272.0,
+      "loss": 0.2766,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.9453125,
+      "rewards/margins": 1.984375,
+      "rewards/rejected": -3.921875,
+      "step": 840
+    },
+    {
+      "epoch": 1.0191846522781776,
+      "grad_norm": 18.062862619034647,
+      "learning_rate": 3.6694802310084405e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -226.0,
+      "logps/rejected": -246.0,
+      "loss": 0.2457,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.625,
+      "rewards/margins": 1.8046875,
+      "rewards/rejected": -3.4375,
+      "step": 850
+    },
+    {
+      "epoch": 1.0311750599520384,
+      "grad_norm": 18.43054843437252,
+      "learning_rate": 3.6472678809418033e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.34375,
+      "logps/chosen": -234.0,
+      "logps/rejected": -239.0,
+      "loss": 0.2445,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.7734375,
+      "rewards/margins": 1.984375,
+      "rewards/rejected": -3.765625,
+      "step": 860
+    },
+    {
+      "epoch": 1.0431654676258992,
+      "grad_norm": 14.792270635313406,
+      "learning_rate": 3.625055530875166e-07,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -239.0,
+      "logps/rejected": -258.0,
+      "loss": 0.2187,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.046875,
+      "rewards/margins": 2.15625,
+      "rewards/rejected": -4.1875,
+      "step": 870
+    },
+    {
+      "epoch": 1.0551558752997603,
+      "grad_norm": 14.450058470084105,
+      "learning_rate": 3.6028431808085294e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.265625,
+      "logps/chosen": -238.0,
+      "logps/rejected": -258.0,
+      "loss": 0.2253,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -1.984375,
+      "rewards/margins": 1.953125,
+      "rewards/rejected": -3.953125,
+      "step": 880
+    },
+    {
+      "epoch": 1.0671462829736211,
+      "grad_norm": 14.392869335197297,
+      "learning_rate": 3.5806308307418926e-07,
+      "logits/chosen": -2.375,
+      "logits/rejected": -2.390625,
+      "logps/chosen": -236.0,
+      "logps/rejected": -262.0,
+      "loss": 0.1993,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.15625,
+      "rewards/margins": 2.25,
+      "rewards/rejected": -4.40625,
+      "step": 890
+    },
+    {
+      "epoch": 1.079136690647482,
+      "grad_norm": 11.360043739301632,
+      "learning_rate": 3.5584184806752554e-07,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -224.0,
+      "logps/rejected": -252.0,
+      "loss": 0.2037,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.8984375,
+      "rewards/margins": 2.390625,
+      "rewards/rejected": -4.28125,
+      "step": 900
+    },
+    {
+      "epoch": 1.091127098321343,
+      "grad_norm": 17.249700366406504,
+      "learning_rate": 3.536206130608618e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -224.0,
+      "logps/rejected": -244.0,
+      "loss": 0.1878,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.921875,
+      "rewards/margins": 2.34375,
+      "rewards/rejected": -4.28125,
+      "step": 910
+    },
+    {
+      "epoch": 1.1031175059952039,
+      "grad_norm": 17.500202516480442,
+      "learning_rate": 3.513993780541981e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.375,
+      "logps/chosen": -203.0,
+      "logps/rejected": -246.0,
+      "loss": 0.2128,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.875,
+      "rewards/margins": 2.375,
+      "rewards/rejected": -4.25,
+      "step": 920
+    },
+    {
+      "epoch": 1.1151079136690647,
+      "grad_norm": 15.16644938505708,
+      "learning_rate": 3.491781430475344e-07,
+      "logits/chosen": -2.359375,
+      "logits/rejected": -2.40625,
+      "logps/chosen": -220.0,
+      "logps/rejected": -266.0,
+      "loss": 0.1957,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.4375,
+      "rewards/margins": 2.40625,
+      "rewards/rejected": -3.84375,
+      "step": 930
+    },
+    {
+      "epoch": 1.1270983213429258,
+      "grad_norm": 12.741517880568063,
+      "learning_rate": 3.469569080408707e-07,
+      "logits/chosen": -2.21875,
+      "logits/rejected": -2.234375,
+      "logps/chosen": -225.0,
+      "logps/rejected": -246.0,
+      "loss": 0.2034,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.296875,
+      "rewards/margins": 2.359375,
+      "rewards/rejected": -4.65625,
+      "step": 940
+    },
+    {
+      "epoch": 1.1390887290167866,
+      "grad_norm": 21.470206899673656,
+      "learning_rate": 3.4473567303420703e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.359375,
+      "logps/chosen": -235.0,
+      "logps/rejected": -256.0,
+      "loss": 0.1846,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.34375,
+      "rewards/margins": 2.515625,
+      "rewards/rejected": -4.875,
+      "step": 950
+    },
+    {
+      "epoch": 1.1510791366906474,
+      "grad_norm": 17.20708415573527,
+      "learning_rate": 3.425144380275433e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.359375,
+      "logps/chosen": -245.0,
+      "logps/rejected": -276.0,
+      "loss": 0.2031,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.3125,
+      "rewards/margins": 2.5625,
+      "rewards/rejected": -4.875,
+      "step": 960
+    },
+    {
+      "epoch": 1.1630695443645085,
+      "grad_norm": 14.942195535135212,
+      "learning_rate": 3.402932030208796e-07,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -242.0,
+      "logps/rejected": -272.0,
+      "loss": 0.2032,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.234375,
+      "rewards/margins": 2.734375,
+      "rewards/rejected": -4.96875,
+      "step": 970
+    },
+    {
+      "epoch": 1.1750599520383693,
+      "grad_norm": 11.998202232926158,
+      "learning_rate": 3.380719680142159e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -226.0,
+      "logps/rejected": -248.0,
+      "loss": 0.1639,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.734375,
+      "rewards/margins": 2.6875,
+      "rewards/rejected": -4.40625,
+      "step": 980
+    },
+    {
+      "epoch": 1.1870503597122302,
+      "grad_norm": 12.340216646822865,
+      "learning_rate": 3.358507330075522e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -238.0,
+      "logps/rejected": -260.0,
+      "loss": 0.1902,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -2.75,
+      "rewards/margins": 2.296875,
+      "rewards/rejected": -5.0625,
+      "step": 990
+    },
+    {
+      "epoch": 1.1990407673860912,
+      "grad_norm": 10.240701799756478,
+      "learning_rate": 3.3362949800088847e-07,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -237.0,
+      "logps/rejected": -260.0,
+      "loss": 0.1614,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.859375,
+      "rewards/margins": 2.65625,
+      "rewards/rejected": -4.5,
+      "step": 1000
+    },
+    {
+      "epoch": 1.211031175059952,
+      "grad_norm": 16.753004063840088,
+      "learning_rate": 3.3140826299422474e-07,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -2.390625,
+      "logps/chosen": -234.0,
+      "logps/rejected": -264.0,
+      "loss": 0.2139,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.15625,
+      "rewards/margins": 2.5625,
+      "rewards/rejected": -4.71875,
+      "step": 1010
+    },
+    {
+      "epoch": 1.223021582733813,
+      "grad_norm": 22.84859803236856,
+      "learning_rate": 3.291870279875611e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.25,
+      "logps/chosen": -242.0,
+      "logps/rejected": -270.0,
+      "loss": 0.1757,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.359375,
+      "rewards/margins": 2.578125,
+      "rewards/rejected": -4.9375,
+      "step": 1020
+    },
+    {
+      "epoch": 1.235011990407674,
+      "grad_norm": 14.789129276628799,
+      "learning_rate": 3.269657929808974e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -234.0,
+      "logps/rejected": -262.0,
+      "loss": 0.1719,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.078125,
+      "rewards/margins": 2.515625,
+      "rewards/rejected": -4.59375,
+      "step": 1030
+    },
+    {
+      "epoch": 1.2470023980815348,
+      "grad_norm": 21.148440474411384,
+      "learning_rate": 3.247445579742337e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -228.0,
+      "logps/rejected": -266.0,
+      "loss": 0.1689,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.6875,
+      "rewards/margins": 2.546875,
+      "rewards/rejected": -5.25,
+      "step": 1040
+    },
+    {
+      "epoch": 1.2589928057553956,
+      "grad_norm": 19.272034515617282,
+      "learning_rate": 3.2252332296756996e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -227.0,
+      "logps/rejected": -260.0,
+      "loss": 0.1591,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.65625,
+      "rewards/margins": 2.96875,
+      "rewards/rejected": -5.625,
+      "step": 1050
+    },
+    {
+      "epoch": 1.2709832134292567,
+      "grad_norm": 16.85198782317795,
+      "learning_rate": 3.2030208796090623e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -229.0,
+      "logps/rejected": -251.0,
+      "loss": 0.2236,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.765625,
+      "rewards/margins": 2.890625,
+      "rewards/rejected": -4.65625,
+      "step": 1060
+    },
+    {
+      "epoch": 1.2829736211031175,
+      "grad_norm": 15.836692596712956,
+      "learning_rate": 3.180808529542425e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -254.0,
+      "logps/rejected": -276.0,
+      "loss": 0.168,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.671875,
+      "rewards/margins": 2.703125,
+      "rewards/rejected": -5.375,
+      "step": 1070
+    },
+    {
+      "epoch": 1.2949640287769784,
+      "grad_norm": 8.91604867948452,
+      "learning_rate": 3.1585961794757884e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -240.0,
+      "logps/rejected": -253.0,
+      "loss": 0.1711,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.59375,
+      "rewards/margins": 2.75,
+      "rewards/rejected": -4.34375,
+      "step": 1080
+    },
+    {
+      "epoch": 1.3069544364508392,
+      "grad_norm": 14.305189630485472,
+      "learning_rate": 3.1363838294091517e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -235.0,
+      "logps/rejected": -251.0,
+      "loss": 0.1415,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.640625,
+      "rewards/margins": 2.9375,
+      "rewards/rejected": -4.59375,
+      "step": 1090
+    },
+    {
+      "epoch": 1.3189448441247003,
+      "grad_norm": 12.352735099035222,
+      "learning_rate": 3.1141714793425145e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -249.0,
+      "logps/rejected": -278.0,
+      "loss": 0.1572,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.1875,
+      "rewards/margins": 2.953125,
+      "rewards/rejected": -5.125,
+      "step": 1100
+    },
+    {
+      "epoch": 1.330935251798561,
+      "grad_norm": 14.924171575427302,
+      "learning_rate": 3.091959129275877e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.265625,
+      "logps/chosen": -215.0,
+      "logps/rejected": -241.0,
+      "loss": 0.1714,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.9375,
+      "rewards/margins": 2.84375,
+      "rewards/rejected": -4.78125,
+      "step": 1110
+    },
+    {
+      "epoch": 1.3429256594724222,
+      "grad_norm": 17.499923046869892,
+      "learning_rate": 3.06974677920924e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -254.0,
+      "logps/rejected": -278.0,
+      "loss": 0.1393,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.953125,
+      "rewards/margins": 2.640625,
+      "rewards/rejected": -5.59375,
+      "step": 1120
+    },
+    {
+      "epoch": 1.354916067146283,
+      "grad_norm": 16.158253954777205,
+      "learning_rate": 3.0475344291426033e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -229.0,
+      "logps/rejected": -266.0,
+      "loss": 0.1656,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.1875,
+      "rewards/margins": 3.375,
+      "rewards/rejected": -5.5625,
+      "step": 1130
+    },
+    {
+      "epoch": 1.3669064748201438,
+      "grad_norm": 12.087846600129158,
+      "learning_rate": 3.025322079075966e-07,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -225.0,
+      "logps/rejected": -272.0,
+      "loss": 0.1966,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.96875,
+      "rewards/margins": 3.171875,
+      "rewards/rejected": -5.15625,
+      "step": 1140
+    },
+    {
+      "epoch": 1.3788968824940047,
+      "grad_norm": 17.576347022242885,
+      "learning_rate": 3.003109729009329e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -220.0,
+      "logps/rejected": -264.0,
+      "loss": 0.1847,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.8046875,
+      "rewards/margins": 2.703125,
+      "rewards/rejected": -4.5,
+      "step": 1150
+    },
+    {
+      "epoch": 1.3908872901678657,
+      "grad_norm": 12.233329087327826,
+      "learning_rate": 2.980897378942692e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.234375,
+      "logps/chosen": -235.0,
+      "logps/rejected": -262.0,
+      "loss": 0.1373,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.34375,
+      "rewards/margins": 2.890625,
+      "rewards/rejected": -5.21875,
+      "step": 1160
+    },
+    {
+      "epoch": 1.4028776978417266,
+      "grad_norm": 14.731501359525842,
+      "learning_rate": 2.958685028876055e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.234375,
+      "logps/chosen": -236.0,
+      "logps/rejected": -260.0,
+      "loss": 0.1843,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.1875,
+      "rewards/margins": 2.625,
+      "rewards/rejected": -4.8125,
+      "step": 1170
+    },
+    {
+      "epoch": 1.4148681055155876,
+      "grad_norm": 10.33569347198834,
+      "learning_rate": 2.936472678809418e-07,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -246.0,
+      "logps/rejected": -266.0,
+      "loss": 0.1912,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.40625,
+      "rewards/margins": 2.640625,
+      "rewards/rejected": -5.0625,
+      "step": 1180
+    },
+    {
+      "epoch": 1.4268585131894485,
+      "grad_norm": 16.986111059013577,
+      "learning_rate": 2.914260328742781e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.25,
+      "logps/chosen": -231.0,
+      "logps/rejected": -256.0,
+      "loss": 0.1611,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.3125,
+      "rewards/margins": 2.703125,
+      "rewards/rejected": -5.03125,
+      "step": 1190
+    },
+    {
+      "epoch": 1.4388489208633093,
+      "grad_norm": 25.435636014827384,
+      "learning_rate": 2.8920479786761437e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -235.0,
+      "logps/rejected": -268.0,
+      "loss": 0.1512,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.28125,
+      "rewards/margins": 2.859375,
+      "rewards/rejected": -5.15625,
+      "step": 1200
+    },
+    {
+      "epoch": 1.4508393285371701,
+      "grad_norm": 13.56680412334536,
+      "learning_rate": 2.8698356286095065e-07,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -2.265625,
+      "logps/chosen": -260.0,
+      "logps/rejected": -284.0,
+      "loss": 0.1255,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -3.171875,
+      "rewards/margins": 3.40625,
+      "rewards/rejected": -6.59375,
+      "step": 1210
+    },
+    {
+      "epoch": 1.4628297362110312,
+      "grad_norm": 8.141641110335339,
+      "learning_rate": 2.847623278542869e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -236.0,
+      "logps/rejected": -264.0,
+      "loss": 0.1428,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.296875,
+      "rewards/margins": 3.03125,
+      "rewards/rejected": -5.34375,
+      "step": 1220
+    },
+    {
+      "epoch": 1.474820143884892,
+      "grad_norm": 21.115162166818017,
+      "learning_rate": 2.825410928476233e-07,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -2.25,
+      "logps/chosen": -221.0,
+      "logps/rejected": -268.0,
+      "loss": 0.136,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.796875,
+      "rewards/margins": 3.09375,
+      "rewards/rejected": -5.90625,
+      "step": 1230
+    },
+    {
+      "epoch": 1.486810551558753,
+      "grad_norm": 18.47262881897785,
+      "learning_rate": 2.803198578409596e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.25,
+      "logps/chosen": -228.0,
+      "logps/rejected": -260.0,
+      "loss": 0.1688,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -1.9375,
+      "rewards/margins": 3.171875,
+      "rewards/rejected": -5.125,
+      "step": 1240
+    },
+    {
+      "epoch": 1.498800959232614,
+      "grad_norm": 7.863109211524176,
+      "learning_rate": 2.7809862283429586e-07,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -222.0,
+      "logps/rejected": -272.0,
+      "loss": 0.1298,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.046875,
+      "rewards/margins": 3.53125,
+      "rewards/rejected": -5.5625,
+      "step": 1250
+    },
+    {
+      "epoch": 1.5107913669064748,
+      "grad_norm": 12.978026445303877,
+      "learning_rate": 2.7587738782763214e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -216.0,
+      "logps/rejected": -266.0,
+      "loss": 0.1403,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.40625,
+      "rewards/margins": 3.421875,
+      "rewards/rejected": -5.8125,
+      "step": 1260
+    },
+    {
+      "epoch": 1.5227817745803356,
+      "grad_norm": 15.921496272567383,
+      "learning_rate": 2.736561528209684e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -234.0,
+      "logps/rejected": -274.0,
+      "loss": 0.1493,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.28125,
+      "rewards/margins": 3.140625,
+      "rewards/rejected": -5.40625,
+      "step": 1270
+    },
+    {
+      "epoch": 1.5347721822541966,
+      "grad_norm": 14.590593841694169,
+      "learning_rate": 2.7143491781430474e-07,
+      "logits/chosen": -2.21875,
+      "logits/rejected": -2.234375,
+      "logps/chosen": -220.0,
+      "logps/rejected": -268.0,
+      "loss": 0.1147,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.8125,
+      "rewards/margins": 3.078125,
+      "rewards/rejected": -5.875,
+      "step": 1280
+    },
+    {
+      "epoch": 1.5467625899280577,
+      "grad_norm": 16.15992031571578,
+      "learning_rate": 2.692136828076411e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -242.0,
+      "logps/rejected": -274.0,
+      "loss": 0.1222,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -3.0625,
+      "rewards/margins": 3.453125,
+      "rewards/rejected": -6.53125,
+      "step": 1290
+    },
+    {
+      "epoch": 1.5587529976019185,
+      "grad_norm": 10.104750544983435,
+      "learning_rate": 2.6699244780097735e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -236.0,
+      "logps/rejected": -266.0,
+      "loss": 0.1225,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.453125,
+      "rewards/margins": 3.34375,
+      "rewards/rejected": -5.8125,
+      "step": 1300
+    },
+    {
+      "epoch": 1.5707434052757794,
+      "grad_norm": 16.414889130607445,
+      "learning_rate": 2.6477121279431363e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -227.0,
+      "logps/rejected": -270.0,
+      "loss": 0.1865,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.59375,
+      "rewards/margins": 3.421875,
+      "rewards/rejected": -6.03125,
+      "step": 1310
+    },
+    {
+      "epoch": 1.5827338129496402,
+      "grad_norm": 19.612192416903497,
+      "learning_rate": 2.625499777876499e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -236.0,
+      "logps/rejected": -272.0,
+      "loss": 0.1157,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -3.484375,
+      "rewards/margins": 3.265625,
+      "rewards/rejected": -6.75,
+      "step": 1320
+    },
+    {
+      "epoch": 1.594724220623501,
+      "grad_norm": 14.340619052654011,
+      "learning_rate": 2.6032874278098623e-07,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -251.0,
+      "logps/rejected": -274.0,
+      "loss": 0.1074,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.421875,
+      "rewards/margins": 3.90625,
+      "rewards/rejected": -6.34375,
+      "step": 1330
+    },
+    {
+      "epoch": 1.6067146282973621,
+      "grad_norm": 10.947155370834658,
+      "learning_rate": 2.581075077743225e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -242.0,
+      "logps/rejected": -268.0,
+      "loss": 0.1142,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.53125,
+      "rewards/margins": 3.640625,
+      "rewards/rejected": -6.1875,
+      "step": 1340
+    },
+    {
+      "epoch": 1.6187050359712232,
+      "grad_norm": 6.379407877957059,
+      "learning_rate": 2.558862727676588e-07,
+      "logits/chosen": -2.3125,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -243.0,
+      "logps/rejected": -264.0,
+      "loss": 0.1175,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.546875,
+      "rewards/margins": 3.6875,
+      "rewards/rejected": -6.21875,
+      "step": 1350
+    },
+    {
+      "epoch": 1.630695443645084,
+      "grad_norm": 14.584427754669349,
+      "learning_rate": 2.536650377609951e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -243.0,
+      "logps/rejected": -268.0,
+      "loss": 0.088,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.65625,
+      "rewards/margins": 3.515625,
+      "rewards/rejected": -6.1875,
+      "step": 1360
+    },
+    {
+      "epoch": 1.6426858513189448,
+      "grad_norm": 18.386633865745754,
+      "learning_rate": 2.514438027543314e-07,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -2.203125,
+      "logps/chosen": -240.0,
+      "logps/rejected": -276.0,
+      "loss": 0.0843,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.375,
+      "rewards/margins": 4.1875,
+      "rewards/rejected": -6.5625,
+      "step": 1370
+    },
+    {
+      "epoch": 1.6546762589928057,
+      "grad_norm": 13.249684798008296,
+      "learning_rate": 2.492225677476677e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.328125,
+      "logps/chosen": -230.0,
+      "logps/rejected": -282.0,
+      "loss": 0.11,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.515625,
+      "rewards/margins": 3.46875,
+      "rewards/rejected": -5.96875,
+      "step": 1380
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 24.989358834998974,
+      "learning_rate": 2.47001332741004e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -240.0,
+      "logps/rejected": -258.0,
+      "loss": 0.134,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.59375,
+      "rewards/margins": 3.3125,
+      "rewards/rejected": -5.90625,
+      "step": 1390
+    },
+    {
+      "epoch": 1.6786570743405276,
+      "grad_norm": 21.225948587869443,
+      "learning_rate": 2.447800977343403e-07,
+      "logits/chosen": -2.203125,
+      "logits/rejected": -2.21875,
+      "logps/chosen": -227.0,
+      "logps/rejected": -264.0,
+      "loss": 0.1539,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -2.671875,
+      "rewards/margins": 3.546875,
+      "rewards/rejected": -6.21875,
+      "step": 1400
+    },
+    {
+      "epoch": 1.6906474820143886,
+      "grad_norm": 22.09693803294425,
+      "learning_rate": 2.425588627276766e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -232.0,
+      "logps/rejected": -274.0,
+      "loss": 0.1301,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.8125,
+      "rewards/margins": 3.59375,
+      "rewards/rejected": -6.40625,
+      "step": 1410
+    },
+    {
+      "epoch": 1.7026378896882495,
+      "grad_norm": 13.568164124099978,
+      "learning_rate": 2.403376277210129e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -245.0,
+      "logps/rejected": -286.0,
+      "loss": 0.0997,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -3.734375,
+      "rewards/margins": 3.609375,
+      "rewards/rejected": -7.34375,
+      "step": 1420
+    },
+    {
+      "epoch": 1.7146282973621103,
+      "grad_norm": 12.536257234153933,
+      "learning_rate": 2.3811639271434916e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.25,
+      "logps/chosen": -243.0,
+      "logps/rejected": -274.0,
+      "loss": 0.1365,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.765625,
+      "rewards/margins": 3.515625,
+      "rewards/rejected": -6.28125,
+      "step": 1430
+    },
+    {
+      "epoch": 1.7266187050359711,
+      "grad_norm": 17.74910297920457,
+      "learning_rate": 2.3589515770768546e-07,
+      "logits/chosen": -2.296875,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -256.0,
+      "logps/rejected": -276.0,
+      "loss": 0.1436,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -3.3125,
+      "rewards/margins": 3.53125,
+      "rewards/rejected": -6.84375,
+      "step": 1440
+    },
+    {
+      "epoch": 1.738609112709832,
+      "grad_norm": 27.091464814087082,
+      "learning_rate": 2.3367392270102177e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -235.0,
+      "logps/rejected": -298.0,
+      "loss": 0.1031,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.640625,
+      "rewards/margins": 4.1875,
+      "rewards/rejected": -6.84375,
+      "step": 1450
+    },
+    {
+      "epoch": 1.750599520383693,
+      "grad_norm": 14.870002835228663,
+      "learning_rate": 2.3145268769435804e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.203125,
+      "logps/chosen": -247.0,
+      "logps/rejected": -278.0,
+      "loss": 0.1465,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -3.046875,
+      "rewards/margins": 3.609375,
+      "rewards/rejected": -6.65625,
+      "step": 1460
+    },
+    {
+      "epoch": 1.762589928057554,
+      "grad_norm": 17.480506529993356,
+      "learning_rate": 2.2923145268769435e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.265625,
+      "logps/chosen": -223.0,
+      "logps/rejected": -264.0,
+      "loss": 0.0896,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.484375,
+      "rewards/margins": 4.3125,
+      "rewards/rejected": -6.78125,
+      "step": 1470
+    },
+    {
+      "epoch": 1.774580335731415,
+      "grad_norm": 6.540878635676034,
+      "learning_rate": 2.2701021768103065e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.25,
+      "logps/chosen": -236.0,
+      "logps/rejected": -278.0,
+      "loss": 0.1107,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.703125,
+      "rewards/margins": 3.984375,
+      "rewards/rejected": -6.6875,
+      "step": 1480
+    },
+    {
+      "epoch": 1.7865707434052758,
+      "grad_norm": 16.51964209338177,
+      "learning_rate": 2.2478898267436695e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.265625,
+      "logps/chosen": -241.0,
+      "logps/rejected": -284.0,
+      "loss": 0.0963,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -3.671875,
+      "rewards/margins": 3.71875,
+      "rewards/rejected": -7.375,
+      "step": 1490
+    },
+    {
+      "epoch": 1.7985611510791366,
+      "grad_norm": 17.145067233621255,
+      "learning_rate": 2.2256774766770323e-07,
+      "logits/chosen": -2.1875,
+      "logits/rejected": -2.171875,
+      "logps/chosen": -234.0,
+      "logps/rejected": -255.0,
+      "loss": 0.1016,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.71875,
+      "rewards/margins": 3.953125,
+      "rewards/rejected": -6.6875,
+      "step": 1500
+    },
+    {
+      "epoch": 1.8105515587529974,
+      "grad_norm": 9.418365551008751,
+      "learning_rate": 2.2034651266103953e-07,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -2.234375,
+      "logps/chosen": -216.0,
+      "logps/rejected": -266.0,
+      "loss": 0.0902,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.65625,
+      "rewards/margins": 3.875,
+      "rewards/rejected": -6.53125,
+      "step": 1510
+    },
+    {
+      "epoch": 1.8225419664268585,
+      "grad_norm": 8.454143934854207,
+      "learning_rate": 2.1812527765437583e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.25,
+      "logps/chosen": -247.0,
+      "logps/rejected": -278.0,
+      "loss": 0.1036,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.875,
+      "rewards/margins": 3.75,
+      "rewards/rejected": -6.625,
+      "step": 1520
+    },
+    {
+      "epoch": 1.8345323741007196,
+      "grad_norm": 23.877830813468428,
+      "learning_rate": 2.159040426477121e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.3125,
+      "logps/chosen": -249.0,
+      "logps/rejected": -300.0,
+      "loss": 0.0974,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -3.625,
+      "rewards/margins": 3.953125,
+      "rewards/rejected": -7.5625,
+      "step": 1530
+    },
+    {
+      "epoch": 1.8465227817745804,
+      "grad_norm": 17.59044264644789,
+      "learning_rate": 2.1368280764104841e-07,
+      "logits/chosen": -2.171875,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -242.0,
+      "logps/rejected": -300.0,
+      "loss": 0.0921,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -3.734375,
+      "rewards/margins": 3.984375,
+      "rewards/rejected": -7.71875,
+      "step": 1540
+    },
+    {
+      "epoch": 1.8585131894484412,
+      "grad_norm": 7.53671069585816,
+      "learning_rate": 2.1146157263438472e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.265625,
+      "logps/chosen": -237.0,
+      "logps/rejected": -278.0,
+      "loss": 0.0677,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.734375,
+      "rewards/margins": 4.1875,
+      "rewards/rejected": -6.9375,
+      "step": 1550
+    },
+    {
+      "epoch": 1.870503597122302,
+      "grad_norm": 15.114334538388968,
+      "learning_rate": 2.09240337627721e-07,
+      "logits/chosen": -2.28125,
+      "logits/rejected": -2.25,
+      "logps/chosen": -245.0,
+      "logps/rejected": -260.0,
+      "loss": 0.1064,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -3.0,
+      "rewards/margins": 3.78125,
+      "rewards/rejected": -6.78125,
+      "step": 1560
+    },
+    {
+      "epoch": 1.882494004796163,
+      "grad_norm": 24.921093039405555,
+      "learning_rate": 2.070191026210573e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -246.0,
+      "logps/rejected": -274.0,
+      "loss": 0.1109,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.6875,
+      "rewards/margins": 3.46875,
+      "rewards/rejected": -6.15625,
+      "step": 1570
+    },
+    {
+      "epoch": 1.894484412470024,
+      "grad_norm": 17.229671646251834,
+      "learning_rate": 2.047978676143936e-07,
+      "logits/chosen": -2.203125,
+      "logits/rejected": -2.21875,
+      "logps/chosen": -251.0,
+      "logps/rejected": -276.0,
+      "loss": 0.0787,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.609375,
+      "rewards/margins": 3.875,
+      "rewards/rejected": -6.5,
+      "step": 1580
+    },
+    {
+      "epoch": 1.906474820143885,
+      "grad_norm": 10.939803601324265,
+      "learning_rate": 2.025766326077299e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.265625,
+      "logps/chosen": -235.0,
+      "logps/rejected": -284.0,
+      "loss": 0.0871,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.515625,
+      "rewards/margins": 4.125,
+      "rewards/rejected": -6.625,
+      "step": 1590
+    },
+    {
+      "epoch": 1.9184652278177459,
+      "grad_norm": 16.05247518882454,
+      "learning_rate": 2.0035539760106618e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -241.0,
+      "logps/rejected": -300.0,
+      "loss": 0.0611,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.5625,
+      "rewards/margins": 4.78125,
+      "rewards/rejected": -7.34375,
+      "step": 1600
+    },
+    {
+      "epoch": 1.9304556354916067,
+      "grad_norm": 9.855796335839392,
+      "learning_rate": 1.9813416259440246e-07,
+      "logits/chosen": -2.234375,
+      "logits/rejected": -2.28125,
+      "logps/chosen": -245.0,
+      "logps/rejected": -278.0,
+      "loss": 0.0889,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -3.625,
+      "rewards/margins": 3.921875,
+      "rewards/rejected": -7.53125,
+      "step": 1610
+    },
+    {
+      "epoch": 1.9424460431654675,
+      "grad_norm": 7.909249841156511,
+      "learning_rate": 1.9591292758773879e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -235.0,
+      "logps/rejected": -298.0,
+      "loss": 0.1069,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -3.59375,
+      "rewards/margins": 4.40625,
+      "rewards/rejected": -8.0,
+      "step": 1620
+    },
+    {
+      "epoch": 1.9544364508393284,
+      "grad_norm": 10.195924724786721,
+      "learning_rate": 1.9369169258107506e-07,
+      "logits/chosen": -2.328125,
+      "logits/rejected": -2.234375,
+      "logps/chosen": -251.0,
+      "logps/rejected": -280.0,
+      "loss": 0.0671,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -3.296875,
+      "rewards/margins": 4.0625,
+      "rewards/rejected": -7.375,
+      "step": 1630
+    },
+    {
+      "epoch": 1.9664268585131894,
+      "grad_norm": 4.981347556467333,
+      "learning_rate": 1.9147045757441137e-07,
+      "logits/chosen": -2.265625,
+      "logits/rejected": -2.296875,
+      "logps/chosen": -232.0,
+      "logps/rejected": -286.0,
+      "loss": 0.0626,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -3.40625,
+      "rewards/margins": 4.03125,
+      "rewards/rejected": -7.4375,
+      "step": 1640
+    },
+    {
+      "epoch": 1.9784172661870505,
+      "grad_norm": 8.780872639436975,
+      "learning_rate": 1.8924922256774767e-07,
+      "logits/chosen": -2.25,
+      "logits/rejected": -2.1875,
+      "logps/chosen": -248.0,
+      "logps/rejected": -276.0,
+      "loss": 0.0836,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -3.84375,
+      "rewards/margins": 3.953125,
+      "rewards/rejected": -7.8125,
+      "step": 1650
+    },
+    {
+      "epoch": 1.9904076738609113,
+      "grad_norm": 13.586444001383855,
+      "learning_rate": 1.8702798756108395e-07,
+      "logits/chosen": -2.34375,
+      "logits/rejected": -2.265625,
+      "logps/chosen": -253.0,
+      "logps/rejected": -282.0,
+      "loss": 0.0676,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -3.046875,
+      "rewards/margins": 4.21875,
+      "rewards/rejected": -7.25,
+      "step": 1660
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": -2.265625,
+      "eval_logits/rejected": -2.296875,
+      "eval_logps/chosen": -255.0,
+      "eval_logps/rejected": -270.0,
+      "eval_loss": 0.8723406195640564,
+      "eval_rewards/accuracies": 0.6397058963775635,
+      "eval_rewards/chosen": -4.71875,
+      "eval_rewards/margins": 1.59375,
+      "eval_rewards/rejected": -6.3125,
+      "eval_runtime": 20.0713,
+      "eval_samples_per_second": 19.979,
+      "eval_steps_per_second": 0.847,
+      "step": 1668
     }
   ],
   "logging_steps": 10,