Model save

Browse files

Files changed (4) hide show

README.md +83 -0
all_results.json +9 -0
train_results.json +9 -0
trainer_state.json +1731 -0

README.md ADDED Viewed

	@@ -0,0 +1,83 @@

+---
+base_model: princeton-nlp/Llama-3-Base-8B-SFT
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: llama3-wpo-lora
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# llama3-wpo-lora
+This model is a fine-tuned version of [princeton-nlp/Llama-3-Base-8B-SFT](https://huggingface.co/princeton-nlp/Llama-3-Base-8B-SFT) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5134
+- Rewards/chosen: -0.2023
+- Rewards/rejected: -1.1119
+- Rewards/accuracies: 0.7480
+- Rewards/margins: 0.9095
+- Logps/rejected: -287.7953
+- Logps/chosen: -294.5704
+- Logps/ref Response: -0.5364
+- Logits/rejected: -0.1602
+- Logits/chosen: -0.2100
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 1
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 64
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logps/ref Response | Logits/rejected | Logits/chosen |
+|:-------------:|:------:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:------------------:|:---------------:|:-------------:|
+| 0.6044        | 0.1047 | 100  | 0.5889          | 0.1186         | -0.2672          | 0.6840             | 0.3859          | -279.3490      | -291.3607    | -0.5364            | -0.5369         | -0.5447       |
+| 0.5438        | 0.2094 | 200  | 0.5452          | 0.0540         | -0.6279          | 0.7180             | 0.6819          | -282.9556      | -292.0069    | -0.5364            | -0.4631         | -0.4851       |
+| 0.5367        | 0.3141 | 300  | 0.5323          | -0.0871        | -0.8542          | 0.7240             | 0.7671          | -285.2182      | -293.4178    | -0.5364            | -0.3777         | -0.4077       |
+| 0.5196        | 0.4187 | 400  | 0.5236          | -0.0378        | -0.8614          | 0.7320             | 0.8235          | -285.2903      | -292.9255    | -0.5364            | -0.2899         | -0.3281       |
+| 0.509         | 0.5234 | 500  | 0.5185          | -0.2693        | -1.1302          | 0.7360             | 0.8610          | -287.9790      | -295.2397    | -0.5364            | -0.2296         | -0.2739       |
+| 0.5012        | 0.6281 | 600  | 0.5152          | -0.3520        | -1.2471          | 0.7480             | 0.8951          | -289.1475      | -296.0675    | -0.5364            | -0.1926         | -0.2397       |
+| 0.5168        | 0.7328 | 700  | 0.5139          | -0.2521        | -1.1562          | 0.7440             | 0.9041          | -288.2387      | -295.0681    | -0.5364            | -0.1665         | -0.2158       |
+| 0.5156        | 0.8375 | 800  | 0.5135          | -0.2204        | -1.1304          | 0.7520             | 0.9099          | -287.9801      | -294.7516    | -0.5364            | -0.1603         | -0.2103       |
+| 0.506         | 0.9422 | 900  | 0.5134          | -0.2023        | -1.1119          | 0.7480             | 0.9095          | -287.7953      | -294.5704    | -0.5364            | -0.1602         | -0.2100       |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.44.2
+- Pytorch 2.2.1+cu121
+- Datasets 2.14.6
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9997382884061764,
+    "total_flos": 0.0,
+    "train_loss": 0.5342667900454936,
+    "train_runtime": 19113.1655,
+    "train_samples": 61135,
+    "train_samples_per_second": 3.199,
+    "train_steps_per_second": 0.05
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 0.9997382884061764,
+    "total_flos": 0.0,
+    "train_loss": 0.5342667900454936,
+    "train_runtime": 19113.1655,
+    "train_samples": 61135,
+    "train_samples_per_second": 3.199,
+    "train_steps_per_second": 0.05
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1731 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9997382884061764,
+  "eval_steps": 100,
+  "global_step": 955,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0010468463752944255,
+      "grad_norm": 4.03125,
+      "learning_rate": 5.208333333333333e-08,
+      "logits/chosen": -0.3494967222213745,
+      "logits/rejected": -0.3728627860546112,
+      "logps/chosen": -285.8127136230469,
+      "logps/ref_response": -0.3494967222213745,
+      "logps/rejected": -212.7957000732422,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.010468463752944255,
+      "grad_norm": 3.8125,
+      "learning_rate": 5.208333333333334e-07,
+      "logits/chosen": -0.5401131510734558,
+      "logits/rejected": -0.5498467683792114,
+      "logps/chosen": -315.3433532714844,
+      "logps/ref_response": -0.5399107336997986,
+      "logps/rejected": -278.06756591796875,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.4444444477558136,
+      "rewards/chosen": -0.0011721360497176647,
+      "rewards/margins": 0.004719285294413567,
+      "rewards/rejected": -0.005891421809792519,
+      "step": 10
+    },
+    {
+      "epoch": 0.02093692750588851,
+      "grad_norm": 3.859375,
+      "learning_rate": 1.0416666666666667e-06,
+      "logits/chosen": -0.5040869116783142,
+      "logits/rejected": -0.5244153738021851,
+      "logps/chosen": -306.72930908203125,
+      "logps/ref_response": -0.5032420754432678,
+      "logps/rejected": -271.22784423828125,
+      "loss": 0.6921,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": 0.004430481232702732,
+      "rewards/margins": 0.005479422397911549,
+      "rewards/rejected": -0.0010489404667168856,
+      "step": 20
+    },
+    {
+      "epoch": 0.031405391258832765,
+      "grad_norm": 3.875,
+      "learning_rate": 1.5625e-06,
+      "logits/chosen": -0.5105286240577698,
+      "logits/rejected": -0.5181563496589661,
+      "logps/chosen": -290.9847717285156,
+      "logps/ref_response": -0.5080639123916626,
+      "logps/rejected": -252.4471435546875,
+      "loss": 0.6875,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.018009770661592484,
+      "rewards/margins": 0.021275093778967857,
+      "rewards/rejected": -0.0032653254456818104,
+      "step": 30
+    },
+    {
+      "epoch": 0.04187385501177702,
+      "grad_norm": 3.25,
+      "learning_rate": 2.0833333333333334e-06,
+      "logits/chosen": -0.48318833112716675,
+      "logits/rejected": -0.5184761881828308,
+      "logps/chosen": -305.87347412109375,
+      "logps/ref_response": -0.47757530212402344,
+      "logps/rejected": -244.558349609375,
+      "loss": 0.6771,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": 0.04270617291331291,
+      "rewards/margins": 0.042043447494506836,
+      "rewards/rejected": 0.0006627263501286507,
+      "step": 40
+    },
+    {
+      "epoch": 0.05234231876472128,
+      "grad_norm": 2.09375,
+      "learning_rate": 2.604166666666667e-06,
+      "logits/chosen": -0.5472795963287354,
+      "logits/rejected": -0.575782060623169,
+      "logps/chosen": -304.7160339355469,
+      "logps/ref_response": -0.5367640256881714,
+      "logps/rejected": -282.7024841308594,
+      "loss": 0.6697,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.0860854759812355,
+      "rewards/margins": 0.049294885247945786,
+      "rewards/rejected": 0.03679059445858002,
+      "step": 50
+    },
+    {
+      "epoch": 0.06281078251766553,
+      "grad_norm": 2.875,
+      "learning_rate": 3.125e-06,
+      "logits/chosen": -0.5696572661399841,
+      "logits/rejected": -0.5703103542327881,
+      "logps/chosen": -290.3211975097656,
+      "logps/ref_response": -0.5527787804603577,
+      "logps/rejected": -254.42190551757812,
+      "loss": 0.6511,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.13902851939201355,
+      "rewards/margins": 0.06114862486720085,
+      "rewards/rejected": 0.0778798907995224,
+      "step": 60
+    },
+    {
+      "epoch": 0.07327924627060979,
+      "grad_norm": 2.9375,
+      "learning_rate": 3.6458333333333333e-06,
+      "logits/chosen": -0.559634268283844,
+      "logits/rejected": -0.5745820999145508,
+      "logps/chosen": -285.9539489746094,
+      "logps/ref_response": -0.5369429588317871,
+      "logps/rejected": -263.0733947753906,
+      "loss": 0.6325,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.234585240483284,
+      "rewards/margins": 0.16143682599067688,
+      "rewards/rejected": 0.07314838469028473,
+      "step": 70
+    },
+    {
+      "epoch": 0.08374771002355404,
+      "grad_norm": 2.765625,
+      "learning_rate": 4.166666666666667e-06,
+      "logits/chosen": -0.4994782507419586,
+      "logits/rejected": -0.5257306694984436,
+      "logps/chosen": -287.14178466796875,
+      "logps/ref_response": -0.46965378522872925,
+      "logps/rejected": -273.8600158691406,
+      "loss": 0.6093,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.3439296782016754,
+      "rewards/margins": 0.2807127833366394,
+      "rewards/rejected": 0.06321687251329422,
+      "step": 80
+    },
+    {
+      "epoch": 0.0942161737764983,
+      "grad_norm": 2.65625,
+      "learning_rate": 4.6875000000000004e-06,
+      "logits/chosen": -0.530420184135437,
+      "logits/rejected": -0.5506101846694946,
+      "logps/chosen": -330.380615234375,
+      "logps/ref_response": -0.4922845959663391,
+      "logps/rejected": -296.19439697265625,
+      "loss": 0.5874,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.27289265394210815,
+      "rewards/margins": 0.35931333899497986,
+      "rewards/rejected": -0.0864206999540329,
+      "step": 90
+    },
+    {
+      "epoch": 0.10468463752944256,
+      "grad_norm": 2.671875,
+      "learning_rate": 4.9997324926814375e-06,
+      "logits/chosen": -0.5689066648483276,
+      "logits/rejected": -0.5622434020042419,
+      "logps/chosen": -276.24310302734375,
+      "logps/ref_response": -0.533843994140625,
+      "logps/rejected": -291.2969970703125,
+      "loss": 0.6044,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.2586072087287903,
+      "rewards/margins": 0.3670012056827545,
+      "rewards/rejected": -0.10839401185512543,
+      "step": 100
+    },
+    {
+      "epoch": 0.10468463752944256,
+      "eval_logits/chosen": -0.5446628332138062,
+      "eval_logits/rejected": -0.5368726253509521,
+      "eval_logps/chosen": -291.36065673828125,
+      "eval_logps/ref_response": -0.536393404006958,
+      "eval_logps/rejected": -279.3489685058594,
+      "eval_loss": 0.5888689160346985,
+      "eval_rewards/accuracies": 0.6840000152587891,
+      "eval_rewards/chosen": 0.11864880472421646,
+      "eval_rewards/margins": 0.38588646054267883,
+      "eval_rewards/rejected": -0.26723766326904297,
+      "eval_runtime": 351.4888,
+      "eval_samples_per_second": 5.69,
+      "eval_steps_per_second": 0.356,
+      "step": 100
+    },
+    {
+      "epoch": 0.11515310128238682,
+      "grad_norm": 2.1875,
+      "learning_rate": 4.996723692767927e-06,
+      "logits/chosen": -0.6064401865005493,
+      "logits/rejected": -0.6292127966880798,
+      "logps/chosen": -290.3874206542969,
+      "logps/ref_response": -0.5667906999588013,
+      "logps/rejected": -279.1947937011719,
+      "loss": 0.5769,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.12466597557067871,
+      "rewards/margins": 0.48810654878616333,
+      "rewards/rejected": -0.3634406626224518,
+      "step": 110
+    },
+    {
+      "epoch": 0.12562156503533106,
+      "grad_norm": 2.328125,
+      "learning_rate": 4.9903757462135984e-06,
+      "logits/chosen": -0.5538973808288574,
+      "logits/rejected": -0.563797652721405,
+      "logps/chosen": -263.09698486328125,
+      "logps/ref_response": -0.5169209837913513,
+      "logps/rejected": -255.43795776367188,
+      "loss": 0.5649,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.05361238867044449,
+      "rewards/margins": 0.42452582716941833,
+      "rewards/rejected": -0.47813814878463745,
+      "step": 120
+    },
+    {
+      "epoch": 0.1360900287882753,
+      "grad_norm": 2.390625,
+      "learning_rate": 4.980697142834315e-06,
+      "logits/chosen": -0.5228760838508606,
+      "logits/rejected": -0.539161205291748,
+      "logps/chosen": -303.0,
+      "logps/ref_response": -0.4790240228176117,
+      "logps/rejected": -340.1643981933594,
+      "loss": 0.5679,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.004994773771613836,
+      "rewards/margins": 0.45376062393188477,
+      "rewards/rejected": -0.45875534415245056,
+      "step": 130
+    },
+    {
+      "epoch": 0.14655849254121958,
+      "grad_norm": 2.09375,
+      "learning_rate": 4.967700826904229e-06,
+      "logits/chosen": -0.5957541465759277,
+      "logits/rejected": -0.6013976335525513,
+      "logps/chosen": -283.49285888671875,
+      "logps/ref_response": -0.5482783913612366,
+      "logps/rejected": -278.0264587402344,
+      "loss": 0.5477,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.040642134845256805,
+      "rewards/margins": 0.6047846674919128,
+      "rewards/rejected": -0.6454268097877502,
+      "step": 140
+    },
+    {
+      "epoch": 0.15702695629416383,
+      "grad_norm": 2.484375,
+      "learning_rate": 4.951404179843963e-06,
+      "logits/chosen": -0.5976008176803589,
+      "logits/rejected": -0.5590274930000305,
+      "logps/chosen": -308.1587829589844,
+      "logps/ref_response": -0.5423828363418579,
+      "logps/rejected": -281.4222412109375,
+      "loss": 0.5468,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.2197073996067047,
+      "rewards/margins": 0.6635927557945251,
+      "rewards/rejected": -0.4438853859901428,
+      "step": 150
+    },
+    {
+      "epoch": 0.16749542004710807,
+      "grad_norm": 2.109375,
+      "learning_rate": 4.931828996974498e-06,
+      "logits/chosen": -0.5375654697418213,
+      "logits/rejected": -0.5237765908241272,
+      "logps/chosen": -296.62542724609375,
+      "logps/ref_response": -0.4895528256893158,
+      "logps/rejected": -272.4287414550781,
+      "loss": 0.5462,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": 0.23916181921958923,
+      "rewards/margins": 0.6912265419960022,
+      "rewards/rejected": -0.4520646631717682,
+      "step": 160
+    },
+    {
+      "epoch": 0.17796388380005235,
+      "grad_norm": 2.46875,
+      "learning_rate": 4.909001458367867e-06,
+      "logits/chosen": -0.6169471740722656,
+      "logits/rejected": -0.5980030298233032,
+      "logps/chosen": -289.12432861328125,
+      "logps/ref_response": -0.5753272771835327,
+      "logps/rejected": -278.28826904296875,
+      "loss": 0.551,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.07445995509624481,
+      "rewards/margins": 0.5914220213890076,
+      "rewards/rejected": -0.6658819913864136,
+      "step": 170
+    },
+    {
+      "epoch": 0.1884323475529966,
+      "grad_norm": 2.109375,
+      "learning_rate": 4.882952093833628e-06,
+      "logits/chosen": -0.6207358241081238,
+      "logits/rejected": -0.590207040309906,
+      "logps/chosen": -304.12164306640625,
+      "logps/ref_response": -0.5761692523956299,
+      "logps/rejected": -268.29193115234375,
+      "loss": 0.5446,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.1806192249059677,
+      "rewards/margins": 0.5938898324966431,
+      "rewards/rejected": -0.774509072303772,
+      "step": 180
+    },
+    {
+      "epoch": 0.19890081130594087,
+      "grad_norm": 2.96875,
+      "learning_rate": 4.853715742087947e-06,
+      "logits/chosen": -0.5569428205490112,
+      "logits/rejected": -0.5339682102203369,
+      "logps/chosen": -276.7432556152344,
+      "logps/ref_response": -0.5028859972953796,
+      "logps/rejected": -284.9825134277344,
+      "loss": 0.5467,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": 0.025777459144592285,
+      "rewards/margins": 0.5920640230178833,
+      "rewards/rejected": -0.5662865042686462,
+      "step": 190
+    },
+    {
+      "epoch": 0.2093692750588851,
+      "grad_norm": 3.78125,
+      "learning_rate": 4.821331504159906e-06,
+      "logits/chosen": -0.561359167098999,
+      "logits/rejected": -0.5725305676460266,
+      "logps/chosen": -297.00811767578125,
+      "logps/ref_response": -0.5163358449935913,
+      "logps/rejected": -256.9476013183594,
+      "loss": 0.5438,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.04708755761384964,
+      "rewards/margins": 0.6549776196479797,
+      "rewards/rejected": -0.6078900098800659,
+      "step": 200
+    },
+    {
+      "epoch": 0.2093692750588851,
+      "eval_logits/chosen": -0.4850742220878601,
+      "eval_logits/rejected": -0.4631035327911377,
+      "eval_logps/chosen": -292.0068664550781,
+      "eval_logps/ref_response": -0.5363935232162476,
+      "eval_logps/rejected": -282.95562744140625,
+      "eval_loss": 0.545185923576355,
+      "eval_rewards/accuracies": 0.7179999947547913,
+      "eval_rewards/chosen": 0.05402619019150734,
+      "eval_rewards/margins": 0.6819319725036621,
+      "eval_rewards/rejected": -0.6279057860374451,
+      "eval_runtime": 349.4927,
+      "eval_samples_per_second": 5.723,
+      "eval_steps_per_second": 0.358,
+      "step": 200
+    },
+    {
+      "epoch": 0.21983773881182936,
+      "grad_norm": 3.5625,
+      "learning_rate": 4.7858426910973435e-06,
+      "logits/chosen": -0.6022263169288635,
+      "logits/rejected": -0.6005181074142456,
+      "logps/chosen": -279.6543273925781,
+      "logps/ref_response": -0.5563252568244934,
+      "logps/rejected": -274.255126953125,
+      "loss": 0.5428,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.05802757292985916,
+      "rewards/margins": 0.6256381869316101,
+      "rewards/rejected": -0.5676106214523315,
+      "step": 210
+    },
+    {
+      "epoch": 0.23030620256477363,
+      "grad_norm": 2.265625,
+      "learning_rate": 4.747296766042161e-06,
+      "logits/chosen": -0.5727165937423706,
+      "logits/rejected": -0.5475823879241943,
+      "logps/chosen": -319.9413146972656,
+      "logps/ref_response": -0.525614857673645,
+      "logps/rejected": -273.38226318359375,
+      "loss": 0.5473,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": 0.04127366468310356,
+      "rewards/margins": 0.6884390711784363,
+      "rewards/rejected": -0.6471654176712036,
+      "step": 220
+    },
+    {
+      "epoch": 0.24077466631771788,
+      "grad_norm": 2.765625,
+      "learning_rate": 4.705745280752586e-06,
+      "logits/chosen": -0.6053592562675476,
+      "logits/rejected": -0.5618892312049866,
+      "logps/chosen": -293.00775146484375,
+      "logps/ref_response": -0.5675605535507202,
+      "logps/rejected": -291.1396179199219,
+      "loss": 0.5482,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.07024725526571274,
+      "rewards/margins": 0.6758569478988647,
+      "rewards/rejected": -0.7461041212081909,
+      "step": 230
+    },
+    {
+      "epoch": 0.2512431300706621,
+      "grad_norm": 1.9453125,
+      "learning_rate": 4.661243806657256e-06,
+      "logits/chosen": -0.5776160955429077,
+      "logits/rejected": -0.5337271690368652,
+      "logps/chosen": -300.6571044921875,
+      "logps/ref_response": -0.5330287218093872,
+      "logps/rejected": -265.2437744140625,
+      "loss": 0.544,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.01873040571808815,
+      "rewards/margins": 0.5816887617111206,
+      "rewards/rejected": -0.6004191637039185,
+      "step": 240
+    },
+    {
+      "epoch": 0.26171159382360637,
+      "grad_norm": 2.25,
+      "learning_rate": 4.613851860533367e-06,
+      "logits/chosen": -0.5833350419998169,
+      "logits/rejected": -0.5385982394218445,
+      "logps/chosen": -294.57745361328125,
+      "logps/ref_response": -0.5492520928382874,
+      "logps/rejected": -261.46356201171875,
+      "loss": 0.5475,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": 0.042012982070446014,
+      "rewards/margins": 0.5611510276794434,
+      "rewards/rejected": -0.5191380381584167,
+      "step": 250
+    },
+    {
+      "epoch": 0.2721800575765506,
+      "grad_norm": 2.140625,
+      "learning_rate": 4.563632824908252e-06,
+      "logits/chosen": -0.5507840514183044,
+      "logits/rejected": -0.5077590346336365,
+      "logps/chosen": -294.02032470703125,
+      "logps/ref_response": -0.5089389085769653,
+      "logps/rejected": -281.4302978515625,
+      "loss": 0.5203,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": 0.23180679976940155,
+      "rewards/margins": 0.9116535186767578,
+      "rewards/rejected": -0.6798466444015503,
+      "step": 260
+    },
+    {
+      "epoch": 0.2826485213294949,
+      "grad_norm": 3.15625,
+      "learning_rate": 4.510653863290871e-06,
+      "logits/chosen": -0.5404945611953735,
+      "logits/rejected": -0.5136505961418152,
+      "logps/chosen": -297.4787292480469,
+      "logps/ref_response": -0.5091123580932617,
+      "logps/rejected": -306.3871765136719,
+      "loss": 0.5336,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.061466194689273834,
+      "rewards/margins": 0.6878874897956848,
+      "rewards/rejected": -0.7493537068367004,
+      "step": 270
+    },
+    {
+      "epoch": 0.29311698508243916,
+      "grad_norm": 2.078125,
+      "learning_rate": 4.454985830346574e-06,
+      "logits/chosen": -0.6031721830368042,
+      "logits/rejected": -0.5645710229873657,
+      "logps/chosen": -303.2027282714844,
+      "logps/ref_response": -0.5748014450073242,
+      "logps/rejected": -287.49359130859375,
+      "loss": 0.5502,
+      "rewards/accuracies": 0.643750011920929,
+      "rewards/chosen": -0.08863335102796555,
+      "rewards/margins": 0.5962889194488525,
+      "rewards/rejected": -0.6849222183227539,
+      "step": 280
+    },
+    {
+      "epoch": 0.3035854488353834,
+      "grad_norm": 2.34375,
+      "learning_rate": 4.396703177135262e-06,
+      "logits/chosen": -0.5598694086074829,
+      "logits/rejected": -0.5239233374595642,
+      "logps/chosen": -287.7163391113281,
+      "logps/ref_response": -0.5320878624916077,
+      "logps/rejected": -259.9132385253906,
+      "loss": 0.5259,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.1362595558166504,
+      "rewards/margins": 0.7511795163154602,
+      "rewards/rejected": -0.6149200201034546,
+      "step": 290
+    },
+    {
+      "epoch": 0.31405391258832765,
+      "grad_norm": 2.78125,
+      "learning_rate": 4.335883851539693e-06,
+      "logits/chosen": -0.5759841799736023,
+      "logits/rejected": -0.5336117148399353,
+      "logps/chosen": -296.90283203125,
+      "logps/ref_response": -0.5529105067253113,
+      "logps/rejected": -294.5677185058594,
+      "loss": 0.5367,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.07880517095327377,
+      "rewards/margins": 0.7312062978744507,
+      "rewards/rejected": -0.8100113868713379,
+      "step": 300
+    },
+    {
+      "epoch": 0.31405391258832765,
+      "eval_logits/chosen": -0.4076842665672302,
+      "eval_logits/rejected": -0.37772703170776367,
+      "eval_logps/chosen": -293.4178161621094,
+      "eval_logps/ref_response": -0.5363935232162476,
+      "eval_logps/rejected": -285.21820068359375,
+      "eval_loss": 0.5322972536087036,
+      "eval_rewards/accuracies": 0.7239999771118164,
+      "eval_rewards/chosen": -0.08706536889076233,
+      "eval_rewards/margins": 0.7670957446098328,
+      "eval_rewards/rejected": -0.8541611433029175,
+      "eval_runtime": 349.5592,
+      "eval_samples_per_second": 5.721,
+      "eval_steps_per_second": 0.358,
+      "step": 300
+    },
+    {
+      "epoch": 0.3245223763412719,
+      "grad_norm": 2.71875,
+      "learning_rate": 4.2726091940171055e-06,
+      "logits/chosen": -0.5224083065986633,
+      "logits/rejected": -0.5524710416793823,
+      "logps/chosen": -295.6260681152344,
+      "logps/ref_response": -0.5006662607192993,
+      "logps/rejected": -342.54486083984375,
+      "loss": 0.517,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": 0.12224096059799194,
+      "rewards/margins": 0.872395396232605,
+      "rewards/rejected": -0.7501543760299683,
+      "step": 310
+    },
+    {
+      "epoch": 0.33499084009421615,
+      "grad_norm": 1.796875,
+      "learning_rate": 4.206963828813555e-06,
+      "logits/chosen": -0.5745652914047241,
+      "logits/rejected": -0.5253760814666748,
+      "logps/chosen": -296.783447265625,
+      "logps/ref_response": -0.5563712120056152,
+      "logps/rejected": -281.023681640625,
+      "loss": 0.5186,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": 0.0009771495824679732,
+      "rewards/margins": 0.8379068374633789,
+      "rewards/rejected": -0.8369296193122864,
+      "step": 320
+    },
+    {
+      "epoch": 0.34545930384716045,
+      "grad_norm": 2.03125,
+      "learning_rate": 4.139035550786495e-06,
+      "logits/chosen": -0.6098914742469788,
+      "logits/rejected": -0.5377870798110962,
+      "logps/chosen": -290.60955810546875,
+      "logps/ref_response": -0.5800708532333374,
+      "logps/rejected": -262.45794677734375,
+      "loss": 0.5298,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.1382167935371399,
+      "rewards/margins": 0.6818909645080566,
+      "rewards/rejected": -0.820107638835907,
+      "step": 330
+    },
+    {
+      "epoch": 0.3559277676001047,
+      "grad_norm": 2.40625,
+      "learning_rate": 4.068915207986931e-06,
+      "logits/chosen": -0.5661717653274536,
+      "logits/rejected": -0.49055665731430054,
+      "logps/chosen": -298.7618713378906,
+      "logps/ref_response": -0.5407181978225708,
+      "logps/rejected": -259.991943359375,
+      "loss": 0.5262,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.3091699182987213,
+      "rewards/margins": 0.8509536981582642,
+      "rewards/rejected": -1.1601234674453735,
+      "step": 340
+    },
+    {
+      "epoch": 0.36639623135304894,
+      "grad_norm": 2.25,
+      "learning_rate": 3.996696580158211e-06,
+      "logits/chosen": -0.5107800364494324,
+      "logits/rejected": -0.477796733379364,
+      "logps/chosen": -338.06329345703125,
+      "logps/ref_response": -0.486247718334198,
+      "logps/rejected": -293.3652648925781,
+      "loss": 0.5389,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.1124631017446518,
+      "rewards/margins": 0.7731461524963379,
+      "rewards/rejected": -0.8856091499328613,
+      "step": 350
+    },
+    {
+      "epoch": 0.3768646951059932,
+      "grad_norm": 2.0,
+      "learning_rate": 3.922476253313921e-06,
+      "logits/chosen": -0.48775357007980347,
+      "logits/rejected": -0.4903165400028229,
+      "logps/chosen": -275.6280822753906,
+      "logps/ref_response": -0.48780474066734314,
+      "logps/rejected": -299.45269775390625,
+      "loss": 0.523,
+      "rewards/accuracies": 0.6499999761581421,
+      "rewards/chosen": -0.24213580787181854,
+      "rewards/margins": 0.7627736330032349,
+      "rewards/rejected": -1.0049093961715698,
+      "step": 360
+    },
+    {
+      "epoch": 0.38733315885893743,
+      "grad_norm": 3.171875,
+      "learning_rate": 3.846353490562664e-06,
+      "logits/chosen": -0.5095352530479431,
+      "logits/rejected": -0.5028492212295532,
+      "logps/chosen": -289.87359619140625,
+      "logps/ref_response": -0.491685152053833,
+      "logps/rejected": -264.93988037109375,
+      "loss": 0.508,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": 0.03148346394300461,
+      "rewards/margins": 0.9142478704452515,
+      "rewards/rejected": -0.8827645182609558,
+      "step": 370
+    },
+    {
+      "epoch": 0.39780162261188173,
+      "grad_norm": 2.171875,
+      "learning_rate": 3.768430099352445e-06,
+      "logits/chosen": -0.528128981590271,
+      "logits/rejected": -0.5178142786026001,
+      "logps/chosen": -307.6114501953125,
+      "logps/ref_response": -0.5215914845466614,
+      "logps/rejected": -281.41888427734375,
+      "loss": 0.5227,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.09869714826345444,
+      "rewards/margins": 1.0406019687652588,
+      "rewards/rejected": -1.1392991542816162,
+      "step": 380
+    },
+    {
+      "epoch": 0.408270086364826,
+      "grad_norm": 3.234375,
+      "learning_rate": 3.6888102953122307e-06,
+      "logits/chosen": -0.5722348093986511,
+      "logits/rejected": -0.525412380695343,
+      "logps/chosen": -266.93212890625,
+      "logps/ref_response": -0.5661150813102722,
+      "logps/rejected": -268.66094970703125,
+      "loss": 0.5332,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.3913359045982361,
+      "rewards/margins": 0.8005081415176392,
+      "rewards/rejected": -1.1918439865112305,
+      "step": 390
+    },
+    {
+      "epoch": 0.4187385501177702,
+      "grad_norm": 2.828125,
+      "learning_rate": 3.607600562872785e-06,
+      "logits/chosen": -0.5220564603805542,
+      "logits/rejected": -0.4830014705657959,
+      "logps/chosen": -286.83056640625,
+      "logps/ref_response": -0.5258094072341919,
+      "logps/rejected": -278.11456298828125,
+      "loss": 0.5196,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -0.10876519978046417,
+      "rewards/margins": 0.8259785771369934,
+      "rewards/rejected": -0.9347437024116516,
+      "step": 400
+    },
+    {
+      "epoch": 0.4187385501177702,
+      "eval_logits/chosen": -0.3280640244483948,
+      "eval_logits/rejected": -0.2898561656475067,
+      "eval_logps/chosen": -292.925537109375,
+      "eval_logps/ref_response": -0.5363935232162476,
+      "eval_logps/rejected": -285.290283203125,
+      "eval_loss": 0.5235576629638672,
+      "eval_rewards/accuracies": 0.7319999933242798,
+      "eval_rewards/chosen": -0.03783903643488884,
+      "eval_rewards/margins": 0.823529839515686,
+      "eval_rewards/rejected": -0.8613688349723816,
+      "eval_runtime": 349.5237,
+      "eval_samples_per_second": 5.722,
+      "eval_steps_per_second": 0.358,
+      "step": 400
+    },
+    {
+      "epoch": 0.42920701387071447,
+      "grad_norm": 2.53125,
+      "learning_rate": 3.5249095128531863e-06,
+      "logits/chosen": -0.54010409116745,
+      "logits/rejected": -0.485682874917984,
+      "logps/chosen": -278.5982360839844,
+      "logps/ref_response": -0.5564926862716675,
+      "logps/rejected": -277.0348205566406,
+      "loss": 0.5119,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.04259440302848816,
+      "rewards/margins": 0.8908407092094421,
+      "rewards/rejected": -0.9334350824356079,
+      "step": 410
+    },
+    {
+      "epoch": 0.4396754776236587,
+      "grad_norm": 2.25,
+      "learning_rate": 3.4408477372034743e-06,
+      "logits/chosen": -0.5260821580886841,
+      "logits/rejected": -0.4941217303276062,
+      "logps/chosen": -310.8683776855469,
+      "logps/ref_response": -0.5361344218254089,
+      "logps/rejected": -299.2928161621094,
+      "loss": 0.5345,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.19507813453674316,
+      "rewards/margins": 0.7008574604988098,
+      "rewards/rejected": -0.8959355354309082,
+      "step": 420
+    },
+    {
+      "epoch": 0.45014394137660296,
+      "grad_norm": 3.484375,
+      "learning_rate": 3.355527661097728e-06,
+      "logits/chosen": -0.5269330739974976,
+      "logits/rejected": -0.5198745727539062,
+      "logps/chosen": -282.8704833984375,
+      "logps/ref_response": -0.5477866530418396,
+      "logps/rejected": -284.66448974609375,
+      "loss": 0.5363,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.3844759464263916,
+      "rewards/margins": 0.7087138295173645,
+      "rewards/rejected": -1.0931897163391113,
+      "step": 430
+    },
+    {
+      "epoch": 0.46061240512954726,
+      "grad_norm": 2.265625,
+      "learning_rate": 3.269063392575352e-06,
+      "logits/chosen": -0.4928794503211975,
+      "logits/rejected": -0.4792874753475189,
+      "logps/chosen": -329.7843017578125,
+      "logps/ref_response": -0.5050511360168457,
+      "logps/rejected": -308.486572265625,
+      "loss": 0.5184,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.10263900458812714,
+      "rewards/margins": 0.7831138372421265,
+      "rewards/rejected": -0.8857528567314148,
+      "step": 440
+    },
+    {
+      "epoch": 0.4710808688824915,
+      "grad_norm": 1.9453125,
+      "learning_rate": 3.181570569931697e-06,
+      "logits/chosen": -0.5173367857933044,
+      "logits/rejected": -0.49148645997047424,
+      "logps/chosen": -287.93524169921875,
+      "logps/ref_response": -0.5224987864494324,
+      "logps/rejected": -284.7456970214844,
+      "loss": 0.5167,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.2799225449562073,
+      "rewards/margins": 0.795501708984375,
+      "rewards/rejected": -1.0754241943359375,
+      "step": 450
+    },
+    {
+      "epoch": 0.48154933263543576,
+      "grad_norm": 1.7109375,
+      "learning_rate": 3.09316620706208e-06,
+      "logits/chosen": -0.4698413014411926,
+      "logits/rejected": -0.4720715582370758,
+      "logps/chosen": -310.1413879394531,
+      "logps/ref_response": -0.4874509274959564,
+      "logps/rejected": -292.0880126953125,
+      "loss": 0.5003,
+      "rewards/accuracies": 0.793749988079071,
+      "rewards/chosen": -0.2300359308719635,
+      "rewards/margins": 1.019820213317871,
+      "rewards/rejected": -1.2498562335968018,
+      "step": 460
+    },
+    {
+      "epoch": 0.49201779638838,
+      "grad_norm": 2.28125,
+      "learning_rate": 3.0039685369660785e-06,
+      "logits/chosen": -0.4714682102203369,
+      "logits/rejected": -0.4186578392982483,
+      "logps/chosen": -284.99407958984375,
+      "logps/ref_response": -0.4861488938331604,
+      "logps/rejected": -270.0592041015625,
+      "loss": 0.5301,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.1522492617368698,
+      "rewards/margins": 0.8750549554824829,
+      "rewards/rejected": -1.0273042917251587,
+      "step": 470
+    },
+    {
+      "epoch": 0.5024862601413242,
+      "grad_norm": 2.15625,
+      "learning_rate": 2.91409685362137e-06,
+      "logits/chosen": -0.4800891876220703,
+      "logits/rejected": -0.4620879590511322,
+      "logps/chosen": -282.891845703125,
+      "logps/ref_response": -0.5061747431755066,
+      "logps/rejected": -280.4508972167969,
+      "loss": 0.506,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.3358300030231476,
+      "rewards/margins": 0.7954305410385132,
+      "rewards/rejected": -1.1312605142593384,
+      "step": 480
+    },
+    {
+      "epoch": 0.5129547238942685,
+      "grad_norm": 1.4921875,
+      "learning_rate": 2.8236713524386085e-06,
+      "logits/chosen": -0.5464354753494263,
+      "logits/rejected": -0.4956323504447937,
+      "logps/chosen": -283.87847900390625,
+      "logps/ref_response": -0.5583964586257935,
+      "logps/rejected": -262.64935302734375,
+      "loss": 0.5042,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.2944543957710266,
+      "rewards/margins": 0.9288061857223511,
+      "rewards/rejected": -1.223260760307312,
+      "step": 490
+    },
+    {
+      "epoch": 0.5234231876472127,
+      "grad_norm": 2.28125,
+      "learning_rate": 2.7328129695107205e-06,
+      "logits/chosen": -0.45227164030075073,
+      "logits/rejected": -0.4433063864707947,
+      "logps/chosen": -268.2086181640625,
+      "logps/ref_response": -0.46682921051979065,
+      "logps/rejected": -278.5611572265625,
+      "loss": 0.509,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.18779410421848297,
+      "rewards/margins": 1.08889639377594,
+      "rewards/rejected": -1.2766902446746826,
+      "step": 500
+    },
+    {
+      "epoch": 0.5234231876472127,
+      "eval_logits/chosen": -0.2739206552505493,
+      "eval_logits/rejected": -0.22961243987083435,
+      "eval_logps/chosen": -295.23968505859375,
+      "eval_logps/ref_response": -0.536393404006958,
+      "eval_logps/rejected": -287.97900390625,
+      "eval_loss": 0.5184563994407654,
+      "eval_rewards/accuracies": 0.7360000014305115,
+      "eval_rewards/chosen": -0.2692505419254303,
+      "eval_rewards/margins": 0.8609901070594788,
+      "eval_rewards/rejected": -1.1302406787872314,
+      "eval_runtime": 349.5683,
+      "eval_samples_per_second": 5.721,
+      "eval_steps_per_second": 0.358,
+      "step": 500
+    },
+    {
+      "epoch": 0.533891651400157,
+      "grad_norm": 1.8515625,
+      "learning_rate": 2.641643219871597e-06,
+      "logits/chosen": -0.4826118052005768,
+      "logits/rejected": -0.4357355237007141,
+      "logps/chosen": -315.3731689453125,
+      "logps/ref_response": -0.5090646743774414,
+      "logps/rejected": -300.0047607421875,
+      "loss": 0.5249,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.24246744811534882,
+      "rewards/margins": 0.7875919342041016,
+      "rewards/rejected": -1.0300593376159668,
+      "step": 510
+    },
+    {
+      "epoch": 0.5443601151531012,
+      "grad_norm": 2.65625,
+      "learning_rate": 2.5502840349805074e-06,
+      "logits/chosen": -0.4724315106868744,
+      "logits/rejected": -0.4490731656551361,
+      "logps/chosen": -312.1684265136719,
+      "logps/ref_response": -0.5057616829872131,
+      "logps/rejected": -300.3685302734375,
+      "loss": 0.531,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.21491758525371552,
+      "rewards/margins": 0.9349055290222168,
+      "rewards/rejected": -1.1498230695724487,
+      "step": 520
+    },
+    {
+      "epoch": 0.5548285789060455,
+      "grad_norm": 2.6875,
+      "learning_rate": 2.4588575996495797e-06,
+      "logits/chosen": -0.43103843927383423,
+      "logits/rejected": -0.4253179430961609,
+      "logps/chosen": -275.5965881347656,
+      "logps/ref_response": -0.45075368881225586,
+      "logps/rejected": -266.48785400390625,
+      "loss": 0.5277,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.5141997337341309,
+      "rewards/margins": 0.9270822405815125,
+      "rewards/rejected": -1.441282033920288,
+      "step": 530
+    },
+    {
+      "epoch": 0.5652970426589898,
+      "grad_norm": 2.984375,
+      "learning_rate": 2.367486188632446e-06,
+      "logits/chosen": -0.47084522247314453,
+      "logits/rejected": -0.46598607301712036,
+      "logps/chosen": -288.1656188964844,
+      "logps/ref_response": -0.5035119652748108,
+      "logps/rejected": -328.1705322265625,
+      "loss": 0.5151,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.2480819970369339,
+      "rewards/margins": 0.912807822227478,
+      "rewards/rejected": -1.1608898639678955,
+      "step": 540
+    },
+    {
+      "epoch": 0.575765506411934,
+      "grad_norm": 2.234375,
+      "learning_rate": 2.276292003092593e-06,
+      "logits/chosen": -0.4974418580532074,
+      "logits/rejected": -0.46066489815711975,
+      "logps/chosen": -259.3627624511719,
+      "logps/ref_response": -0.5067554712295532,
+      "logps/rejected": -267.8301086425781,
+      "loss": 0.5027,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.1483170986175537,
+      "rewards/margins": 0.9989498257637024,
+      "rewards/rejected": -1.1472669839859009,
+      "step": 550
+    },
+    {
+      "epoch": 0.5862339701648783,
+      "grad_norm": 2.0625,
+      "learning_rate": 2.1853970071701415e-06,
+      "logits/chosen": -0.4845849871635437,
+      "logits/rejected": -0.4430512487888336,
+      "logps/chosen": -281.133544921875,
+      "logps/ref_response": -0.5059608817100525,
+      "logps/rejected": -283.225830078125,
+      "loss": 0.5108,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.17830374836921692,
+      "rewards/margins": 0.9193024635314941,
+      "rewards/rejected": -1.0976061820983887,
+      "step": 560
+    },
+    {
+      "epoch": 0.5967024339178225,
+      "grad_norm": 2.671875,
+      "learning_rate": 2.0949227648656194e-06,
+      "logits/chosen": -0.5085529088973999,
+      "logits/rejected": -0.45733585953712463,
+      "logps/chosen": -298.2741394042969,
+      "logps/ref_response": -0.5283219218254089,
+      "logps/rejected": -266.26641845703125,
+      "loss": 0.5149,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.31216269731521606,
+      "rewards/margins": 0.9785518646240234,
+      "rewards/rejected": -1.2907145023345947,
+      "step": 570
+    },
+    {
+      "epoch": 0.6071708976707668,
+      "grad_norm": 1.765625,
+      "learning_rate": 2.00499027745888e-06,
+      "logits/chosen": -0.4733489453792572,
+      "logits/rejected": -0.4443192481994629,
+      "logps/chosen": -302.96319580078125,
+      "logps/ref_response": -0.5130476355552673,
+      "logps/rejected": -302.777099609375,
+      "loss": 0.524,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.31352347135543823,
+      "rewards/margins": 0.8776998519897461,
+      "rewards/rejected": -1.191223382949829,
+      "step": 580
+    },
+    {
+      "epoch": 0.6176393614237111,
+      "grad_norm": 1.953125,
+      "learning_rate": 1.915719821680624e-06,
+      "logits/chosen": -0.5032647848129272,
+      "logits/rejected": -0.425483763217926,
+      "logps/chosen": -291.1716613769531,
+      "logps/ref_response": -0.5210384130477905,
+      "logps/rejected": -287.4841003417969,
+      "loss": 0.5085,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.12319432199001312,
+      "rewards/margins": 0.930014967918396,
+      "rewards/rejected": -1.0532093048095703,
+      "step": 590
+    },
+    {
+      "epoch": 0.6281078251766553,
+      "grad_norm": 1.734375,
+      "learning_rate": 1.8272307888529276e-06,
+      "logits/chosen": -0.4218737483024597,
+      "logits/rejected": -0.3671064078807831,
+      "logps/chosen": -267.94598388671875,
+      "logps/ref_response": -0.4653666913509369,
+      "logps/rejected": -285.668212890625,
+      "loss": 0.5012,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.35736727714538574,
+      "rewards/margins": 0.9875767827033997,
+      "rewards/rejected": -1.3449440002441406,
+      "step": 600
+    },
+    {
+      "epoch": 0.6281078251766553,
+      "eval_logits/chosen": -0.23965981602668762,
+      "eval_logits/rejected": -0.19264473021030426,
+      "eval_logps/chosen": -296.0675354003906,
+      "eval_logps/ref_response": -0.5363935232162476,
+      "eval_logps/rejected": -289.1474914550781,
+      "eval_loss": 0.5152395963668823,
+      "eval_rewards/accuracies": 0.7480000257492065,
+      "eval_rewards/chosen": -0.3520371615886688,
+      "eval_rewards/margins": 0.895053505897522,
+      "eval_rewards/rejected": -1.2470906972885132,
+      "eval_runtime": 349.5867,
+      "eval_samples_per_second": 5.721,
+      "eval_steps_per_second": 0.358,
+      "step": 600
+    },
+    {
+      "epoch": 0.6385762889295996,
+      "grad_norm": 1.9140625,
+      "learning_rate": 1.739641525213929e-06,
+      "logits/chosen": -0.4473685324192047,
+      "logits/rejected": -0.4271601736545563,
+      "logps/chosen": -269.72998046875,
+      "logps/ref_response": -0.500705897808075,
+      "logps/rejected": -275.93499755859375,
+      "loss": 0.5048,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.3331184685230255,
+      "rewards/margins": 0.9662030339241028,
+      "rewards/rejected": -1.2993214130401611,
+      "step": 610
+    },
+    {
+      "epoch": 0.6490447526825438,
+      "grad_norm": 2.09375,
+      "learning_rate": 1.6530691736402317e-06,
+      "logits/chosen": -0.4652767777442932,
+      "logits/rejected": -0.41162675619125366,
+      "logps/chosen": -296.17120361328125,
+      "logps/ref_response": -0.502620279788971,
+      "logps/rejected": -286.85284423828125,
+      "loss": 0.5152,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.32981282472610474,
+      "rewards/margins": 1.0166393518447876,
+      "rewards/rejected": -1.3464521169662476,
+      "step": 620
+    },
+    {
+      "epoch": 0.6595132164354881,
+      "grad_norm": 2.15625,
+      "learning_rate": 1.5676295169786864e-06,
+      "logits/chosen": -0.48260921239852905,
+      "logits/rejected": -0.43052974343299866,
+      "logps/chosen": -288.948486328125,
+      "logps/ref_response": -0.522256076335907,
+      "logps/rejected": -275.0885009765625,
+      "loss": 0.5087,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.2533746659755707,
+      "rewards/margins": 0.9306432604789734,
+      "rewards/rejected": -1.1840178966522217,
+      "step": 630
+    },
+    {
+      "epoch": 0.6699816801884323,
+      "grad_norm": 1.7109375,
+      "learning_rate": 1.4834368231970922e-06,
+      "logits/chosen": -0.5107460618019104,
+      "logits/rejected": -0.4472557604312897,
+      "logps/chosen": -287.7373352050781,
+      "logps/ref_response": -0.5478745698928833,
+      "logps/rejected": -274.25653076171875,
+      "loss": 0.4972,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.11735512316226959,
+      "rewards/margins": 0.8366876840591431,
+      "rewards/rejected": -0.9540427327156067,
+      "step": 640
+    },
+    {
+      "epoch": 0.6804501439413766,
+      "grad_norm": 2.046875,
+      "learning_rate": 1.4006036925609245e-06,
+      "logits/chosen": -0.48332634568214417,
+      "logits/rejected": -0.41887950897216797,
+      "logps/chosen": -300.3069152832031,
+      "logps/ref_response": -0.5103051662445068,
+      "logps/rejected": -251.2999725341797,
+      "loss": 0.5163,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -0.16883328557014465,
+      "rewards/margins": 0.9550157785415649,
+      "rewards/rejected": -1.1238490343093872,
+      "step": 650
+    },
+    {
+      "epoch": 0.6909186076943209,
+      "grad_norm": 2.125,
+      "learning_rate": 1.3192409070404582e-06,
+      "logits/chosen": -0.4920195937156677,
+      "logits/rejected": -0.45738130807876587,
+      "logps/chosen": -304.8662414550781,
+      "logps/ref_response": -0.5286127328872681,
+      "logps/rejected": -307.9287109375,
+      "loss": 0.5109,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.044912584125995636,
+      "rewards/margins": 0.9029264450073242,
+      "rewards/rejected": -0.9478389620780945,
+      "step": 660
+    },
+    {
+      "epoch": 0.7013870714472651,
+      "grad_norm": 2.640625,
+      "learning_rate": 1.2394572821496953e-06,
+      "logits/chosen": -0.4847448468208313,
+      "logits/rejected": -0.44459033012390137,
+      "logps/chosen": -278.811279296875,
+      "logps/ref_response": -0.5491371154785156,
+      "logps/rejected": -260.7911682128906,
+      "loss": 0.5158,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.17895063757896423,
+      "rewards/margins": 0.8761111497879028,
+      "rewards/rejected": -1.0550616979599,
+      "step": 670
+    },
+    {
+      "epoch": 0.7118555352002094,
+      "grad_norm": 1.703125,
+      "learning_rate": 1.1613595214152713e-06,
+      "logits/chosen": -0.5145822763442993,
+      "logits/rejected": -0.45838356018066406,
+      "logps/chosen": -288.93072509765625,
+      "logps/ref_response": -0.5694643259048462,
+      "logps/rejected": -278.52642822265625,
+      "loss": 0.5018,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.2978869080543518,
+      "rewards/margins": 0.903253436088562,
+      "rewards/rejected": -1.2011405229568481,
+      "step": 680
+    },
+    {
+      "epoch": 0.7223239989531536,
+      "grad_norm": 1.7578125,
+      "learning_rate": 1.0850520736699362e-06,
+      "logits/chosen": -0.46343159675598145,
+      "logits/rejected": -0.40929287672042847,
+      "logps/chosen": -342.8109130859375,
+      "logps/ref_response": -0.4945286810398102,
+      "logps/rejected": -318.6613464355469,
+      "loss": 0.516,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.27149656414985657,
+      "rewards/margins": 0.9835799336433411,
+      "rewards/rejected": -1.25507652759552,
+      "step": 690
+    },
+    {
+      "epoch": 0.7327924627060979,
+      "grad_norm": 1.96875,
+      "learning_rate": 1.0106369933615043e-06,
+      "logits/chosen": -0.5036773681640625,
+      "logits/rejected": -0.42831772565841675,
+      "logps/chosen": -317.4853515625,
+      "logps/ref_response": -0.5506774187088013,
+      "logps/rejected": -265.49896240234375,
+      "loss": 0.5168,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.30581605434417725,
+      "rewards/margins": 0.7802382707595825,
+      "rewards/rejected": -1.0860543251037598,
+      "step": 700
+    },
+    {
+      "epoch": 0.7327924627060979,
+      "eval_logits/chosen": -0.2157570868730545,
+      "eval_logits/rejected": -0.16649317741394043,
+      "eval_logps/chosen": -295.0681457519531,
+      "eval_logps/ref_response": -0.5363935232162476,
+      "eval_logps/rejected": -288.23870849609375,
+      "eval_loss": 0.5139358639717102,
+      "eval_rewards/accuracies": 0.7440000176429749,
+      "eval_rewards/chosen": -0.2521001994609833,
+      "eval_rewards/margins": 0.9041155576705933,
+      "eval_rewards/rejected": -1.156215786933899,
+      "eval_runtime": 349.6297,
+      "eval_samples_per_second": 5.72,
+      "eval_steps_per_second": 0.358,
+      "step": 700
+    },
+    {
+      "epoch": 0.7432609264590422,
+      "grad_norm": 2.265625,
+      "learning_rate": 9.382138040640714e-07,
+      "logits/chosen": -0.509280800819397,
+      "logits/rejected": -0.45220834016799927,
+      "logps/chosen": -266.75555419921875,
+      "logps/ref_response": -0.5634459257125854,
+      "logps/rejected": -281.2605285644531,
+      "loss": 0.5042,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.24380390346050262,
+      "rewards/margins": 0.9118436574935913,
+      "rewards/rejected": -1.1556475162506104,
+      "step": 710
+    },
+    {
+      "epoch": 0.7537293902119864,
+      "grad_norm": 1.890625,
+      "learning_rate": 8.678793653740633e-07,
+      "logits/chosen": -0.43401581048965454,
+      "logits/rejected": -0.41436678171157837,
+      "logps/chosen": -264.42425537109375,
+      "logps/ref_response": -0.49243393540382385,
+      "logps/rejected": -265.80517578125,
+      "loss": 0.5067,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.12135882675647736,
+      "rewards/margins": 1.0111067295074463,
+      "rewards/rejected": -1.1324656009674072,
+      "step": 720
+    },
+    {
+      "epoch": 0.7641978539649307,
+      "grad_norm": 1.5078125,
+      "learning_rate": 7.997277433690984e-07,
+      "logits/chosen": -0.4582897126674652,
+      "logits/rejected": -0.38019412755966187,
+      "logps/chosen": -303.3408203125,
+      "logps/ref_response": -0.4944031834602356,
+      "logps/rejected": -290.0057067871094,
+      "loss": 0.5008,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.24817109107971191,
+      "rewards/margins": 0.8901812434196472,
+      "rewards/rejected": -1.1383522748947144,
+      "step": 730
+    },
+    {
+      "epoch": 0.7746663177178749,
+      "grad_norm": 1.53125,
+      "learning_rate": 7.338500848029603e-07,
+      "logits/chosen": -0.4196249544620514,
+      "logits/rejected": -0.41058415174484253,
+      "logps/chosen": -293.5699157714844,
+      "logps/ref_response": -0.4282347559928894,
+      "logps/rejected": -278.59942626953125,
+      "loss": 0.4953,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.13130240142345428,
+      "rewards/margins": 0.9627996683120728,
+      "rewards/rejected": -1.0941020250320435,
+      "step": 740
+    },
+    {
+      "epoch": 0.7851347814708192,
+      "grad_norm": 1.9296875,
+      "learning_rate": 6.70334495204884e-07,
+      "logits/chosen": -0.4480054974555969,
+      "logits/rejected": -0.40563225746154785,
+      "logps/chosen": -326.13360595703125,
+      "logps/ref_response": -0.49645256996154785,
+      "logps/rejected": -289.4101257324219,
+      "loss": 0.5131,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.11767721176147461,
+      "rewards/margins": 0.9364310503005981,
+      "rewards/rejected": -1.0541083812713623,
+      "step": 750
+    },
+    {
+      "epoch": 0.7956032452237635,
+      "grad_norm": 2.234375,
+      "learning_rate": 6.092659210462232e-07,
+      "logits/chosen": -0.47132453322410583,
+      "logits/rejected": -0.44373002648353577,
+      "logps/chosen": -271.53887939453125,
+      "logps/ref_response": -0.5222411751747131,
+      "logps/rejected": -271.93829345703125,
+      "loss": 0.5203,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.2481314241886139,
+      "rewards/margins": 0.8226064443588257,
+      "rewards/rejected": -1.0707378387451172,
+      "step": 760
+    },
+    {
+      "epoch": 0.8060717089767077,
+      "grad_norm": 1.4609375,
+      "learning_rate": 5.507260361320738e-07,
+      "logits/chosen": -0.45327791571617126,
+      "logits/rejected": -0.4443967342376709,
+      "logps/chosen": -287.787109375,
+      "logps/ref_response": -0.50932776927948,
+      "logps/rejected": -282.6838073730469,
+      "loss": 0.5151,
+      "rewards/accuracies": 0.6937500238418579,
+      "rewards/chosen": -0.15161371231079102,
+      "rewards/margins": 0.7541275024414062,
+      "rewards/rejected": -0.9057412147521973,
+      "step": 770
+    },
+    {
+      "epoch": 0.816540172729652,
+      "grad_norm": 1.5,
+      "learning_rate": 4.947931323697983e-07,
+      "logits/chosen": -0.4503496289253235,
+      "logits/rejected": -0.4044824540615082,
+      "logps/chosen": -289.29718017578125,
+      "logps/ref_response": -0.49121037125587463,
+      "logps/rejected": -283.48651123046875,
+      "loss": 0.5147,
+      "rewards/accuracies": 0.675000011920929,
+      "rewards/chosen": -0.2892809808254242,
+      "rewards/margins": 0.7692901492118835,
+      "rewards/rejected": -1.0585711002349854,
+      "step": 780
+    },
+    {
+      "epoch": 0.8270086364825961,
+      "grad_norm": 2.46875,
+      "learning_rate": 4.4154201506053985e-07,
+      "logits/chosen": -0.4808201789855957,
+      "logits/rejected": -0.437244176864624,
+      "logps/chosen": -303.23907470703125,
+      "logps/ref_response": -0.5042006373405457,
+      "logps/rejected": -268.26165771484375,
+      "loss": 0.5086,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.2500911056995392,
+      "rewards/margins": 0.948900043964386,
+      "rewards/rejected": -1.198991060256958,
+      "step": 790
+    },
+    {
+      "epoch": 0.8374771002355405,
+      "grad_norm": 1.109375,
+      "learning_rate": 3.910439028537638e-07,
+      "logits/chosen": -0.4850529730319977,
+      "logits/rejected": -0.4150736927986145,
+      "logps/chosen": -351.47967529296875,
+      "logps/ref_response": -0.5149141550064087,
+      "logps/rejected": -306.39044189453125,
+      "loss": 0.5156,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.20133157074451447,
+      "rewards/margins": 0.7480217218399048,
+      "rewards/rejected": -0.9493532180786133,
+      "step": 800
+    },
+    {
+      "epoch": 0.8374771002355405,
+      "eval_logits/chosen": -0.21027056872844696,
+      "eval_logits/rejected": -0.16033047437667847,
+      "eval_logps/chosen": -294.7516174316406,
+      "eval_logps/ref_response": -0.5363935232162476,
+      "eval_logps/rejected": -287.9801330566406,
+      "eval_loss": 0.5134991407394409,
+      "eval_rewards/accuracies": 0.7519999742507935,
+      "eval_rewards/chosen": -0.22044621407985687,
+      "eval_rewards/margins": 0.9099085927009583,
+      "eval_rewards/rejected": -1.1303547620773315,
+      "eval_runtime": 349.5707,
+      "eval_samples_per_second": 5.721,
+      "eval_steps_per_second": 0.358,
+      "step": 800
+    },
+    {
+      "epoch": 0.8479455639884846,
+      "grad_norm": 1.59375,
+      "learning_rate": 3.4336633249862084e-07,
+      "logits/chosen": -0.5064218640327454,
+      "logits/rejected": -0.40463584661483765,
+      "logps/chosen": -323.1934814453125,
+      "logps/ref_response": -0.5519742369651794,
+      "logps/rejected": -292.6800231933594,
+      "loss": 0.4987,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.28738316893577576,
+      "rewards/margins": 0.8722078204154968,
+      "rewards/rejected": -1.1595909595489502,
+      "step": 810
+    },
+    {
+      "epoch": 0.8584140277414289,
+      "grad_norm": 1.78125,
+      "learning_rate": 2.98573068519539e-07,
+      "logits/chosen": -0.4821909964084625,
+      "logits/rejected": -0.44719791412353516,
+      "logps/chosen": -310.1927185058594,
+      "logps/ref_response": -0.5307375192642212,
+      "logps/rejected": -297.6319274902344,
+      "loss": 0.5104,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.15440870821475983,
+      "rewards/margins": 0.9249560236930847,
+      "rewards/rejected": -1.0793647766113281,
+      "step": 820
+    },
+    {
+      "epoch": 0.8688824914943732,
+      "grad_norm": 2.234375,
+      "learning_rate": 2.5672401793681854e-07,
+      "logits/chosen": -0.49778860807418823,
+      "logits/rejected": -0.4640674591064453,
+      "logps/chosen": -277.7762145996094,
+      "logps/ref_response": -0.5466696619987488,
+      "logps/rejected": -273.833740234375,
+      "loss": 0.5,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.24376177787780762,
+      "rewards/margins": 0.9780392646789551,
+      "rewards/rejected": -1.2218010425567627,
+      "step": 830
+    },
+    {
+      "epoch": 0.8793509552473174,
+      "grad_norm": 1.828125,
+      "learning_rate": 2.178751501463036e-07,
+      "logits/chosen": -0.46538400650024414,
+      "logits/rejected": -0.4340798258781433,
+      "logps/chosen": -317.69232177734375,
+      "logps/ref_response": -0.5086795091629028,
+      "logps/rejected": -311.81475830078125,
+      "loss": 0.4914,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.2690751850605011,
+      "rewards/margins": 0.9315555691719055,
+      "rewards/rejected": -1.200630784034729,
+      "step": 840
+    },
+    {
+      "epoch": 0.8898194190002617,
+      "grad_norm": 2.015625,
+      "learning_rate": 1.820784220652766e-07,
+      "logits/chosen": -0.5234388113021851,
+      "logits/rejected": -0.4476381838321686,
+      "logps/chosen": -348.9575500488281,
+      "logps/ref_response": -0.5546728372573853,
+      "logps/rejected": -283.19366455078125,
+      "loss": 0.5109,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.0391000397503376,
+      "rewards/margins": 0.9498162269592285,
+      "rewards/rejected": -0.9889162182807922,
+      "step": 850
+    },
+    {
+      "epoch": 0.9002878827532059,
+      "grad_norm": 1.9453125,
+      "learning_rate": 1.4938170864468636e-07,
+      "logits/chosen": -0.44146886467933655,
+      "logits/rejected": -0.38905996084213257,
+      "logps/chosen": -292.7279968261719,
+      "logps/ref_response": -0.4814940392971039,
+      "logps/rejected": -273.334228515625,
+      "loss": 0.4883,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.21229040622711182,
+      "rewards/margins": 1.0407958030700684,
+      "rewards/rejected": -1.2530862092971802,
+      "step": 860
+    },
+    {
+      "epoch": 0.9107563465061502,
+      "grad_norm": 2.46875,
+      "learning_rate": 1.1982873884064466e-07,
+      "logits/chosen": -0.40739497542381287,
+      "logits/rejected": -0.3892499804496765,
+      "logps/chosen": -290.3547668457031,
+      "logps/ref_response": -0.463235467672348,
+      "logps/rejected": -281.25054931640625,
+      "loss": 0.5111,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.24277010560035706,
+      "rewards/margins": 0.7852509617805481,
+      "rewards/rejected": -1.0280208587646484,
+      "step": 870
+    },
+    {
+      "epoch": 0.9212248102590945,
+      "grad_norm": 1.84375,
+      "learning_rate": 9.345903713082305e-08,
+      "logits/chosen": -0.4908636510372162,
+      "logits/rejected": -0.4692970812320709,
+      "logps/chosen": -317.8591613769531,
+      "logps/ref_response": -0.5406745672225952,
+      "logps/rejected": -284.82958984375,
+      "loss": 0.5206,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": -0.23101326823234558,
+      "rewards/margins": 0.7203452587127686,
+      "rewards/rejected": -0.9513584971427917,
+      "step": 880
+    },
+    {
+      "epoch": 0.9316932740120387,
+      "grad_norm": 2.765625,
+      "learning_rate": 7.030787065396866e-08,
+      "logits/chosen": -0.4572540819644928,
+      "logits/rejected": -0.4023072123527527,
+      "logps/chosen": -322.2685546875,
+      "logps/ref_response": -0.5117658376693726,
+      "logps/rejected": -297.341064453125,
+      "loss": 0.5061,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.18995711207389832,
+      "rewards/margins": 0.8081440925598145,
+      "rewards/rejected": -0.9981012344360352,
+      "step": 890
+    },
+    {
+      "epoch": 0.942161737764983,
+      "grad_norm": 2.078125,
+      "learning_rate": 5.0406202043228604e-08,
+      "logits/chosen": -0.4801081120967865,
+      "logits/rejected": -0.4477986693382263,
+      "logps/chosen": -336.6103820800781,
+      "logps/ref_response": -0.5195636749267578,
+      "logps/rejected": -278.45306396484375,
+      "loss": 0.506,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -0.05415695160627365,
+      "rewards/margins": 1.0482077598571777,
+      "rewards/rejected": -1.1023646593093872,
+      "step": 900
+    },
+    {
+      "epoch": 0.942161737764983,
+      "eval_logits/chosen": -0.20995385944843292,
+      "eval_logits/rejected": -0.1602318435907364,
+      "eval_logps/chosen": -294.57037353515625,
+      "eval_logps/ref_response": -0.5363935232162476,
+      "eval_logps/rejected": -287.7952575683594,
+      "eval_loss": 0.5134302377700806,
+      "eval_rewards/accuracies": 0.7480000257492065,
+      "eval_rewards/chosen": -0.20232149958610535,
+      "eval_rewards/margins": 0.9095419049263,
+      "eval_rewards/rejected": -1.111863374710083,
+      "eval_runtime": 349.7136,
+      "eval_samples_per_second": 5.719,
+      "eval_steps_per_second": 0.357,
+      "step": 900
+    },
+    {
+      "epoch": 0.9526302015179272,
+      "grad_norm": 1.546875,
+      "learning_rate": 3.378064801637687e-08,
+      "logits/chosen": -0.5161974430084229,
+      "logits/rejected": -0.4518052935600281,
+      "logps/chosen": -317.8857421875,
+      "logps/ref_response": -0.561827540397644,
+      "logps/rejected": -317.4599609375,
+      "loss": 0.5156,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.11832026392221451,
+      "rewards/margins": 0.8348624110221863,
+      "rewards/rejected": -0.9531826972961426,
+      "step": 910
+    },
+    {
+      "epoch": 0.9630986652708715,
+      "grad_norm": 1.8046875,
+      "learning_rate": 2.0453443778310766e-08,
+      "logits/chosen": -0.4482875466346741,
+      "logits/rejected": -0.3840841054916382,
+      "logps/chosen": -332.5438232421875,
+      "logps/ref_response": -0.4732615351676941,
+      "logps/rejected": -309.3650207519531,
+      "loss": 0.5037,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.15293975174427032,
+      "rewards/margins": 1.0318092107772827,
+      "rewards/rejected": -1.184748888015747,
+      "step": 920
+    },
+    {
+      "epoch": 0.9735671290238157,
+      "grad_norm": 1.7109375,
+      "learning_rate": 1.0442413283435759e-08,
+      "logits/chosen": -0.4494338929653168,
+      "logits/rejected": -0.37092915177345276,
+      "logps/chosen": -321.01531982421875,
+      "logps/ref_response": -0.4792579114437103,
+      "logps/rejected": -282.218017578125,
+      "loss": 0.4975,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.13543161749839783,
+      "rewards/margins": 1.1757858991622925,
+      "rewards/rejected": -1.3112175464630127,
+      "step": 930
+    },
+    {
+      "epoch": 0.98403559277676,
+      "grad_norm": 1.453125,
+      "learning_rate": 3.760945397705828e-09,
+      "logits/chosen": -0.4677162170410156,
+      "logits/rejected": -0.39422911405563354,
+      "logps/chosen": -293.9225769042969,
+      "logps/ref_response": -0.5234506726264954,
+      "logps/rejected": -264.69964599609375,
+      "loss": 0.4975,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.05600558966398239,
+      "rewards/margins": 1.1023480892181396,
+      "rewards/rejected": -1.1583536863327026,
+      "step": 940
+    },
+    {
+      "epoch": 0.9945040565297043,
+      "grad_norm": 2.015625,
+      "learning_rate": 4.1797599220405605e-10,
+      "logits/chosen": -0.48652324080467224,
+      "logits/rejected": -0.4518989622592926,
+      "logps/chosen": -298.553955078125,
+      "logps/ref_response": -0.5367287397384644,
+      "logps/rejected": -282.85626220703125,
+      "loss": 0.5151,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.14170411229133606,
+      "rewards/margins": 0.9237847328186035,
+      "rewards/rejected": -1.0654886960983276,
+      "step": 950
+    },
+    {
+      "epoch": 0.9997382884061764,
+      "step": 955,
+      "total_flos": 0.0,
+      "train_loss": 0.5342667900454936,
+      "train_runtime": 19113.1655,
+      "train_samples_per_second": 3.199,
+      "train_steps_per_second": 0.05
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 955,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}