{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 396,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.2,
      "grad_norm": 0.0012223966186866164,
      "learning_rate": 1.8750000000000002e-05,
      "logits/chosen": -22.664844512939453,
      "logits/rejected": -22.80691909790039,
      "logps/chosen": -81.01699829101562,
      "logps/rejected": -101.25294494628906,
      "loss": 0.2072,
      "rewards/accuracies": 0.8846153616905212,
      "rewards/chosen": 2.5555355548858643,
      "rewards/margins": 4.414959907531738,
      "rewards/rejected": -1.859424352645874,
      "step": 26
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.8405307855573483e-05,
      "learning_rate": 2.9073033707865168e-05,
      "logits/chosen": -23.12621307373047,
      "logits/rejected": -23.24854278564453,
      "logps/chosen": -43.78964614868164,
      "logps/rejected": -156.3304901123047,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.3214497566223145,
      "rewards/margins": 13.642704010009766,
      "rewards/rejected": -7.321253776550293,
      "step": 52
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5625999367330223e-05,
      "learning_rate": 2.6882022471910113e-05,
      "logits/chosen": -23.210811614990234,
      "logits/rejected": -23.32987403869629,
      "logps/chosen": -41.96815490722656,
      "logps/rejected": -167.406982421875,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.477440357208252,
      "rewards/margins": 14.927824020385742,
      "rewards/rejected": -8.450382232666016,
      "step": 78
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.5885076209087856e-05,
      "learning_rate": 2.4691011235955056e-05,
      "logits/chosen": -23.275333404541016,
      "logits/rejected": -23.39052391052246,
      "logps/chosen": -41.763607025146484,
      "logps/rejected": -169.25025939941406,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.4945831298828125,
      "rewards/margins": 15.126973152160645,
      "rewards/rejected": -8.632390975952148,
      "step": 104
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.00013870897237211466,
      "learning_rate": 2.25e-05,
      "logits/chosen": -23.342487335205078,
      "logits/rejected": -23.45945167541504,
      "logps/chosen": -41.83483123779297,
      "logps/rejected": -169.22845458984375,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.479532718658447,
      "rewards/margins": 15.119216918945312,
      "rewards/rejected": -8.63968276977539,
      "step": 130
    },
    {
      "epoch": 1.18,
      "grad_norm": 1.5738529327791184e-05,
      "learning_rate": 2.0308988764044947e-05,
      "logits/chosen": -23.253267288208008,
      "logits/rejected": -23.370222091674805,
      "logps/chosen": -41.68398666381836,
      "logps/rejected": -169.04989624023438,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.4891557693481445,
      "rewards/margins": 15.119135856628418,
      "rewards/rejected": -8.629980087280273,
      "step": 156
    },
    {
      "epoch": 1.38,
      "grad_norm": 1.4681028005725238e-05,
      "learning_rate": 1.8117977528089886e-05,
      "logits/chosen": -23.281639099121094,
      "logits/rejected": -23.397907257080078,
      "logps/chosen": -41.55263137817383,
      "logps/rejected": -170.5806427001953,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.5376057624816895,
      "rewards/margins": 15.297250747680664,
      "rewards/rejected": -8.759647369384766,
      "step": 182
    },
    {
      "epoch": 1.58,
      "grad_norm": 1.823231104935985e-05,
      "learning_rate": 1.5926966292134832e-05,
      "logits/chosen": -23.312273025512695,
      "logits/rejected": -23.43006706237793,
      "logps/chosen": -42.09364318847656,
      "logps/rejected": -168.72459411621094,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.430633544921875,
      "rewards/margins": 15.028059959411621,
      "rewards/rejected": -8.597426414489746,
      "step": 208
    },
    {
      "epoch": 1.77,
      "grad_norm": 1.3677333299710881e-05,
      "learning_rate": 1.3735955056179776e-05,
      "logits/chosen": -23.281251907348633,
      "logits/rejected": -23.39859390258789,
      "logps/chosen": -41.60188293457031,
      "logps/rejected": -169.98341369628906,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.554170608520508,
      "rewards/margins": 15.241110801696777,
      "rewards/rejected": -8.686941146850586,
      "step": 234
    },
    {
      "epoch": 1.97,
      "grad_norm": 1.329195401922334e-05,
      "learning_rate": 1.154494382022472e-05,
      "logits/chosen": -23.316593170166016,
      "logits/rejected": -23.435791015625,
      "logps/chosen": -41.78284454345703,
      "logps/rejected": -169.241943359375,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.4690632820129395,
      "rewards/margins": 15.107036590576172,
      "rewards/rejected": -8.63797378540039,
      "step": 260
    },
    {
      "epoch": 2.17,
      "grad_norm": 1.4401819498743862e-05,
      "learning_rate": 9.353932584269662e-06,
      "logits/chosen": -23.297456741333008,
      "logits/rejected": -23.411481857299805,
      "logps/chosen": -41.401039123535156,
      "logps/rejected": -169.64952087402344,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.529332160949707,
      "rewards/margins": 15.224197387695312,
      "rewards/rejected": -8.694866180419922,
      "step": 286
    },
    {
      "epoch": 2.36,
      "grad_norm": 1.4643008398707025e-05,
      "learning_rate": 7.162921348314607e-06,
      "logits/chosen": -23.277320861816406,
      "logits/rejected": -23.393136978149414,
      "logps/chosen": -41.65689468383789,
      "logps/rejected": -171.18663024902344,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.522489070892334,
      "rewards/margins": 15.33745002746582,
      "rewards/rejected": -8.814961433410645,
      "step": 312
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.00012409774353727698,
      "learning_rate": 4.97191011235955e-06,
      "logits/chosen": -23.303037643432617,
      "logits/rejected": -23.417268753051758,
      "logps/chosen": -41.39340591430664,
      "logps/rejected": -170.94407653808594,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.569211483001709,
      "rewards/margins": 15.359162330627441,
      "rewards/rejected": -8.789949417114258,
      "step": 338
    },
    {
      "epoch": 2.76,
      "grad_norm": 1.4201951671566349e-05,
      "learning_rate": 2.7808988764044947e-06,
      "logits/chosen": -23.281291961669922,
      "logits/rejected": -23.399757385253906,
      "logps/chosen": -41.88224792480469,
      "logps/rejected": -169.70294189453125,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.4672112464904785,
      "rewards/margins": 15.137907028198242,
      "rewards/rejected": -8.670695304870605,
      "step": 364
    },
    {
      "epoch": 2.95,
      "grad_norm": 1.3474539628077764e-05,
      "learning_rate": 5.898876404494382e-07,
      "logits/chosen": -23.33159065246582,
      "logits/rejected": -23.45261573791504,
      "logps/chosen": -41.745670318603516,
      "logps/rejected": -169.70147705078125,
      "loss": 0.0,
      "rewards/accuracies": 1.0,
      "rewards/chosen": 6.496582984924316,
      "rewards/margins": 15.183600425720215,
      "rewards/rejected": -8.687018394470215,
      "step": 390
    }
  ],
  "logging_steps": 26,
  "max_steps": 396,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "total_flos": 0.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}