{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.998828811243412,
  "eval_steps": 75,
  "global_step": 160,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.024985360140542652,
      "grad_norm": 14.177000429059124,
      "learning_rate": 4e-09,
      "logits/chosen": -0.7216415405273438,
      "logits/rejected": -0.7776755690574646,
      "logps/chosen": -180.14370727539062,
      "logps/rejected": -163.619384765625,
      "loss": 0.5911,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 2.089264392852783,
      "rewards/margins": 0.4413459897041321,
      "rewards/rejected": 1.647918462753296,
      "step": 2
    },
    {
      "epoch": 0.049970720281085304,
      "grad_norm": 13.032161582993453,
      "learning_rate": 8e-09,
      "logits/chosen": -0.6800286769866943,
      "logits/rejected": -0.7293923497200012,
      "logps/chosen": -187.60638427734375,
      "logps/rejected": -170.1859893798828,
      "loss": 0.5762,
      "rewards/accuracies": 0.66796875,
      "rewards/chosen": 2.104745388031006,
      "rewards/margins": 0.4643358588218689,
      "rewards/rejected": 1.6404094696044922,
      "step": 4
    },
    {
      "epoch": 0.07495608042162795,
      "grad_norm": 14.424559495239313,
      "learning_rate": 1.1999999999999998e-08,
      "logits/chosen": -0.7123140096664429,
      "logits/rejected": -0.7762022018432617,
      "logps/chosen": -186.28652954101562,
      "logps/rejected": -169.9141387939453,
      "loss": 0.589,
      "rewards/accuracies": 0.66015625,
      "rewards/chosen": 2.052624464035034,
      "rewards/margins": 0.40381550788879395,
      "rewards/rejected": 1.6488089561462402,
      "step": 6
    },
    {
      "epoch": 0.09994144056217061,
      "grad_norm": 15.25048206057953,
      "learning_rate": 1.6e-08,
      "logits/chosen": -0.6801178455352783,
      "logits/rejected": -0.7383629083633423,
      "logps/chosen": -184.20584106445312,
      "logps/rejected": -170.67449951171875,
      "loss": 0.5855,
      "rewards/accuracies": 0.703125,
      "rewards/chosen": 2.0641534328460693,
      "rewards/margins": 0.4149114787578583,
      "rewards/rejected": 1.6492421627044678,
      "step": 8
    },
    {
      "epoch": 0.12492680070271325,
      "grad_norm": 15.020860898871753,
      "learning_rate": 2e-08,
      "logits/chosen": -0.6762746572494507,
      "logits/rejected": -0.7306088805198669,
      "logps/chosen": -181.46649169921875,
      "logps/rejected": -171.62355041503906,
      "loss": 0.5886,
      "rewards/accuracies": 0.671875,
      "rewards/chosen": 2.0547406673431396,
      "rewards/margins": 0.4107271730899811,
      "rewards/rejected": 1.6440132856369019,
      "step": 10
    },
    {
      "epoch": 0.1499121608432559,
      "grad_norm": 15.546401340611093,
      "learning_rate": 2.3999999999999997e-08,
      "logits/chosen": -0.6915724873542786,
      "logits/rejected": -0.7597174048423767,
      "logps/chosen": -191.33026123046875,
      "logps/rejected": -172.05740356445312,
      "loss": 0.5952,
      "rewards/accuracies": 0.68359375,
      "rewards/chosen": 2.090841293334961,
      "rewards/margins": 0.4058065116405487,
      "rewards/rejected": 1.685034990310669,
      "step": 12
    },
    {
      "epoch": 0.17489752098379854,
      "grad_norm": 15.179087180823856,
      "learning_rate": 2.8000000000000003e-08,
      "logits/chosen": -0.648224413394928,
      "logits/rejected": -0.7036635875701904,
      "logps/chosen": -181.56240844726562,
      "logps/rejected": -161.77291870117188,
      "loss": 0.5662,
      "rewards/accuracies": 0.69140625,
      "rewards/chosen": 2.07316255569458,
      "rewards/margins": 0.45191100239753723,
      "rewards/rejected": 1.6212515830993652,
      "step": 14
    },
    {
      "epoch": 0.19988288112434122,
      "grad_norm": 14.717039853262694,
      "learning_rate": 3.2e-08,
      "logits/chosen": -0.678563117980957,
      "logits/rejected": -0.7321793437004089,
      "logps/chosen": -191.10882568359375,
      "logps/rejected": -172.11471557617188,
      "loss": 0.5792,
      "rewards/accuracies": 0.69140625,
      "rewards/chosen": 2.1359810829162598,
      "rewards/margins": 0.4702029824256897,
      "rewards/rejected": 1.6657780408859253,
      "step": 16
    },
    {
      "epoch": 0.22486824126488386,
      "grad_norm": 15.26388916085504,
      "learning_rate": 3.6e-08,
      "logits/chosen": -0.6794100999832153,
      "logits/rejected": -0.7467265129089355,
      "logps/chosen": -190.895751953125,
      "logps/rejected": -171.15126037597656,
      "loss": 0.5949,
      "rewards/accuracies": 0.66796875,
      "rewards/chosen": 2.0863959789276123,
      "rewards/margins": 0.4278351664543152,
      "rewards/rejected": 1.658560872077942,
      "step": 18
    },
    {
      "epoch": 0.2498536014054265,
      "grad_norm": 14.719456857161541,
      "learning_rate": 4e-08,
      "logits/chosen": -0.6606219410896301,
      "logits/rejected": -0.7190724611282349,
      "logps/chosen": -179.43295288085938,
      "logps/rejected": -163.46678161621094,
      "loss": 0.5819,
      "rewards/accuracies": 0.71484375,
      "rewards/chosen": 2.1400554180145264,
      "rewards/margins": 0.5210827589035034,
      "rewards/rejected": 1.6189727783203125,
      "step": 20
    },
    {
      "epoch": 0.27483896154596915,
      "grad_norm": 14.799553727376024,
      "learning_rate": 4.4e-08,
      "logits/chosen": -0.6596983671188354,
      "logits/rejected": -0.7132915258407593,
      "logps/chosen": -186.89849853515625,
      "logps/rejected": -177.6392364501953,
      "loss": 0.5881,
      "rewards/accuracies": 0.73828125,
      "rewards/chosen": 2.0855584144592285,
      "rewards/margins": 0.5197086334228516,
      "rewards/rejected": 1.5658495426177979,
      "step": 22
    },
    {
      "epoch": 0.2998243216865118,
      "grad_norm": 16.401751337438842,
      "learning_rate": 4.799999999999999e-08,
      "logits/chosen": -0.6935199499130249,
      "logits/rejected": -0.7622916102409363,
      "logps/chosen": -191.56312561035156,
      "logps/rejected": -166.0808563232422,
      "loss": 0.5876,
      "rewards/accuracies": 0.72265625,
      "rewards/chosen": 2.1759369373321533,
      "rewards/margins": 0.584960401058197,
      "rewards/rejected": 1.590976357460022,
      "step": 24
    },
    {
      "epoch": 0.32480968182705444,
      "grad_norm": 14.092401453744207,
      "learning_rate": 5.2e-08,
      "logits/chosen": -0.6964302062988281,
      "logits/rejected": -0.7522369623184204,
      "logps/chosen": -183.28709411621094,
      "logps/rejected": -176.45947265625,
      "loss": 0.5887,
      "rewards/accuracies": 0.71484375,
      "rewards/chosen": 2.1809558868408203,
      "rewards/margins": 0.4667380154132843,
      "rewards/rejected": 1.7142179012298584,
      "step": 26
    },
    {
      "epoch": 0.3497950419675971,
      "grad_norm": 14.992677802834425,
      "learning_rate": 5.6000000000000005e-08,
      "logits/chosen": -0.6727583408355713,
      "logits/rejected": -0.7299581170082092,
      "logps/chosen": -176.1138458251953,
      "logps/rejected": -165.51553344726562,
      "loss": 0.5947,
      "rewards/accuracies": 0.6875,
      "rewards/chosen": 2.0702695846557617,
      "rewards/margins": 0.42442983388900757,
      "rewards/rejected": 1.645839810371399,
      "step": 28
    },
    {
      "epoch": 0.3747804021081398,
      "grad_norm": 14.234258704647342,
      "learning_rate": 6e-08,
      "logits/chosen": -0.6875941753387451,
      "logits/rejected": -0.7378899455070496,
      "logps/chosen": -179.08218383789062,
      "logps/rejected": -170.3502197265625,
      "loss": 0.5854,
      "rewards/accuracies": 0.67578125,
      "rewards/chosen": 2.12485408782959,
      "rewards/margins": 0.4190685749053955,
      "rewards/rejected": 1.7057857513427734,
      "step": 30
    },
    {
      "epoch": 0.39976576224868243,
      "grad_norm": 15.320369672206587,
      "learning_rate": 6.4e-08,
      "logits/chosen": -0.6457805633544922,
      "logits/rejected": -0.7087669372558594,
      "logps/chosen": -174.39279174804688,
      "logps/rejected": -161.18417358398438,
      "loss": 0.556,
      "rewards/accuracies": 0.6796875,
      "rewards/chosen": 2.1353416442871094,
      "rewards/margins": 0.5485972166061401,
      "rewards/rejected": 1.5867444276809692,
      "step": 32
    },
    {
      "epoch": 0.4247511223892251,
      "grad_norm": 14.996986688498861,
      "learning_rate": 6.8e-08,
      "logits/chosen": -0.677814781665802,
      "logits/rejected": -0.7355855703353882,
      "logps/chosen": -184.22764587402344,
      "logps/rejected": -164.98434448242188,
      "loss": 0.5726,
      "rewards/accuracies": 0.71484375,
      "rewards/chosen": 2.0874392986297607,
      "rewards/margins": 0.5497796535491943,
      "rewards/rejected": 1.5376596450805664,
      "step": 34
    },
    {
      "epoch": 0.4497364825297677,
      "grad_norm": 15.836133161520731,
      "learning_rate": 7.2e-08,
      "logits/chosen": -0.6465247273445129,
      "logits/rejected": -0.7009165287017822,
      "logps/chosen": -183.50096130371094,
      "logps/rejected": -172.29428100585938,
      "loss": 0.5909,
      "rewards/accuracies": 0.6796875,
      "rewards/chosen": 2.1548638343811035,
      "rewards/margins": 0.48915886878967285,
      "rewards/rejected": 1.6657049655914307,
      "step": 36
    },
    {
      "epoch": 0.47472184267031037,
      "grad_norm": 15.068791059044901,
      "learning_rate": 7.599999999999999e-08,
      "logits/chosen": -0.684742271900177,
      "logits/rejected": -0.7406108379364014,
      "logps/chosen": -178.16604614257812,
      "logps/rejected": -172.45472717285156,
      "loss": 0.5728,
      "rewards/accuracies": 0.69140625,
      "rewards/chosen": 2.1049206256866455,
      "rewards/margins": 0.4164605736732483,
      "rewards/rejected": 1.6884599924087524,
      "step": 38
    },
    {
      "epoch": 0.499707202810853,
      "grad_norm": 15.172663789942417,
      "learning_rate": 8e-08,
      "logits/chosen": -0.6802005767822266,
      "logits/rejected": -0.7308796048164368,
      "logps/chosen": -178.501708984375,
      "logps/rejected": -162.97750854492188,
      "loss": 0.5778,
      "rewards/accuracies": 0.703125,
      "rewards/chosen": 2.145007848739624,
      "rewards/margins": 0.5102132558822632,
      "rewards/rejected": 1.6347947120666504,
      "step": 40
    },
    {
      "epoch": 0.5246925629513957,
      "grad_norm": 13.193729893516823,
      "learning_rate": 8.4e-08,
      "logits/chosen": -0.67890864610672,
      "logits/rejected": -0.7359157204627991,
      "logps/chosen": -180.63043212890625,
      "logps/rejected": -177.0836181640625,
      "loss": 0.5706,
      "rewards/accuracies": 0.70703125,
      "rewards/chosen": 2.1336517333984375,
      "rewards/margins": 0.4847910404205322,
      "rewards/rejected": 1.6488608121871948,
      "step": 42
    },
    {
      "epoch": 0.5496779230919383,
      "grad_norm": 14.543118187410414,
      "learning_rate": 8.8e-08,
      "logits/chosen": -0.6593753099441528,
      "logits/rejected": -0.7200923562049866,
      "logps/chosen": -179.75027465820312,
      "logps/rejected": -161.65733337402344,
      "loss": 0.5614,
      "rewards/accuracies": 0.72265625,
      "rewards/chosen": 2.1679983139038086,
      "rewards/margins": 0.6123022437095642,
      "rewards/rejected": 1.5556960105895996,
      "step": 44
    },
    {
      "epoch": 0.574663283232481,
      "grad_norm": 14.478724863209543,
      "learning_rate": 9.2e-08,
      "logits/chosen": -0.6733975410461426,
      "logits/rejected": -0.725917398929596,
      "logps/chosen": -179.19137573242188,
      "logps/rejected": -167.48928833007812,
      "loss": 0.5721,
      "rewards/accuracies": 0.7265625,
      "rewards/chosen": 2.126537561416626,
      "rewards/margins": 0.5884015560150146,
      "rewards/rejected": 1.5381361246109009,
      "step": 46
    },
    {
      "epoch": 0.5996486433730236,
      "grad_norm": 13.598065354511457,
      "learning_rate": 9.599999999999999e-08,
      "logits/chosen": -0.6861451864242554,
      "logits/rejected": -0.7490273118019104,
      "logps/chosen": -192.40524291992188,
      "logps/rejected": -166.65826416015625,
      "loss": 0.5666,
      "rewards/accuracies": 0.69140625,
      "rewards/chosen": 2.1456832885742188,
      "rewards/margins": 0.5288498997688293,
      "rewards/rejected": 1.6168336868286133,
      "step": 48
    },
    {
      "epoch": 0.6246340035135662,
      "grad_norm": 13.749586623653736,
      "learning_rate": 1e-07,
      "logits/chosen": -0.6737085580825806,
      "logits/rejected": -0.7165706753730774,
      "logps/chosen": -176.8297119140625,
      "logps/rejected": -168.13772583007812,
      "loss": 0.5656,
      "rewards/accuracies": 0.734375,
      "rewards/chosen": 2.0855467319488525,
      "rewards/margins": 0.5343782305717468,
      "rewards/rejected": 1.551168441772461,
      "step": 50
    },
    {
      "epoch": 0.6496193636541089,
      "grad_norm": 14.236522635027217,
      "learning_rate": 1.04e-07,
      "logits/chosen": -0.6797468662261963,
      "logits/rejected": -0.7432878613471985,
      "logps/chosen": -180.42208862304688,
      "logps/rejected": -165.42669677734375,
      "loss": 0.5405,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": 2.1683268547058105,
      "rewards/margins": 0.678287148475647,
      "rewards/rejected": 1.4900394678115845,
      "step": 52
    },
    {
      "epoch": 0.6746047237946515,
      "grad_norm": 12.868471228668062,
      "learning_rate": 1.08e-07,
      "logits/chosen": -0.6745160818099976,
      "logits/rejected": -0.7254283428192139,
      "logps/chosen": -183.60704040527344,
      "logps/rejected": -170.13792419433594,
      "loss": 0.5348,
      "rewards/accuracies": 0.73046875,
      "rewards/chosen": 2.0506410598754883,
      "rewards/margins": 0.5821288228034973,
      "rewards/rejected": 1.4685120582580566,
      "step": 54
    },
    {
      "epoch": 0.6995900839351942,
      "grad_norm": 13.767404224251546,
      "learning_rate": 1.1200000000000001e-07,
      "logits/chosen": -0.6854877471923828,
      "logits/rejected": -0.746857225894928,
      "logps/chosen": -178.72006225585938,
      "logps/rejected": -162.08724975585938,
      "loss": 0.5387,
      "rewards/accuracies": 0.703125,
      "rewards/chosen": 2.124311923980713,
      "rewards/margins": 0.6121358871459961,
      "rewards/rejected": 1.5121760368347168,
      "step": 56
    },
    {
      "epoch": 0.7245754440757368,
      "grad_norm": 13.792453070210335,
      "learning_rate": 1.1599999999999999e-07,
      "logits/chosen": -0.6948191523551941,
      "logits/rejected": -0.7636308073997498,
      "logps/chosen": -195.91062927246094,
      "logps/rejected": -176.2474365234375,
      "loss": 0.5338,
      "rewards/accuracies": 0.73046875,
      "rewards/chosen": 2.136486530303955,
      "rewards/margins": 0.6362313032150269,
      "rewards/rejected": 1.5002549886703491,
      "step": 58
    },
    {
      "epoch": 0.7495608042162796,
      "grad_norm": 12.863853198025703,
      "learning_rate": 1.2e-07,
      "logits/chosen": -0.6513829231262207,
      "logits/rejected": -0.7188961505889893,
      "logps/chosen": -190.9204864501953,
      "logps/rejected": -170.77809143066406,
      "loss": 0.5334,
      "rewards/accuracies": 0.7109375,
      "rewards/chosen": 2.1112589836120605,
      "rewards/margins": 0.6223936676979065,
      "rewards/rejected": 1.4888653755187988,
      "step": 60
    },
    {
      "epoch": 0.7745461643568222,
      "grad_norm": 13.104450063440881,
      "learning_rate": 1.24e-07,
      "logits/chosen": -0.6542866230010986,
      "logits/rejected": -0.7189180254936218,
      "logps/chosen": -183.43380737304688,
      "logps/rejected": -169.60279846191406,
      "loss": 0.538,
      "rewards/accuracies": 0.7578125,
      "rewards/chosen": 2.178042411804199,
      "rewards/margins": 0.7206485867500305,
      "rewards/rejected": 1.4573938846588135,
      "step": 62
    },
    {
      "epoch": 0.7995315244973649,
      "grad_norm": 14.223685904396252,
      "learning_rate": 1.28e-07,
      "logits/chosen": -0.6746785640716553,
      "logits/rejected": -0.7393426895141602,
      "logps/chosen": -187.83718872070312,
      "logps/rejected": -170.26303100585938,
      "loss": 0.5409,
      "rewards/accuracies": 0.71875,
      "rewards/chosen": 2.0394065380096436,
      "rewards/margins": 0.6107546091079712,
      "rewards/rejected": 1.4286518096923828,
      "step": 64
    },
    {
      "epoch": 0.8245168846379075,
      "grad_norm": 11.892937673420246,
      "learning_rate": 1.32e-07,
      "logits/chosen": -0.6900768280029297,
      "logits/rejected": -0.7491022944450378,
      "logps/chosen": -190.11602783203125,
      "logps/rejected": -177.3651123046875,
      "loss": 0.4913,
      "rewards/accuracies": 0.7890625,
      "rewards/chosen": 2.1415176391601562,
      "rewards/margins": 0.7801377773284912,
      "rewards/rejected": 1.3613799810409546,
      "step": 66
    },
    {
      "epoch": 0.8495022447784502,
      "grad_norm": 12.90980511070953,
      "learning_rate": 1.36e-07,
      "logits/chosen": -0.671898603439331,
      "logits/rejected": -0.7221825122833252,
      "logps/chosen": -182.26194763183594,
      "logps/rejected": -171.02517700195312,
      "loss": 0.5013,
      "rewards/accuracies": 0.78125,
      "rewards/chosen": 1.9341095685958862,
      "rewards/margins": 0.7295835018157959,
      "rewards/rejected": 1.2045260667800903,
      "step": 68
    },
    {
      "epoch": 0.8744876049189928,
      "grad_norm": 11.941560260701717,
      "learning_rate": 1.3999999999999998e-07,
      "logits/chosen": -0.6553590297698975,
      "logits/rejected": -0.7277964353561401,
      "logps/chosen": -191.17935180664062,
      "logps/rejected": -182.75697326660156,
      "loss": 0.4992,
      "rewards/accuracies": 0.76171875,
      "rewards/chosen": 1.9563246965408325,
      "rewards/margins": 0.735268771648407,
      "rewards/rejected": 1.2210559844970703,
      "step": 70
    },
    {
      "epoch": 0.8994729650595354,
      "grad_norm": 11.363918779296476,
      "learning_rate": 1.44e-07,
      "logits/chosen": -0.6677660346031189,
      "logits/rejected": -0.7358181476593018,
      "logps/chosen": -187.28823852539062,
      "logps/rejected": -175.23736572265625,
      "loss": 0.4782,
      "rewards/accuracies": 0.8203125,
      "rewards/chosen": 1.8920280933380127,
      "rewards/margins": 0.9304031729698181,
      "rewards/rejected": 0.9616249799728394,
      "step": 72
    },
    {
      "epoch": 0.9244583252000781,
      "grad_norm": 11.665594088546383,
      "learning_rate": 1.48e-07,
      "logits/chosen": -0.6850963830947876,
      "logits/rejected": -0.750001072883606,
      "logps/chosen": -190.98031616210938,
      "logps/rejected": -173.23446655273438,
      "loss": 0.4758,
      "rewards/accuracies": 0.79296875,
      "rewards/chosen": 1.8105218410491943,
      "rewards/margins": 0.8698927760124207,
      "rewards/rejected": 0.9406291246414185,
      "step": 74
    },
    {
      "epoch": 0.9369510052703494,
      "eval_logits/chosen": -0.6242849230766296,
      "eval_logits/rejected": -0.7280451059341431,
      "eval_logps/chosen": -193.7286376953125,
      "eval_logps/rejected": -160.47738647460938,
      "eval_loss": 0.5220226645469666,
      "eval_rewards/accuracies": 0.8399999737739563,
      "eval_rewards/chosen": 1.9179359674453735,
      "eval_rewards/margins": 1.0572994947433472,
      "eval_rewards/rejected": 0.8606364727020264,
      "eval_runtime": 29.5424,
      "eval_samples_per_second": 3.385,
      "eval_steps_per_second": 0.846,
      "step": 75
    },
    {
      "epoch": 0.9494436853406207,
      "grad_norm": 11.894064434017581,
      "learning_rate": 1.5199999999999998e-07,
      "logits/chosen": -0.6667495965957642,
      "logits/rejected": -0.7195772528648376,
      "logps/chosen": -188.1094512939453,
      "logps/rejected": -173.92083740234375,
      "loss": 0.4603,
      "rewards/accuracies": 0.8125,
      "rewards/chosen": 1.8090986013412476,
      "rewards/margins": 0.9019326567649841,
      "rewards/rejected": 0.9071658849716187,
      "step": 76
    },
    {
      "epoch": 0.9744290454811634,
      "grad_norm": 12.785309864943024,
      "learning_rate": 1.56e-07,
      "logits/chosen": -0.6789891123771667,
      "logits/rejected": -0.7438546419143677,
      "logps/chosen": -190.32470703125,
      "logps/rejected": -169.19207763671875,
      "loss": 0.4541,
      "rewards/accuracies": 0.80078125,
      "rewards/chosen": 1.736232042312622,
      "rewards/margins": 0.9202592372894287,
      "rewards/rejected": 0.8159728050231934,
      "step": 78
    },
    {
      "epoch": 0.999414405621706,
      "grad_norm": 12.07847451966405,
      "learning_rate": 1.6e-07,
      "logits/chosen": -0.687256395816803,
      "logits/rejected": -0.7596179246902466,
      "logps/chosen": -195.14768981933594,
      "logps/rejected": -174.72589111328125,
      "loss": 0.4471,
      "rewards/accuracies": 0.8359375,
      "rewards/chosen": 1.6982433795928955,
      "rewards/margins": 0.9969222545623779,
      "rewards/rejected": 0.7013211250305176,
      "step": 80
    },
    {
      "epoch": 1.0243997657622488,
      "grad_norm": 12.209730650020617,
      "learning_rate": 1.6399999999999999e-07,
      "logits/chosen": -0.6745339632034302,
      "logits/rejected": -0.7286314368247986,
      "logps/chosen": -184.5238494873047,
      "logps/rejected": -180.26815795898438,
      "loss": 0.4635,
      "rewards/accuracies": 0.78515625,
      "rewards/chosen": 1.6792489290237427,
      "rewards/margins": 0.8308749198913574,
      "rewards/rejected": 0.8483741879463196,
      "step": 82
    },
    {
      "epoch": 1.0493851259027913,
      "grad_norm": 11.63839350311622,
      "learning_rate": 1.68e-07,
      "logits/chosen": -0.6981229186058044,
      "logits/rejected": -0.7625120878219604,
      "logps/chosen": -191.15847778320312,
      "logps/rejected": -189.08364868164062,
      "loss": 0.4418,
      "rewards/accuracies": 0.80078125,
      "rewards/chosen": 1.7394218444824219,
      "rewards/margins": 1.0957342386245728,
      "rewards/rejected": 0.6436874866485596,
      "step": 84
    },
    {
      "epoch": 1.074370486043334,
      "grad_norm": 12.047547514582906,
      "learning_rate": 1.7199999999999998e-07,
      "logits/chosen": -0.6573597192764282,
      "logits/rejected": -0.7058761715888977,
      "logps/chosen": -189.32237243652344,
      "logps/rejected": -182.69403076171875,
      "loss": 0.4339,
      "rewards/accuracies": 0.8359375,
      "rewards/chosen": 1.724177598953247,
      "rewards/margins": 1.020638108253479,
      "rewards/rejected": 0.7035394906997681,
      "step": 86
    },
    {
      "epoch": 1.0993558461838766,
      "grad_norm": 12.65465734374361,
      "learning_rate": 1.76e-07,
      "logits/chosen": -0.67812180519104,
      "logits/rejected": -0.7225789427757263,
      "logps/chosen": -185.65040588378906,
      "logps/rejected": -187.9286651611328,
      "loss": 0.437,
      "rewards/accuracies": 0.81640625,
      "rewards/chosen": 1.5955438613891602,
      "rewards/margins": 0.9583697319030762,
      "rewards/rejected": 0.6371738910675049,
      "step": 88
    },
    {
      "epoch": 1.1243412063244194,
      "grad_norm": 10.575082434339704,
      "learning_rate": 1.8e-07,
      "logits/chosen": -0.6781046986579895,
      "logits/rejected": -0.7251250743865967,
      "logps/chosen": -189.33551025390625,
      "logps/rejected": -188.9590606689453,
      "loss": 0.4156,
      "rewards/accuracies": 0.8359375,
      "rewards/chosen": 1.5732731819152832,
      "rewards/margins": 1.1116917133331299,
      "rewards/rejected": 0.4615815281867981,
      "step": 90
    },
    {
      "epoch": 1.149326566464962,
      "grad_norm": 9.55392077902883,
      "learning_rate": 1.84e-07,
      "logits/chosen": -0.6788798570632935,
      "logits/rejected": -0.7428586483001709,
      "logps/chosen": -198.3631591796875,
      "logps/rejected": -182.88487243652344,
      "loss": 0.3982,
      "rewards/accuracies": 0.82421875,
      "rewards/chosen": 1.3846931457519531,
      "rewards/margins": 1.0993235111236572,
      "rewards/rejected": 0.2853696346282959,
      "step": 92
    },
    {
      "epoch": 1.1743119266055047,
      "grad_norm": 9.670365765437687,
      "learning_rate": 1.88e-07,
      "logits/chosen": -0.7081943154335022,
      "logits/rejected": -0.775234580039978,
      "logps/chosen": -189.57760620117188,
      "logps/rejected": -181.6404571533203,
      "loss": 0.3911,
      "rewards/accuracies": 0.8828125,
      "rewards/chosen": 1.2745850086212158,
      "rewards/margins": 1.3070428371429443,
      "rewards/rejected": -0.032457947731018066,
      "step": 94
    },
    {
      "epoch": 1.1992972867460472,
      "grad_norm": 10.78932105106093,
      "learning_rate": 1.9199999999999997e-07,
      "logits/chosen": -0.6830898523330688,
      "logits/rejected": -0.734713613986969,
      "logps/chosen": -191.22511291503906,
      "logps/rejected": -186.43077087402344,
      "loss": 0.3897,
      "rewards/accuracies": 0.82421875,
      "rewards/chosen": 1.0674785375595093,
      "rewards/margins": 1.171497106552124,
      "rewards/rejected": -0.10401848703622818,
      "step": 96
    },
    {
      "epoch": 1.22428264688659,
      "grad_norm": 9.097857033695211,
      "learning_rate": 1.9599999999999998e-07,
      "logits/chosen": -0.7023120522499084,
      "logits/rejected": -0.7581274509429932,
      "logps/chosen": -195.01312255859375,
      "logps/rejected": -188.2948455810547,
      "loss": 0.3536,
      "rewards/accuracies": 0.85546875,
      "rewards/chosen": 1.0987714529037476,
      "rewards/margins": 1.5480579137802124,
      "rewards/rejected": -0.4492865800857544,
      "step": 98
    },
    {
      "epoch": 1.2492680070271325,
      "grad_norm": 12.363599073474044,
      "learning_rate": 2e-07,
      "logits/chosen": -0.6939373016357422,
      "logits/rejected": -0.7522105574607849,
      "logps/chosen": -193.21104431152344,
      "logps/rejected": -190.04568481445312,
      "loss": 0.3649,
      "rewards/accuracies": 0.85546875,
      "rewards/chosen": 0.7619870901107788,
      "rewards/margins": 1.3099664449691772,
      "rewards/rejected": -0.547979474067688,
      "step": 100
    },
    {
      "epoch": 1.2742533671676752,
      "grad_norm": 9.956621854528622,
      "learning_rate": 1.9945218953682733e-07,
      "logits/chosen": -0.7141095399856567,
      "logits/rejected": -0.772229015827179,
      "logps/chosen": -206.34132385253906,
      "logps/rejected": -199.00970458984375,
      "loss": 0.3505,
      "rewards/accuracies": 0.84375,
      "rewards/chosen": 0.8092713952064514,
      "rewards/margins": 1.6670289039611816,
      "rewards/rejected": -0.8577573299407959,
      "step": 102
    },
    {
      "epoch": 1.2992387273082178,
      "grad_norm": 9.301525503546692,
      "learning_rate": 1.9781476007338056e-07,
      "logits/chosen": -0.7332565188407898,
      "logits/rejected": -0.7983365058898926,
      "logps/chosen": -201.5232696533203,
      "logps/rejected": -191.0933380126953,
      "loss": 0.3195,
      "rewards/accuracies": 0.89453125,
      "rewards/chosen": 0.5621832609176636,
      "rewards/margins": 1.6282891035079956,
      "rewards/rejected": -1.0661057233810425,
      "step": 104
    },
    {
      "epoch": 1.3242240874487605,
      "grad_norm": 9.869807635078832,
      "learning_rate": 1.9510565162951537e-07,
      "logits/chosen": -0.7436533570289612,
      "logits/rejected": -0.8179137706756592,
      "logps/chosen": -198.8864288330078,
      "logps/rejected": -192.3636016845703,
      "loss": 0.3368,
      "rewards/accuracies": 0.87109375,
      "rewards/chosen": 0.5397917628288269,
      "rewards/margins": 1.7668784856796265,
      "rewards/rejected": -1.2270865440368652,
      "step": 106
    },
    {
      "epoch": 1.349209447589303,
      "grad_norm": 10.035654401238393,
      "learning_rate": 1.9135454576426007e-07,
      "logits/chosen": -0.6918727159500122,
      "logits/rejected": -0.7655491828918457,
      "logps/chosen": -203.7888946533203,
      "logps/rejected": -215.9702606201172,
      "loss": 0.3397,
      "rewards/accuracies": 0.90234375,
      "rewards/chosen": 0.5103797912597656,
      "rewards/margins": 1.8079906702041626,
      "rewards/rejected": -1.297610878944397,
      "step": 108
    },
    {
      "epoch": 1.3741948077298458,
      "grad_norm": 9.358482838142306,
      "learning_rate": 1.8660254037844388e-07,
      "logits/chosen": -0.7152352929115295,
      "logits/rejected": -0.7777791023254395,
      "logps/chosen": -207.73023986816406,
      "logps/rejected": -194.01126098632812,
      "loss": 0.3365,
      "rewards/accuracies": 0.875,
      "rewards/chosen": 0.4271202087402344,
      "rewards/margins": 1.687686562538147,
      "rewards/rejected": -1.2605663537979126,
      "step": 110
    },
    {
      "epoch": 1.3991801678703886,
      "grad_norm": 9.789127179150574,
      "learning_rate": 1.8090169943749475e-07,
      "logits/chosen": -0.7317672371864319,
      "logits/rejected": -0.7882843017578125,
      "logps/chosen": -203.46849060058594,
      "logps/rejected": -208.32135009765625,
      "loss": 0.3157,
      "rewards/accuracies": 0.87890625,
      "rewards/chosen": 0.33698615431785583,
      "rewards/margins": 1.7098716497421265,
      "rewards/rejected": -1.3728857040405273,
      "step": 112
    },
    {
      "epoch": 1.424165528010931,
      "grad_norm": 9.275207179944992,
      "learning_rate": 1.7431448254773942e-07,
      "logits/chosen": -0.7219483852386475,
      "logits/rejected": -0.7694462537765503,
      "logps/chosen": -199.74270629882812,
      "logps/rejected": -204.81101989746094,
      "loss": 0.3034,
      "rewards/accuracies": 0.88671875,
      "rewards/chosen": 0.40492168068885803,
      "rewards/margins": 1.9214580059051514,
      "rewards/rejected": -1.5165363550186157,
      "step": 114
    },
    {
      "epoch": 1.4491508881514736,
      "grad_norm": 9.183521827422608,
      "learning_rate": 1.669130606358858e-07,
      "logits/chosen": -0.7337281107902527,
      "logits/rejected": -0.7940360307693481,
      "logps/chosen": -198.19046020507812,
      "logps/rejected": -200.4697265625,
      "loss": 0.3176,
      "rewards/accuracies": 0.88671875,
      "rewards/chosen": 0.3844246566295624,
      "rewards/margins": 1.8816416263580322,
      "rewards/rejected": -1.4972169399261475,
      "step": 116
    },
    {
      "epoch": 1.4741362482920164,
      "grad_norm": 9.337739314896169,
      "learning_rate": 1.5877852522924732e-07,
      "logits/chosen": -0.7224444150924683,
      "logits/rejected": -0.7723821401596069,
      "logps/chosen": -195.0646209716797,
      "logps/rejected": -201.89569091796875,
      "loss": 0.2752,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": 0.3896394371986389,
      "rewards/margins": 1.9735894203186035,
      "rewards/rejected": -1.5839500427246094,
      "step": 118
    },
    {
      "epoch": 1.4991216084325591,
      "grad_norm": 8.793369516249312,
      "learning_rate": 1.5e-07,
      "logits/chosen": -0.7569531202316284,
      "logits/rejected": -0.8058477640151978,
      "logps/chosen": -208.27215576171875,
      "logps/rejected": -208.09347534179688,
      "loss": 0.317,
      "rewards/accuracies": 0.87890625,
      "rewards/chosen": 0.2652769982814789,
      "rewards/margins": 1.866006851196289,
      "rewards/rejected": -1.6007298231124878,
      "step": 120
    },
    {
      "epoch": 1.5241069685731017,
      "grad_norm": 9.48150415114474,
      "learning_rate": 1.4067366430758004e-07,
      "logits/chosen": -0.7591882348060608,
      "logits/rejected": -0.8140251636505127,
      "logps/chosen": -205.2285614013672,
      "logps/rejected": -203.8860321044922,
      "loss": 0.2965,
      "rewards/accuracies": 0.86328125,
      "rewards/chosen": 0.22455668449401855,
      "rewards/margins": 1.875580072402954,
      "rewards/rejected": -1.6510233879089355,
      "step": 122
    },
    {
      "epoch": 1.5490923287136442,
      "grad_norm": 9.98138144476122,
      "learning_rate": 1.3090169943749475e-07,
      "logits/chosen": -0.7185292840003967,
      "logits/rejected": -0.7869015336036682,
      "logps/chosen": -207.1554718017578,
      "logps/rejected": -239.03298950195312,
      "loss": 0.301,
      "rewards/accuracies": 0.8671875,
      "rewards/chosen": 0.21323075890541077,
      "rewards/margins": 1.779089093208313,
      "rewards/rejected": -1.565858244895935,
      "step": 124
    },
    {
      "epoch": 1.574077688854187,
      "grad_norm": 7.9906817459937995,
      "learning_rate": 1.207911690817759e-07,
      "logits/chosen": -0.7233790159225464,
      "logits/rejected": -0.7781089544296265,
      "logps/chosen": -194.47396850585938,
      "logps/rejected": -199.163330078125,
      "loss": 0.3084,
      "rewards/accuracies": 0.8828125,
      "rewards/chosen": 0.403320848941803,
      "rewards/margins": 1.8897595405578613,
      "rewards/rejected": -1.486438512802124,
      "step": 126
    },
    {
      "epoch": 1.5990630489947297,
      "grad_norm": 9.241594419692872,
      "learning_rate": 1.1045284632676535e-07,
      "logits/chosen": -0.7427763342857361,
      "logits/rejected": -0.811578094959259,
      "logps/chosen": -211.1174774169922,
      "logps/rejected": -199.56015014648438,
      "loss": 0.2962,
      "rewards/accuracies": 0.8828125,
      "rewards/chosen": 0.37835511565208435,
      "rewards/margins": 2.0853826999664307,
      "rewards/rejected": -1.7070273160934448,
      "step": 128
    },
    {
      "epoch": 1.6240484091352723,
      "grad_norm": 9.666544829037878,
      "learning_rate": 1e-07,
      "logits/chosen": -0.7333863973617554,
      "logits/rejected": -0.7908891439437866,
      "logps/chosen": -201.62767028808594,
      "logps/rejected": -204.39947509765625,
      "loss": 0.3047,
      "rewards/accuracies": 0.91015625,
      "rewards/chosen": 0.5189218521118164,
      "rewards/margins": 2.134669542312622,
      "rewards/rejected": -1.6157476902008057,
      "step": 130
    },
    {
      "epoch": 1.6490337692758148,
      "grad_norm": 8.419662280451101,
      "learning_rate": 8.954715367323466e-08,
      "logits/chosen": -0.7702259421348572,
      "logits/rejected": -0.8284745812416077,
      "logps/chosen": -199.48992919921875,
      "logps/rejected": -219.00027465820312,
      "loss": 0.2776,
      "rewards/accuracies": 0.86328125,
      "rewards/chosen": 0.36517998576164246,
      "rewards/margins": 2.0277538299560547,
      "rewards/rejected": -1.6625735759735107,
      "step": 132
    },
    {
      "epoch": 1.6740191294163576,
      "grad_norm": 9.261225693287605,
      "learning_rate": 7.920883091822408e-08,
      "logits/chosen": -0.7342085242271423,
      "logits/rejected": -0.7807326912879944,
      "logps/chosen": -198.77467346191406,
      "logps/rejected": -204.98635864257812,
      "loss": 0.3185,
      "rewards/accuracies": 0.88671875,
      "rewards/chosen": 0.39617919921875,
      "rewards/margins": 1.929458737373352,
      "rewards/rejected": -1.533279538154602,
      "step": 134
    },
    {
      "epoch": 1.6990044895569003,
      "grad_norm": 9.299697052167406,
      "learning_rate": 6.909830056250527e-08,
      "logits/chosen": -0.7558231949806213,
      "logits/rejected": -0.8186966776847839,
      "logps/chosen": -200.72955322265625,
      "logps/rejected": -197.19003295898438,
      "loss": 0.2807,
      "rewards/accuracies": 0.88671875,
      "rewards/chosen": 0.42143842577934265,
      "rewards/margins": 2.1845474243164062,
      "rewards/rejected": -1.7631090879440308,
      "step": 136
    },
    {
      "epoch": 1.723989849697443,
      "grad_norm": 8.587815614728,
      "learning_rate": 5.9326335692419996e-08,
      "logits/chosen": -0.755694568157196,
      "logits/rejected": -0.8112677335739136,
      "logps/chosen": -198.68673706054688,
      "logps/rejected": -197.39120483398438,
      "loss": 0.2802,
      "rewards/accuracies": 0.8671875,
      "rewards/chosen": 0.23039419949054718,
      "rewards/margins": 1.9206252098083496,
      "rewards/rejected": -1.6902309656143188,
      "step": 138
    },
    {
      "epoch": 1.7489752098379856,
      "grad_norm": 8.680976094750916,
      "learning_rate": 5.000000000000002e-08,
      "logits/chosen": -0.7553902864456177,
      "logits/rejected": -0.8158895373344421,
      "logps/chosen": -199.0127716064453,
      "logps/rejected": -202.2300262451172,
      "loss": 0.2768,
      "rewards/accuracies": 0.890625,
      "rewards/chosen": 0.5232993960380554,
      "rewards/margins": 2.2032899856567383,
      "rewards/rejected": -1.6799907684326172,
      "step": 140
    },
    {
      "epoch": 1.7739605699785281,
      "grad_norm": 9.234907906222318,
      "learning_rate": 4.1221474770752695e-08,
      "logits/chosen": -0.7363643646240234,
      "logits/rejected": -0.79323410987854,
      "logps/chosen": -203.90921020507812,
      "logps/rejected": -207.4276123046875,
      "loss": 0.2921,
      "rewards/accuracies": 0.85546875,
      "rewards/chosen": 0.3827190697193146,
      "rewards/margins": 2.0326881408691406,
      "rewards/rejected": -1.6499687433242798,
      "step": 142
    },
    {
      "epoch": 1.798945930119071,
      "grad_norm": 8.988965068155167,
      "learning_rate": 3.3086939364114206e-08,
      "logits/chosen": -0.7579203844070435,
      "logits/rejected": -0.8293938636779785,
      "logps/chosen": -201.67063903808594,
      "logps/rejected": -223.98065185546875,
      "loss": 0.2825,
      "rewards/accuracies": 0.90234375,
      "rewards/chosen": 0.3738960325717926,
      "rewards/margins": 2.088986873626709,
      "rewards/rejected": -1.7150908708572388,
      "step": 144
    },
    {
      "epoch": 1.8239312902596136,
      "grad_norm": 8.4124330379094,
      "learning_rate": 2.5685517452260564e-08,
      "logits/chosen": -0.7071250081062317,
      "logits/rejected": -0.7688826322555542,
      "logps/chosen": -203.57652282714844,
      "logps/rejected": -203.83291625976562,
      "loss": 0.282,
      "rewards/accuracies": 0.90234375,
      "rewards/chosen": 0.2634541988372803,
      "rewards/margins": 2.0646886825561523,
      "rewards/rejected": -1.801234245300293,
      "step": 146
    },
    {
      "epoch": 1.8489166504001562,
      "grad_norm": 8.280715517124031,
      "learning_rate": 1.9098300562505266e-08,
      "logits/chosen": -0.755478024482727,
      "logits/rejected": -0.8133871555328369,
      "logps/chosen": -202.27098083496094,
      "logps/rejected": -195.1833038330078,
      "loss": 0.2677,
      "rewards/accuracies": 0.90625,
      "rewards/chosen": 0.45085206627845764,
      "rewards/margins": 2.2143564224243164,
      "rewards/rejected": -1.7635046243667603,
      "step": 148
    },
    {
      "epoch": 1.8739020105406987,
      "grad_norm": 9.365073690139782,
      "learning_rate": 1.3397459621556128e-08,
      "logits/chosen": -0.7708315849304199,
      "logits/rejected": -0.8214279413223267,
      "logps/chosen": -198.73464965820312,
      "logps/rejected": -201.75244140625,
      "loss": 0.2866,
      "rewards/accuracies": 0.8828125,
      "rewards/chosen": 0.23038014769554138,
      "rewards/margins": 1.8956291675567627,
      "rewards/rejected": -1.6652488708496094,
      "step": 150
    },
    {
      "epoch": 1.8739020105406987,
      "eval_logits/chosen": -0.6863436102867126,
      "eval_logits/rejected": -0.7882587909698486,
      "eval_logps/chosen": -206.22607421875,
      "eval_logps/rejected": -185.4351806640625,
      "eval_loss": 0.28332585096359253,
      "eval_rewards/accuracies": 0.9200000166893005,
      "eval_rewards/chosen": 0.6681913137435913,
      "eval_rewards/margins": 2.303332567214966,
      "eval_rewards/rejected": -1.6351412534713745,
      "eval_runtime": 30.6661,
      "eval_samples_per_second": 3.261,
      "eval_steps_per_second": 0.815,
      "step": 150
    },
    {
      "epoch": 1.8988873706812415,
      "grad_norm": 8.503745608023737,
      "learning_rate": 8.645454235739902e-09,
      "logits/chosen": -0.7426515817642212,
      "logits/rejected": -0.8051266670227051,
      "logps/chosen": -195.47421264648438,
      "logps/rejected": -199.013916015625,
      "loss": 0.2643,
      "rewards/accuracies": 0.9140625,
      "rewards/chosen": 0.39815255999565125,
      "rewards/margins": 2.137446403503418,
      "rewards/rejected": -1.7392936944961548,
      "step": 152
    },
    {
      "epoch": 1.9238727308217842,
      "grad_norm": 8.367825814127663,
      "learning_rate": 4.8943483704846465e-09,
      "logits/chosen": -0.7322957515716553,
      "logits/rejected": -0.7974464893341064,
      "logps/chosen": -193.97613525390625,
      "logps/rejected": -191.2456817626953,
      "loss": 0.2622,
      "rewards/accuracies": 0.921875,
      "rewards/chosen": 0.45596182346343994,
      "rewards/margins": 2.185451030731201,
      "rewards/rejected": -1.7294889688491821,
      "step": 154
    },
    {
      "epoch": 1.9488580909623268,
      "grad_norm": 7.920183430972945,
      "learning_rate": 2.1852399266194312e-09,
      "logits/chosen": -0.7559969425201416,
      "logits/rejected": -0.8131712079048157,
      "logps/chosen": -203.8223876953125,
      "logps/rejected": -202.947509765625,
      "loss": 0.2773,
      "rewards/accuracies": 0.91015625,
      "rewards/chosen": 0.32228347659111023,
      "rewards/margins": 2.08817458152771,
      "rewards/rejected": -1.7658910751342773,
      "step": 156
    },
    {
      "epoch": 1.9738434511028693,
      "grad_norm": 8.06856390519066,
      "learning_rate": 5.47810463172671e-10,
      "logits/chosen": -0.7470804452896118,
      "logits/rejected": -0.8129448294639587,
      "logps/chosen": -210.6734619140625,
      "logps/rejected": -196.4785919189453,
      "loss": 0.2755,
      "rewards/accuracies": 0.890625,
      "rewards/chosen": 0.42607438564300537,
      "rewards/margins": 2.0202014446258545,
      "rewards/rejected": -1.5941270589828491,
      "step": 158
    },
    {
      "epoch": 1.998828811243412,
      "grad_norm": 9.773194489937959,
      "learning_rate": 0.0,
      "logits/chosen": -0.80845707654953,
      "logits/rejected": -0.8671077489852905,
      "logps/chosen": -203.4849853515625,
      "logps/rejected": -204.71002197265625,
      "loss": 0.2941,
      "rewards/accuracies": 0.91796875,
      "rewards/chosen": 0.35994353890419006,
      "rewards/margins": 2.0885844230651855,
      "rewards/rejected": -1.7286407947540283,
      "step": 160
    }
  ],
  "logging_steps": 2,
  "max_steps": 160,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 150,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}