llama-3.1-8b-instruct-armorm / trainer_state.json

Upload folder using huggingface_hub

8088680 verified 7 months ago

55.3 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9995071463775259,
	"eval_steps": 400,
	"global_step": 507,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.001971414489896501,
	"grad_norm": 6.2392770862642,
	"learning_rate": 9.803921568627451e-09,
	"logits/chosen": -1.594488501548767,
	"logits/rejected": -1.1860766410827637,
	"logps/chosen": -198.3888397216797,
	"logps/rejected": -269.352783203125,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.009857072449482503,
	"grad_norm": 5.49954498256661,
	"learning_rate": 4.901960784313725e-08,
	"logits/chosen": -1.645488977432251,
	"logits/rejected": -1.0096673965454102,
	"logps/chosen": -192.4307861328125,
	"logps/rejected": -247.57391357421875,
	"loss": 0.6931,
	"rewards/accuracies": 0.390625,
	"rewards/chosen": 0.00013264300650916994,
	"rewards/margins": 0.0001808845845516771,
	"rewards/rejected": -4.824160714633763e-05,
	"step": 5
	},
	{
	"epoch": 0.019714144898965006,
	"grad_norm": 4.196436716438617,
	"learning_rate": 9.80392156862745e-08,
	"logits/chosen": -1.6045820713043213,
	"logits/rejected": -1.0348637104034424,
	"logps/chosen": -184.26632690429688,
	"logps/rejected": -245.4076690673828,
	"loss": 0.6931,
	"rewards/accuracies": 0.48124998807907104,
	"rewards/chosen": 0.0013285436434671283,
	"rewards/margins": -0.0003174581506755203,
	"rewards/rejected": 0.001646001823246479,
	"step": 10
	},
	{
	"epoch": 0.02957121734844751,
	"grad_norm": 5.768149867251834,
	"learning_rate": 1.4705882352941175e-07,
	"logits/chosen": -1.8137686252593994,
	"logits/rejected": -1.135617971420288,
	"logps/chosen": -199.5909881591797,
	"logps/rejected": -266.2090759277344,
	"loss": 0.6924,
	"rewards/accuracies": 0.5562499761581421,
	"rewards/chosen": -0.0006634569144807756,
	"rewards/margins": 0.0016718091210350394,
	"rewards/rejected": -0.002335265977308154,
	"step": 15
	},
	{
	"epoch": 0.03942828979793001,
	"grad_norm": 5.9407046802470065,
	"learning_rate": 1.96078431372549e-07,
	"logits/chosen": -1.7376708984375,
	"logits/rejected": -1.1297136545181274,
	"logps/chosen": -189.01934814453125,
	"logps/rejected": -255.4130859375,
	"loss": 0.6901,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.006191645748913288,
	"rewards/margins": 0.006456127855926752,
	"rewards/rejected": -0.012647772207856178,
	"step": 20
	},
	{
	"epoch": 0.04928536224741252,
	"grad_norm": 5.2689388633967456,
	"learning_rate": 2.4509803921568627e-07,
	"logits/chosen": -1.7063930034637451,
	"logits/rejected": -1.1289308071136475,
	"logps/chosen": -204.759765625,
	"logps/rejected": -266.6024169921875,
	"loss": 0.684,
	"rewards/accuracies": 0.7749999761581421,
	"rewards/chosen": -0.017932727932929993,
	"rewards/margins": 0.019068485125899315,
	"rewards/rejected": -0.03700121492147446,
	"step": 25
	},
	{
	"epoch": 0.05914243469689502,
	"grad_norm": 6.582821307605904,
	"learning_rate": 2.941176470588235e-07,
	"logits/chosen": -1.5701669454574585,
	"logits/rejected": -1.041677474975586,
	"logps/chosen": -194.34347534179688,
	"logps/rejected": -276.304443359375,
	"loss": 0.673,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.02758154645562172,
	"rewards/margins": 0.045433152467012405,
	"rewards/rejected": -0.07301469147205353,
	"step": 30
	},
	{
	"epoch": 0.06899950714637752,
	"grad_norm": 10.279144076298133,
	"learning_rate": 3.431372549019608e-07,
	"logits/chosen": -1.4824097156524658,
	"logits/rejected": -0.9899765253067017,
	"logps/chosen": -198.76766967773438,
	"logps/rejected": -265.6862487792969,
	"loss": 0.6359,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -0.068024180829525,
	"rewards/margins": 0.12255563586950302,
	"rewards/rejected": -0.1905798316001892,
	"step": 35
	},
	{
	"epoch": 0.07885657959586002,
	"grad_norm": 9.399070867553222,
	"learning_rate": 3.92156862745098e-07,
	"logits/chosen": -1.7072070837020874,
	"logits/rejected": -1.1361684799194336,
	"logps/chosen": -204.9685516357422,
	"logps/rejected": -303.8945617675781,
	"loss": 0.5789,
	"rewards/accuracies": 0.7875000238418579,
	"rewards/chosen": -0.17202235758304596,
	"rewards/margins": 0.32544782757759094,
	"rewards/rejected": -0.4974702000617981,
	"step": 40
	},
	{
	"epoch": 0.08871365204534254,
	"grad_norm": 13.971472653574747,
	"learning_rate": 4.4117647058823526e-07,
	"logits/chosen": -2.052572727203369,
	"logits/rejected": -1.6851530075073242,
	"logps/chosen": -326.47637939453125,
	"logps/rejected": -529.0755004882812,
	"loss": 0.5125,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -1.31343674659729,
	"rewards/margins": 1.4102681875228882,
	"rewards/rejected": -2.7237050533294678,
	"step": 45
	},
	{
	"epoch": 0.09857072449482504,
	"grad_norm": 15.586119367213884,
	"learning_rate": 4.901960784313725e-07,
	"logits/chosen": -2.3275997638702393,
	"logits/rejected": -1.8939182758331299,
	"logps/chosen": -430.58563232421875,
	"logps/rejected": -688.560302734375,
	"loss": 0.491,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -2.3751883506774902,
	"rewards/margins": 2.010326862335205,
	"rewards/rejected": -4.385515213012695,
	"step": 50
	},
	{
	"epoch": 0.10842779694430754,
	"grad_norm": 25.434888651559017,
	"learning_rate": 4.999050767562379e-07,
	"logits/chosen": -2.086081027984619,
	"logits/rejected": -1.7880547046661377,
	"logps/chosen": -363.26824951171875,
	"logps/rejected": -565.7152099609375,
	"loss": 0.4485,
	"rewards/accuracies": 0.78125,
	"rewards/chosen": -1.765494704246521,
	"rewards/margins": 1.468611478805542,
	"rewards/rejected": -3.2341067790985107,
	"step": 55
	},
	{
	"epoch": 0.11828486939379004,
	"grad_norm": 33.28729029749558,
	"learning_rate": 4.99519574616467e-07,
	"logits/chosen": -2.2118542194366455,
	"logits/rejected": -1.929535150527954,
	"logps/chosen": -434.70794677734375,
	"logps/rejected": -744.1588745117188,
	"loss": 0.4177,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -2.4308719635009766,
	"rewards/margins": 2.5395278930664062,
	"rewards/rejected": -4.970398902893066,
	"step": 60
	},
	{
	"epoch": 0.12814194184327254,
	"grad_norm": 18.906078399540743,
	"learning_rate": 4.988380179235842e-07,
	"logits/chosen": -2.071911334991455,
	"logits/rejected": -1.7777721881866455,
	"logps/chosen": -411.3829040527344,
	"logps/rejected": -706.1156005859375,
	"loss": 0.3931,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -2.1888458728790283,
	"rewards/margins": 2.4369874000549316,
	"rewards/rejected": -4.625833511352539,
	"step": 65
	},
	{
	"epoch": 0.13799901429275505,
	"grad_norm": 29.037425921796533,
	"learning_rate": 4.978612153434526e-07,
	"logits/chosen": -2.3122410774230957,
	"logits/rejected": -2.039794683456421,
	"logps/chosen": -457.93646240234375,
	"logps/rejected": -924.6302490234375,
	"loss": 0.4394,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -2.7360401153564453,
	"rewards/margins": 3.9763436317443848,
	"rewards/rejected": -6.712383270263672,
	"step": 70
	},
	{
	"epoch": 0.14785608674223755,
	"grad_norm": 12.920105460240974,
	"learning_rate": 4.965903258506806e-07,
	"logits/chosen": -2.1728882789611816,
	"logits/rejected": -1.9507039785385132,
	"logps/chosen": -443.1044006347656,
	"logps/rejected": -733.8536376953125,
	"loss": 0.4033,
	"rewards/accuracies": 0.8125,
	"rewards/chosen": -2.428837537765503,
	"rewards/margins": 2.4469170570373535,
	"rewards/rejected": -4.8757548332214355,
	"step": 75
	},
	{
	"epoch": 0.15771315919172005,
	"grad_norm": 13.726152345059775,
	"learning_rate": 4.950268573535011e-07,
	"logits/chosen": -2.0774412155151367,
	"logits/rejected": -1.877873420715332,
	"logps/chosen": -434.2333068847656,
	"logps/rejected": -697.5498657226562,
	"loss": 0.3896,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -2.339465618133545,
	"rewards/margins": 2.073235034942627,
	"rewards/rejected": -4.412700176239014,
	"step": 80
	},
	{
	"epoch": 0.16757023164120255,
	"grad_norm": 22.96957352147464,
	"learning_rate": 4.93172664904641e-07,
	"logits/chosen": -2.578918695449829,
	"logits/rejected": -2.313844680786133,
	"logps/chosen": -714.9383544921875,
	"logps/rejected": -1185.1837158203125,
	"loss": 0.3544,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -5.246799468994141,
	"rewards/margins": 4.040070533752441,
	"rewards/rejected": -9.286870002746582,
	"step": 85
	},
	{
	"epoch": 0.17742730409068508,
	"grad_norm": 16.12185087053667,
	"learning_rate": 4.910299485003033e-07,
	"logits/chosen": -2.3522980213165283,
	"logits/rejected": -2.1312594413757324,
	"logps/chosen": -548.0660400390625,
	"logps/rejected": -941.7537231445312,
	"loss": 0.326,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -3.534759044647217,
	"rewards/margins": 3.3071117401123047,
	"rewards/rejected": -6.841870307922363,
	"step": 90
	},
	{
	"epoch": 0.18728437654016758,
	"grad_norm": 38.45908394327309,
	"learning_rate": 4.886012504698769e-07,
	"logits/chosen": -2.29638671875,
	"logits/rejected": -2.0095603466033936,
	"logps/chosen": -526.743408203125,
	"logps/rejected": -906.7442626953125,
	"loss": 0.3562,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -3.3386921882629395,
	"rewards/margins": 3.1595466136932373,
	"rewards/rejected": -6.498239040374756,
	"step": 95
	},
	{
	"epoch": 0.19714144898965008,
	"grad_norm": 23.37026509407894,
	"learning_rate": 4.858894524594652e-07,
	"logits/chosen": -2.509087085723877,
	"logits/rejected": -2.2394092082977295,
	"logps/chosen": -597.5819091796875,
	"logps/rejected": -1110.536376953125,
	"loss": 0.3208,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -4.074545383453369,
	"rewards/margins": 4.4778618812561035,
	"rewards/rejected": -8.552406311035156,
	"step": 100
	},
	{
	"epoch": 0.20699852143913258,
	"grad_norm": 17.538993246799073,
	"learning_rate": 4.828977720128198e-07,
	"logits/chosen": -2.368518114089966,
	"logits/rejected": -2.0958077907562256,
	"logps/chosen": -522.4010620117188,
	"logps/rejected": -853.4436645507812,
	"loss": 0.3199,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -3.3017165660858154,
	"rewards/margins": 2.8141353130340576,
	"rewards/rejected": -6.115852355957031,
	"step": 105
	},
	{
	"epoch": 0.21685559388861508,
	"grad_norm": 14.205208079234838,
	"learning_rate": 4.796297587537285e-07,
	"logits/chosen": -2.4165451526641846,
	"logits/rejected": -2.1057496070861816,
	"logps/chosen": -577.1276245117188,
	"logps/rejected": -963.6633911132812,
	"loss": 0.2935,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -3.8097610473632812,
	"rewards/margins": 3.394871950149536,
	"rewards/rejected": -7.2046332359313965,
	"step": 110
	},
	{
	"epoch": 0.22671266633809758,
	"grad_norm": 16.990565766105274,
	"learning_rate": 4.760892901743944e-07,
	"logits/chosen": -2.536337375640869,
	"logits/rejected": -2.2590508460998535,
	"logps/chosen": -760.9464111328125,
	"logps/rejected": -1193.0130615234375,
	"loss": 0.3468,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -5.601290702819824,
	"rewards/margins": 3.6806259155273438,
	"rewards/rejected": -9.281916618347168,
	"step": 115
	},
	{
	"epoch": 0.23656973878758009,
	"grad_norm": 14.381039222874595,
	"learning_rate": 4.7228056703479626e-07,
	"logits/chosen": -2.490741014480591,
	"logits/rejected": -2.1797027587890625,
	"logps/chosen": -651.6326293945312,
	"logps/rejected": -1045.991943359375,
	"loss": 0.3,
	"rewards/accuracies": 0.824999988079071,
	"rewards/chosen": -4.517138481140137,
	"rewards/margins": 3.300055742263794,
	"rewards/rejected": -7.817193508148193,
	"step": 120
	},
	{
	"epoch": 0.2464268112370626,
	"grad_norm": 13.845809576206165,
	"learning_rate": 4.6820810837849535e-07,
	"logits/chosen": -2.4549553394317627,
	"logits/rejected": -2.05999755859375,
	"logps/chosen": -606.1448974609375,
	"logps/rejected": -1030.6544189453125,
	"loss": 0.2987,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -4.098814487457275,
	"rewards/margins": 3.521782636642456,
	"rewards/rejected": -7.620597839355469,
	"step": 125
	},
	{
	"epoch": 0.2562838836865451,
	"grad_norm": 30.897064038144002,
	"learning_rate": 4.63876746170797e-07,
	"logits/chosen": -2.3905959129333496,
	"logits/rejected": -2.17751145362854,
	"logps/chosen": -677.5357055664062,
	"logps/rejected": -1075.299072265625,
	"loss": 0.299,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -4.783341407775879,
	"rewards/margins": 3.367708683013916,
	"rewards/rejected": -8.151049613952637,
	"step": 130
	},
	{
	"epoch": 0.2661409561360276,
	"grad_norm": 24.59610522580519,
	"learning_rate": 4.592916195656321e-07,
	"logits/chosen": -2.686401844024658,
	"logits/rejected": -2.2882132530212402,
	"logps/chosen": -798.7413330078125,
	"logps/rejected": -1337.7080078125,
	"loss": 0.2956,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -6.00932502746582,
	"rewards/margins": 4.70266580581665,
	"rewards/rejected": -10.711990356445312,
	"step": 135
	},
	{
	"epoch": 0.2759980285855101,
	"grad_norm": 14.965471726804886,
	"learning_rate": 4.544581688079602e-07,
	"logits/chosen": -2.4349093437194824,
	"logits/rejected": -2.14192533493042,
	"logps/chosen": -705.6304321289062,
	"logps/rejected": -1094.288330078125,
	"loss": 0.2863,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -5.049565315246582,
	"rewards/margins": 3.3041865825653076,
	"rewards/rejected": -8.353752136230469,
	"step": 140
	},
	{
	"epoch": 0.2858551010349926,
	"grad_norm": 18.293122078134097,
	"learning_rate": 4.493821287789272e-07,
	"logits/chosen": -2.5565428733825684,
	"logits/rejected": -2.1939361095428467,
	"logps/chosen": -744.5687255859375,
	"logps/rejected": -1154.7205810546875,
	"loss": 0.2788,
	"rewards/accuracies": 0.8500000238418579,
	"rewards/chosen": -5.435603618621826,
	"rewards/margins": 3.5441932678222656,
	"rewards/rejected": -8.979796409606934,
	"step": 145
	},
	{
	"epoch": 0.2957121734844751,
	"grad_norm": 20.91998686803295,
	"learning_rate": 4.4406952219143934e-07,
	"logits/chosen": -2.5498974323272705,
	"logits/rejected": -2.22133731842041,
	"logps/chosen": -842.6162109375,
	"logps/rejected": -1307.8778076171875,
	"loss": 0.295,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -6.563225746154785,
	"rewards/margins": 4.067451477050781,
	"rewards/rejected": -10.630678176879883,
	"step": 150
	},
	{
	"epoch": 0.3055692459339576,
	"grad_norm": 16.16798121676358,
	"learning_rate": 4.38526652444224e-07,
	"logits/chosen": -2.5155484676361084,
	"logits/rejected": -2.1966238021850586,
	"logps/chosen": -806.795166015625,
	"logps/rejected": -1259.8773193359375,
	"loss": 0.2963,
	"rewards/accuracies": 0.856249988079071,
	"rewards/chosen": -6.04946231842041,
	"rewards/margins": 3.812061309814453,
	"rewards/rejected": -9.861523628234863,
	"step": 155
	},
	{
	"epoch": 0.3154263183834401,
	"grad_norm": 18.735794107249802,
	"learning_rate": 4.3276009614285824e-07,
	"logits/chosen": -2.464740037918091,
	"logits/rejected": -2.1177756786346436,
	"logps/chosen": -709.6548461914062,
	"logps/rejected": -1163.3350830078125,
	"loss": 0.2554,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -5.127840042114258,
	"rewards/margins": 3.861670970916748,
	"rewards/rejected": -8.989511489868164,
	"step": 160
	},
	{
	"epoch": 0.3252833908329226,
	"grad_norm": 22.02574974928147,
	"learning_rate": 4.2677669529663686e-07,
	"logits/chosen": -2.545640707015991,
	"logits/rejected": -2.2462990283966064,
	"logps/chosen": -783.61669921875,
	"logps/rejected": -1255.912353515625,
	"loss": 0.2591,
	"rewards/accuracies": 0.893750011920929,
	"rewards/chosen": -5.863072395324707,
	"rewards/margins": 4.111878395080566,
	"rewards/rejected": -9.974950790405273,
	"step": 165
	},
	{
	"epoch": 0.3351404632824051,
	"grad_norm": 18.815167005575123,
	"learning_rate": 4.2058354920054043e-07,
	"logits/chosen": -2.5555951595306396,
	"logits/rejected": -2.2355425357818604,
	"logps/chosen": -801.5789184570312,
	"logps/rejected": -1247.4630126953125,
	"loss": 0.2675,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -6.109245777130127,
	"rewards/margins": 3.8287367820739746,
	"rewards/rejected": -9.937983512878418,
	"step": 170
	},
	{
	"epoch": 0.34499753573188763,
	"grad_norm": 15.86237856217812,
	"learning_rate": 4.141880060119336e-07,
	"logits/chosen": -2.541696786880493,
	"logits/rejected": -2.180537700653076,
	"logps/chosen": -784.6647338867188,
	"logps/rejected": -1234.05126953125,
	"loss": 0.2502,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -5.834389686584473,
	"rewards/margins": 3.9414896965026855,
	"rewards/rejected": -9.77587890625,
	"step": 175
	},
	{
	"epoch": 0.35485460818137016,
	"grad_norm": 16.77349624146522,
	"learning_rate": 4.0759765403198877e-07,
	"logits/chosen": -2.5138328075408936,
	"logits/rejected": -2.1284890174865723,
	"logps/chosen": -700.7459106445312,
	"logps/rejected": -1123.9356689453125,
	"loss": 0.2808,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -5.06411075592041,
	"rewards/margins": 3.7050411701202393,
	"rewards/rejected": -8.769152641296387,
	"step": 180
	},
	{
	"epoch": 0.36471168063085263,
	"grad_norm": 17.550598446162923,
	"learning_rate": 4.008203127021797e-07,
	"logits/chosen": -2.5796236991882324,
	"logits/rejected": -2.215527057647705,
	"logps/chosen": -717.72119140625,
	"logps/rejected": -1230.483642578125,
	"loss": 0.2249,
	"rewards/accuracies": 0.9437500238418579,
	"rewards/chosen": -5.206206798553467,
	"rewards/margins": 4.433660507202148,
	"rewards/rejected": -9.639867782592773,
	"step": 185
	},
	{
	"epoch": 0.37456875308033516,
	"grad_norm": 15.558233723999136,
	"learning_rate": 3.9386402332652754e-07,
	"logits/chosen": -2.6024489402770996,
	"logits/rejected": -2.3488709926605225,
	"logps/chosen": -900.3855590820312,
	"logps/rejected": -1392.37255859375,
	"loss": 0.2267,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -7.0901055335998535,
	"rewards/margins": 4.340862274169922,
	"rewards/rejected": -11.430967330932617,
	"step": 190
	},
	{
	"epoch": 0.38442582552981763,
	"grad_norm": 22.187048055147955,
	"learning_rate": 3.867370395306068e-07,
	"logits/chosen": -2.6506357192993164,
	"logits/rejected": -2.2959604263305664,
	"logps/chosen": -900.3836059570312,
	"logps/rejected": -1402.96630859375,
	"loss": 0.2693,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -7.0995588302612305,
	"rewards/margins": 4.546249866485596,
	"rewards/rejected": -11.645808219909668,
	"step": 195
	},
	{
	"epoch": 0.39428289797930016,
	"grad_norm": 15.588853964432303,
	"learning_rate": 3.794478174686328e-07,
	"logits/chosen": -2.5797057151794434,
	"logits/rejected": -2.1939449310302734,
	"logps/chosen": -769.4427490234375,
	"logps/rejected": -1267.3035888671875,
	"loss": 0.2491,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -5.717661380767822,
	"rewards/margins": 4.36967658996582,
	"rewards/rejected": -10.087339401245117,
	"step": 200
	},
	{
	"epoch": 0.40413997042878264,
	"grad_norm": 15.604577624570162,
	"learning_rate": 3.720050057902495e-07,
	"logits/chosen": -2.4678874015808105,
	"logits/rejected": -2.166454553604126,
	"logps/chosen": -664.3575439453125,
	"logps/rejected": -1184.0172119140625,
	"loss": 0.2733,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -4.809238910675049,
	"rewards/margins": 4.560500144958496,
	"rewards/rejected": -9.369739532470703,
	"step": 205
	},
	{
	"epoch": 0.41399704287826516,
	"grad_norm": 16.104577186140947,
	"learning_rate": 3.644174353789204e-07,
	"logits/chosen": -2.470492124557495,
	"logits/rejected": -2.2408156394958496,
	"logps/chosen": -702.6835327148438,
	"logps/rejected": -1184.7685546875,
	"loss": 0.24,
	"rewards/accuracies": 0.893750011920929,
	"rewards/chosen": -5.020668983459473,
	"rewards/margins": 4.07871150970459,
	"rewards/rejected": -9.099380493164062,
	"step": 210
	},
	{
	"epoch": 0.42385411532774764,
	"grad_norm": 42.39094832845099,
	"learning_rate": 3.566941088741009e-07,
	"logits/chosen": -2.465122699737549,
	"logits/rejected": -2.202960968017578,
	"logps/chosen": -784.384765625,
	"logps/rejected": -1312.956298828125,
	"loss": 0.2914,
	"rewards/accuracies": 0.8687499761581421,
	"rewards/chosen": -5.859043598175049,
	"rewards/margins": 4.713334083557129,
	"rewards/rejected": -10.572378158569336,
	"step": 215
	},
	{
	"epoch": 0.43371118777723017,
	"grad_norm": 20.944458558373373,
	"learning_rate": 3.488441899896217e-07,
	"logits/chosen": -2.487208843231201,
	"logits/rejected": -2.197640895843506,
	"logps/chosen": -729.4404296875,
	"logps/rejected": -1207.813232421875,
	"loss": 0.2843,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -5.363978862762451,
	"rewards/margins": 4.154356956481934,
	"rewards/rejected": -9.518336296081543,
	"step": 220
	},
	{
	"epoch": 0.44356826022671264,
	"grad_norm": 14.863684470935617,
	"learning_rate": 3.408769926409574e-07,
	"logits/chosen": -2.4418163299560547,
	"logits/rejected": -2.1561474800109863,
	"logps/chosen": -578.9898071289062,
	"logps/rejected": -913.1700439453125,
	"loss": 0.2547,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -3.821843385696411,
	"rewards/margins": 2.9205775260925293,
	"rewards/rejected": -6.742421627044678,
	"step": 225
	},
	{
	"epoch": 0.45342533267619517,
	"grad_norm": 17.477623835490277,
	"learning_rate": 3.3280196989428263e-07,
	"logits/chosen": -2.4349989891052246,
	"logits/rejected": -2.196359634399414,
	"logps/chosen": -682.2156982421875,
	"logps/rejected": -1149.534423828125,
	"loss": 0.2754,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -4.879435062408447,
	"rewards/margins": 3.9676411151885986,
	"rewards/rejected": -8.847076416015625,
	"step": 230
	},
	{
	"epoch": 0.4632824051256777,
	"grad_norm": 16.30612813668589,
	"learning_rate": 3.2462870275042367e-07,
	"logits/chosen": -2.5115764141082764,
	"logits/rejected": -2.3011107444763184,
	"logps/chosen": -744.306396484375,
	"logps/rejected": -1183.502685546875,
	"loss": 0.2276,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": -5.445645332336426,
	"rewards/margins": 3.8912956714630127,
	"rewards/rejected": -9.33694076538086,
	"step": 235
	},
	{
	"epoch": 0.47313947757516017,
	"grad_norm": 18.35946878564802,
	"learning_rate": 3.1636688877701806e-07,
	"logits/chosen": -2.5281643867492676,
	"logits/rejected": -2.2399466037750244,
	"logps/chosen": -777.9661865234375,
	"logps/rejected": -1258.2623291015625,
	"loss": 0.2537,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -5.761153221130371,
	"rewards/margins": 4.262064456939697,
	"rewards/rejected": -10.023218154907227,
	"step": 240
	},
	{
	"epoch": 0.4829965500246427,
	"grad_norm": 22.711594265033526,
	"learning_rate": 3.080263306023669e-07,
	"logits/chosen": -2.43805193901062,
	"logits/rejected": -2.136569023132324,
	"logps/chosen": -738.892578125,
	"logps/rejected": -1253.740966796875,
	"loss": 0.2465,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -5.394611358642578,
	"rewards/margins": 4.49846076965332,
	"rewards/rejected": -9.893071174621582,
	"step": 245
	},
	{
	"epoch": 0.4928536224741252,
	"grad_norm": 22.523084393015623,
	"learning_rate": 2.996169242846328e-07,
	"logits/chosen": -2.456860065460205,
	"logits/rejected": -2.1488893032073975,
	"logps/chosen": -664.892822265625,
	"logps/rejected": -1094.06640625,
	"loss": 0.2643,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": -4.737056732177734,
	"rewards/margins": 3.7822394371032715,
	"rewards/rejected": -8.519296646118164,
	"step": 250
	},
	{
	"epoch": 0.5027106949236076,
	"grad_norm": 21.85050975494629,
	"learning_rate": 2.911486475701835e-07,
	"logits/chosen": -2.3711659908294678,
	"logits/rejected": -2.104147434234619,
	"logps/chosen": -632.7847900390625,
	"logps/rejected": -1041.4219970703125,
	"loss": 0.2848,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -4.385097503662109,
	"rewards/margins": 3.560230255126953,
	"rewards/rejected": -7.9453277587890625,
	"step": 255
	},
	{
	"epoch": 0.5125677673730902,
	"grad_norm": 17.27564046380349,
	"learning_rate": 2.826315480550129e-07,
	"logits/chosen": -2.326019763946533,
	"logits/rejected": -2.0808887481689453,
	"logps/chosen": -590.845458984375,
	"logps/rejected": -1011.6871337890625,
	"loss": 0.2489,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": -3.986447811126709,
	"rewards/margins": 3.542587995529175,
	"rewards/rejected": -7.529036045074463,
	"step": 260
	},
	{
	"epoch": 0.5224248398225727,
	"grad_norm": 19.212069446863243,
	"learning_rate": 2.740757312632854e-07,
	"logits/chosen": -2.414062261581421,
	"logits/rejected": -2.197702646255493,
	"logps/chosen": -744.2257080078125,
	"logps/rejected": -1205.133544921875,
	"loss": 0.2221,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -5.464824676513672,
	"rewards/margins": 4.082161903381348,
	"rewards/rejected": -9.54698657989502,
	"step": 265
	},
	{
	"epoch": 0.5322819122720552,
	"grad_norm": 16.242036970306053,
	"learning_rate": 2.654913486571487e-07,
	"logits/chosen": -2.5215845108032227,
	"logits/rejected": -2.260974168777466,
	"logps/chosen": -794.4285888671875,
	"logps/rejected": -1301.2264404296875,
	"loss": 0.3103,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -5.997513294219971,
	"rewards/margins": 4.493828773498535,
	"rewards/rejected": -10.491341590881348,
	"step": 270
	},
	{
	"epoch": 0.5421389847215377,
	"grad_norm": 14.856129841637888,
	"learning_rate": 2.5688858559204053e-07,
	"logits/chosen": -2.406275987625122,
	"logits/rejected": -2.168721914291382,
	"logps/chosen": -711.0574951171875,
	"logps/rejected": -1197.390380859375,
	"loss": 0.2365,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": -5.203823566436768,
	"rewards/margins": 4.352889060974121,
	"rewards/rejected": -9.55671215057373,
	"step": 275
	},
	{
	"epoch": 0.5519960571710202,
	"grad_norm": 15.78620841198885,
	"learning_rate": 2.4827764923178246e-07,
	"logits/chosen": -2.5056891441345215,
	"logits/rejected": -2.270139694213867,
	"logps/chosen": -740.6078491210938,
	"logps/rejected": -1241.2222900390625,
	"loss": 0.2371,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -5.419187068939209,
	"rewards/margins": 4.417618751525879,
	"rewards/rejected": -9.83680534362793,
	"step": 280
	},
	{
	"epoch": 0.5618531296205027,
	"grad_norm": 17.093071523621635,
	"learning_rate": 2.3966875643779667e-07,
	"logits/chosen": -2.443941593170166,
	"logits/rejected": -2.2383456230163574,
	"logps/chosen": -725.4220581054688,
	"logps/rejected": -1253.807373046875,
	"loss": 0.2179,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -5.367009162902832,
	"rewards/margins": 4.663185119628906,
	"rewards/rejected": -10.030195236206055,
	"step": 285
	},
	{
	"epoch": 0.5717102020699852,
	"grad_norm": 25.373557062497504,
	"learning_rate": 2.3107212164681774e-07,
	"logits/chosen": -2.5970406532287598,
	"logits/rejected": -2.2234134674072266,
	"logps/chosen": -703.3094482421875,
	"logps/rejected": -1330.679931640625,
	"loss": 0.2351,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": -5.1501851081848145,
	"rewards/margins": 5.526017665863037,
	"rewards/rejected": -10.676202774047852,
	"step": 290
	},
	{
	"epoch": 0.5815672745194678,
	"grad_norm": 39.54586447558642,
	"learning_rate": 2.2249794475148019e-07,
	"logits/chosen": -2.508376359939575,
	"logits/rejected": -2.293508768081665,
	"logps/chosen": -826.1845703125,
	"logps/rejected": -1299.66845703125,
	"loss": 0.2529,
	"rewards/accuracies": 0.831250011920929,
	"rewards/chosen": -6.255187034606934,
	"rewards/margins": 4.241654872894287,
	"rewards/rejected": -10.496840476989746,
	"step": 295
	},
	{
	"epoch": 0.5914243469689502,
	"grad_norm": 21.452851323361823,
	"learning_rate": 2.1395639899816332e-07,
	"logits/chosen": -2.580679416656494,
	"logits/rejected": -2.2998709678649902,
	"logps/chosen": -733.3718872070312,
	"logps/rejected": -1240.96533203125,
	"loss": 0.229,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -5.495171070098877,
	"rewards/margins": 4.4129509925842285,
	"rewards/rejected": -9.908121109008789,
	"step": 300
	},
	{
	"epoch": 0.6012814194184327,
	"grad_norm": 16.276691413135083,
	"learning_rate": 2.0545761891645177e-07,
	"logits/chosen": -2.456111431121826,
	"logits/rejected": -2.243847608566284,
	"logps/chosen": -683.7113037109375,
	"logps/rejected": -1161.4580078125,
	"loss": 0.2226,
	"rewards/accuracies": 0.893750011920929,
	"rewards/chosen": -4.874439239501953,
	"rewards/margins": 4.157763957977295,
	"rewards/rejected": -9.032203674316406,
	"step": 305
	},
	{
	"epoch": 0.6111384918679152,
	"grad_norm": 24.661935948628066,
	"learning_rate": 1.9701168829453305e-07,
	"logits/chosen": -2.6442089080810547,
	"logits/rejected": -2.186643600463867,
	"logps/chosen": -696.6754150390625,
	"logps/rejected": -1296.2703857421875,
	"loss": 0.2543,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -5.091025352478027,
	"rewards/margins": 5.146512031555176,
	"rewards/rejected": -10.237536430358887,
	"step": 310
	},
	{
	"epoch": 0.6209955643173978,
	"grad_norm": 14.790443951524152,
	"learning_rate": 1.886286282148002e-07,
	"logits/chosen": -2.444152355194092,
	"logits/rejected": -2.1477932929992676,
	"logps/chosen": -734.7506713867188,
	"logps/rejected": -1255.331787109375,
	"loss": 0.2501,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": -5.458280563354492,
	"rewards/margins": 4.611725807189941,
	"rewards/rejected": -10.070005416870117,
	"step": 315
	},
	{
	"epoch": 0.6308526367668802,
	"grad_norm": 16.271316784779167,
	"learning_rate": 1.8031838516385422e-07,
	"logits/chosen": -2.369560718536377,
	"logits/rejected": -2.1628785133361816,
	"logps/chosen": -670.2017822265625,
	"logps/rejected": -1158.4266357421875,
	"loss": 0.2539,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -4.8326568603515625,
	"rewards/margins": 4.299530982971191,
	"rewards/rejected": -9.132187843322754,
	"step": 320
	},
	{
	"epoch": 0.6407097092163627,
	"grad_norm": 17.744715641719303,
	"learning_rate": 1.7209081923101472e-07,
	"logits/chosen": -2.6445670127868652,
	"logits/rejected": -2.266472578048706,
	"logps/chosen": -690.3375854492188,
	"logps/rejected": -1188.698974609375,
	"loss": 0.205,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -4.986203193664551,
	"rewards/margins": 4.211085319519043,
	"rewards/rejected": -9.19728946685791,
	"step": 325
	},
	{
	"epoch": 0.6505667816658453,
	"grad_norm": 21.850943779213573,
	"learning_rate": 1.639556924093404e-07,
	"logits/chosen": -2.358119249343872,
	"logits/rejected": -2.1153066158294678,
	"logps/chosen": -764.6770629882812,
	"logps/rejected": -1240.2838134765625,
	"loss": 0.2799,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -5.743839263916016,
	"rewards/margins": 4.227473735809326,
	"rewards/rejected": -9.971312522888184,
	"step": 330
	},
	{
	"epoch": 0.6604238541153278,
	"grad_norm": 34.1719257406542,
	"learning_rate": 1.5592265701304114e-07,
	"logits/chosen": -2.375866413116455,
	"logits/rejected": -2.240598678588867,
	"logps/chosen": -763.527099609375,
	"logps/rejected": -1258.715576171875,
	"loss": 0.2564,
	"rewards/accuracies": 0.893750011920929,
	"rewards/chosen": -5.7242560386657715,
	"rewards/margins": 4.458041667938232,
	"rewards/rejected": -10.18229866027832,
	"step": 335
	},
	{
	"epoch": 0.6702809265648102,
	"grad_norm": 18.71419612814259,
	"learning_rate": 1.4800124422502334e-07,
	"logits/chosen": -2.519636631011963,
	"logits/rejected": -2.2316250801086426,
	"logps/chosen": -762.00439453125,
	"logps/rejected": -1267.931396484375,
	"loss": 0.2514,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -5.641887664794922,
	"rewards/margins": 4.440293312072754,
	"rewards/rejected": -10.08218002319336,
	"step": 340
	},
	{
	"epoch": 0.6801379990142927,
	"grad_norm": 18.664999037354942,
	"learning_rate": 1.4020085278815743e-07,
	"logits/chosen": -2.458855628967285,
	"logits/rejected": -2.2174124717712402,
	"logps/chosen": -758.8146362304688,
	"logps/rejected": -1192.955322265625,
	"loss": 0.2308,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -5.576407432556152,
	"rewards/margins": 3.762500762939453,
	"rewards/rejected": -9.338907241821289,
	"step": 345
	},
	{
	"epoch": 0.6899950714637753,
	"grad_norm": 19.00593669045522,
	"learning_rate": 1.3253073785368545e-07,
	"logits/chosen": -2.4038822650909424,
	"logits/rejected": -2.114386796951294,
	"logps/chosen": -628.0557250976562,
	"logps/rejected": -1128.370849609375,
	"loss": 0.2821,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -4.437934875488281,
	"rewards/margins": 4.355624198913574,
	"rewards/rejected": -8.793559074401855,
	"step": 350
	},
	{
	"epoch": 0.6998521439132578,
	"grad_norm": 13.437480532125694,
	"learning_rate": 1.2500000000000005e-07,
	"logits/chosen": -2.367783308029175,
	"logits/rejected": -2.1017680168151855,
	"logps/chosen": -647.2433471679688,
	"logps/rejected": -1109.231689453125,
	"loss": 0.2264,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": -4.586766242980957,
	"rewards/margins": 4.0332794189453125,
	"rewards/rejected": -8.62004566192627,
	"step": 355
	},
	{
	"epoch": 0.7097092163627403,
	"grad_norm": 23.214131611033924,
	"learning_rate": 1.1761757443482285e-07,
	"logits/chosen": -2.4149296283721924,
	"logits/rejected": -2.0817036628723145,
	"logps/chosen": -711.5889892578125,
	"logps/rejected": -1216.048095703125,
	"loss": 0.2471,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -5.251239776611328,
	"rewards/margins": 4.419920921325684,
	"rewards/rejected": -9.671161651611328,
	"step": 360
	},
	{
	"epoch": 0.7195662888122227,
	"grad_norm": 21.14502188501099,
	"learning_rate": 1.1039222039359644e-07,
	"logits/chosen": -2.5779356956481934,
	"logits/rejected": -2.228896141052246,
	"logps/chosen": -739.5020751953125,
	"logps/rejected": -1144.7041015625,
	"loss": 0.2331,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": -5.435536861419678,
	"rewards/margins": 3.5643341541290283,
	"rewards/rejected": -8.999870300292969,
	"step": 365
	},
	{
	"epoch": 0.7294233612617053,
	"grad_norm": 24.352395974541345,
	"learning_rate": 1.0333251074666608e-07,
	"logits/chosen": -2.4502475261688232,
	"logits/rejected": -2.300096035003662,
	"logps/chosen": -781.7764282226562,
	"logps/rejected": -1243.557373046875,
	"loss": 0.2034,
	"rewards/accuracies": 0.925000011920929,
	"rewards/chosen": -5.88522481918335,
	"rewards/margins": 4.11319637298584,
	"rewards/rejected": -9.998421669006348,
	"step": 370
	},
	{
	"epoch": 0.7392804337111878,
	"grad_norm": 12.733858279084933,
	"learning_rate": 9.644682182758304e-08,
	"logits/chosen": -2.5493714809417725,
	"logits/rejected": -2.2471814155578613,
	"logps/chosen": -801.8941650390625,
	"logps/rejected": -1274.67529296875,
	"loss": 0.2314,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -6.090977668762207,
	"rewards/margins": 4.2742109298706055,
	"rewards/rejected": -10.365188598632812,
	"step": 375
	},
	{
	"epoch": 0.7491375061606703,
	"grad_norm": 30.453462939771114,
	"learning_rate": 8.974332349459992e-08,
	"logits/chosen": -2.3520667552948,
	"logits/rejected": -2.144470691680908,
	"logps/chosen": -808.9397583007812,
	"logps/rejected": -1302.123291015625,
	"loss": 0.2251,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -6.170880317687988,
	"rewards/margins": 4.420655727386475,
	"rewards/rejected": -10.591535568237305,
	"step": 380
	},
	{
	"epoch": 0.7589945786101527,
	"grad_norm": 25.800864953205974,
	"learning_rate": 8.322996943714672e-08,
	"logits/chosen": -2.4617538452148438,
	"logits/rejected": -2.170855760574341,
	"logps/chosen": -752.3043212890625,
	"logps/rejected": -1303.364013671875,
	"loss": 0.2474,
	"rewards/accuracies": 0.9125000238418579,
	"rewards/chosen": -5.609736919403076,
	"rewards/margins": 4.878790378570557,
	"rewards/rejected": -10.488527297973633,
	"step": 385
	},
	{
	"epoch": 0.7688516510596353,
	"grad_norm": 20.367448051714003,
	"learning_rate": 7.691448773879256e-08,
	"logits/chosen": -2.631474018096924,
	"logits/rejected": -2.1774039268493652,
	"logps/chosen": -788.4654541015625,
	"logps/rejected": -1410.991455078125,
	"loss": 0.219,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": -5.944725036621094,
	"rewards/margins": 5.383862495422363,
	"rewards/rejected": -11.328587532043457,
	"step": 390
	},
	{
	"epoch": 0.7787087235091178,
	"grad_norm": 22.316993245593054,
	"learning_rate": 7.080437170788722e-08,
	"logits/chosen": -2.5305416584014893,
	"logits/rejected": -2.246816873550415,
	"logps/chosen": -782.3768310546875,
	"logps/rejected": -1279.210693359375,
	"loss": 0.267,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -5.886050701141357,
	"rewards/margins": 4.281658172607422,
	"rewards/rejected": -10.167708396911621,
	"step": 395
	},
	{
	"epoch": 0.7885657959586003,
	"grad_norm": 25.32693997023262,
	"learning_rate": 6.490687098676332e-08,
	"logits/chosen": -2.4314379692077637,
	"logits/rejected": -2.1938157081604004,
	"logps/chosen": -747.9923095703125,
	"logps/rejected": -1171.9027099609375,
	"loss": 0.2606,
	"rewards/accuracies": 0.893750011920929,
	"rewards/chosen": -5.560776710510254,
	"rewards/margins": 3.7204151153564453,
	"rewards/rejected": -9.2811918258667,
	"step": 400
	},
	{
	"epoch": 0.7885657959586003,
	"eval_logits/chosen": -2.784451484680176,
	"eval_logits/rejected": -2.6733083724975586,
	"eval_logps/chosen": -513.8394165039062,
	"eval_logps/rejected": -600.927978515625,
	"eval_loss": 0.5123496651649475,
	"eval_rewards/accuracies": 0.7782257795333862,
	"eval_rewards/chosen": -2.5094728469848633,
	"eval_rewards/margins": 0.760833203792572,
	"eval_rewards/rejected": -3.27030611038208,
	"eval_runtime": 327.294,
	"eval_samples_per_second": 6.037,
	"eval_steps_per_second": 0.379,
	"step": 400
	},
	{
	"epoch": 0.7984228684080829,
	"grad_norm": 16.407923464923826,
	"learning_rate": 5.9228982950048414e-08,
	"logits/chosen": -2.4307689666748047,
	"logits/rejected": -2.029819965362549,
	"logps/chosen": -701.4022827148438,
	"logps/rejected": -1147.330322265625,
	"loss": 0.227,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -5.128365993499756,
	"rewards/margins": 3.8555781841278076,
	"rewards/rejected": -8.9839448928833,
	"step": 405
	},
	{
	"epoch": 0.8082799408575653,
	"grad_norm": 23.480190565228476,
	"learning_rate": 5.3777444402291345e-08,
	"logits/chosen": -2.4188990592956543,
	"logits/rejected": -2.1691110134124756,
	"logps/chosen": -730.129638671875,
	"logps/rejected": -1147.34521484375,
	"loss": 0.2563,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -5.437844753265381,
	"rewards/margins": 3.608722686767578,
	"rewards/rejected": -9.0465669631958,
	"step": 410
	},
	{
	"epoch": 0.8181370133070478,
	"grad_norm": 14.849124963520776,
	"learning_rate": 4.855872358475546e-08,
	"logits/chosen": -2.4617886543273926,
	"logits/rejected": -2.174734592437744,
	"logps/chosen": -733.2481079101562,
	"logps/rejected": -1173.011962890625,
	"loss": 0.2203,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -5.399328708648682,
	"rewards/margins": 3.8578476905822754,
	"rewards/rejected": -9.257177352905273,
	"step": 415
	},
	{
	"epoch": 0.8279940857565303,
	"grad_norm": 14.728191064922497,
	"learning_rate": 4.357901250086107e-08,
	"logits/chosen": -2.605170488357544,
	"logits/rejected": -2.1935315132141113,
	"logps/chosen": -696.6317749023438,
	"logps/rejected": -1134.62890625,
	"loss": 0.2169,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -5.047616481781006,
	"rewards/margins": 3.7440898418426514,
	"rewards/rejected": -8.791706085205078,
	"step": 420
	},
	{
	"epoch": 0.8378511582060129,
	"grad_norm": 21.656855077862126,
	"learning_rate": 3.884421956938377e-08,
	"logits/chosen": -2.443837881088257,
	"logits/rejected": -2.016244649887085,
	"logps/chosen": -734.0977783203125,
	"logps/rejected": -1261.663818359375,
	"loss": 0.2601,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -5.3997087478637695,
	"rewards/margins": 4.594438552856445,
	"rewards/rejected": -9.994146347045898,
	"step": 425
	},
	{
	"epoch": 0.8477082306554953,
	"grad_norm": 22.361665031765803,
	"learning_rate": 3.435996261412591e-08,
	"logits/chosen": -2.4327638149261475,
	"logits/rejected": -2.148250102996826,
	"logps/chosen": -736.1185913085938,
	"logps/rejected": -1234.297607421875,
	"loss": 0.2572,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -5.458459854125977,
	"rewards/margins": 4.413580894470215,
	"rewards/rejected": -9.872041702270508,
	"step": 430
	},
	{
	"epoch": 0.8575653031049778,
	"grad_norm": 34.61319327349877,
	"learning_rate": 3.013156219837776e-08,
	"logits/chosen": -2.418109655380249,
	"logits/rejected": -2.1507232189178467,
	"logps/chosen": -754.8319091796875,
	"logps/rejected": -1258.600830078125,
	"loss": 0.2446,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -5.640649795532227,
	"rewards/margins": 4.45644998550415,
	"rewards/rejected": -10.097099304199219,
	"step": 435
	},
	{
	"epoch": 0.8674223755544603,
	"grad_norm": 17.275605835829435,
	"learning_rate": 2.6164035312078447e-08,
	"logits/chosen": -2.610421657562256,
	"logits/rejected": -2.200122356414795,
	"logps/chosen": -775.4208984375,
	"logps/rejected": -1280.5159912109375,
	"loss": 0.2162,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": -5.812338829040527,
	"rewards/margins": 4.107577800750732,
	"rewards/rejected": -9.919916152954102,
	"step": 440
	},
	{
	"epoch": 0.8772794480039429,
	"grad_norm": 19.69767066811732,
	"learning_rate": 2.2462089419165776e-08,
	"logits/chosen": -2.454554319381714,
	"logits/rejected": -2.129283905029297,
	"logps/chosen": -772.8093872070312,
	"logps/rejected": -1197.3636474609375,
	"loss": 0.2623,
	"rewards/accuracies": 0.862500011920929,
	"rewards/chosen": -5.787473201751709,
	"rewards/margins": 3.7656428813934326,
	"rewards/rejected": -9.553116798400879,
	"step": 445
	},
	{
	"epoch": 0.8871365204534253,
	"grad_norm": 16.68762717345223,
	"learning_rate": 1.9030116872178314e-08,
	"logits/chosen": -2.3323419094085693,
	"logits/rejected": -2.1572489738464355,
	"logps/chosen": -730.7281494140625,
	"logps/rejected": -1192.001220703125,
	"loss": 0.2348,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -5.397282600402832,
	"rewards/margins": 4.056326866149902,
	"rewards/rejected": -9.453609466552734,
	"step": 450
	},
	{
	"epoch": 0.8969935929029078,
	"grad_norm": 20.379506675051896,
	"learning_rate": 1.5872189700736337e-08,
	"logits/chosen": -2.3889849185943604,
	"logits/rejected": -2.237183094024658,
	"logps/chosen": -754.2752075195312,
	"logps/rejected": -1230.703125,
	"loss": 0.1963,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -5.620961666107178,
	"rewards/margins": 4.211625099182129,
	"rewards/rejected": -9.832587242126465,
	"step": 455
	},
	{
	"epoch": 0.9068506653523903,
	"grad_norm": 17.181830991927878,
	"learning_rate": 1.2992054780085692e-08,
	"logits/chosen": -2.495082139968872,
	"logits/rejected": -2.1834959983825684,
	"logps/chosen": -710.3396606445312,
	"logps/rejected": -1224.693603515625,
	"loss": 0.2459,
	"rewards/accuracies": 0.90625,
	"rewards/chosen": -5.253153324127197,
	"rewards/margins": 4.523493766784668,
	"rewards/rejected": -9.776647567749023,
	"step": 460
	},
	{
	"epoch": 0.9167077378018729,
	"grad_norm": 17.458158491525015,
	"learning_rate": 1.0393129385436823e-08,
	"logits/chosen": -2.5279664993286133,
	"logits/rejected": -2.2738842964172363,
	"logps/chosen": -760.11962890625,
	"logps/rejected": -1247.168212890625,
	"loss": 0.2254,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": -5.765726566314697,
	"rewards/margins": 4.349237442016602,
	"rewards/rejected": -10.11496353149414,
	"step": 465
	},
	{
	"epoch": 0.9265648102513554,
	"grad_norm": 22.242802721359375,
	"learning_rate": 8.078497137373242e-09,
	"logits/chosen": -2.6163723468780518,
	"logits/rejected": -2.2263712882995605,
	"logps/chosen": -774.3194580078125,
	"logps/rejected": -1314.293212890625,
	"loss": 0.2375,
	"rewards/accuracies": 0.8999999761581421,
	"rewards/chosen": -5.78206205368042,
	"rewards/margins": 4.660614490509033,
	"rewards/rejected": -10.442676544189453,
	"step": 470
	},
	{
	"epoch": 0.9364218827008378,
	"grad_norm": 17.50981352291082,
	"learning_rate": 6.0509043431410945e-09,
	"logits/chosen": -2.4221930503845215,
	"logits/rejected": -2.220930814743042,
	"logps/chosen": -804.204345703125,
	"logps/rejected": -1225.1212158203125,
	"loss": 0.2554,
	"rewards/accuracies": 0.9312499761581421,
	"rewards/chosen": -6.063734531402588,
	"rewards/margins": 3.7845940589904785,
	"rewards/rejected": -9.848328590393066,
	"step": 475
	},
	{
	"epoch": 0.9462789551503203,
	"grad_norm": 19.77591605111257,
	"learning_rate": 4.312756738160145e-09,
	"logits/chosen": -2.5149528980255127,
	"logits/rejected": -2.154731512069702,
	"logps/chosen": -768.4055786132812,
	"logps/rejected": -1274.7755126953125,
	"loss": 0.2458,
	"rewards/accuracies": 0.887499988079071,
	"rewards/chosen": -5.735711574554443,
	"rewards/margins": 4.444643974304199,
	"rewards/rejected": -10.180355072021484,
	"step": 480
	},
	{
	"epoch": 0.9561360275998029,
	"grad_norm": 16.377470184235065,
	"learning_rate": 2.8661166316229223e-09,
	"logits/chosen": -2.3629002571105957,
	"logits/rejected": -2.151808738708496,
	"logps/chosen": -723.3502197265625,
	"logps/rejected": -1148.914794921875,
	"loss": 0.2446,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -5.385800361633301,
	"rewards/margins": 3.7826755046844482,
	"rewards/rejected": -9.168476104736328,
	"step": 485
	},
	{
	"epoch": 0.9659931000492854,
	"grad_norm": 15.391953903269371,
	"learning_rate": 1.7127004595681727e-09,
	"logits/chosen": -2.5323967933654785,
	"logits/rejected": -2.1350226402282715,
	"logps/chosen": -750.980712890625,
	"logps/rejected": -1350.3404541015625,
	"loss": 0.2446,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": -5.573115348815918,
	"rewards/margins": 5.145482063293457,
	"rewards/rejected": -10.718597412109375,
	"step": 490
	},
	{
	"epoch": 0.9758501724987678,
	"grad_norm": 16.723832751333937,
	"learning_rate": 8.538767483325383e-10,
	"logits/chosen": -2.532517433166504,
	"logits/rejected": -2.180654525756836,
	"logps/chosen": -762.9144287109375,
	"logps/rejected": -1284.332763671875,
	"loss": 0.2173,
	"rewards/accuracies": 0.918749988079071,
	"rewards/chosen": -5.670698165893555,
	"rewards/margins": 4.554699897766113,
	"rewards/rejected": -10.225398063659668,
	"step": 495
	},
	{
	"epoch": 0.9857072449482503,
	"grad_norm": 26.735630621648028,
	"learning_rate": 2.9066449079634404e-10,
	"logits/chosen": -2.5005085468292236,
	"logits/rejected": -2.2136847972869873,
	"logps/chosen": -738.4940185546875,
	"logps/rejected": -1214.4185791015625,
	"loss": 0.2165,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -5.457156658172607,
	"rewards/margins": 4.181014060974121,
	"rewards/rejected": -9.63817024230957,
	"step": 500
	},
	{
	"epoch": 0.9955643173977329,
	"grad_norm": 17.938477728126337,
	"learning_rate": 2.3731937350224273e-11,
	"logits/chosen": -2.449402093887329,
	"logits/rejected": -2.1034648418426514,
	"logps/chosen": -783.5701293945312,
	"logps/rejected": -1268.8685302734375,
	"loss": 0.2476,
	"rewards/accuracies": 0.8812500238418579,
	"rewards/chosen": -5.870804786682129,
	"rewards/margins": 4.206555366516113,
	"rewards/rejected": -10.077360153198242,
	"step": 505
	},
	{
	"epoch": 0.9995071463775259,
	"step": 507,
	"total_flos": 0.0,
	"train_loss": 0.30356378627011527,
	"train_runtime": 18867.8748,
	"train_samples_per_second": 3.441,
	"train_steps_per_second": 0.027
	}
	],
	"logging_steps": 5,
	"max_steps": 507,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1000000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}