End of training

ad8abce verified 11 days ago

164 kB

	{
	"best_metric": 0.6319106221199036,
	"best_model_checkpoint": "saves/CADICA_qwenvl_stenosis_classily_scale4_frozenVision/lora/sft/checkpoint-1600",
	"epoch": 1.750965748132887,
	"eval_steps": 50,
	"global_step": 3400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0025753283543651817,
	"grad_norm": 21.336819681898895,
	"learning_rate": 2.9411764705882355e-06,
	"loss": 3.0444,
	"num_input_tokens_seen": 58496,
	"step": 5
	},
	{
	"epoch": 0.0051506567087303634,
	"grad_norm": 20.576623155848594,
	"learning_rate": 5.882352941176471e-06,
	"loss": 2.9824,
	"num_input_tokens_seen": 116960,
	"step": 10
	},
	{
	"epoch": 0.007725985063095545,
	"grad_norm": 22.989873871108518,
	"learning_rate": 8.823529411764707e-06,
	"loss": 2.8371,
	"num_input_tokens_seen": 175448,
	"step": 15
	},
	{
	"epoch": 0.010301313417460727,
	"grad_norm": 19.533434089690918,
	"learning_rate": 1.1764705882352942e-05,
	"loss": 2.5198,
	"num_input_tokens_seen": 233944,
	"step": 20
	},
	{
	"epoch": 0.012876641771825908,
	"grad_norm": 12.509494197145006,
	"learning_rate": 1.4705882352941177e-05,
	"loss": 1.772,
	"num_input_tokens_seen": 292416,
	"step": 25
	},
	{
	"epoch": 0.01545197012619109,
	"grad_norm": 3.6901887027066667,
	"learning_rate": 1.7647058823529414e-05,
	"loss": 1.2263,
	"num_input_tokens_seen": 350904,
	"step": 30
	},
	{
	"epoch": 0.018027298480556272,
	"grad_norm": 2.3996076770849744,
	"learning_rate": 2.058823529411765e-05,
	"loss": 1.0102,
	"num_input_tokens_seen": 409384,
	"step": 35
	},
	{
	"epoch": 0.020602626834921454,
	"grad_norm": 0.9253415848864577,
	"learning_rate": 2.3529411764705884e-05,
	"loss": 0.9378,
	"num_input_tokens_seen": 467864,
	"step": 40
	},
	{
	"epoch": 0.023177955189286635,
	"grad_norm": 1.1966244115097795,
	"learning_rate": 2.647058823529412e-05,
	"loss": 0.9265,
	"num_input_tokens_seen": 526384,
	"step": 45
	},
	{
	"epoch": 0.025753283543651816,
	"grad_norm": 1.853648349752417,
	"learning_rate": 2.9411764705882354e-05,
	"loss": 0.9157,
	"num_input_tokens_seen": 584856,
	"step": 50
	},
	{
	"epoch": 0.025753283543651816,
	"eval_loss": 0.9191630482673645,
	"eval_runtime": 36.6123,
	"eval_samples_per_second": 1.639,
	"eval_steps_per_second": 0.41,
	"num_input_tokens_seen": 584856,
	"step": 50
	},
	{
	"epoch": 0.028328611898016998,
	"grad_norm": 0.8294990584587586,
	"learning_rate": 3.235294117647059e-05,
	"loss": 0.9009,
	"num_input_tokens_seen": 643344,
	"step": 55
	},
	{
	"epoch": 0.03090394025238218,
	"grad_norm": 0.8278765532866457,
	"learning_rate": 3.529411764705883e-05,
	"loss": 0.9063,
	"num_input_tokens_seen": 701808,
	"step": 60
	},
	{
	"epoch": 0.03347926860674736,
	"grad_norm": 0.7285901101792476,
	"learning_rate": 3.8235294117647055e-05,
	"loss": 0.9031,
	"num_input_tokens_seen": 760304,
	"step": 65
	},
	{
	"epoch": 0.036054596961112545,
	"grad_norm": 0.5341783688819233,
	"learning_rate": 4.11764705882353e-05,
	"loss": 0.8991,
	"num_input_tokens_seen": 818760,
	"step": 70
	},
	{
	"epoch": 0.03862992531547772,
	"grad_norm": 0.46059313680988906,
	"learning_rate": 4.411764705882353e-05,
	"loss": 0.9055,
	"num_input_tokens_seen": 877256,
	"step": 75
	},
	{
	"epoch": 0.04120525366984291,
	"grad_norm": 0.8194379237293679,
	"learning_rate": 4.705882352941177e-05,
	"loss": 0.9092,
	"num_input_tokens_seen": 935752,
	"step": 80
	},
	{
	"epoch": 0.043780582024208085,
	"grad_norm": 0.6745093544830881,
	"learning_rate": 5e-05,
	"loss": 0.9069,
	"num_input_tokens_seen": 994216,
	"step": 85
	},
	{
	"epoch": 0.04635591037857327,
	"grad_norm": 0.2894672897884604,
	"learning_rate": 5.294117647058824e-05,
	"loss": 0.8924,
	"num_input_tokens_seen": 1052704,
	"step": 90
	},
	{
	"epoch": 0.04893123873293845,
	"grad_norm": 0.5108489024576455,
	"learning_rate": 5.588235294117647e-05,
	"loss": 0.9059,
	"num_input_tokens_seen": 1111176,
	"step": 95
	},
	{
	"epoch": 0.05150656708730363,
	"grad_norm": 0.40317180386305224,
	"learning_rate": 5.882352941176471e-05,
	"loss": 0.901,
	"num_input_tokens_seen": 1169664,
	"step": 100
	},
	{
	"epoch": 0.05150656708730363,
	"eval_loss": 0.9077914953231812,
	"eval_runtime": 16.8879,
	"eval_samples_per_second": 3.553,
	"eval_steps_per_second": 0.888,
	"num_input_tokens_seen": 1169664,
	"step": 100
	},
	{
	"epoch": 0.05408189544166881,
	"grad_norm": 0.412918917979438,
	"learning_rate": 6.176470588235295e-05,
	"loss": 0.9159,
	"num_input_tokens_seen": 1228112,
	"step": 105
	},
	{
	"epoch": 0.056657223796033995,
	"grad_norm": 0.34797408069968117,
	"learning_rate": 6.470588235294118e-05,
	"loss": 0.91,
	"num_input_tokens_seen": 1286608,
	"step": 110
	},
	{
	"epoch": 0.05923255215039917,
	"grad_norm": 0.27558494796967653,
	"learning_rate": 6.764705882352942e-05,
	"loss": 0.9047,
	"num_input_tokens_seen": 1345072,
	"step": 115
	},
	{
	"epoch": 0.06180788050476436,
	"grad_norm": 0.5422134023513459,
	"learning_rate": 7.058823529411765e-05,
	"loss": 0.9022,
	"num_input_tokens_seen": 1403544,
	"step": 120
	},
	{
	"epoch": 0.06438320885912954,
	"grad_norm": 0.4452796218739235,
	"learning_rate": 7.352941176470589e-05,
	"loss": 0.9081,
	"num_input_tokens_seen": 1462024,
	"step": 125
	},
	{
	"epoch": 0.06695853721349472,
	"grad_norm": 0.5632558160730559,
	"learning_rate": 7.647058823529411e-05,
	"loss": 0.8939,
	"num_input_tokens_seen": 1520528,
	"step": 130
	},
	{
	"epoch": 0.0695338655678599,
	"grad_norm": 0.3383115884436812,
	"learning_rate": 7.941176470588235e-05,
	"loss": 0.9029,
	"num_input_tokens_seen": 1579024,
	"step": 135
	},
	{
	"epoch": 0.07210919392222509,
	"grad_norm": 0.3506611095466577,
	"learning_rate": 8.23529411764706e-05,
	"loss": 0.9014,
	"num_input_tokens_seen": 1637504,
	"step": 140
	},
	{
	"epoch": 0.07468452227659027,
	"grad_norm": 0.6328034405712752,
	"learning_rate": 8.529411764705883e-05,
	"loss": 0.9053,
	"num_input_tokens_seen": 1696024,
	"step": 145
	},
	{
	"epoch": 0.07725985063095545,
	"grad_norm": 0.3511657661506363,
	"learning_rate": 8.823529411764706e-05,
	"loss": 0.9032,
	"num_input_tokens_seen": 1754512,
	"step": 150
	},
	{
	"epoch": 0.07725985063095545,
	"eval_loss": 0.8962129950523376,
	"eval_runtime": 17.0673,
	"eval_samples_per_second": 3.515,
	"eval_steps_per_second": 0.879,
	"num_input_tokens_seen": 1754512,
	"step": 150
	},
	{
	"epoch": 0.07983517898532062,
	"grad_norm": 0.4047681172482029,
	"learning_rate": 9.11764705882353e-05,
	"loss": 0.8985,
	"num_input_tokens_seen": 1812976,
	"step": 155
	},
	{
	"epoch": 0.08241050733968582,
	"grad_norm": 0.37729033726569733,
	"learning_rate": 9.411764705882353e-05,
	"loss": 0.8949,
	"num_input_tokens_seen": 1871464,
	"step": 160
	},
	{
	"epoch": 0.08498583569405099,
	"grad_norm": 0.4655744785034158,
	"learning_rate": 9.705882352941177e-05,
	"loss": 0.9069,
	"num_input_tokens_seen": 1929928,
	"step": 165
	},
	{
	"epoch": 0.08756116404841617,
	"grad_norm": 0.30643056878817176,
	"learning_rate": 0.0001,
	"loss": 0.9049,
	"num_input_tokens_seen": 1988432,
	"step": 170
	},
	{
	"epoch": 0.09013649240278135,
	"grad_norm": 0.39944696269496754,
	"learning_rate": 9.999940874631277e-05,
	"loss": 0.9026,
	"num_input_tokens_seen": 2046920,
	"step": 175
	},
	{
	"epoch": 0.09271182075714654,
	"grad_norm": 0.31301259106593154,
	"learning_rate": 9.999763499923432e-05,
	"loss": 0.8984,
	"num_input_tokens_seen": 2105392,
	"step": 180
	},
	{
	"epoch": 0.09528714911151172,
	"grad_norm": 0.4309753054454554,
	"learning_rate": 9.999467880071402e-05,
	"loss": 0.9057,
	"num_input_tokens_seen": 2163872,
	"step": 185
	},
	{
	"epoch": 0.0978624774658769,
	"grad_norm": 0.262930252305763,
	"learning_rate": 9.999054022066641e-05,
	"loss": 0.9078,
	"num_input_tokens_seen": 2222352,
	"step": 190
	},
	{
	"epoch": 0.10043780582024209,
	"grad_norm": 0.22073598270887426,
	"learning_rate": 9.998521935696953e-05,
	"loss": 0.9028,
	"num_input_tokens_seen": 2280800,
	"step": 195
	},
	{
	"epoch": 0.10301313417460727,
	"grad_norm": 0.23764668792524696,
	"learning_rate": 9.997871633546257e-05,
	"loss": 0.9053,
	"num_input_tokens_seen": 2339304,
	"step": 200
	},
	{
	"epoch": 0.10301313417460727,
	"eval_loss": 0.8982028961181641,
	"eval_runtime": 16.9118,
	"eval_samples_per_second": 3.548,
	"eval_steps_per_second": 0.887,
	"num_input_tokens_seen": 2339304,
	"step": 200
	},
	{
	"epoch": 0.10558846252897244,
	"grad_norm": 0.6222576114383499,
	"learning_rate": 9.997103130994296e-05,
	"loss": 0.9003,
	"num_input_tokens_seen": 2397808,
	"step": 205
	},
	{
	"epoch": 0.10816379088333762,
	"grad_norm": 0.2983149992592585,
	"learning_rate": 9.996216446216267e-05,
	"loss": 0.8969,
	"num_input_tokens_seen": 2456288,
	"step": 210
	},
	{
	"epoch": 0.11073911923770281,
	"grad_norm": 0.3505370510576513,
	"learning_rate": 9.995211600182397e-05,
	"loss": 0.9114,
	"num_input_tokens_seen": 2514784,
	"step": 215
	},
	{
	"epoch": 0.11331444759206799,
	"grad_norm": 0.3683806652106065,
	"learning_rate": 9.994088616657444e-05,
	"loss": 0.899,
	"num_input_tokens_seen": 2573240,
	"step": 220
	},
	{
	"epoch": 0.11588977594643317,
	"grad_norm": 0.21111769827155855,
	"learning_rate": 9.992847522200133e-05,
	"loss": 0.898,
	"num_input_tokens_seen": 2631672,
	"step": 225
	},
	{
	"epoch": 0.11846510430079835,
	"grad_norm": 0.3426987181783304,
	"learning_rate": 9.99148834616253e-05,
	"loss": 0.9006,
	"num_input_tokens_seen": 2690112,
	"step": 230
	},
	{
	"epoch": 0.12104043265516354,
	"grad_norm": 0.236983209071443,
	"learning_rate": 9.990011120689351e-05,
	"loss": 0.8973,
	"num_input_tokens_seen": 2748608,
	"step": 235
	},
	{
	"epoch": 0.12361576100952872,
	"grad_norm": 0.4575208248826409,
	"learning_rate": 9.988415880717194e-05,
	"loss": 0.8885,
	"num_input_tokens_seen": 2807080,
	"step": 240
	},
	{
	"epoch": 0.1261910893638939,
	"grad_norm": 0.5470317919414993,
	"learning_rate": 9.986702663973722e-05,
	"loss": 0.9066,
	"num_input_tokens_seen": 2865520,
	"step": 245
	},
	{
	"epoch": 0.12876641771825909,
	"grad_norm": 0.4992479706331095,
	"learning_rate": 9.98487151097676e-05,
	"loss": 0.9098,
	"num_input_tokens_seen": 2924016,
	"step": 250
	},
	{
	"epoch": 0.12876641771825909,
	"eval_loss": 0.8956434726715088,
	"eval_runtime": 17.4804,
	"eval_samples_per_second": 3.432,
	"eval_steps_per_second": 0.858,
	"num_input_tokens_seen": 2924016,
	"step": 250
	},
	{
	"epoch": 0.13134174607262425,
	"grad_norm": 0.3762164361984238,
	"learning_rate": 9.98292246503335e-05,
	"loss": 0.8987,
	"num_input_tokens_seen": 2982520,
	"step": 255
	},
	{
	"epoch": 0.13391707442698944,
	"grad_norm": 0.6447043002410199,
	"learning_rate": 9.980855572238714e-05,
	"loss": 0.9036,
	"num_input_tokens_seen": 3041008,
	"step": 260
	},
	{
	"epoch": 0.13649240278135463,
	"grad_norm": 0.5308092769971742,
	"learning_rate": 9.978670881475172e-05,
	"loss": 0.8961,
	"num_input_tokens_seen": 3099464,
	"step": 265
	},
	{
	"epoch": 0.1390677311357198,
	"grad_norm": 0.508333330469703,
	"learning_rate": 9.976368444410985e-05,
	"loss": 0.9012,
	"num_input_tokens_seen": 3157944,
	"step": 270
	},
	{
	"epoch": 0.141643059490085,
	"grad_norm": 0.6801788563719119,
	"learning_rate": 9.973948315499126e-05,
	"loss": 0.8985,
	"num_input_tokens_seen": 3216448,
	"step": 275
	},
	{
	"epoch": 0.14421838784445018,
	"grad_norm": 0.6933074703933572,
	"learning_rate": 9.971410551976002e-05,
	"loss": 0.9114,
	"num_input_tokens_seen": 3274928,
	"step": 280
	},
	{
	"epoch": 0.14679371619881534,
	"grad_norm": 0.21208820897494882,
	"learning_rate": 9.968755213860094e-05,
	"loss": 0.8886,
	"num_input_tokens_seen": 3333408,
	"step": 285
	},
	{
	"epoch": 0.14936904455318054,
	"grad_norm": 0.5791422669000065,
	"learning_rate": 9.96598236395054e-05,
	"loss": 0.8929,
	"num_input_tokens_seen": 3391896,
	"step": 290
	},
	{
	"epoch": 0.1519443729075457,
	"grad_norm": 0.3460368893191152,
	"learning_rate": 9.96309206782565e-05,
	"loss": 0.9091,
	"num_input_tokens_seen": 3450392,
	"step": 295
	},
	{
	"epoch": 0.1545197012619109,
	"grad_norm": 0.22425222135997747,
	"learning_rate": 9.960084393841355e-05,
	"loss": 0.8893,
	"num_input_tokens_seen": 3508888,
	"step": 300
	},
	{
	"epoch": 0.1545197012619109,
	"eval_loss": 0.8908902406692505,
	"eval_runtime": 16.9521,
	"eval_samples_per_second": 3.539,
	"eval_steps_per_second": 0.885,
	"num_input_tokens_seen": 3508888,
	"step": 300
	},
	{
	"epoch": 0.15709502961627608,
	"grad_norm": 0.23111596622064604,
	"learning_rate": 9.956959413129585e-05,
	"loss": 0.9056,
	"num_input_tokens_seen": 3567368,
	"step": 305
	},
	{
	"epoch": 0.15967035797064125,
	"grad_norm": 0.3918406894807393,
	"learning_rate": 9.953717199596598e-05,
	"loss": 0.8982,
	"num_input_tokens_seen": 3625848,
	"step": 310
	},
	{
	"epoch": 0.16224568632500644,
	"grad_norm": 0.22081666860189372,
	"learning_rate": 9.95035782992122e-05,
	"loss": 0.8968,
	"num_input_tokens_seen": 3684336,
	"step": 315
	},
	{
	"epoch": 0.16482101467937163,
	"grad_norm": 0.18024383676398176,
	"learning_rate": 9.94688138355304e-05,
	"loss": 0.8975,
	"num_input_tokens_seen": 3742800,
	"step": 320
	},
	{
	"epoch": 0.1673963430337368,
	"grad_norm": 0.3866897344302321,
	"learning_rate": 9.943287942710527e-05,
	"loss": 0.9061,
	"num_input_tokens_seen": 3801280,
	"step": 325
	},
	{
	"epoch": 0.16997167138810199,
	"grad_norm": 0.4804151381712559,
	"learning_rate": 9.939577592379088e-05,
	"loss": 0.8948,
	"num_input_tokens_seen": 3859792,
	"step": 330
	},
	{
	"epoch": 0.17254699974246718,
	"grad_norm": 0.35878231707669056,
	"learning_rate": 9.935750420309055e-05,
	"loss": 0.9063,
	"num_input_tokens_seen": 3918272,
	"step": 335
	},
	{
	"epoch": 0.17512232809683234,
	"grad_norm": 0.8713957774909928,
	"learning_rate": 9.931806517013612e-05,
	"loss": 0.8952,
	"num_input_tokens_seen": 3976760,
	"step": 340
	},
	{
	"epoch": 0.17769765645119753,
	"grad_norm": 0.6671526212854116,
	"learning_rate": 9.927745975766654e-05,
	"loss": 0.9136,
	"num_input_tokens_seen": 4035240,
	"step": 345
	},
	{
	"epoch": 0.1802729848055627,
	"grad_norm": 0.28702679234521244,
	"learning_rate": 9.923568892600578e-05,
	"loss": 0.9075,
	"num_input_tokens_seen": 4093688,
	"step": 350
	},
	{
	"epoch": 0.1802729848055627,
	"eval_loss": 0.89204341173172,
	"eval_runtime": 16.5819,
	"eval_samples_per_second": 3.618,
	"eval_steps_per_second": 0.905,
	"num_input_tokens_seen": 4093688,
	"step": 350
	},
	{
	"epoch": 0.1828483131599279,
	"grad_norm": 0.32233149132200706,
	"learning_rate": 9.91927536630402e-05,
	"loss": 0.8812,
	"num_input_tokens_seen": 4152160,
	"step": 355
	},
	{
	"epoch": 0.18542364151429308,
	"grad_norm": 0.5071871697326992,
	"learning_rate": 9.91486549841951e-05,
	"loss": 0.9109,
	"num_input_tokens_seen": 4210648,
	"step": 360
	},
	{
	"epoch": 0.18799896986865824,
	"grad_norm": 0.4532792519849944,
	"learning_rate": 9.91033939324107e-05,
	"loss": 0.9176,
	"num_input_tokens_seen": 4269136,
	"step": 365
	},
	{
	"epoch": 0.19057429822302344,
	"grad_norm": 0.5409761562534501,
	"learning_rate": 9.905697157811761e-05,
	"loss": 0.9077,
	"num_input_tokens_seen": 4327664,
	"step": 370
	},
	{
	"epoch": 0.19314962657738863,
	"grad_norm": 0.3432361562809093,
	"learning_rate": 9.900938901921131e-05,
	"loss": 0.893,
	"num_input_tokens_seen": 4386120,
	"step": 375
	},
	{
	"epoch": 0.1957249549317538,
	"grad_norm": 0.4756530294720616,
	"learning_rate": 9.896064738102635e-05,
	"loss": 0.9094,
	"num_input_tokens_seen": 4444560,
	"step": 380
	},
	{
	"epoch": 0.19830028328611898,
	"grad_norm": 0.424836974193983,
	"learning_rate": 9.891074781630966e-05,
	"loss": 0.9091,
	"num_input_tokens_seen": 4503016,
	"step": 385
	},
	{
	"epoch": 0.20087561164048418,
	"grad_norm": 0.31316926977469683,
	"learning_rate": 9.885969150519331e-05,
	"loss": 0.9033,
	"num_input_tokens_seen": 4561496,
	"step": 390
	},
	{
	"epoch": 0.20345093999484934,
	"grad_norm": 0.6108378682480797,
	"learning_rate": 9.88074796551666e-05,
	"loss": 0.8851,
	"num_input_tokens_seen": 4619944,
	"step": 395
	},
	{
	"epoch": 0.20602626834921453,
	"grad_norm": 0.38294566619219206,
	"learning_rate": 9.875411350104744e-05,
	"loss": 0.9004,
	"num_input_tokens_seen": 4678384,
	"step": 400
	},
	{
	"epoch": 0.20602626834921453,
	"eval_loss": 0.9086406826972961,
	"eval_runtime": 16.7827,
	"eval_samples_per_second": 3.575,
	"eval_steps_per_second": 0.894,
	"num_input_tokens_seen": 4678384,
	"step": 400
	},
	{
	"epoch": 0.2086015967035797,
	"grad_norm": 0.4283475401297436,
	"learning_rate": 9.86995943049533e-05,
	"loss": 0.8976,
	"num_input_tokens_seen": 4736904,
	"step": 405
	},
	{
	"epoch": 0.2111769250579449,
	"grad_norm": 0.40329738287583206,
	"learning_rate": 9.864392335627117e-05,
	"loss": 0.9134,
	"num_input_tokens_seen": 4795376,
	"step": 410
	},
	{
	"epoch": 0.21375225341231008,
	"grad_norm": 0.37890634863656475,
	"learning_rate": 9.858710197162721e-05,
	"loss": 0.8955,
	"num_input_tokens_seen": 4853880,
	"step": 415
	},
	{
	"epoch": 0.21632758176667524,
	"grad_norm": 0.32402245835420784,
	"learning_rate": 9.852913149485556e-05,
	"loss": 0.9014,
	"num_input_tokens_seen": 4912360,
	"step": 420
	},
	{
	"epoch": 0.21890291012104043,
	"grad_norm": 0.49572499508345125,
	"learning_rate": 9.847001329696653e-05,
	"loss": 0.9065,
	"num_input_tokens_seen": 4970872,
	"step": 425
	},
	{
	"epoch": 0.22147823847540563,
	"grad_norm": 0.11883567118448765,
	"learning_rate": 9.840974877611422e-05,
	"loss": 0.8952,
	"num_input_tokens_seen": 5029304,
	"step": 430
	},
	{
	"epoch": 0.2240535668297708,
	"grad_norm": 0.7105724703149633,
	"learning_rate": 9.834833935756344e-05,
	"loss": 0.9106,
	"num_input_tokens_seen": 5087800,
	"step": 435
	},
	{
	"epoch": 0.22662889518413598,
	"grad_norm": 0.708953365388227,
	"learning_rate": 9.828578649365601e-05,
	"loss": 0.8996,
	"num_input_tokens_seen": 5146312,
	"step": 440
	},
	{
	"epoch": 0.22920422353850115,
	"grad_norm": 0.4503080730364326,
	"learning_rate": 9.822209166377635e-05,
	"loss": 0.8999,
	"num_input_tokens_seen": 5204800,
	"step": 445
	},
	{
	"epoch": 0.23177955189286634,
	"grad_norm": 0.20754132336834788,
	"learning_rate": 9.815725637431662e-05,
	"loss": 0.9076,
	"num_input_tokens_seen": 5263304,
	"step": 450
	},
	{
	"epoch": 0.23177955189286634,
	"eval_loss": 0.8962157368659973,
	"eval_runtime": 17.2029,
	"eval_samples_per_second": 3.488,
	"eval_steps_per_second": 0.872,
	"num_input_tokens_seen": 5263304,
	"step": 450
	},
	{
	"epoch": 0.23435488024723153,
	"grad_norm": 0.5906403377099594,
	"learning_rate": 9.809128215864097e-05,
	"loss": 0.8942,
	"num_input_tokens_seen": 5321760,
	"step": 455
	},
	{
	"epoch": 0.2369302086015967,
	"grad_norm": 0.5706805631290568,
	"learning_rate": 9.802417057704931e-05,
	"loss": 0.9099,
	"num_input_tokens_seen": 5380224,
	"step": 460
	},
	{
	"epoch": 0.23950553695596188,
	"grad_norm": 0.164631948732384,
	"learning_rate": 9.795592321674045e-05,
	"loss": 0.8981,
	"num_input_tokens_seen": 5438704,
	"step": 465
	},
	{
	"epoch": 0.24208086531032708,
	"grad_norm": 0.32986780285522194,
	"learning_rate": 9.788654169177453e-05,
	"loss": 0.8952,
	"num_input_tokens_seen": 5497208,
	"step": 470
	},
	{
	"epoch": 0.24465619366469224,
	"grad_norm": 0.40551569446674784,
	"learning_rate": 9.781602764303487e-05,
	"loss": 0.8959,
	"num_input_tokens_seen": 5555704,
	"step": 475
	},
	{
	"epoch": 0.24723152201905743,
	"grad_norm": 0.20928586231326682,
	"learning_rate": 9.774438273818911e-05,
	"loss": 0.901,
	"num_input_tokens_seen": 5614160,
	"step": 480
	},
	{
	"epoch": 0.24980685037342262,
	"grad_norm": 0.34365307116824517,
	"learning_rate": 9.767160867164979e-05,
	"loss": 0.9008,
	"num_input_tokens_seen": 5672640,
	"step": 485
	},
	{
	"epoch": 0.2523821787277878,
	"grad_norm": 0.4212274243028996,
	"learning_rate": 9.759770716453436e-05,
	"loss": 0.9016,
	"num_input_tokens_seen": 5731072,
	"step": 490
	},
	{
	"epoch": 0.254957507082153,
	"grad_norm": 0.39823625576558597,
	"learning_rate": 9.752267996462434e-05,
	"loss": 0.9132,
	"num_input_tokens_seen": 5789544,
	"step": 495
	},
	{
	"epoch": 0.25753283543651817,
	"grad_norm": 0.24856324117583653,
	"learning_rate": 9.744652884632406e-05,
	"loss": 0.8962,
	"num_input_tokens_seen": 5848048,
	"step": 500
	},
	{
	"epoch": 0.25753283543651817,
	"eval_loss": 0.8987945914268494,
	"eval_runtime": 17.1622,
	"eval_samples_per_second": 3.496,
	"eval_steps_per_second": 0.874,
	"num_input_tokens_seen": 5848048,
	"step": 500
	},
	{
	"epoch": 0.26010816379088336,
	"grad_norm": 0.25461397268106634,
	"learning_rate": 9.736925561061871e-05,
	"loss": 0.8954,
	"num_input_tokens_seen": 5906512,
	"step": 505
	},
	{
	"epoch": 0.2626834921452485,
	"grad_norm": 0.38602603275675745,
	"learning_rate": 9.729086208503174e-05,
	"loss": 0.8927,
	"num_input_tokens_seen": 5965024,
	"step": 510
	},
	{
	"epoch": 0.2652588204996137,
	"grad_norm": 0.150082825225123,
	"learning_rate": 9.721135012358156e-05,
	"loss": 0.898,
	"num_input_tokens_seen": 6023496,
	"step": 515
	},
	{
	"epoch": 0.2678341488539789,
	"grad_norm": 0.26881662025899655,
	"learning_rate": 9.713072160673777e-05,
	"loss": 0.9016,
	"num_input_tokens_seen": 6082000,
	"step": 520
	},
	{
	"epoch": 0.2704094772083441,
	"grad_norm": 0.5039123575147229,
	"learning_rate": 9.704897844137673e-05,
	"loss": 0.8842,
	"num_input_tokens_seen": 6140480,
	"step": 525
	},
	{
	"epoch": 0.27298480556270927,
	"grad_norm": 0.27836945453098666,
	"learning_rate": 9.696612256073633e-05,
	"loss": 0.8921,
	"num_input_tokens_seen": 6198968,
	"step": 530
	},
	{
	"epoch": 0.2755601339170744,
	"grad_norm": 0.22936338891946384,
	"learning_rate": 9.688215592437039e-05,
	"loss": 0.8979,
	"num_input_tokens_seen": 6257464,
	"step": 535
	},
	{
	"epoch": 0.2781354622714396,
	"grad_norm": 0.396486857609105,
	"learning_rate": 9.679708051810221e-05,
	"loss": 0.8951,
	"num_input_tokens_seen": 6315944,
	"step": 540
	},
	{
	"epoch": 0.2807107906258048,
	"grad_norm": 0.4751226662261396,
	"learning_rate": 9.67108983539777e-05,
	"loss": 0.9149,
	"num_input_tokens_seen": 6374408,
	"step": 545
	},
	{
	"epoch": 0.28328611898017,
	"grad_norm": 0.26829103885131056,
	"learning_rate": 9.662361147021779e-05,
	"loss": 0.9013,
	"num_input_tokens_seen": 6432936,
	"step": 550
	},
	{
	"epoch": 0.28328611898017,
	"eval_loss": 0.9001271724700928,
	"eval_runtime": 16.9878,
	"eval_samples_per_second": 3.532,
	"eval_steps_per_second": 0.883,
	"num_input_tokens_seen": 6432936,
	"step": 550
	},
	{
	"epoch": 0.28586144733453517,
	"grad_norm": 0.5334970266367584,
	"learning_rate": 9.653522193117013e-05,
	"loss": 0.8981,
	"num_input_tokens_seen": 6491400,
	"step": 555
	},
	{
	"epoch": 0.28843677568890036,
	"grad_norm": 0.33261202813259866,
	"learning_rate": 9.644573182726035e-05,
	"loss": 0.9041,
	"num_input_tokens_seen": 6549872,
	"step": 560
	},
	{
	"epoch": 0.2910121040432655,
	"grad_norm": 0.19122862132727417,
	"learning_rate": 9.63551432749426e-05,
	"loss": 0.9024,
	"num_input_tokens_seen": 6608296,
	"step": 565
	},
	{
	"epoch": 0.2935874323976307,
	"grad_norm": 0.27778009425329764,
	"learning_rate": 9.626345841664953e-05,
	"loss": 0.9002,
	"num_input_tokens_seen": 6666768,
	"step": 570
	},
	{
	"epoch": 0.2961627607519959,
	"grad_norm": 0.3065314332046026,
	"learning_rate": 9.617067942074153e-05,
	"loss": 0.9035,
	"num_input_tokens_seen": 6725248,
	"step": 575
	},
	{
	"epoch": 0.29873808910636107,
	"grad_norm": 0.24431496415058412,
	"learning_rate": 9.607680848145558e-05,
	"loss": 0.9019,
	"num_input_tokens_seen": 6783680,
	"step": 580
	},
	{
	"epoch": 0.30131341746072626,
	"grad_norm": 0.27088193021301504,
	"learning_rate": 9.598184781885318e-05,
	"loss": 0.9001,
	"num_input_tokens_seen": 6842144,
	"step": 585
	},
	{
	"epoch": 0.3038887458150914,
	"grad_norm": 0.33893098113605125,
	"learning_rate": 9.588579967876806e-05,
	"loss": 0.8961,
	"num_input_tokens_seen": 6900656,
	"step": 590
	},
	{
	"epoch": 0.3064640741694566,
	"grad_norm": 0.3038921833221806,
	"learning_rate": 9.578866633275288e-05,
	"loss": 0.9,
	"num_input_tokens_seen": 6959128,
	"step": 595
	},
	{
	"epoch": 0.3090394025238218,
	"grad_norm": 0.48929637235055645,
	"learning_rate": 9.569045007802559e-05,
	"loss": 0.9046,
	"num_input_tokens_seen": 7017576,
	"step": 600
	},
	{
	"epoch": 0.3090394025238218,
	"eval_loss": 0.9053278565406799,
	"eval_runtime": 17.1218,
	"eval_samples_per_second": 3.504,
	"eval_steps_per_second": 0.876,
	"num_input_tokens_seen": 7017576,
	"step": 600
	},
	{
	"epoch": 0.311614730878187,
	"grad_norm": 0.3545950949033049,
	"learning_rate": 9.55911532374151e-05,
	"loss": 0.9019,
	"num_input_tokens_seen": 7076032,
	"step": 605
	},
	{
	"epoch": 0.31419005923255217,
	"grad_norm": 0.2355627006333952,
	"learning_rate": 9.549077815930636e-05,
	"loss": 0.8956,
	"num_input_tokens_seen": 7134536,
	"step": 610
	},
	{
	"epoch": 0.31676538758691736,
	"grad_norm": 0.17552483625655946,
	"learning_rate": 9.538932721758474e-05,
	"loss": 0.898,
	"num_input_tokens_seen": 7193032,
	"step": 615
	},
	{
	"epoch": 0.3193407159412825,
	"grad_norm": 0.1749010635522076,
	"learning_rate": 9.528680281157999e-05,
	"loss": 0.8991,
	"num_input_tokens_seen": 7251568,
	"step": 620
	},
	{
	"epoch": 0.3219160442956477,
	"grad_norm": 0.19885182954224315,
	"learning_rate": 9.518320736600943e-05,
	"loss": 0.8961,
	"num_input_tokens_seen": 7310072,
	"step": 625
	},
	{
	"epoch": 0.3244913726500129,
	"grad_norm": 0.4778756508206831,
	"learning_rate": 9.507854333092063e-05,
	"loss": 0.8994,
	"num_input_tokens_seen": 7368560,
	"step": 630
	},
	{
	"epoch": 0.32706670100437807,
	"grad_norm": 0.4123272743887767,
	"learning_rate": 9.497281318163346e-05,
	"loss": 0.8925,
	"num_input_tokens_seen": 7427040,
	"step": 635
	},
	{
	"epoch": 0.32964202935874326,
	"grad_norm": 0.34409942667705734,
	"learning_rate": 9.486601941868154e-05,
	"loss": 0.9087,
	"num_input_tokens_seen": 7485552,
	"step": 640
	},
	{
	"epoch": 0.3322173577131084,
	"grad_norm": 0.43327107411223276,
	"learning_rate": 9.475816456775313e-05,
	"loss": 0.8924,
	"num_input_tokens_seen": 7544040,
	"step": 645
	},
	{
	"epoch": 0.3347926860674736,
	"grad_norm": 0.6643023904352003,
	"learning_rate": 9.464925117963133e-05,
	"loss": 0.904,
	"num_input_tokens_seen": 7602512,
	"step": 650
	},
	{
	"epoch": 0.3347926860674736,
	"eval_loss": 0.90328449010849,
	"eval_runtime": 16.1444,
	"eval_samples_per_second": 3.716,
	"eval_steps_per_second": 0.929,
	"num_input_tokens_seen": 7602512,
	"step": 650
	},
	{
	"epoch": 0.3373680144218388,
	"grad_norm": 0.620349194493935,
	"learning_rate": 9.453928183013385e-05,
	"loss": 0.8929,
	"num_input_tokens_seen": 7660968,
	"step": 655
	},
	{
	"epoch": 0.33994334277620397,
	"grad_norm": 0.18611846349930314,
	"learning_rate": 9.442825912005202e-05,
	"loss": 0.9078,
	"num_input_tokens_seen": 7719448,
	"step": 660
	},
	{
	"epoch": 0.34251867113056916,
	"grad_norm": 0.4448289413172567,
	"learning_rate": 9.431618567508933e-05,
	"loss": 0.8963,
	"num_input_tokens_seen": 7777928,
	"step": 665
	},
	{
	"epoch": 0.34509399948493436,
	"grad_norm": 0.6187189362250411,
	"learning_rate": 9.420306414579925e-05,
	"loss": 0.9134,
	"num_input_tokens_seen": 7836424,
	"step": 670
	},
	{
	"epoch": 0.3476693278392995,
	"grad_norm": 0.35247743418537675,
	"learning_rate": 9.408889720752266e-05,
	"loss": 0.8984,
	"num_input_tokens_seen": 7894904,
	"step": 675
	},
	{
	"epoch": 0.3502446561936647,
	"grad_norm": 0.20652916455346712,
	"learning_rate": 9.397368756032445e-05,
	"loss": 0.8997,
	"num_input_tokens_seen": 7953432,
	"step": 680
	},
	{
	"epoch": 0.3528199845480299,
	"grad_norm": 0.4289996063998063,
	"learning_rate": 9.385743792892982e-05,
	"loss": 0.8926,
	"num_input_tokens_seen": 8011888,
	"step": 685
	},
	{
	"epoch": 0.35539531290239507,
	"grad_norm": 0.13764054506536547,
	"learning_rate": 9.374015106265968e-05,
	"loss": 0.9008,
	"num_input_tokens_seen": 8070344,
	"step": 690
	},
	{
	"epoch": 0.35797064125676026,
	"grad_norm": 0.22142459689499855,
	"learning_rate": 9.362182973536569e-05,
	"loss": 0.8986,
	"num_input_tokens_seen": 8128816,
	"step": 695
	},
	{
	"epoch": 0.3605459696111254,
	"grad_norm": 0.3234539650829873,
	"learning_rate": 9.35024767453647e-05,
	"loss": 0.8972,
	"num_input_tokens_seen": 8187320,
	"step": 700
	},
	{
	"epoch": 0.3605459696111254,
	"eval_loss": 0.9028835892677307,
	"eval_runtime": 16.1635,
	"eval_samples_per_second": 3.712,
	"eval_steps_per_second": 0.928,
	"num_input_tokens_seen": 8187320,
	"step": 700
	},
	{
	"epoch": 0.3631212979654906,
	"grad_norm": 0.3215674690491891,
	"learning_rate": 9.338209491537257e-05,
	"loss": 0.8998,
	"num_input_tokens_seen": 8245776,
	"step": 705
	},
	{
	"epoch": 0.3656966263198558,
	"grad_norm": 0.36428692362396536,
	"learning_rate": 9.326068709243727e-05,
	"loss": 0.8999,
	"num_input_tokens_seen": 8304280,
	"step": 710
	},
	{
	"epoch": 0.36827195467422097,
	"grad_norm": 0.280459809393624,
	"learning_rate": 9.313825614787177e-05,
	"loss": 0.8983,
	"num_input_tokens_seen": 8362728,
	"step": 715
	},
	{
	"epoch": 0.37084728302858616,
	"grad_norm": 0.1819339731162554,
	"learning_rate": 9.301480497718593e-05,
	"loss": 0.892,
	"num_input_tokens_seen": 8421224,
	"step": 720
	},
	{
	"epoch": 0.37342261138295135,
	"grad_norm": 0.23784840563699303,
	"learning_rate": 9.289033650001817e-05,
	"loss": 0.9034,
	"num_input_tokens_seen": 8479720,
	"step": 725
	},
	{
	"epoch": 0.3759979397373165,
	"grad_norm": 0.24070744588741375,
	"learning_rate": 9.276485366006634e-05,
	"loss": 0.895,
	"num_input_tokens_seen": 8538192,
	"step": 730
	},
	{
	"epoch": 0.3785732680916817,
	"grad_norm": 0.24846723619231478,
	"learning_rate": 9.263835942501807e-05,
	"loss": 0.8973,
	"num_input_tokens_seen": 8596664,
	"step": 735
	},
	{
	"epoch": 0.3811485964460469,
	"grad_norm": 0.2601614440419362,
	"learning_rate": 9.251085678648072e-05,
	"loss": 0.8972,
	"num_input_tokens_seen": 8655128,
	"step": 740
	},
	{
	"epoch": 0.38372392480041206,
	"grad_norm": 0.30194733839751087,
	"learning_rate": 9.238234875991046e-05,
	"loss": 0.8987,
	"num_input_tokens_seen": 8713624,
	"step": 745
	},
	{
	"epoch": 0.38629925315477726,
	"grad_norm": 0.3015609177439829,
	"learning_rate": 9.225283838454111e-05,
	"loss": 0.9005,
	"num_input_tokens_seen": 8772104,
	"step": 750
	},
	{
	"epoch": 0.38629925315477726,
	"eval_loss": 0.8981761336326599,
	"eval_runtime": 16.0177,
	"eval_samples_per_second": 3.746,
	"eval_steps_per_second": 0.936,
	"num_input_tokens_seen": 8772104,
	"step": 750
	},
	{
	"epoch": 0.3888745815091424,
	"grad_norm": 0.44991480631292463,
	"learning_rate": 9.21223287233121e-05,
	"loss": 0.8973,
	"num_input_tokens_seen": 8830568,
	"step": 755
	},
	{
	"epoch": 0.3914499098635076,
	"grad_norm": 0.22570310903133853,
	"learning_rate": 9.199082286279622e-05,
	"loss": 0.8974,
	"num_input_tokens_seen": 8889072,
	"step": 760
	},
	{
	"epoch": 0.3940252382178728,
	"grad_norm": 0.22090133233732026,
	"learning_rate": 9.185832391312644e-05,
	"loss": 0.8985,
	"num_input_tokens_seen": 8947568,
	"step": 765
	},
	{
	"epoch": 0.39660056657223797,
	"grad_norm": 0.23738058530347297,
	"learning_rate": 9.172483500792244e-05,
	"loss": 0.8935,
	"num_input_tokens_seen": 9006056,
	"step": 770
	},
	{
	"epoch": 0.39917589492660316,
	"grad_norm": 0.41232659301572594,
	"learning_rate": 9.159035930421658e-05,
	"loss": 0.8985,
	"num_input_tokens_seen": 9064592,
	"step": 775
	},
	{
	"epoch": 0.40175122328096835,
	"grad_norm": 0.2004855543001356,
	"learning_rate": 9.145489998237902e-05,
	"loss": 0.9105,
	"num_input_tokens_seen": 9123096,
	"step": 780
	},
	{
	"epoch": 0.4043265516353335,
	"grad_norm": 0.16209487510237375,
	"learning_rate": 9.131846024604274e-05,
	"loss": 0.8925,
	"num_input_tokens_seen": 9181576,
	"step": 785
	},
	{
	"epoch": 0.4069018799896987,
	"grad_norm": 0.24319930530142153,
	"learning_rate": 9.11810433220276e-05,
	"loss": 0.8955,
	"num_input_tokens_seen": 9240048,
	"step": 790
	},
	{
	"epoch": 0.40947720834406387,
	"grad_norm": 0.24311562892750557,
	"learning_rate": 9.104265246026415e-05,
	"loss": 0.8986,
	"num_input_tokens_seen": 9298528,
	"step": 795
	},
	{
	"epoch": 0.41205253669842906,
	"grad_norm": 0.2891177185942039,
	"learning_rate": 9.090329093371666e-05,
	"loss": 0.8881,
	"num_input_tokens_seen": 9357016,
	"step": 800
	},
	{
	"epoch": 0.41205253669842906,
	"eval_loss": 0.8973079919815063,
	"eval_runtime": 16.1396,
	"eval_samples_per_second": 3.718,
	"eval_steps_per_second": 0.929,
	"num_input_tokens_seen": 9357016,
	"step": 800
	},
	{
	"epoch": 0.41462786505279425,
	"grad_norm": 0.4728970278357675,
	"learning_rate": 9.076296203830579e-05,
	"loss": 0.8798,
	"num_input_tokens_seen": 9415480,
	"step": 805
	},
	{
	"epoch": 0.4172031934071594,
	"grad_norm": 0.2420351489416807,
	"learning_rate": 9.062166909283062e-05,
	"loss": 0.9104,
	"num_input_tokens_seen": 9473928,
	"step": 810
	},
	{
	"epoch": 0.4197785217615246,
	"grad_norm": 0.2262623911682871,
	"learning_rate": 9.047941543889014e-05,
	"loss": 0.9007,
	"num_input_tokens_seen": 9532408,
	"step": 815
	},
	{
	"epoch": 0.4223538501158898,
	"grad_norm": 0.18258980329217392,
	"learning_rate": 9.033620444080428e-05,
	"loss": 0.8974,
	"num_input_tokens_seen": 9590920,
	"step": 820
	},
	{
	"epoch": 0.42492917847025496,
	"grad_norm": 0.2898762949979446,
	"learning_rate": 9.019203948553422e-05,
	"loss": 0.8992,
	"num_input_tokens_seen": 9649400,
	"step": 825
	},
	{
	"epoch": 0.42750450682462016,
	"grad_norm": 0.3884592601874919,
	"learning_rate": 9.004692398260244e-05,
	"loss": 0.8991,
	"num_input_tokens_seen": 9707888,
	"step": 830
	},
	{
	"epoch": 0.43007983517898535,
	"grad_norm": 0.24055719869667014,
	"learning_rate": 8.9900861364012e-05,
	"loss": 0.8964,
	"num_input_tokens_seen": 9766384,
	"step": 835
	},
	{
	"epoch": 0.4326551635333505,
	"grad_norm": 0.4482774361285702,
	"learning_rate": 8.975385508416532e-05,
	"loss": 0.8723,
	"num_input_tokens_seen": 9824896,
	"step": 840
	},
	{
	"epoch": 0.4352304918877157,
	"grad_norm": 0.4612030185875055,
	"learning_rate": 8.960590861978265e-05,
	"loss": 0.874,
	"num_input_tokens_seen": 9883408,
	"step": 845
	},
	{
	"epoch": 0.43780582024208087,
	"grad_norm": 0.44197834194509644,
	"learning_rate": 8.945702546981969e-05,
	"loss": 0.9035,
	"num_input_tokens_seen": 9941896,
	"step": 850
	},
	{
	"epoch": 0.43780582024208087,
	"eval_loss": 0.8779178261756897,
	"eval_runtime": 16.159,
	"eval_samples_per_second": 3.713,
	"eval_steps_per_second": 0.928,
	"num_input_tokens_seen": 9941896,
	"step": 850
	},
	{
	"epoch": 0.44038114859644606,
	"grad_norm": 0.8207188524660312,
	"learning_rate": 8.930720915538487e-05,
	"loss": 0.8516,
	"num_input_tokens_seen": 10000336,
	"step": 855
	},
	{
	"epoch": 0.44295647695081125,
	"grad_norm": 1.5881804699369033,
	"learning_rate": 8.915646321965614e-05,
	"loss": 0.9206,
	"num_input_tokens_seen": 10058816,
	"step": 860
	},
	{
	"epoch": 0.4455318053051764,
	"grad_norm": 0.3364043503653687,
	"learning_rate": 8.900479122779712e-05,
	"loss": 0.9028,
	"num_input_tokens_seen": 10117320,
	"step": 865
	},
	{
	"epoch": 0.4481071336595416,
	"grad_norm": 0.2888069815557639,
	"learning_rate": 8.885219676687277e-05,
	"loss": 0.8991,
	"num_input_tokens_seen": 10175824,
	"step": 870
	},
	{
	"epoch": 0.45068246201390677,
	"grad_norm": 0.26081919755231314,
	"learning_rate": 8.869868344576459e-05,
	"loss": 0.8934,
	"num_input_tokens_seen": 10234288,
	"step": 875
	},
	{
	"epoch": 0.45325779036827196,
	"grad_norm": 0.1672074260476841,
	"learning_rate": 8.854425489508532e-05,
	"loss": 0.8908,
	"num_input_tokens_seen": 10292736,
	"step": 880
	},
	{
	"epoch": 0.45583311872263715,
	"grad_norm": 0.3141498425127344,
	"learning_rate": 8.838891476709288e-05,
	"loss": 0.8988,
	"num_input_tokens_seen": 10351224,
	"step": 885
	},
	{
	"epoch": 0.4584084470770023,
	"grad_norm": 0.28442383194638554,
	"learning_rate": 8.823266673560426e-05,
	"loss": 0.8965,
	"num_input_tokens_seen": 10409736,
	"step": 890
	},
	{
	"epoch": 0.4609837754313675,
	"grad_norm": 0.24793143025843287,
	"learning_rate": 8.807551449590846e-05,
	"loss": 0.8989,
	"num_input_tokens_seen": 10468240,
	"step": 895
	},
	{
	"epoch": 0.4635591037857327,
	"grad_norm": 0.18173090045802157,
	"learning_rate": 8.791746176467907e-05,
	"loss": 0.8961,
	"num_input_tokens_seen": 10526712,
	"step": 900
	},
	{
	"epoch": 0.4635591037857327,
	"eval_loss": 0.891426146030426,
	"eval_runtime": 16.0357,
	"eval_samples_per_second": 3.742,
	"eval_steps_per_second": 0.935,
	"num_input_tokens_seen": 10526712,
	"step": 900
	},
	{
	"epoch": 0.46613443214009787,
	"grad_norm": 0.18755280770432675,
	"learning_rate": 8.775851227988656e-05,
	"loss": 0.8955,
	"num_input_tokens_seen": 10585232,
	"step": 905
	},
	{
	"epoch": 0.46870976049446306,
	"grad_norm": 0.16684040416821233,
	"learning_rate": 8.759866980070963e-05,
	"loss": 0.8951,
	"num_input_tokens_seen": 10643728,
	"step": 910
	},
	{
	"epoch": 0.47128508884882825,
	"grad_norm": 0.33346521793095785,
	"learning_rate": 8.743793810744654e-05,
	"loss": 0.8951,
	"num_input_tokens_seen": 10702240,
	"step": 915
	},
	{
	"epoch": 0.4738604172031934,
	"grad_norm": 0.23650054707790025,
	"learning_rate": 8.727632100142551e-05,
	"loss": 0.9066,
	"num_input_tokens_seen": 10760656,
	"step": 920
	},
	{
	"epoch": 0.4764357455575586,
	"grad_norm": 0.20217442955339224,
	"learning_rate": 8.711382230491493e-05,
	"loss": 0.8953,
	"num_input_tokens_seen": 10819128,
	"step": 925
	},
	{
	"epoch": 0.47901107391192377,
	"grad_norm": 0.1648307621403396,
	"learning_rate": 8.695044586103296e-05,
	"loss": 0.8961,
	"num_input_tokens_seen": 10877600,
	"step": 930
	},
	{
	"epoch": 0.48158640226628896,
	"grad_norm": 0.25983065938238986,
	"learning_rate": 8.678619553365659e-05,
	"loss": 0.8965,
	"num_input_tokens_seen": 10936088,
	"step": 935
	},
	{
	"epoch": 0.48416173062065415,
	"grad_norm": 0.17882463002474594,
	"learning_rate": 8.662107520733027e-05,
	"loss": 0.9018,
	"num_input_tokens_seen": 10994560,
	"step": 940
	},
	{
	"epoch": 0.4867370589750193,
	"grad_norm": 0.14644012846994445,
	"learning_rate": 8.64550887871741e-05,
	"loss": 0.8944,
	"num_input_tokens_seen": 11053016,
	"step": 945
	},
	{
	"epoch": 0.4893123873293845,
	"grad_norm": 0.23751630760966444,
	"learning_rate": 8.628824019879137e-05,
	"loss": 0.8852,
	"num_input_tokens_seen": 11111520,
	"step": 950
	},
	{
	"epoch": 0.4893123873293845,
	"eval_loss": 0.8915690183639526,
	"eval_runtime": 16.2589,
	"eval_samples_per_second": 3.69,
	"eval_steps_per_second": 0.923,
	"num_input_tokens_seen": 11111520,
	"step": 950
	},
	{
	"epoch": 0.49188771568374967,
	"grad_norm": 0.3904846319143667,
	"learning_rate": 8.612053338817581e-05,
	"loss": 0.9087,
	"num_input_tokens_seen": 11170016,
	"step": 955
	},
	{
	"epoch": 0.49446304403811486,
	"grad_norm": 0.44920450892911645,
	"learning_rate": 8.595197232161824e-05,
	"loss": 0.8915,
	"num_input_tokens_seen": 11228496,
	"step": 960
	},
	{
	"epoch": 0.49703837239248005,
	"grad_norm": 0.6093857047738649,
	"learning_rate": 8.578256098561275e-05,
	"loss": 0.8836,
	"num_input_tokens_seen": 11286928,
	"step": 965
	},
	{
	"epoch": 0.49961370074684525,
	"grad_norm": 0.6282945106836194,
	"learning_rate": 8.561230338676239e-05,
	"loss": 0.9116,
	"num_input_tokens_seen": 11345400,
	"step": 970
	},
	{
	"epoch": 0.5021890291012104,
	"grad_norm": 0.3187294296147391,
	"learning_rate": 8.544120355168451e-05,
	"loss": 0.8809,
	"num_input_tokens_seen": 11403912,
	"step": 975
	},
	{
	"epoch": 0.5047643574555756,
	"grad_norm": 0.4019889420836467,
	"learning_rate": 8.526926552691544e-05,
	"loss": 0.8895,
	"num_input_tokens_seen": 11462344,
	"step": 980
	},
	{
	"epoch": 0.5073396858099408,
	"grad_norm": 0.4762279449607594,
	"learning_rate": 8.509649337881483e-05,
	"loss": 0.8674,
	"num_input_tokens_seen": 11520808,
	"step": 985
	},
	{
	"epoch": 0.509915014164306,
	"grad_norm": 1.7062273050040726,
	"learning_rate": 8.492289119346943e-05,
	"loss": 0.8832,
	"num_input_tokens_seen": 11579248,
	"step": 990
	},
	{
	"epoch": 0.5124903425186711,
	"grad_norm": 0.7896696939552226,
	"learning_rate": 8.474846307659658e-05,
	"loss": 0.8581,
	"num_input_tokens_seen": 11637712,
	"step": 995
	},
	{
	"epoch": 0.5150656708730363,
	"grad_norm": 0.9287129351980297,
	"learning_rate": 8.457321315344694e-05,
	"loss": 0.8635,
	"num_input_tokens_seen": 11696200,
	"step": 1000
	},
	{
	"epoch": 0.5150656708730363,
	"eval_loss": 0.860200047492981,
	"eval_runtime": 16.1196,
	"eval_samples_per_second": 3.722,
	"eval_steps_per_second": 0.931,
	"num_input_tokens_seen": 11696200,
	"step": 1000
	},
	{
	"epoch": 0.5176409992274015,
	"grad_norm": 0.9492829276877938,
	"learning_rate": 8.439714556870704e-05,
	"loss": 0.8499,
	"num_input_tokens_seen": 11754720,
	"step": 1005
	},
	{
	"epoch": 0.5202163275817667,
	"grad_norm": 1.57473364910246,
	"learning_rate": 8.422026448640124e-05,
	"loss": 0.8556,
	"num_input_tokens_seen": 11813216,
	"step": 1010
	},
	{
	"epoch": 0.5227916559361319,
	"grad_norm": 0.6562994819534732,
	"learning_rate": 8.40425740897932e-05,
	"loss": 0.8533,
	"num_input_tokens_seen": 11871712,
	"step": 1015
	},
	{
	"epoch": 0.525366984290497,
	"grad_norm": 0.5420643724864006,
	"learning_rate": 8.386407858128706e-05,
	"loss": 0.8921,
	"num_input_tokens_seen": 11930200,
	"step": 1020
	},
	{
	"epoch": 0.5279423126448622,
	"grad_norm": 0.4900953324933905,
	"learning_rate": 8.368478218232787e-05,
	"loss": 0.8815,
	"num_input_tokens_seen": 11988704,
	"step": 1025
	},
	{
	"epoch": 0.5305176409992274,
	"grad_norm": 0.46534021808416004,
	"learning_rate": 8.350468913330192e-05,
	"loss": 0.854,
	"num_input_tokens_seen": 12047176,
	"step": 1030
	},
	{
	"epoch": 0.5330929693535926,
	"grad_norm": 0.6739669998528043,
	"learning_rate": 8.33238036934364e-05,
	"loss": 0.8642,
	"num_input_tokens_seen": 12105680,
	"step": 1035
	},
	{
	"epoch": 0.5356682977079578,
	"grad_norm": 1.100337259258234,
	"learning_rate": 8.31421301406986e-05,
	"loss": 0.8072,
	"num_input_tokens_seen": 12164208,
	"step": 1040
	},
	{
	"epoch": 0.5382436260623229,
	"grad_norm": 1.2731858488127639,
	"learning_rate": 8.29596727716949e-05,
	"loss": 0.8532,
	"num_input_tokens_seen": 12222672,
	"step": 1045
	},
	{
	"epoch": 0.5408189544166881,
	"grad_norm": 0.8686963016555517,
	"learning_rate": 8.277643590156894e-05,
	"loss": 0.8844,
	"num_input_tokens_seen": 12281072,
	"step": 1050
	},
	{
	"epoch": 0.5408189544166881,
	"eval_loss": 0.8446129560470581,
	"eval_runtime": 16.0508,
	"eval_samples_per_second": 3.738,
	"eval_steps_per_second": 0.935,
	"num_input_tokens_seen": 12281072,
	"step": 1050
	},
	{
	"epoch": 0.5433942827710533,
	"grad_norm": 0.5518554447099218,
	"learning_rate": 8.259242386389973e-05,
	"loss": 0.8602,
	"num_input_tokens_seen": 12339544,
	"step": 1055
	},
	{
	"epoch": 0.5459696111254185,
	"grad_norm": 0.7300911438509382,
	"learning_rate": 8.240764101059912e-05,
	"loss": 0.8615,
	"num_input_tokens_seen": 12397992,
	"step": 1060
	},
	{
	"epoch": 0.5485449394797837,
	"grad_norm": 0.7364983085887583,
	"learning_rate": 8.222209171180883e-05,
	"loss": 0.8732,
	"num_input_tokens_seen": 12456480,
	"step": 1065
	},
	{
	"epoch": 0.5511202678341488,
	"grad_norm": 0.4840408774949972,
	"learning_rate": 8.203578035579715e-05,
	"loss": 0.8691,
	"num_input_tokens_seen": 12515000,
	"step": 1070
	},
	{
	"epoch": 0.553695596188514,
	"grad_norm": 0.516278691776577,
	"learning_rate": 8.184871134885513e-05,
	"loss": 0.8544,
	"num_input_tokens_seen": 12573504,
	"step": 1075
	},
	{
	"epoch": 0.5562709245428792,
	"grad_norm": 0.8626943002609527,
	"learning_rate": 8.166088911519235e-05,
	"loss": 0.8501,
	"num_input_tokens_seen": 12632008,
	"step": 1080
	},
	{
	"epoch": 0.5588462528972444,
	"grad_norm": 0.7409465187036862,
	"learning_rate": 8.147231809683236e-05,
	"loss": 0.8646,
	"num_input_tokens_seen": 12690520,
	"step": 1085
	},
	{
	"epoch": 0.5614215812516096,
	"grad_norm": 0.5736639247313171,
	"learning_rate": 8.128300275350756e-05,
	"loss": 0.8327,
	"num_input_tokens_seen": 12749032,
	"step": 1090
	},
	{
	"epoch": 0.5639969096059748,
	"grad_norm": 0.7720514157947642,
	"learning_rate": 8.109294756255375e-05,
	"loss": 0.8218,
	"num_input_tokens_seen": 12807504,
	"step": 1095
	},
	{
	"epoch": 0.56657223796034,
	"grad_norm": 0.9129011996506371,
	"learning_rate": 8.090215701880419e-05,
	"loss": 0.8427,
	"num_input_tokens_seen": 12865992,
	"step": 1100
	},
	{
	"epoch": 0.56657223796034,
	"eval_loss": 0.7743102312088013,
	"eval_runtime": 16.1034,
	"eval_samples_per_second": 3.726,
	"eval_steps_per_second": 0.931,
	"num_input_tokens_seen": 12865992,
	"step": 1100
	},
	{
	"epoch": 0.5691475663147051,
	"grad_norm": 1.6435842633079423,
	"learning_rate": 8.07106356344834e-05,
	"loss": 0.8335,
	"num_input_tokens_seen": 12924448,
	"step": 1105
	},
	{
	"epoch": 0.5717228946690703,
	"grad_norm": 1.2281943545237959,
	"learning_rate": 8.051838793910038e-05,
	"loss": 0.8267,
	"num_input_tokens_seen": 12982912,
	"step": 1110
	},
	{
	"epoch": 0.5742982230234355,
	"grad_norm": 1.4138823100284208,
	"learning_rate": 8.032541847934146e-05,
	"loss": 0.8866,
	"num_input_tokens_seen": 13041424,
	"step": 1115
	},
	{
	"epoch": 0.5768735513778007,
	"grad_norm": 0.6515311059204204,
	"learning_rate": 8.013173181896283e-05,
	"loss": 0.8446,
	"num_input_tokens_seen": 13099888,
	"step": 1120
	},
	{
	"epoch": 0.5794488797321659,
	"grad_norm": 0.7537544303655812,
	"learning_rate": 7.993733253868256e-05,
	"loss": 0.8176,
	"num_input_tokens_seen": 13158344,
	"step": 1125
	},
	{
	"epoch": 0.582024208086531,
	"grad_norm": 1.3613777296967222,
	"learning_rate": 7.974222523607236e-05,
	"loss": 0.8138,
	"num_input_tokens_seen": 13216840,
	"step": 1130
	},
	{
	"epoch": 0.5845995364408962,
	"grad_norm": 0.6640843445520798,
	"learning_rate": 7.954641452544865e-05,
	"loss": 0.8204,
	"num_input_tokens_seen": 13275328,
	"step": 1135
	},
	{
	"epoch": 0.5871748647952614,
	"grad_norm": 0.6917895597906035,
	"learning_rate": 7.934990503776363e-05,
	"loss": 0.8485,
	"num_input_tokens_seen": 13333784,
	"step": 1140
	},
	{
	"epoch": 0.5897501931496266,
	"grad_norm": 0.45542718993625547,
	"learning_rate": 7.915270142049566e-05,
	"loss": 0.8191,
	"num_input_tokens_seen": 13392280,
	"step": 1145
	},
	{
	"epoch": 0.5923255215039918,
	"grad_norm": 0.618954778582039,
	"learning_rate": 7.89548083375394e-05,
	"loss": 0.8185,
	"num_input_tokens_seen": 13450720,
	"step": 1150
	},
	{
	"epoch": 0.5923255215039918,
	"eval_loss": 0.7827339768409729,
	"eval_runtime": 16.0127,
	"eval_samples_per_second": 3.747,
	"eval_steps_per_second": 0.937,
	"num_input_tokens_seen": 13450720,
	"step": 1150
	},
	{
	"epoch": 0.5949008498583569,
	"grad_norm": 1.5827740829243289,
	"learning_rate": 7.875623046909544e-05,
	"loss": 0.8168,
	"num_input_tokens_seen": 13509200,
	"step": 1155
	},
	{
	"epoch": 0.5974761782127221,
	"grad_norm": 2.344942216339615,
	"learning_rate": 7.855697251155967e-05,
	"loss": 0.7749,
	"num_input_tokens_seen": 13567656,
	"step": 1160
	},
	{
	"epoch": 0.6000515065670873,
	"grad_norm": 2.7313469239045305,
	"learning_rate": 7.835703917741212e-05,
	"loss": 0.9132,
	"num_input_tokens_seen": 13626136,
	"step": 1165
	},
	{
	"epoch": 0.6026268349214525,
	"grad_norm": 0.7410043911446527,
	"learning_rate": 7.81564351951057e-05,
	"loss": 0.8308,
	"num_input_tokens_seen": 13684608,
	"step": 1170
	},
	{
	"epoch": 0.6052021632758177,
	"grad_norm": 0.5628590604115411,
	"learning_rate": 7.795516530895414e-05,
	"loss": 0.8011,
	"num_input_tokens_seen": 13743080,
	"step": 1175
	},
	{
	"epoch": 0.6077774916301828,
	"grad_norm": 1.2008934424824649,
	"learning_rate": 7.775323427901993e-05,
	"loss": 0.8309,
	"num_input_tokens_seen": 13801552,
	"step": 1180
	},
	{
	"epoch": 0.610352819984548,
	"grad_norm": 1.2914156288367256,
	"learning_rate": 7.755064688100171e-05,
	"loss": 0.8089,
	"num_input_tokens_seen": 13860064,
	"step": 1185
	},
	{
	"epoch": 0.6129281483389132,
	"grad_norm": 1.420806774436513,
	"learning_rate": 7.734740790612136e-05,
	"loss": 0.8089,
	"num_input_tokens_seen": 13918552,
	"step": 1190
	},
	{
	"epoch": 0.6155034766932784,
	"grad_norm": 0.8352922832465102,
	"learning_rate": 7.714352216101055e-05,
	"loss": 0.8511,
	"num_input_tokens_seen": 13977056,
	"step": 1195
	},
	{
	"epoch": 0.6180788050476436,
	"grad_norm": 0.6321587989106885,
	"learning_rate": 7.693899446759727e-05,
	"loss": 0.8061,
	"num_input_tokens_seen": 14035544,
	"step": 1200
	},
	{
	"epoch": 0.6180788050476436,
	"eval_loss": 0.7593821287155151,
	"eval_runtime": 16.1368,
	"eval_samples_per_second": 3.718,
	"eval_steps_per_second": 0.93,
	"num_input_tokens_seen": 14035544,
	"step": 1200
	},
	{
	"epoch": 0.6206541334020087,
	"grad_norm": 1.0526811295206564,
	"learning_rate": 7.673382966299163e-05,
	"loss": 0.7871,
	"num_input_tokens_seen": 14094024,
	"step": 1205
	},
	{
	"epoch": 0.623229461756374,
	"grad_norm": 1.832697637344859,
	"learning_rate": 7.65280325993715e-05,
	"loss": 0.7594,
	"num_input_tokens_seen": 14152504,
	"step": 1210
	},
	{
	"epoch": 0.6258047901107391,
	"grad_norm": 1.6875031192331054,
	"learning_rate": 7.63216081438678e-05,
	"loss": 0.7833,
	"num_input_tokens_seen": 14210992,
	"step": 1215
	},
	{
	"epoch": 0.6283801184651043,
	"grad_norm": 1.867117238207419,
	"learning_rate": 7.611456117844934e-05,
	"loss": 0.8445,
	"num_input_tokens_seen": 14269488,
	"step": 1220
	},
	{
	"epoch": 0.6309554468194695,
	"grad_norm": 0.9089614634143406,
	"learning_rate": 7.59068965998074e-05,
	"loss": 0.7857,
	"num_input_tokens_seen": 14327968,
	"step": 1225
	},
	{
	"epoch": 0.6335307751738347,
	"grad_norm": 2.3911537408111214,
	"learning_rate": 7.569861931923989e-05,
	"loss": 0.8064,
	"num_input_tokens_seen": 14386448,
	"step": 1230
	},
	{
	"epoch": 0.6361061035281999,
	"grad_norm": 1.6500224851295993,
	"learning_rate": 7.548973426253521e-05,
	"loss": 0.7117,
	"num_input_tokens_seen": 14444912,
	"step": 1235
	},
	{
	"epoch": 0.638681431882565,
	"grad_norm": 1.508924461189316,
	"learning_rate": 7.528024636985575e-05,
	"loss": 0.7449,
	"num_input_tokens_seen": 14503392,
	"step": 1240
	},
	{
	"epoch": 0.6412567602369302,
	"grad_norm": 1.3801142620835953,
	"learning_rate": 7.507016059562107e-05,
	"loss": 0.7507,
	"num_input_tokens_seen": 14561872,
	"step": 1245
	},
	{
	"epoch": 0.6438320885912954,
	"grad_norm": 1.2994701535106117,
	"learning_rate": 7.485948190839077e-05,
	"loss": 0.7917,
	"num_input_tokens_seen": 14620336,
	"step": 1250
	},
	{
	"epoch": 0.6438320885912954,
	"eval_loss": 0.7407085299491882,
	"eval_runtime": 16.1168,
	"eval_samples_per_second": 3.723,
	"eval_steps_per_second": 0.931,
	"num_input_tokens_seen": 14620336,
	"step": 1250
	},
	{
	"epoch": 0.6464074169456606,
	"grad_norm": 0.9491399909407985,
	"learning_rate": 7.464821529074679e-05,
	"loss": 0.7763,
	"num_input_tokens_seen": 14678792,
	"step": 1255
	},
	{
	"epoch": 0.6489827453000258,
	"grad_norm": 1.1671149163333951,
	"learning_rate": 7.443636573917585e-05,
	"loss": 0.7979,
	"num_input_tokens_seen": 14737272,
	"step": 1260
	},
	{
	"epoch": 0.6515580736543909,
	"grad_norm": 1.4992002601057717,
	"learning_rate": 7.422393826395108e-05,
	"loss": 0.7883,
	"num_input_tokens_seen": 14795784,
	"step": 1265
	},
	{
	"epoch": 0.6541334020087561,
	"grad_norm": 1.2009664113851044,
	"learning_rate": 7.40109378890136e-05,
	"loss": 0.7183,
	"num_input_tokens_seen": 14854272,
	"step": 1270
	},
	{
	"epoch": 0.6567087303631213,
	"grad_norm": 1.5312778776593978,
	"learning_rate": 7.379736965185368e-05,
	"loss": 0.762,
	"num_input_tokens_seen": 14912720,
	"step": 1275
	},
	{
	"epoch": 0.6592840587174865,
	"grad_norm": 1.443384734396678,
	"learning_rate": 7.358323860339165e-05,
	"loss": 0.7951,
	"num_input_tokens_seen": 14971192,
	"step": 1280
	},
	{
	"epoch": 0.6618593870718517,
	"grad_norm": 1.3546652337943146,
	"learning_rate": 7.336854980785839e-05,
	"loss": 0.7528,
	"num_input_tokens_seen": 15029656,
	"step": 1285
	},
	{
	"epoch": 0.6644347154262168,
	"grad_norm": 1.4256460615881865,
	"learning_rate": 7.315330834267553e-05,
	"loss": 0.7633,
	"num_input_tokens_seen": 15088144,
	"step": 1290
	},
	{
	"epoch": 0.667010043780582,
	"grad_norm": 1.325772407306303,
	"learning_rate": 7.293751929833553e-05,
	"loss": 0.7443,
	"num_input_tokens_seen": 15146600,
	"step": 1295
	},
	{
	"epoch": 0.6695853721349472,
	"grad_norm": 2.727997344637842,
	"learning_rate": 7.272118777828108e-05,
	"loss": 0.7724,
	"num_input_tokens_seen": 15205064,
	"step": 1300
	},
	{
	"epoch": 0.6695853721349472,
	"eval_loss": 0.7189856171607971,
	"eval_runtime": 16.0307,
	"eval_samples_per_second": 3.743,
	"eval_steps_per_second": 0.936,
	"num_input_tokens_seen": 15205064,
	"step": 1300
	},
	{
	"epoch": 0.6721607004893124,
	"grad_norm": 2.6154468701895066,
	"learning_rate": 7.250431889878455e-05,
	"loss": 0.7524,
	"num_input_tokens_seen": 15263560,
	"step": 1305
	},
	{
	"epoch": 0.6747360288436776,
	"grad_norm": 1.9549500311782502,
	"learning_rate": 7.228691778882693e-05,
	"loss": 0.6748,
	"num_input_tokens_seen": 15322016,
	"step": 1310
	},
	{
	"epoch": 0.6773113571980427,
	"grad_norm": 2.991178206089954,
	"learning_rate": 7.20689895899765e-05,
	"loss": 0.7571,
	"num_input_tokens_seen": 15380504,
	"step": 1315
	},
	{
	"epoch": 0.6798866855524079,
	"grad_norm": 1.7022848080804835,
	"learning_rate": 7.185053945626733e-05,
	"loss": 0.6615,
	"num_input_tokens_seen": 15438944,
	"step": 1320
	},
	{
	"epoch": 0.6824620139067731,
	"grad_norm": 1.739259284519112,
	"learning_rate": 7.163157255407732e-05,
	"loss": 0.7421,
	"num_input_tokens_seen": 15497384,
	"step": 1325
	},
	{
	"epoch": 0.6850373422611383,
	"grad_norm": 1.9142982939434143,
	"learning_rate": 7.141209406200599e-05,
	"loss": 0.7886,
	"num_input_tokens_seen": 15555856,
	"step": 1330
	},
	{
	"epoch": 0.6876126706155035,
	"grad_norm": 1.7562659805497576,
	"learning_rate": 7.1192109170752e-05,
	"loss": 0.7484,
	"num_input_tokens_seen": 15614368,
	"step": 1335
	},
	{
	"epoch": 0.6901879989698687,
	"grad_norm": 1.7590122465257017,
	"learning_rate": 7.097162308299054e-05,
	"loss": 0.7086,
	"num_input_tokens_seen": 15672864,
	"step": 1340
	},
	{
	"epoch": 0.6927633273242338,
	"grad_norm": 2.1211445265818845,
	"learning_rate": 7.07506410132501e-05,
	"loss": 0.7494,
	"num_input_tokens_seen": 15731376,
	"step": 1345
	},
	{
	"epoch": 0.695338655678599,
	"grad_norm": 2.683073565523052,
	"learning_rate": 7.052916818778918e-05,
	"loss": 0.7278,
	"num_input_tokens_seen": 15789848,
	"step": 1350
	},
	{
	"epoch": 0.695338655678599,
	"eval_loss": 0.712917685508728,
	"eval_runtime": 16.0726,
	"eval_samples_per_second": 3.733,
	"eval_steps_per_second": 0.933,
	"num_input_tokens_seen": 15789848,
	"step": 1350
	},
	{
	"epoch": 0.6979139840329642,
	"grad_norm": 2.128495144345323,
	"learning_rate": 7.030720984447279e-05,
	"loss": 0.7005,
	"num_input_tokens_seen": 15848328,
	"step": 1355
	},
	{
	"epoch": 0.7004893123873294,
	"grad_norm": 1.9954206386005497,
	"learning_rate": 7.008477123264848e-05,
	"loss": 0.7406,
	"num_input_tokens_seen": 15906824,
	"step": 1360
	},
	{
	"epoch": 0.7030646407416946,
	"grad_norm": 2.2104679425901397,
	"learning_rate": 6.986185761302224e-05,
	"loss": 0.73,
	"num_input_tokens_seen": 15965312,
	"step": 1365
	},
	{
	"epoch": 0.7056399690960597,
	"grad_norm": 1.4881688553415275,
	"learning_rate": 6.963847425753403e-05,
	"loss": 0.7069,
	"num_input_tokens_seen": 16023824,
	"step": 1370
	},
	{
	"epoch": 0.7082152974504249,
	"grad_norm": 1.7307886623214839,
	"learning_rate": 6.941462644923318e-05,
	"loss": 0.6859,
	"num_input_tokens_seen": 16082280,
	"step": 1375
	},
	{
	"epoch": 0.7107906258047901,
	"grad_norm": 1.996363722225207,
	"learning_rate": 6.919031948215335e-05,
	"loss": 0.7254,
	"num_input_tokens_seen": 16140800,
	"step": 1380
	},
	{
	"epoch": 0.7133659541591553,
	"grad_norm": 1.9723274395570518,
	"learning_rate": 6.896555866118741e-05,
	"loss": 0.717,
	"num_input_tokens_seen": 16199320,
	"step": 1385
	},
	{
	"epoch": 0.7159412825135205,
	"grad_norm": 1.741253496639104,
	"learning_rate": 6.87403493019619e-05,
	"loss": 0.7094,
	"num_input_tokens_seen": 16257768,
	"step": 1390
	},
	{
	"epoch": 0.7185166108678857,
	"grad_norm": 1.6218002074106608,
	"learning_rate": 6.851469673071143e-05,
	"loss": 0.7862,
	"num_input_tokens_seen": 16316264,
	"step": 1395
	},
	{
	"epoch": 0.7210919392222508,
	"grad_norm": 1.7586707307941614,
	"learning_rate": 6.828860628415253e-05,
	"loss": 0.7359,
	"num_input_tokens_seen": 16374784,
	"step": 1400
	},
	{
	"epoch": 0.7210919392222508,
	"eval_loss": 0.6643603444099426,
	"eval_runtime": 16.1894,
	"eval_samples_per_second": 3.706,
	"eval_steps_per_second": 0.927,
	"num_input_tokens_seen": 16374784,
	"step": 1400
	},
	{
	"epoch": 0.723667267576616,
	"grad_norm": 2.665622720042704,
	"learning_rate": 6.806208330935766e-05,
	"loss": 0.706,
	"num_input_tokens_seen": 16433288,
	"step": 1405
	},
	{
	"epoch": 0.7262425959309812,
	"grad_norm": 2.123869663010538,
	"learning_rate": 6.783513316362855e-05,
	"loss": 0.6714,
	"num_input_tokens_seen": 16491784,
	"step": 1410
	},
	{
	"epoch": 0.7288179242853464,
	"grad_norm": 1.584213945279146,
	"learning_rate": 6.760776121436962e-05,
	"loss": 0.693,
	"num_input_tokens_seen": 16550272,
	"step": 1415
	},
	{
	"epoch": 0.7313932526397116,
	"grad_norm": 2.2481839233017764,
	"learning_rate": 6.737997283896103e-05,
	"loss": 0.7005,
	"num_input_tokens_seen": 16608704,
	"step": 1420
	},
	{
	"epoch": 0.7339685809940767,
	"grad_norm": 2.4818230151927643,
	"learning_rate": 6.715177342463145e-05,
	"loss": 0.6573,
	"num_input_tokens_seen": 16667200,
	"step": 1425
	},
	{
	"epoch": 0.7365439093484419,
	"grad_norm": 2.5398594354263486,
	"learning_rate": 6.692316836833065e-05,
	"loss": 0.6751,
	"num_input_tokens_seen": 16725704,
	"step": 1430
	},
	{
	"epoch": 0.7391192377028071,
	"grad_norm": 2.7486055345229343,
	"learning_rate": 6.6694163076602e-05,
	"loss": 0.6173,
	"num_input_tokens_seen": 16784192,
	"step": 1435
	},
	{
	"epoch": 0.7416945660571723,
	"grad_norm": 5.356237563459472,
	"learning_rate": 6.646476296545434e-05,
	"loss": 0.728,
	"num_input_tokens_seen": 16842704,
	"step": 1440
	},
	{
	"epoch": 0.7442698944115375,
	"grad_norm": 2.088505948846248,
	"learning_rate": 6.623497346023418e-05,
	"loss": 0.743,
	"num_input_tokens_seen": 16901176,
	"step": 1445
	},
	{
	"epoch": 0.7468452227659027,
	"grad_norm": 2.2198436340262,
	"learning_rate": 6.60047999954972e-05,
	"loss": 0.6291,
	"num_input_tokens_seen": 16959632,
	"step": 1450
	},
	{
	"epoch": 0.7468452227659027,
	"eval_loss": 0.753077507019043,
	"eval_runtime": 16.0383,
	"eval_samples_per_second": 3.741,
	"eval_steps_per_second": 0.935,
	"num_input_tokens_seen": 16959632,
	"step": 1450
	},
	{
	"epoch": 0.7494205511202678,
	"grad_norm": 1.9571252974715032,
	"learning_rate": 6.57742480148798e-05,
	"loss": 0.6533,
	"num_input_tokens_seen": 17018072,
	"step": 1455
	},
	{
	"epoch": 0.751995879474633,
	"grad_norm": 3.2075825448529542,
	"learning_rate": 6.554332297097031e-05,
	"loss": 0.7114,
	"num_input_tokens_seen": 17076560,
	"step": 1460
	},
	{
	"epoch": 0.7545712078289982,
	"grad_norm": 2.0030816579741266,
	"learning_rate": 6.53120303251801e-05,
	"loss": 0.6568,
	"num_input_tokens_seen": 17135016,
	"step": 1465
	},
	{
	"epoch": 0.7571465361833634,
	"grad_norm": 2.65056436638165,
	"learning_rate": 6.508037554761432e-05,
	"loss": 0.7016,
	"num_input_tokens_seen": 17193496,
	"step": 1470
	},
	{
	"epoch": 0.7597218645377286,
	"grad_norm": 1.9541651871708403,
	"learning_rate": 6.484836411694267e-05,
	"loss": 0.6612,
	"num_input_tokens_seen": 17251944,
	"step": 1475
	},
	{
	"epoch": 0.7622971928920937,
	"grad_norm": 3.0540242692558577,
	"learning_rate": 6.461600152026965e-05,
	"loss": 0.6115,
	"num_input_tokens_seen": 17310456,
	"step": 1480
	},
	{
	"epoch": 0.7648725212464589,
	"grad_norm": 2.796196437541352,
	"learning_rate": 6.438329325300499e-05,
	"loss": 0.6458,
	"num_input_tokens_seen": 17368968,
	"step": 1485
	},
	{
	"epoch": 0.7674478496008241,
	"grad_norm": 3.1979427976381207,
	"learning_rate": 6.415024481873352e-05,
	"loss": 0.6434,
	"num_input_tokens_seen": 17427424,
	"step": 1490
	},
	{
	"epoch": 0.7700231779551893,
	"grad_norm": 3.8375601078700203,
	"learning_rate": 6.391686172908506e-05,
	"loss": 0.5973,
	"num_input_tokens_seen": 17485936,
	"step": 1495
	},
	{
	"epoch": 0.7725985063095545,
	"grad_norm": 2.405705749864128,
	"learning_rate": 6.368314950360415e-05,
	"loss": 0.6021,
	"num_input_tokens_seen": 17544440,
	"step": 1500
	},
	{
	"epoch": 0.7725985063095545,
	"eval_loss": 0.632923424243927,
	"eval_runtime": 16.1038,
	"eval_samples_per_second": 3.726,
	"eval_steps_per_second": 0.931,
	"num_input_tokens_seen": 17544440,
	"step": 1500
	},
	{
	"epoch": 0.7751738346639196,
	"grad_norm": 2.8519087211521734,
	"learning_rate": 6.344911366961934e-05,
	"loss": 0.5779,
	"num_input_tokens_seen": 17602952,
	"step": 1505
	},
	{
	"epoch": 0.7777491630182848,
	"grad_norm": 2.861290579940173,
	"learning_rate": 6.321475976211266e-05,
	"loss": 0.6707,
	"num_input_tokens_seen": 17661440,
	"step": 1510
	},
	{
	"epoch": 0.78032449137265,
	"grad_norm": 3.541365161144121,
	"learning_rate": 6.298009332358856e-05,
	"loss": 0.6326,
	"num_input_tokens_seen": 17719928,
	"step": 1515
	},
	{
	"epoch": 0.7828998197270152,
	"grad_norm": 2.969962641272996,
	"learning_rate": 6.274511990394294e-05,
	"loss": 0.6472,
	"num_input_tokens_seen": 17778424,
	"step": 1520
	},
	{
	"epoch": 0.7854751480813804,
	"grad_norm": 2.762063548864621,
	"learning_rate": 6.250984506033183e-05,
	"loss": 0.6215,
	"num_input_tokens_seen": 17836936,
	"step": 1525
	},
	{
	"epoch": 0.7880504764357456,
	"grad_norm": 3.2198855545004097,
	"learning_rate": 6.227427435703997e-05,
	"loss": 0.6102,
	"num_input_tokens_seen": 17895392,
	"step": 1530
	},
	{
	"epoch": 0.7906258047901107,
	"grad_norm": 3.846544371420393,
	"learning_rate": 6.203841336534924e-05,
	"loss": 0.6161,
	"num_input_tokens_seen": 17953872,
	"step": 1535
	},
	{
	"epoch": 0.7932011331444759,
	"grad_norm": 3.811248686105134,
	"learning_rate": 6.180226766340688e-05,
	"loss": 0.6103,
	"num_input_tokens_seen": 18012320,
	"step": 1540
	},
	{
	"epoch": 0.7957764614988411,
	"grad_norm": 2.9539705466919703,
	"learning_rate": 6.156584283609359e-05,
	"loss": 0.5791,
	"num_input_tokens_seen": 18070792,
	"step": 1545
	},
	{
	"epoch": 0.7983517898532063,
	"grad_norm": 3.0546686267383283,
	"learning_rate": 6.132914447489137e-05,
	"loss": 0.667,
	"num_input_tokens_seen": 18129304,
	"step": 1550
	},
	{
	"epoch": 0.7983517898532063,
	"eval_loss": 0.6617516279220581,
	"eval_runtime": 16.0333,
	"eval_samples_per_second": 3.742,
	"eval_steps_per_second": 0.936,
	"num_input_tokens_seen": 18129304,
	"step": 1550
	},
	{
	"epoch": 0.8009271182075715,
	"grad_norm": 2.9735507158511987,
	"learning_rate": 6.109217817775139e-05,
	"loss": 0.5681,
	"num_input_tokens_seen": 18187728,
	"step": 1555
	},
	{
	"epoch": 0.8035024465619367,
	"grad_norm": 3.6620315644598778,
	"learning_rate": 6.085494954896156e-05,
	"loss": 0.6292,
	"num_input_tokens_seen": 18246192,
	"step": 1560
	},
	{
	"epoch": 0.8060777749163018,
	"grad_norm": 4.03631122919402,
	"learning_rate": 6.061746419901388e-05,
	"loss": 0.6512,
	"num_input_tokens_seen": 18304632,
	"step": 1565
	},
	{
	"epoch": 0.808653103270667,
	"grad_norm": 4.0040288177360805,
	"learning_rate": 6.0379727744471936e-05,
	"loss": 0.5476,
	"num_input_tokens_seen": 18363136,
	"step": 1570
	},
	{
	"epoch": 0.8112284316250322,
	"grad_norm": 3.9448861517599996,
	"learning_rate": 6.014174580783794e-05,
	"loss": 0.5632,
	"num_input_tokens_seen": 18421592,
	"step": 1575
	},
	{
	"epoch": 0.8138037599793974,
	"grad_norm": 3.8400680048739435,
	"learning_rate": 5.990352401741981e-05,
	"loss": 0.6225,
	"num_input_tokens_seen": 18480104,
	"step": 1580
	},
	{
	"epoch": 0.8163790883337626,
	"grad_norm": 2.7981339113543284,
	"learning_rate": 5.9665068007197976e-05,
	"loss": 0.5801,
	"num_input_tokens_seen": 18538600,
	"step": 1585
	},
	{
	"epoch": 0.8189544166881277,
	"grad_norm": 4.290843515697908,
	"learning_rate": 5.94263834166923e-05,
	"loss": 0.6364,
	"num_input_tokens_seen": 18597104,
	"step": 1590
	},
	{
	"epoch": 0.8215297450424929,
	"grad_norm": 3.9001572117535566,
	"learning_rate": 5.918747589082853e-05,
	"loss": 0.6088,
	"num_input_tokens_seen": 18655584,
	"step": 1595
	},
	{
	"epoch": 0.8241050733968581,
	"grad_norm": 3.5623412341260363,
	"learning_rate": 5.8948351079804875e-05,
	"loss": 0.6564,
	"num_input_tokens_seen": 18714072,
	"step": 1600
	},
	{
	"epoch": 0.8241050733968581,
	"eval_loss": 0.6319106221199036,
	"eval_runtime": 16.0199,
	"eval_samples_per_second": 3.745,
	"eval_steps_per_second": 0.936,
	"num_input_tokens_seen": 18714072,
	"step": 1600
	},
	{
	"epoch": 0.8266804017512233,
	"grad_norm": 3.4115030121534953,
	"learning_rate": 5.8709014638958404e-05,
	"loss": 0.6095,
	"num_input_tokens_seen": 18772552,
	"step": 1605
	},
	{
	"epoch": 0.8292557301055885,
	"grad_norm": 2.8584050529867895,
	"learning_rate": 5.846947222863123e-05,
	"loss": 0.5896,
	"num_input_tokens_seen": 18830992,
	"step": 1610
	},
	{
	"epoch": 0.8318310584599536,
	"grad_norm": 3.083134826868609,
	"learning_rate": 5.8229729514036705e-05,
	"loss": 0.545,
	"num_input_tokens_seen": 18889480,
	"step": 1615
	},
	{
	"epoch": 0.8344063868143188,
	"grad_norm": 3.5650772646006703,
	"learning_rate": 5.7989792165125356e-05,
	"loss": 0.6021,
	"num_input_tokens_seen": 18947936,
	"step": 1620
	},
	{
	"epoch": 0.836981715168684,
	"grad_norm": 3.1787537764025737,
	"learning_rate": 5.774966585645092e-05,
	"loss": 0.5741,
	"num_input_tokens_seen": 19006432,
	"step": 1625
	},
	{
	"epoch": 0.8395570435230492,
	"grad_norm": 4.505205596087594,
	"learning_rate": 5.7509356267035975e-05,
	"loss": 0.5796,
	"num_input_tokens_seen": 19064920,
	"step": 1630
	},
	{
	"epoch": 0.8421323718774144,
	"grad_norm": 3.854433226263906,
	"learning_rate": 5.726886908023776e-05,
	"loss": 0.5088,
	"num_input_tokens_seen": 19123376,
	"step": 1635
	},
	{
	"epoch": 0.8447077002317795,
	"grad_norm": 3.5910960304247643,
	"learning_rate": 5.702820998361373e-05,
	"loss": 0.5431,
	"num_input_tokens_seen": 19181864,
	"step": 1640
	},
	{
	"epoch": 0.8472830285861447,
	"grad_norm": 4.55639282269759,
	"learning_rate": 5.6787384668786994e-05,
	"loss": 0.5849,
	"num_input_tokens_seen": 19240352,
	"step": 1645
	},
	{
	"epoch": 0.8498583569405099,
	"grad_norm": 4.031478721616991,
	"learning_rate": 5.654639883131178e-05,
	"loss": 0.5668,
	"num_input_tokens_seen": 19298848,
	"step": 1650
	},
	{
	"epoch": 0.8498583569405099,
	"eval_loss": 0.6634677648544312,
	"eval_runtime": 16.0267,
	"eval_samples_per_second": 3.744,
	"eval_steps_per_second": 0.936,
	"num_input_tokens_seen": 19298848,
	"step": 1650
	},
	{
	"epoch": 0.8524336852948751,
	"grad_norm": 3.2430676664218496,
	"learning_rate": 5.6305258170538676e-05,
	"loss": 0.584,
	"num_input_tokens_seen": 19357304,
	"step": 1655
	},
	{
	"epoch": 0.8550090136492403,
	"grad_norm": 3.140559424454581,
	"learning_rate": 5.606396838947988e-05,
	"loss": 0.5544,
	"num_input_tokens_seen": 19415800,
	"step": 1660
	},
	{
	"epoch": 0.8575843420036054,
	"grad_norm": 3.993528386539066,
	"learning_rate": 5.582253519467432e-05,
	"loss": 0.6269,
	"num_input_tokens_seen": 19474256,
	"step": 1665
	},
	{
	"epoch": 0.8601596703579707,
	"grad_norm": 2.202747116085024,
	"learning_rate": 5.558096429605263e-05,
	"loss": 0.5073,
	"num_input_tokens_seen": 19532736,
	"step": 1670
	},
	{
	"epoch": 0.8627349987123358,
	"grad_norm": 4.4094334133851625,
	"learning_rate": 5.533926140680221e-05,
	"loss": 0.5319,
	"num_input_tokens_seen": 19591184,
	"step": 1675
	},
	{
	"epoch": 0.865310327066701,
	"grad_norm": 4.01821546567579,
	"learning_rate": 5.509743224323203e-05,
	"loss": 0.4525,
	"num_input_tokens_seen": 19649656,
	"step": 1680
	},
	{
	"epoch": 0.8678856554210662,
	"grad_norm": 5.3033277992950385,
	"learning_rate": 5.485548252463749e-05,
	"loss": 0.5276,
	"num_input_tokens_seen": 19708144,
	"step": 1685
	},
	{
	"epoch": 0.8704609837754314,
	"grad_norm": 5.124737819396939,
	"learning_rate": 5.4613417973165106e-05,
	"loss": 0.5482,
	"num_input_tokens_seen": 19766592,
	"step": 1690
	},
	{
	"epoch": 0.8730363121297966,
	"grad_norm": 3.47304956996904,
	"learning_rate": 5.4371244313677225e-05,
	"loss": 0.4656,
	"num_input_tokens_seen": 19825064,
	"step": 1695
	},
	{
	"epoch": 0.8756116404841617,
	"grad_norm": 6.394279811127835,
	"learning_rate": 5.4128967273616625e-05,
	"loss": 0.5701,
	"num_input_tokens_seen": 19883504,
	"step": 1700
	},
	{
	"epoch": 0.8756116404841617,
	"eval_loss": 0.7144017815589905,
	"eval_runtime": 16.1358,
	"eval_samples_per_second": 3.718,
	"eval_steps_per_second": 0.93,
	"num_input_tokens_seen": 19883504,
	"step": 1700
	},
	{
	"epoch": 0.8781869688385269,
	"grad_norm": 4.527262723362309,
	"learning_rate": 5.388659258287102e-05,
	"loss": 0.5823,
	"num_input_tokens_seen": 19942000,
	"step": 1705
	},
	{
	"epoch": 0.8807622971928921,
	"grad_norm": 4.628112845411063,
	"learning_rate": 5.364412597363759e-05,
	"loss": 0.5446,
	"num_input_tokens_seen": 20000440,
	"step": 1710
	},
	{
	"epoch": 0.8833376255472573,
	"grad_norm": 6.077375809046342,
	"learning_rate": 5.3401573180287426e-05,
	"loss": 0.5769,
	"num_input_tokens_seen": 20058920,
	"step": 1715
	},
	{
	"epoch": 0.8859129539016225,
	"grad_norm": 6.492863688878202,
	"learning_rate": 5.315893993922986e-05,
	"loss": 0.5614,
	"num_input_tokens_seen": 20117416,
	"step": 1720
	},
	{
	"epoch": 0.8884882822559876,
	"grad_norm": 5.332057542240503,
	"learning_rate": 5.29162319887768e-05,
	"loss": 0.5215,
	"num_input_tokens_seen": 20175936,
	"step": 1725
	},
	{
	"epoch": 0.8910636106103528,
	"grad_norm": 3.8772752615113077,
	"learning_rate": 5.26734550690071e-05,
	"loss": 0.4968,
	"num_input_tokens_seen": 20234368,
	"step": 1730
	},
	{
	"epoch": 0.893638938964718,
	"grad_norm": 4.886426418731965,
	"learning_rate": 5.243061492163073e-05,
	"loss": 0.5029,
	"num_input_tokens_seen": 20292856,
	"step": 1735
	},
	{
	"epoch": 0.8962142673190832,
	"grad_norm": 4.031774194047053,
	"learning_rate": 5.2187717289852955e-05,
	"loss": 0.5249,
	"num_input_tokens_seen": 20351272,
	"step": 1740
	},
	{
	"epoch": 0.8987895956734484,
	"grad_norm": 5.344580011428224,
	"learning_rate": 5.1944767918238624e-05,
	"loss": 0.5801,
	"num_input_tokens_seen": 20409744,
	"step": 1745
	},
	{
	"epoch": 0.9013649240278135,
	"grad_norm": 3.923379435953565,
	"learning_rate": 5.170177255257618e-05,
	"loss": 0.546,
	"num_input_tokens_seen": 20468200,
	"step": 1750
	},
	{
	"epoch": 0.9013649240278135,
	"eval_loss": 0.672294020652771,
	"eval_runtime": 16.0203,
	"eval_samples_per_second": 3.745,
	"eval_steps_per_second": 0.936,
	"num_input_tokens_seen": 20468200,
	"step": 1750
	},
	{
	"epoch": 0.9039402523821787,
	"grad_norm": 4.616122198129487,
	"learning_rate": 5.145873693974188e-05,
	"loss": 0.5248,
	"num_input_tokens_seen": 20526696,
	"step": 1755
	},
	{
	"epoch": 0.9065155807365439,
	"grad_norm": 5.322590172525407,
	"learning_rate": 5.12156668275638e-05,
	"loss": 0.4756,
	"num_input_tokens_seen": 20585160,
	"step": 1760
	},
	{
	"epoch": 0.9090909090909091,
	"grad_norm": 4.002252878507737,
	"learning_rate": 5.097256796468598e-05,
	"loss": 0.4405,
	"num_input_tokens_seen": 20643672,
	"step": 1765
	},
	{
	"epoch": 0.9116662374452743,
	"grad_norm": 5.58017966349683,
	"learning_rate": 5.072944610043232e-05,
	"loss": 0.5201,
	"num_input_tokens_seen": 20702152,
	"step": 1770
	},
	{
	"epoch": 0.9142415657996394,
	"grad_norm": 4.688576373892097,
	"learning_rate": 5.048630698467081e-05,
	"loss": 0.4662,
	"num_input_tokens_seen": 20760664,
	"step": 1775
	},
	{
	"epoch": 0.9168168941540046,
	"grad_norm": 4.984086874604376,
	"learning_rate": 5.024315636767738e-05,
	"loss": 0.5376,
	"num_input_tokens_seen": 20819144,
	"step": 1780
	},
	{
	"epoch": 0.9193922225083698,
	"grad_norm": 4.470690620190923,
	"learning_rate": 5e-05,
	"loss": 0.5174,
	"num_input_tokens_seen": 20877624,
	"step": 1785
	},
	{
	"epoch": 0.921967550862735,
	"grad_norm": 4.1127649145734795,
	"learning_rate": 4.9756843632322626e-05,
	"loss": 0.4273,
	"num_input_tokens_seen": 20936112,
	"step": 1790
	},
	{
	"epoch": 0.9245428792171002,
	"grad_norm": 5.1892527739805185,
	"learning_rate": 4.9513693015329197e-05,
	"loss": 0.4646,
	"num_input_tokens_seen": 20994608,
	"step": 1795
	},
	{
	"epoch": 0.9271182075714653,
	"grad_norm": 6.8574703914708985,
	"learning_rate": 4.9270553899567686e-05,
	"loss": 0.412,
	"num_input_tokens_seen": 21053080,
	"step": 1800
	},
	{
	"epoch": 0.9271182075714653,
	"eval_loss": 0.6768696904182434,
	"eval_runtime": 15.9758,
	"eval_samples_per_second": 3.756,
	"eval_steps_per_second": 0.939,
	"num_input_tokens_seen": 21053080,
	"step": 1800
	},
	{
	"epoch": 0.9296935359258306,
	"grad_norm": 6.328873193178562,
	"learning_rate": 4.902743203531405e-05,
	"loss": 0.4845,
	"num_input_tokens_seen": 21111592,
	"step": 1805
	},
	{
	"epoch": 0.9322688642801957,
	"grad_norm": 4.7019594666508215,
	"learning_rate": 4.8784333172436206e-05,
	"loss": 0.441,
	"num_input_tokens_seen": 21170024,
	"step": 1810
	},
	{
	"epoch": 0.9348441926345609,
	"grad_norm": 4.545287749618146,
	"learning_rate": 4.854126306025812e-05,
	"loss": 0.545,
	"num_input_tokens_seen": 21228480,
	"step": 1815
	},
	{
	"epoch": 0.9374195209889261,
	"grad_norm": 7.047942469299444,
	"learning_rate": 4.829822744742383e-05,
	"loss": 0.4697,
	"num_input_tokens_seen": 21286944,
	"step": 1820
	},
	{
	"epoch": 0.9399948493432912,
	"grad_norm": 3.917758669787159,
	"learning_rate": 4.8055232081761395e-05,
	"loss": 0.423,
	"num_input_tokens_seen": 21345456,
	"step": 1825
	},
	{
	"epoch": 0.9425701776976565,
	"grad_norm": 3.442911876713947,
	"learning_rate": 4.781228271014704e-05,
	"loss": 0.4715,
	"num_input_tokens_seen": 21403896,
	"step": 1830
	},
	{
	"epoch": 0.9451455060520216,
	"grad_norm": 4.755237925353789,
	"learning_rate": 4.756938507836929e-05,
	"loss": 0.5149,
	"num_input_tokens_seen": 21462360,
	"step": 1835
	},
	{
	"epoch": 0.9477208344063868,
	"grad_norm": 5.3552741805060275,
	"learning_rate": 4.732654493099291e-05,
	"loss": 0.5403,
	"num_input_tokens_seen": 21520864,
	"step": 1840
	},
	{
	"epoch": 0.950296162760752,
	"grad_norm": 3.417134377266731,
	"learning_rate": 4.708376801122321e-05,
	"loss": 0.4757,
	"num_input_tokens_seen": 21579376,
	"step": 1845
	},
	{
	"epoch": 0.9528714911151172,
	"grad_norm": 4.6802756294331855,
	"learning_rate": 4.6841060060770154e-05,
	"loss": 0.4347,
	"num_input_tokens_seen": 21637848,
	"step": 1850
	},
	{
	"epoch": 0.9528714911151172,
	"eval_loss": 0.6808218359947205,
	"eval_runtime": 16.1166,
	"eval_samples_per_second": 3.723,
	"eval_steps_per_second": 0.931,
	"num_input_tokens_seen": 21637848,
	"step": 1850
	},
	{
	"epoch": 0.9554468194694824,
	"grad_norm": 5.573192417675986,
	"learning_rate": 4.659842681971258e-05,
	"loss": 0.5132,
	"num_input_tokens_seen": 21696328,
	"step": 1855
	},
	{
	"epoch": 0.9580221478238475,
	"grad_norm": 7.109977536510439,
	"learning_rate": 4.635587402636241e-05,
	"loss": 0.4347,
	"num_input_tokens_seen": 21754816,
	"step": 1860
	},
	{
	"epoch": 0.9605974761782127,
	"grad_norm": 7.143552890986281,
	"learning_rate": 4.611340741712901e-05,
	"loss": 0.4015,
	"num_input_tokens_seen": 21813296,
	"step": 1865
	},
	{
	"epoch": 0.9631728045325779,
	"grad_norm": 6.289734219426663,
	"learning_rate": 4.5871032726383386e-05,
	"loss": 0.5023,
	"num_input_tokens_seen": 21871800,
	"step": 1870
	},
	{
	"epoch": 0.9657481328869431,
	"grad_norm": 5.981747103855226,
	"learning_rate": 4.562875568632278e-05,
	"loss": 0.5334,
	"num_input_tokens_seen": 21930272,
	"step": 1875
	},
	{
	"epoch": 0.9683234612413083,
	"grad_norm": 5.6559760588122545,
	"learning_rate": 4.5386582026834906e-05,
	"loss": 0.4386,
	"num_input_tokens_seen": 21988736,
	"step": 1880
	},
	{
	"epoch": 0.9708987895956734,
	"grad_norm": 5.861060155419055,
	"learning_rate": 4.5144517475362514e-05,
	"loss": 0.3807,
	"num_input_tokens_seen": 22047200,
	"step": 1885
	},
	{
	"epoch": 0.9734741179500386,
	"grad_norm": 7.801226281593827,
	"learning_rate": 4.490256775676797e-05,
	"loss": 0.4177,
	"num_input_tokens_seen": 22105664,
	"step": 1890
	},
	{
	"epoch": 0.9760494463044038,
	"grad_norm": 6.1755894964345135,
	"learning_rate": 4.466073859319781e-05,
	"loss": 0.5239,
	"num_input_tokens_seen": 22164184,
	"step": 1895
	},
	{
	"epoch": 0.978624774658769,
	"grad_norm": 5.397307732194541,
	"learning_rate": 4.441903570394739e-05,
	"loss": 0.3737,
	"num_input_tokens_seen": 22222632,
	"step": 1900
	},
	{
	"epoch": 0.978624774658769,
	"eval_loss": 0.773033082485199,
	"eval_runtime": 15.9975,
	"eval_samples_per_second": 3.751,
	"eval_steps_per_second": 0.938,
	"num_input_tokens_seen": 22222632,
	"step": 1900
	},
	{
	"epoch": 0.9812001030131342,
	"grad_norm": 6.997624273550619,
	"learning_rate": 4.41774648053257e-05,
	"loss": 0.4437,
	"num_input_tokens_seen": 22281080,
	"step": 1905
	},
	{
	"epoch": 0.9837754313674993,
	"grad_norm": 5.030616381143982,
	"learning_rate": 4.3936031610520124e-05,
	"loss": 0.465,
	"num_input_tokens_seen": 22339552,
	"step": 1910
	},
	{
	"epoch": 0.9863507597218646,
	"grad_norm": 5.025845260709186,
	"learning_rate": 4.3694741829461336e-05,
	"loss": 0.4975,
	"num_input_tokens_seen": 22398056,
	"step": 1915
	},
	{
	"epoch": 0.9889260880762297,
	"grad_norm": 6.43843242330618,
	"learning_rate": 4.345360116868823e-05,
	"loss": 0.4504,
	"num_input_tokens_seen": 22456520,
	"step": 1920
	},
	{
	"epoch": 0.9915014164305949,
	"grad_norm": 5.281203851622467,
	"learning_rate": 4.321261533121303e-05,
	"loss": 0.4528,
	"num_input_tokens_seen": 22515024,
	"step": 1925
	},
	{
	"epoch": 0.9940767447849601,
	"grad_norm": 6.158304256456398,
	"learning_rate": 4.2971790016386286e-05,
	"loss": 0.441,
	"num_input_tokens_seen": 22573480,
	"step": 1930
	},
	{
	"epoch": 0.9966520731393252,
	"grad_norm": 3.898263595049965,
	"learning_rate": 4.273113091976225e-05,
	"loss": 0.4678,
	"num_input_tokens_seen": 22631960,
	"step": 1935
	},
	{
	"epoch": 0.9992274014936905,
	"grad_norm": 6.266433889699235,
	"learning_rate": 4.249064373296403e-05,
	"loss": 0.4352,
	"num_input_tokens_seen": 22690432,
	"step": 1940
	},
	{
	"epoch": 1.001545197012619,
	"grad_norm": 2.4601530377865695,
	"learning_rate": 4.225033414354908e-05,
	"loss": 0.3792,
	"num_input_tokens_seen": 22743048,
	"step": 1945
	},
	{
	"epoch": 1.0041205253669843,
	"grad_norm": 4.761740260797231,
	"learning_rate": 4.201020783487464e-05,
	"loss": 0.3783,
	"num_input_tokens_seen": 22801512,
	"step": 1950
	},
	{
	"epoch": 1.0041205253669843,
	"eval_loss": 0.6983156204223633,
	"eval_runtime": 16.3172,
	"eval_samples_per_second": 3.677,
	"eval_steps_per_second": 0.919,
	"num_input_tokens_seen": 22801512,
	"step": 1950
	},
	{
	"epoch": 1.0066958537213495,
	"grad_norm": 6.506183969602581,
	"learning_rate": 4.17702704859633e-05,
	"loss": 0.3784,
	"num_input_tokens_seen": 22859952,
	"step": 1955
	},
	{
	"epoch": 1.0092711820757148,
	"grad_norm": 7.31299798110374,
	"learning_rate": 4.153052777136879e-05,
	"loss": 0.5587,
	"num_input_tokens_seen": 22918440,
	"step": 1960
	},
	{
	"epoch": 1.0118465104300798,
	"grad_norm": 4.338872323547646,
	"learning_rate": 4.1290985361041614e-05,
	"loss": 0.3803,
	"num_input_tokens_seen": 22976944,
	"step": 1965
	},
	{
	"epoch": 1.014421838784445,
	"grad_norm": 6.798827966152428,
	"learning_rate": 4.105164892019514e-05,
	"loss": 0.4038,
	"num_input_tokens_seen": 23035408,
	"step": 1970
	},
	{
	"epoch": 1.0169971671388103,
	"grad_norm": 5.018683403937771,
	"learning_rate": 4.0812524109171476e-05,
	"loss": 0.3226,
	"num_input_tokens_seen": 23093912,
	"step": 1975
	},
	{
	"epoch": 1.0195724954931753,
	"grad_norm": 4.594775856201265,
	"learning_rate": 4.0573616583307705e-05,
	"loss": 0.4026,
	"num_input_tokens_seen": 23152344,
	"step": 1980
	},
	{
	"epoch": 1.0221478238475405,
	"grad_norm": 7.5346230342964695,
	"learning_rate": 4.033493199280202e-05,
	"loss": 0.4225,
	"num_input_tokens_seen": 23210800,
	"step": 1985
	},
	{
	"epoch": 1.0247231522019058,
	"grad_norm": 8.213657673441388,
	"learning_rate": 4.009647598258022e-05,
	"loss": 0.3058,
	"num_input_tokens_seen": 23269304,
	"step": 1990
	},
	{
	"epoch": 1.0272984805562708,
	"grad_norm": 6.881744374075897,
	"learning_rate": 3.985825419216207e-05,
	"loss": 0.3821,
	"num_input_tokens_seen": 23327800,
	"step": 1995
	},
	{
	"epoch": 1.029873808910636,
	"grad_norm": 3.916989546123924,
	"learning_rate": 3.962027225552807e-05,
	"loss": 0.3328,
	"num_input_tokens_seen": 23386232,
	"step": 2000
	},
	{
	"epoch": 1.029873808910636,
	"eval_loss": 0.7484827041625977,
	"eval_runtime": 16.091,
	"eval_samples_per_second": 3.729,
	"eval_steps_per_second": 0.932,
	"num_input_tokens_seen": 23386232,
	"step": 2000
	},
	{
	"epoch": 1.0324491372650013,
	"grad_norm": 5.8532055715340245,
	"learning_rate": 3.938253580098613e-05,
	"loss": 0.362,
	"num_input_tokens_seen": 23444712,
	"step": 2005
	},
	{
	"epoch": 1.0350244656193666,
	"grad_norm": 7.087739461357715,
	"learning_rate": 3.914505045103845e-05,
	"loss": 0.3903,
	"num_input_tokens_seen": 23503192,
	"step": 2010
	},
	{
	"epoch": 1.0375997939737316,
	"grad_norm": 6.061997147134047,
	"learning_rate": 3.8907821822248605e-05,
	"loss": 0.3341,
	"num_input_tokens_seen": 23561688,
	"step": 2015
	},
	{
	"epoch": 1.0401751223280968,
	"grad_norm": 6.783069419644998,
	"learning_rate": 3.867085552510864e-05,
	"loss": 0.4794,
	"num_input_tokens_seen": 23620160,
	"step": 2020
	},
	{
	"epoch": 1.042750450682462,
	"grad_norm": 4.11088291372727,
	"learning_rate": 3.843415716390644e-05,
	"loss": 0.4104,
	"num_input_tokens_seen": 23678624,
	"step": 2025
	},
	{
	"epoch": 1.045325779036827,
	"grad_norm": 5.727855298190317,
	"learning_rate": 3.819773233659314e-05,
	"loss": 0.3639,
	"num_input_tokens_seen": 23737064,
	"step": 2030
	},
	{
	"epoch": 1.0479011073911924,
	"grad_norm": 6.936114108935384,
	"learning_rate": 3.7961586634650767e-05,
	"loss": 0.4294,
	"num_input_tokens_seen": 23795568,
	"step": 2035
	},
	{
	"epoch": 1.0504764357455576,
	"grad_norm": 5.577801320854008,
	"learning_rate": 3.772572564296005e-05,
	"loss": 0.4713,
	"num_input_tokens_seen": 23854040,
	"step": 2040
	},
	{
	"epoch": 1.0530517640999228,
	"grad_norm": 7.466883391944433,
	"learning_rate": 3.749015493966817e-05,
	"loss": 0.3864,
	"num_input_tokens_seen": 23912520,
	"step": 2045
	},
	{
	"epoch": 1.0556270924542879,
	"grad_norm": 4.120909561971508,
	"learning_rate": 3.7254880096057073e-05,
	"loss": 0.3602,
	"num_input_tokens_seen": 23971048,
	"step": 2050
	},
	{
	"epoch": 1.0556270924542879,
	"eval_loss": 0.7190810441970825,
	"eval_runtime": 16.0858,
	"eval_samples_per_second": 3.73,
	"eval_steps_per_second": 0.932,
	"num_input_tokens_seen": 23971048,
	"step": 2050
	},
	{
	"epoch": 1.0582024208086531,
	"grad_norm": 3.701758619566102,
	"learning_rate": 3.7019906676411446e-05,
	"loss": 0.3203,
	"num_input_tokens_seen": 24029544,
	"step": 2055
	},
	{
	"epoch": 1.0607777491630184,
	"grad_norm": 7.855789285552562,
	"learning_rate": 3.678524023788735e-05,
	"loss": 0.3906,
	"num_input_tokens_seen": 24088008,
	"step": 2060
	},
	{
	"epoch": 1.0633530775173834,
	"grad_norm": 6.682460948737117,
	"learning_rate": 3.6550886330380665e-05,
	"loss": 0.3604,
	"num_input_tokens_seen": 24146480,
	"step": 2065
	},
	{
	"epoch": 1.0659284058717486,
	"grad_norm": 3.587156705730744,
	"learning_rate": 3.631685049639586e-05,
	"loss": 0.3271,
	"num_input_tokens_seen": 24204984,
	"step": 2070
	},
	{
	"epoch": 1.0685037342261139,
	"grad_norm": 4.621273077841867,
	"learning_rate": 3.608313827091493e-05,
	"loss": 0.2996,
	"num_input_tokens_seen": 24263456,
	"step": 2075
	},
	{
	"epoch": 1.071079062580479,
	"grad_norm": 6.565390196167412,
	"learning_rate": 3.5849755181266474e-05,
	"loss": 0.3767,
	"num_input_tokens_seen": 24321960,
	"step": 2080
	},
	{
	"epoch": 1.0736543909348442,
	"grad_norm": 6.589833421708817,
	"learning_rate": 3.5616706746995026e-05,
	"loss": 0.4208,
	"num_input_tokens_seen": 24380464,
	"step": 2085
	},
	{
	"epoch": 1.0762297192892094,
	"grad_norm": 4.95070197991303,
	"learning_rate": 3.538399847973036e-05,
	"loss": 0.3479,
	"num_input_tokens_seen": 24438976,
	"step": 2090
	},
	{
	"epoch": 1.0788050476435747,
	"grad_norm": 5.124820683013397,
	"learning_rate": 3.515163588305735e-05,
	"loss": 0.3654,
	"num_input_tokens_seen": 24497448,
	"step": 2095
	},
	{
	"epoch": 1.0813803759979397,
	"grad_norm": 6.444785878585679,
	"learning_rate": 3.491962445238569e-05,
	"loss": 0.3351,
	"num_input_tokens_seen": 24555904,
	"step": 2100
	},
	{
	"epoch": 1.0813803759979397,
	"eval_loss": 0.8075026869773865,
	"eval_runtime": 16.096,
	"eval_samples_per_second": 3.728,
	"eval_steps_per_second": 0.932,
	"num_input_tokens_seen": 24555904,
	"step": 2100
	},
	{
	"epoch": 1.083955704352305,
	"grad_norm": 5.259882631403194,
	"learning_rate": 3.4687969674819906e-05,
	"loss": 0.3827,
	"num_input_tokens_seen": 24614392,
	"step": 2105
	},
	{
	"epoch": 1.0865310327066702,
	"grad_norm": 4.276410371848581,
	"learning_rate": 3.445667702902969e-05,
	"loss": 0.3676,
	"num_input_tokens_seen": 24672848,
	"step": 2110
	},
	{
	"epoch": 1.0891063610610352,
	"grad_norm": 10.209040215860048,
	"learning_rate": 3.4225751985120215e-05,
	"loss": 0.3253,
	"num_input_tokens_seen": 24731344,
	"step": 2115
	},
	{
	"epoch": 1.0916816894154004,
	"grad_norm": 6.169752493978822,
	"learning_rate": 3.3995200004502816e-05,
	"loss": 0.4297,
	"num_input_tokens_seen": 24789832,
	"step": 2120
	},
	{
	"epoch": 1.0942570177697657,
	"grad_norm": 4.238650399680663,
	"learning_rate": 3.3765026539765834e-05,
	"loss": 0.3536,
	"num_input_tokens_seen": 24848264,
	"step": 2125
	},
	{
	"epoch": 1.0968323461241307,
	"grad_norm": 5.445173229006411,
	"learning_rate": 3.3535237034545675e-05,
	"loss": 0.3588,
	"num_input_tokens_seen": 24906744,
	"step": 2130
	},
	{
	"epoch": 1.099407674478496,
	"grad_norm": 4.508587102151408,
	"learning_rate": 3.330583692339802e-05,
	"loss": 0.3666,
	"num_input_tokens_seen": 24965256,
	"step": 2135
	},
	{
	"epoch": 1.1019830028328612,
	"grad_norm": 5.836654544282574,
	"learning_rate": 3.307683163166934e-05,
	"loss": 0.3334,
	"num_input_tokens_seen": 25023768,
	"step": 2140
	},
	{
	"epoch": 1.1045583311872265,
	"grad_norm": 6.855334175793522,
	"learning_rate": 3.284822657536856e-05,
	"loss": 0.3848,
	"num_input_tokens_seen": 25082248,
	"step": 2145
	},
	{
	"epoch": 1.1071336595415915,
	"grad_norm": 5.3006438448712565,
	"learning_rate": 3.262002716103897e-05,
	"loss": 0.3699,
	"num_input_tokens_seen": 25140752,
	"step": 2150
	},
	{
	"epoch": 1.1071336595415915,
	"eval_loss": 0.8523861169815063,
	"eval_runtime": 16.0023,
	"eval_samples_per_second": 3.749,
	"eval_steps_per_second": 0.937,
	"num_input_tokens_seen": 25140752,
	"step": 2150
	},
	{
	"epoch": 1.1097089878959567,
	"grad_norm": 3.943124296473041,
	"learning_rate": 3.2392238785630386e-05,
	"loss": 0.3154,
	"num_input_tokens_seen": 25199208,
	"step": 2155
	},
	{
	"epoch": 1.112284316250322,
	"grad_norm": 8.398532132538953,
	"learning_rate": 3.216486683637146e-05,
	"loss": 0.3915,
	"num_input_tokens_seen": 25257680,
	"step": 2160
	},
	{
	"epoch": 1.114859644604687,
	"grad_norm": 4.081633194377614,
	"learning_rate": 3.1937916690642356e-05,
	"loss": 0.3675,
	"num_input_tokens_seen": 25316200,
	"step": 2165
	},
	{
	"epoch": 1.1174349729590523,
	"grad_norm": 6.920842495491902,
	"learning_rate": 3.1711393715847476e-05,
	"loss": 0.4047,
	"num_input_tokens_seen": 25374656,
	"step": 2170
	},
	{
	"epoch": 1.1200103013134175,
	"grad_norm": 8.460113153700512,
	"learning_rate": 3.14853032692886e-05,
	"loss": 0.4155,
	"num_input_tokens_seen": 25433168,
	"step": 2175
	},
	{
	"epoch": 1.1225856296677827,
	"grad_norm": 9.825074199159944,
	"learning_rate": 3.125965069803811e-05,
	"loss": 0.3966,
	"num_input_tokens_seen": 25491664,
	"step": 2180
	},
	{
	"epoch": 1.1251609580221478,
	"grad_norm": 5.732206927543506,
	"learning_rate": 3.103444133881261e-05,
	"loss": 0.3068,
	"num_input_tokens_seen": 25550128,
	"step": 2185
	},
	{
	"epoch": 1.127736286376513,
	"grad_norm": 6.135036052058211,
	"learning_rate": 3.080968051784666e-05,
	"loss": 0.386,
	"num_input_tokens_seen": 25608624,
	"step": 2190
	},
	{
	"epoch": 1.1303116147308783,
	"grad_norm": 3.31420885852192,
	"learning_rate": 3.058537355076683e-05,
	"loss": 0.3898,
	"num_input_tokens_seen": 25667128,
	"step": 2195
	},
	{
	"epoch": 1.1328869430852433,
	"grad_norm": 8.182546413863832,
	"learning_rate": 3.0361525742465973e-05,
	"loss": 0.4016,
	"num_input_tokens_seen": 25725560,
	"step": 2200
	},
	{
	"epoch": 1.1328869430852433,
	"eval_loss": 0.7534744143486023,
	"eval_runtime": 15.969,
	"eval_samples_per_second": 3.757,
	"eval_steps_per_second": 0.939,
	"num_input_tokens_seen": 25725560,
	"step": 2200
	},
	{
	"epoch": 1.1354622714396085,
	"grad_norm": 4.616007617470174,
	"learning_rate": 3.0138142386977787e-05,
	"loss": 0.3465,
	"num_input_tokens_seen": 25784048,
	"step": 2205
	},
	{
	"epoch": 1.1380375997939738,
	"grad_norm": 4.752551024155875,
	"learning_rate": 2.991522876735154e-05,
	"loss": 0.3077,
	"num_input_tokens_seen": 25842512,
	"step": 2210
	},
	{
	"epoch": 1.140612928148339,
	"grad_norm": 6.021213921198953,
	"learning_rate": 2.9692790155527227e-05,
	"loss": 0.4497,
	"num_input_tokens_seen": 25900992,
	"step": 2215
	},
	{
	"epoch": 1.143188256502704,
	"grad_norm": 8.098592782255322,
	"learning_rate": 2.9470831812210837e-05,
	"loss": 0.3811,
	"num_input_tokens_seen": 25959448,
	"step": 2220
	},
	{
	"epoch": 1.1457635848570693,
	"grad_norm": 6.108837560432838,
	"learning_rate": 2.924935898674992e-05,
	"loss": 0.4053,
	"num_input_tokens_seen": 26017936,
	"step": 2225
	},
	{
	"epoch": 1.1483389132114346,
	"grad_norm": 7.709937017464705,
	"learning_rate": 2.902837691700945e-05,
	"loss": 0.3421,
	"num_input_tokens_seen": 26076440,
	"step": 2230
	},
	{
	"epoch": 1.1509142415657996,
	"grad_norm": 3.840146275079161,
	"learning_rate": 2.880789082924798e-05,
	"loss": 0.3228,
	"num_input_tokens_seen": 26134896,
	"step": 2235
	},
	{
	"epoch": 1.1534895699201648,
	"grad_norm": 6.088757703790803,
	"learning_rate": 2.858790593799405e-05,
	"loss": 0.3695,
	"num_input_tokens_seen": 26193368,
	"step": 2240
	},
	{
	"epoch": 1.15606489827453,
	"grad_norm": 3.8647543120940844,
	"learning_rate": 2.8368427445922696e-05,
	"loss": 0.3463,
	"num_input_tokens_seen": 26251848,
	"step": 2245
	},
	{
	"epoch": 1.158640226628895,
	"grad_norm": 4.425454601086007,
	"learning_rate": 2.8149460543732664e-05,
	"loss": 0.3442,
	"num_input_tokens_seen": 26310336,
	"step": 2250
	},
	{
	"epoch": 1.158640226628895,
	"eval_loss": 0.7066138386726379,
	"eval_runtime": 15.9558,
	"eval_samples_per_second": 3.76,
	"eval_steps_per_second": 0.94,
	"num_input_tokens_seen": 26310336,
	"step": 2250
	},
	{
	"epoch": 1.1612155549832603,
	"grad_norm": 6.312367706992343,
	"learning_rate": 2.7931010410023518e-05,
	"loss": 0.3547,
	"num_input_tokens_seen": 26368840,
	"step": 2255
	},
	{
	"epoch": 1.1637908833376256,
	"grad_norm": 6.429493717694784,
	"learning_rate": 2.771308221117309e-05,
	"loss": 0.3125,
	"num_input_tokens_seen": 26427280,
	"step": 2260
	},
	{
	"epoch": 1.1663662116919906,
	"grad_norm": 6.993677707266103,
	"learning_rate": 2.749568110121545e-05,
	"loss": 0.3521,
	"num_input_tokens_seen": 26485760,
	"step": 2265
	},
	{
	"epoch": 1.1689415400463559,
	"grad_norm": 5.03743116566882,
	"learning_rate": 2.7278812221718924e-05,
	"loss": 0.281,
	"num_input_tokens_seen": 26544224,
	"step": 2270
	},
	{
	"epoch": 1.1715168684007211,
	"grad_norm": 5.828198718501714,
	"learning_rate": 2.7062480701664488e-05,
	"loss": 0.3653,
	"num_input_tokens_seen": 26602712,
	"step": 2275
	},
	{
	"epoch": 1.1740921967550864,
	"grad_norm": 6.1247491578050655,
	"learning_rate": 2.6846691657324473e-05,
	"loss": 0.3964,
	"num_input_tokens_seen": 26661160,
	"step": 2280
	},
	{
	"epoch": 1.1766675251094514,
	"grad_norm": 6.231155247277189,
	"learning_rate": 2.663145019214163e-05,
	"loss": 0.3119,
	"num_input_tokens_seen": 26719648,
	"step": 2285
	},
	{
	"epoch": 1.1792428534638166,
	"grad_norm": 6.501604840456734,
	"learning_rate": 2.6416761396608362e-05,
	"loss": 0.3832,
	"num_input_tokens_seen": 26778112,
	"step": 2290
	},
	{
	"epoch": 1.1818181818181819,
	"grad_norm": 5.377003761278013,
	"learning_rate": 2.6202630348146324e-05,
	"loss": 0.3277,
	"num_input_tokens_seen": 26836592,
	"step": 2295
	},
	{
	"epoch": 1.184393510172547,
	"grad_norm": 4.826044073542379,
	"learning_rate": 2.598906211098643e-05,
	"loss": 0.3877,
	"num_input_tokens_seen": 26895096,
	"step": 2300
	},
	{
	"epoch": 1.184393510172547,
	"eval_loss": 0.727741539478302,
	"eval_runtime": 15.9289,
	"eval_samples_per_second": 3.767,
	"eval_steps_per_second": 0.942,
	"num_input_tokens_seen": 26895096,
	"step": 2300
	},
	{
	"epoch": 1.1869688385269122,
	"grad_norm": 6.370847827905799,
	"learning_rate": 2.577606173604894e-05,
	"loss": 0.3033,
	"num_input_tokens_seen": 26953560,
	"step": 2305
	},
	{
	"epoch": 1.1895441668812774,
	"grad_norm": 11.746077197029585,
	"learning_rate": 2.5563634260824175e-05,
	"loss": 0.4104,
	"num_input_tokens_seen": 27012024,
	"step": 2310
	},
	{
	"epoch": 1.1921194952356426,
	"grad_norm": 3.9544988689102762,
	"learning_rate": 2.535178470925323e-05,
	"loss": 0.3447,
	"num_input_tokens_seen": 27070520,
	"step": 2315
	},
	{
	"epoch": 1.1946948235900077,
	"grad_norm": 4.72491689052158,
	"learning_rate": 2.5140518091609256e-05,
	"loss": 0.2882,
	"num_input_tokens_seen": 27128984,
	"step": 2320
	},
	{
	"epoch": 1.197270151944373,
	"grad_norm": 2.1806068747411245,
	"learning_rate": 2.4929839404378936e-05,
	"loss": 0.2817,
	"num_input_tokens_seen": 27187432,
	"step": 2325
	},
	{
	"epoch": 1.1998454802987382,
	"grad_norm": 3.2798105115490745,
	"learning_rate": 2.471975363014428e-05,
	"loss": 0.3693,
	"num_input_tokens_seen": 27245920,
	"step": 2330
	},
	{
	"epoch": 1.2024208086531032,
	"grad_norm": 7.472396523773262,
	"learning_rate": 2.451026573746482e-05,
	"loss": 0.3587,
	"num_input_tokens_seen": 27304384,
	"step": 2335
	},
	{
	"epoch": 1.2049961370074684,
	"grad_norm": 6.7073623181550275,
	"learning_rate": 2.430138068076013e-05,
	"loss": 0.354,
	"num_input_tokens_seen": 27362864,
	"step": 2340
	},
	{
	"epoch": 1.2075714653618337,
	"grad_norm": 6.2693798293878515,
	"learning_rate": 2.4093103400192625e-05,
	"loss": 0.3209,
	"num_input_tokens_seen": 27421360,
	"step": 2345
	},
	{
	"epoch": 1.210146793716199,
	"grad_norm": 6.606866726236357,
	"learning_rate": 2.388543882155067e-05,
	"loss": 0.3871,
	"num_input_tokens_seen": 27479840,
	"step": 2350
	},
	{
	"epoch": 1.210146793716199,
	"eval_loss": 0.7659633755683899,
	"eval_runtime": 16.0101,
	"eval_samples_per_second": 3.748,
	"eval_steps_per_second": 0.937,
	"num_input_tokens_seen": 27479840,
	"step": 2350
	},
	{
	"epoch": 1.212722122070564,
	"grad_norm": 8.004400275953609,
	"learning_rate": 2.3678391856132204e-05,
	"loss": 0.352,
	"num_input_tokens_seen": 27538344,
	"step": 2355
	},
	{
	"epoch": 1.2152974504249292,
	"grad_norm": 8.385547193425513,
	"learning_rate": 2.3471967400628513e-05,
	"loss": 0.347,
	"num_input_tokens_seen": 27596808,
	"step": 2360
	},
	{
	"epoch": 1.2178727787792945,
	"grad_norm": 3.9234442237475435,
	"learning_rate": 2.3266170337008398e-05,
	"loss": 0.3667,
	"num_input_tokens_seen": 27655272,
	"step": 2365
	},
	{
	"epoch": 1.2204481071336595,
	"grad_norm": 6.584480429736488,
	"learning_rate": 2.306100553240274e-05,
	"loss": 0.3311,
	"num_input_tokens_seen": 27713784,
	"step": 2370
	},
	{
	"epoch": 1.2230234354880247,
	"grad_norm": 5.791637874835276,
	"learning_rate": 2.2856477838989456e-05,
	"loss": 0.2964,
	"num_input_tokens_seen": 27772248,
	"step": 2375
	},
	{
	"epoch": 1.22559876384239,
	"grad_norm": 5.663503226529594,
	"learning_rate": 2.2652592093878666e-05,
	"loss": 0.3683,
	"num_input_tokens_seen": 27830704,
	"step": 2380
	},
	{
	"epoch": 1.228174092196755,
	"grad_norm": 9.657080260273457,
	"learning_rate": 2.244935311899829e-05,
	"loss": 0.3819,
	"num_input_tokens_seen": 27889160,
	"step": 2385
	},
	{
	"epoch": 1.2307494205511202,
	"grad_norm": 4.757552901440964,
	"learning_rate": 2.224676572098007e-05,
	"loss": 0.3084,
	"num_input_tokens_seen": 27947608,
	"step": 2390
	},
	{
	"epoch": 1.2333247489054855,
	"grad_norm": 5.188072586185411,
	"learning_rate": 2.2044834691045873e-05,
	"loss": 0.4267,
	"num_input_tokens_seen": 28006112,
	"step": 2395
	},
	{
	"epoch": 1.2359000772598505,
	"grad_norm": 7.221389028269126,
	"learning_rate": 2.184356480489432e-05,
	"loss": 0.3486,
	"num_input_tokens_seen": 28064552,
	"step": 2400
	},
	{
	"epoch": 1.2359000772598505,
	"eval_loss": 0.7410638928413391,
	"eval_runtime": 15.945,
	"eval_samples_per_second": 3.763,
	"eval_steps_per_second": 0.941,
	"num_input_tokens_seen": 28064552,
	"step": 2400
	},
	{
	"epoch": 1.2384754056142158,
	"grad_norm": 4.430659190759614,
	"learning_rate": 2.1642960822587878e-05,
	"loss": 0.2416,
	"num_input_tokens_seen": 28123016,
	"step": 2405
	},
	{
	"epoch": 1.241050733968581,
	"grad_norm": 4.985077238748084,
	"learning_rate": 2.1443027488440338e-05,
	"loss": 0.3007,
	"num_input_tokens_seen": 28181464,
	"step": 2410
	},
	{
	"epoch": 1.2436260623229463,
	"grad_norm": 11.21074775906945,
	"learning_rate": 2.124376953090456e-05,
	"loss": 0.2655,
	"num_input_tokens_seen": 28239920,
	"step": 2415
	},
	{
	"epoch": 1.2462013906773113,
	"grad_norm": 6.8116545197169724,
	"learning_rate": 2.104519166246059e-05,
	"loss": 0.3075,
	"num_input_tokens_seen": 28298432,
	"step": 2420
	},
	{
	"epoch": 1.2487767190316765,
	"grad_norm": 10.87615610006345,
	"learning_rate": 2.0847298579504344e-05,
	"loss": 0.3537,
	"num_input_tokens_seen": 28356904,
	"step": 2425
	},
	{
	"epoch": 1.2513520473860418,
	"grad_norm": 3.9413743825159133,
	"learning_rate": 2.065009496223638e-05,
	"loss": 0.2993,
	"num_input_tokens_seen": 28415384,
	"step": 2430
	},
	{
	"epoch": 1.2539273757404068,
	"grad_norm": 3.3043013555966407,
	"learning_rate": 2.045358547455138e-05,
	"loss": 0.2752,
	"num_input_tokens_seen": 28473848,
	"step": 2435
	},
	{
	"epoch": 1.256502704094772,
	"grad_norm": 3.6641007142438338,
	"learning_rate": 2.0257774763927655e-05,
	"loss": 0.2975,
	"num_input_tokens_seen": 28532312,
	"step": 2440
	},
	{
	"epoch": 1.2590780324491373,
	"grad_norm": 6.306122720573227,
	"learning_rate": 2.0062667461317426e-05,
	"loss": 0.4051,
	"num_input_tokens_seen": 28590784,
	"step": 2445
	},
	{
	"epoch": 1.2616533608035025,
	"grad_norm": 4.823015256168698,
	"learning_rate": 1.9868268181037185e-05,
	"loss": 0.2966,
	"num_input_tokens_seen": 28649256,
	"step": 2450
	},
	{
	"epoch": 1.2616533608035025,
	"eval_loss": 0.7485548853874207,
	"eval_runtime": 16.0437,
	"eval_samples_per_second": 3.74,
	"eval_steps_per_second": 0.935,
	"num_input_tokens_seen": 28649256,
	"step": 2450
	},
	{
	"epoch": 1.2642286891578676,
	"grad_norm": 10.005201788297592,
	"learning_rate": 1.967458152065857e-05,
	"loss": 0.2664,
	"num_input_tokens_seen": 28707736,
	"step": 2455
	},
	{
	"epoch": 1.2668040175122328,
	"grad_norm": 4.744134155404128,
	"learning_rate": 1.9481612060899646e-05,
	"loss": 0.3692,
	"num_input_tokens_seen": 28766232,
	"step": 2460
	},
	{
	"epoch": 1.269379345866598,
	"grad_norm": 8.49200897563331,
	"learning_rate": 1.928936436551661e-05,
	"loss": 0.315,
	"num_input_tokens_seen": 28824688,
	"step": 2465
	},
	{
	"epoch": 1.271954674220963,
	"grad_norm": 5.112500789477909,
	"learning_rate": 1.9097842981195834e-05,
	"loss": 0.3536,
	"num_input_tokens_seen": 28883176,
	"step": 2470
	},
	{
	"epoch": 1.2745300025753283,
	"grad_norm": 4.93472430343828,
	"learning_rate": 1.8907052437446272e-05,
	"loss": 0.3143,
	"num_input_tokens_seen": 28941592,
	"step": 2475
	},
	{
	"epoch": 1.2771053309296936,
	"grad_norm": 4.6754631245280365,
	"learning_rate": 1.871699724649244e-05,
	"loss": 0.3114,
	"num_input_tokens_seen": 29000064,
	"step": 2480
	},
	{
	"epoch": 1.2796806592840588,
	"grad_norm": 7.198381813960669,
	"learning_rate": 1.8527681903167644e-05,
	"loss": 0.3327,
	"num_input_tokens_seen": 29058496,
	"step": 2485
	},
	{
	"epoch": 1.2822559876384239,
	"grad_norm": 9.221713217692685,
	"learning_rate": 1.833911088480767e-05,
	"loss": 0.2543,
	"num_input_tokens_seen": 29116992,
	"step": 2490
	},
	{
	"epoch": 1.284831315992789,
	"grad_norm": 8.499870267936974,
	"learning_rate": 1.8151288651144893e-05,
	"loss": 0.2854,
	"num_input_tokens_seen": 29175496,
	"step": 2495
	},
	{
	"epoch": 1.2874066443471541,
	"grad_norm": 4.289294450742717,
	"learning_rate": 1.796421964420285e-05,
	"loss": 0.3221,
	"num_input_tokens_seen": 29233968,
	"step": 2500
	},
	{
	"epoch": 1.2874066443471541,
	"eval_loss": 0.7222262620925903,
	"eval_runtime": 16.106,
	"eval_samples_per_second": 3.725,
	"eval_steps_per_second": 0.931,
	"num_input_tokens_seen": 29233968,
	"step": 2500
	},
	{
	"epoch": 1.2899819727015194,
	"grad_norm": 3.3788238852269035,
	"learning_rate": 1.7777908288191176e-05,
	"loss": 0.2344,
	"num_input_tokens_seen": 29292464,
	"step": 2505
	},
	{
	"epoch": 1.2925573010558846,
	"grad_norm": 9.201457612553746,
	"learning_rate": 1.7592358989400883e-05,
	"loss": 0.2727,
	"num_input_tokens_seen": 29350952,
	"step": 2510
	},
	{
	"epoch": 1.2951326294102499,
	"grad_norm": 4.626370050462018,
	"learning_rate": 1.740757613610028e-05,
	"loss": 0.2687,
	"num_input_tokens_seen": 29409432,
	"step": 2515
	},
	{
	"epoch": 1.2977079577646151,
	"grad_norm": 5.784936514951468,
	"learning_rate": 1.7223564098431067e-05,
	"loss": 0.2632,
	"num_input_tokens_seen": 29467880,
	"step": 2520
	},
	{
	"epoch": 1.3002832861189801,
	"grad_norm": 4.405244480948001,
	"learning_rate": 1.704032722830512e-05,
	"loss": 0.3057,
	"num_input_tokens_seen": 29526384,
	"step": 2525
	},
	{
	"epoch": 1.3028586144733454,
	"grad_norm": 7.8069578913798825,
	"learning_rate": 1.68578698593014e-05,
	"loss": 0.3054,
	"num_input_tokens_seen": 29584880,
	"step": 2530
	},
	{
	"epoch": 1.3054339428277104,
	"grad_norm": 6.957468356582848,
	"learning_rate": 1.6676196306563613e-05,
	"loss": 0.28,
	"num_input_tokens_seen": 29643344,
	"step": 2535
	},
	{
	"epoch": 1.3080092711820757,
	"grad_norm": 9.353535349996537,
	"learning_rate": 1.6495310866698093e-05,
	"loss": 0.3169,
	"num_input_tokens_seen": 29701864,
	"step": 2540
	},
	{
	"epoch": 1.310584599536441,
	"grad_norm": 5.246799138683368,
	"learning_rate": 1.631521781767214e-05,
	"loss": 0.2985,
	"num_input_tokens_seen": 29760376,
	"step": 2545
	},
	{
	"epoch": 1.3131599278908062,
	"grad_norm": 10.51357763616516,
	"learning_rate": 1.6135921418712956e-05,
	"loss": 0.3231,
	"num_input_tokens_seen": 29818856,
	"step": 2550
	},
	{
	"epoch": 1.3131599278908062,
	"eval_loss": 0.7146337628364563,
	"eval_runtime": 16.171,
	"eval_samples_per_second": 3.71,
	"eval_steps_per_second": 0.928,
	"num_input_tokens_seen": 29818856,
	"step": 2550
	},
	{
	"epoch": 1.3157352562451712,
	"grad_norm": 5.568529968511631,
	"learning_rate": 1.5957425910206785e-05,
	"loss": 0.2689,
	"num_input_tokens_seen": 29877288,
	"step": 2555
	},
	{
	"epoch": 1.3183105845995364,
	"grad_norm": 4.860244764698273,
	"learning_rate": 1.577973551359877e-05,
	"loss": 0.3889,
	"num_input_tokens_seen": 29935776,
	"step": 2560
	},
	{
	"epoch": 1.3208859129539017,
	"grad_norm": 4.938342083847672,
	"learning_rate": 1.560285443129296e-05,
	"loss": 0.2489,
	"num_input_tokens_seen": 29994232,
	"step": 2565
	},
	{
	"epoch": 1.3234612413082667,
	"grad_norm": 7.223451539163128,
	"learning_rate": 1.542678684655306e-05,
	"loss": 0.3016,
	"num_input_tokens_seen": 30052760,
	"step": 2570
	},
	{
	"epoch": 1.326036569662632,
	"grad_norm": 8.03849051806361,
	"learning_rate": 1.5251536923403426e-05,
	"loss": 0.3063,
	"num_input_tokens_seen": 30111200,
	"step": 2575
	},
	{
	"epoch": 1.3286118980169972,
	"grad_norm": 6.631117517846943,
	"learning_rate": 1.5077108806530581e-05,
	"loss": 0.3159,
	"num_input_tokens_seen": 30169680,
	"step": 2580
	},
	{
	"epoch": 1.3311872263713624,
	"grad_norm": 4.171513219192368,
	"learning_rate": 1.4903506621185192e-05,
	"loss": 0.3752,
	"num_input_tokens_seen": 30228176,
	"step": 2585
	},
	{
	"epoch": 1.3337625547257275,
	"grad_norm": 4.3829742543964985,
	"learning_rate": 1.4730734473084568e-05,
	"loss": 0.3207,
	"num_input_tokens_seen": 30286656,
	"step": 2590
	},
	{
	"epoch": 1.3363378830800927,
	"grad_norm": 7.160007281376411,
	"learning_rate": 1.4558796448315504e-05,
	"loss": 0.2928,
	"num_input_tokens_seen": 30345160,
	"step": 2595
	},
	{
	"epoch": 1.338913211434458,
	"grad_norm": 7.316812087176357,
	"learning_rate": 1.4387696613237612e-05,
	"loss": 0.2779,
	"num_input_tokens_seen": 30403640,
	"step": 2600
	},
	{
	"epoch": 1.338913211434458,
	"eval_loss": 0.695651650428772,
	"eval_runtime": 16.2569,
	"eval_samples_per_second": 3.691,
	"eval_steps_per_second": 0.923,
	"num_input_tokens_seen": 30403640,
	"step": 2600
	},
	{
	"epoch": 1.341488539788823,
	"grad_norm": 6.900087606750275,
	"learning_rate": 1.4217439014387251e-05,
	"loss": 0.3037,
	"num_input_tokens_seen": 30462128,
	"step": 2605
	},
	{
	"epoch": 1.3440638681431882,
	"grad_norm": 9.361737062462586,
	"learning_rate": 1.404802767838176e-05,
	"loss": 0.2905,
	"num_input_tokens_seen": 30520616,
	"step": 2610
	},
	{
	"epoch": 1.3466391964975535,
	"grad_norm": 11.101564672040755,
	"learning_rate": 1.3879466611824199e-05,
	"loss": 0.317,
	"num_input_tokens_seen": 30579024,
	"step": 2615
	},
	{
	"epoch": 1.3492145248519187,
	"grad_norm": 5.213355428878847,
	"learning_rate": 1.371175980120864e-05,
	"loss": 0.2794,
	"num_input_tokens_seen": 30637464,
	"step": 2620
	},
	{
	"epoch": 1.3517898532062838,
	"grad_norm": 4.8688198861459915,
	"learning_rate": 1.3544911212825906e-05,
	"loss": 0.3056,
	"num_input_tokens_seen": 30695936,
	"step": 2625
	},
	{
	"epoch": 1.354365181560649,
	"grad_norm": 9.002025840794365,
	"learning_rate": 1.337892479266974e-05,
	"loss": 0.2712,
	"num_input_tokens_seen": 30754408,
	"step": 2630
	},
	{
	"epoch": 1.356940509915014,
	"grad_norm": 4.793656741683869,
	"learning_rate": 1.3213804466343421e-05,
	"loss": 0.2615,
	"num_input_tokens_seen": 30812848,
	"step": 2635
	},
	{
	"epoch": 1.3595158382693793,
	"grad_norm": 5.128300113893045,
	"learning_rate": 1.3049554138967051e-05,
	"loss": 0.2661,
	"num_input_tokens_seen": 30871344,
	"step": 2640
	},
	{
	"epoch": 1.3620911666237445,
	"grad_norm": 6.038434247454305,
	"learning_rate": 1.2886177695085078e-05,
	"loss": 0.3272,
	"num_input_tokens_seen": 30929824,
	"step": 2645
	},
	{
	"epoch": 1.3646664949781098,
	"grad_norm": 5.501317116522042,
	"learning_rate": 1.2723678998574512e-05,
	"loss": 0.2962,
	"num_input_tokens_seen": 30988344,
	"step": 2650
	},
	{
	"epoch": 1.3646664949781098,
	"eval_loss": 0.7657458186149597,
	"eval_runtime": 16.0821,
	"eval_samples_per_second": 3.731,
	"eval_steps_per_second": 0.933,
	"num_input_tokens_seen": 30988344,
	"step": 2650
	},
	{
	"epoch": 1.367241823332475,
	"grad_norm": 5.445887797084714,
	"learning_rate": 1.2562061892553473e-05,
	"loss": 0.3207,
	"num_input_tokens_seen": 31046848,
	"step": 2655
	},
	{
	"epoch": 1.36981715168684,
	"grad_norm": 8.28343197617098,
	"learning_rate": 1.2401330199290367e-05,
	"loss": 0.3001,
	"num_input_tokens_seen": 31105352,
	"step": 2660
	},
	{
	"epoch": 1.3723924800412053,
	"grad_norm": 6.0349779847885054,
	"learning_rate": 1.224148772011346e-05,
	"loss": 0.2858,
	"num_input_tokens_seen": 31163848,
	"step": 2665
	},
	{
	"epoch": 1.3749678083955703,
	"grad_norm": 6.430225669948217,
	"learning_rate": 1.2082538235320929e-05,
	"loss": 0.2338,
	"num_input_tokens_seen": 31222360,
	"step": 2670
	},
	{
	"epoch": 1.3775431367499356,
	"grad_norm": 7.550675916086161,
	"learning_rate": 1.1924485504091565e-05,
	"loss": 0.2212,
	"num_input_tokens_seen": 31280840,
	"step": 2675
	},
	{
	"epoch": 1.3801184651043008,
	"grad_norm": 9.927835245980713,
	"learning_rate": 1.1767333264395736e-05,
	"loss": 0.3131,
	"num_input_tokens_seen": 31339264,
	"step": 2680
	},
	{
	"epoch": 1.382693793458666,
	"grad_norm": 6.940248775417007,
	"learning_rate": 1.1611085232907132e-05,
	"loss": 0.3616,
	"num_input_tokens_seen": 31397744,
	"step": 2685
	},
	{
	"epoch": 1.385269121813031,
	"grad_norm": 13.50108715364713,
	"learning_rate": 1.14557451049147e-05,
	"loss": 0.3153,
	"num_input_tokens_seen": 31456240,
	"step": 2690
	},
	{
	"epoch": 1.3878444501673963,
	"grad_norm": 5.379761157260886,
	"learning_rate": 1.1301316554235397e-05,
	"loss": 0.3044,
	"num_input_tokens_seen": 31514744,
	"step": 2695
	},
	{
	"epoch": 1.3904197785217616,
	"grad_norm": 6.480605347127299,
	"learning_rate": 1.114780323312724e-05,
	"loss": 0.3163,
	"num_input_tokens_seen": 31573240,
	"step": 2700
	},
	{
	"epoch": 1.3904197785217616,
	"eval_loss": 0.7473158240318298,
	"eval_runtime": 16.166,
	"eval_samples_per_second": 3.711,
	"eval_steps_per_second": 0.928,
	"num_input_tokens_seen": 31573240,
	"step": 2700
	},
	{
	"epoch": 1.3929951068761266,
	"grad_norm": 4.579483859059419,
	"learning_rate": 1.0995208772202897e-05,
	"loss": 0.2798,
	"num_input_tokens_seen": 31631688,
	"step": 2705
	},
	{
	"epoch": 1.3955704352304918,
	"grad_norm": 6.098482033036635,
	"learning_rate": 1.0843536780343865e-05,
	"loss": 0.289,
	"num_input_tokens_seen": 31690200,
	"step": 2710
	},
	{
	"epoch": 1.398145763584857,
	"grad_norm": 9.834029857293697,
	"learning_rate": 1.069279084461513e-05,
	"loss": 0.2844,
	"num_input_tokens_seen": 31748664,
	"step": 2715
	},
	{
	"epoch": 1.4007210919392223,
	"grad_norm": 9.387518267357049,
	"learning_rate": 1.0542974530180327e-05,
	"loss": 0.3254,
	"num_input_tokens_seen": 31807176,
	"step": 2720
	},
	{
	"epoch": 1.4032964202935874,
	"grad_norm": 5.648695214602192,
	"learning_rate": 1.0394091380217352e-05,
	"loss": 0.3683,
	"num_input_tokens_seen": 31865696,
	"step": 2725
	},
	{
	"epoch": 1.4058717486479526,
	"grad_norm": 5.202858729177478,
	"learning_rate": 1.0246144915834683e-05,
	"loss": 0.2968,
	"num_input_tokens_seen": 31924200,
	"step": 2730
	},
	{
	"epoch": 1.4084470770023179,
	"grad_norm": 4.808429946385537,
	"learning_rate": 1.0099138635988026e-05,
	"loss": 0.2943,
	"num_input_tokens_seen": 31982712,
	"step": 2735
	},
	{
	"epoch": 1.4110224053566829,
	"grad_norm": 5.094039780174813,
	"learning_rate": 9.953076017397578e-06,
	"loss": 0.3037,
	"num_input_tokens_seen": 32041176,
	"step": 2740
	},
	{
	"epoch": 1.4135977337110481,
	"grad_norm": 5.807237736394797,
	"learning_rate": 9.807960514465792e-06,
	"loss": 0.3019,
	"num_input_tokens_seen": 32099656,
	"step": 2745
	},
	{
	"epoch": 1.4161730620654134,
	"grad_norm": 6.27488451409393,
	"learning_rate": 9.663795559195733e-06,
	"loss": 0.164,
	"num_input_tokens_seen": 32158144,
	"step": 2750
	},
	{
	"epoch": 1.4161730620654134,
	"eval_loss": 0.7807286381721497,
	"eval_runtime": 16.139,
	"eval_samples_per_second": 3.718,
	"eval_steps_per_second": 0.929,
	"num_input_tokens_seen": 32158144,
	"step": 2750
	},
	{
	"epoch": 1.4187483904197786,
	"grad_norm": 6.584628814510667,
	"learning_rate": 9.520584561109864e-06,
	"loss": 0.3333,
	"num_input_tokens_seen": 32216656,
	"step": 2755
	},
	{
	"epoch": 1.4213237187741437,
	"grad_norm": 7.509676086247465,
	"learning_rate": 9.378330907169386e-06,
	"loss": 0.2993,
	"num_input_tokens_seen": 32275168,
	"step": 2760
	},
	{
	"epoch": 1.423899047128509,
	"grad_norm": 5.1775193353141535,
	"learning_rate": 9.237037961694223e-06,
	"loss": 0.2683,
	"num_input_tokens_seen": 32333664,
	"step": 2765
	},
	{
	"epoch": 1.4264743754828741,
	"grad_norm": 7.856433365965151,
	"learning_rate": 9.096709066283354e-06,
	"loss": 0.3145,
	"num_input_tokens_seen": 32392088,
	"step": 2770
	},
	{
	"epoch": 1.4290497038372392,
	"grad_norm": 8.252870521534577,
	"learning_rate": 8.957347539735872e-06,
	"loss": 0.3092,
	"num_input_tokens_seen": 32450584,
	"step": 2775
	},
	{
	"epoch": 1.4316250321916044,
	"grad_norm": 9.74883489294415,
	"learning_rate": 8.818956677972406e-06,
	"loss": 0.2993,
	"num_input_tokens_seen": 32509096,
	"step": 2780
	},
	{
	"epoch": 1.4342003605459697,
	"grad_norm": 4.008158818829899,
	"learning_rate": 8.681539753957269e-06,
	"loss": 0.326,
	"num_input_tokens_seen": 32567560,
	"step": 2785
	},
	{
	"epoch": 1.436775688900335,
	"grad_norm": 3.4229494980881174,
	"learning_rate": 8.545100017620988e-06,
	"loss": 0.2494,
	"num_input_tokens_seen": 32626056,
	"step": 2790
	},
	{
	"epoch": 1.4393510172547,
	"grad_norm": 4.425295787830864,
	"learning_rate": 8.409640695783443e-06,
	"loss": 0.2691,
	"num_input_tokens_seen": 32684520,
	"step": 2795
	},
	{
	"epoch": 1.4419263456090652,
	"grad_norm": 5.132559476583136,
	"learning_rate": 8.275164992077556e-06,
	"loss": 0.2939,
	"num_input_tokens_seen": 32743032,
	"step": 2800
	},
	{
	"epoch": 1.4419263456090652,
	"eval_loss": 0.791334331035614,
	"eval_runtime": 16.1142,
	"eval_samples_per_second": 3.723,
	"eval_steps_per_second": 0.931,
	"num_input_tokens_seen": 32743032,
	"step": 2800
	},
	{
	"epoch": 1.4445016739634302,
	"grad_norm": 4.932628514942533,
	"learning_rate": 8.141676086873572e-06,
	"loss": 0.2974,
	"num_input_tokens_seen": 32801504,
	"step": 2805
	},
	{
	"epoch": 1.4470770023177955,
	"grad_norm": 8.764444587690557,
	"learning_rate": 8.009177137203794e-06,
	"loss": 0.2849,
	"num_input_tokens_seen": 32860032,
	"step": 2810
	},
	{
	"epoch": 1.4496523306721607,
	"grad_norm": 5.502098759051231,
	"learning_rate": 7.877671276687898e-06,
	"loss": 0.3024,
	"num_input_tokens_seen": 32918472,
	"step": 2815
	},
	{
	"epoch": 1.452227659026526,
	"grad_norm": 3.2634043608450183,
	"learning_rate": 7.747161615458902e-06,
	"loss": 0.2565,
	"num_input_tokens_seen": 32976944,
	"step": 2820
	},
	{
	"epoch": 1.4548029873808912,
	"grad_norm": 4.852977750360098,
	"learning_rate": 7.617651240089546e-06,
	"loss": 0.2473,
	"num_input_tokens_seen": 33035424,
	"step": 2825
	},
	{
	"epoch": 1.4573783157352562,
	"grad_norm": 8.667293936674204,
	"learning_rate": 7.489143213519301e-06,
	"loss": 0.3118,
	"num_input_tokens_seen": 33093880,
	"step": 2830
	},
	{
	"epoch": 1.4599536440896215,
	"grad_norm": 9.253351843058615,
	"learning_rate": 7.361640574981937e-06,
	"loss": 0.2593,
	"num_input_tokens_seen": 33152328,
	"step": 2835
	},
	{
	"epoch": 1.4625289724439865,
	"grad_norm": 6.811131820051524,
	"learning_rate": 7.2351463399336735e-06,
	"loss": 0.284,
	"num_input_tokens_seen": 33210816,
	"step": 2840
	},
	{
	"epoch": 1.4651043007983517,
	"grad_norm": 4.086720732934785,
	"learning_rate": 7.109663499981834e-06,
	"loss": 0.2671,
	"num_input_tokens_seen": 33269320,
	"step": 2845
	},
	{
	"epoch": 1.467679629152717,
	"grad_norm": 9.463519299706055,
	"learning_rate": 6.985195022814067e-06,
	"loss": 0.2848,
	"num_input_tokens_seen": 33327720,
	"step": 2850
	},
	{
	"epoch": 1.467679629152717,
	"eval_loss": 0.8045337796211243,
	"eval_runtime": 15.9996,
	"eval_samples_per_second": 3.75,
	"eval_steps_per_second": 0.938,
	"num_input_tokens_seen": 33327720,
	"step": 2850
	},
	{
	"epoch": 1.4702549575070822,
	"grad_norm": 6.856320486947826,
	"learning_rate": 6.861743852128233e-06,
	"loss": 0.2811,
	"num_input_tokens_seen": 33386160,
	"step": 2855
	},
	{
	"epoch": 1.4728302858614473,
	"grad_norm": 8.133776634702407,
	"learning_rate": 6.7393129075627335e-06,
	"loss": 0.2394,
	"num_input_tokens_seen": 33444648,
	"step": 2860
	},
	{
	"epoch": 1.4754056142158125,
	"grad_norm": 5.884612144672532,
	"learning_rate": 6.6179050846274515e-06,
	"loss": 0.243,
	"num_input_tokens_seen": 33503144,
	"step": 2865
	},
	{
	"epoch": 1.4779809425701778,
	"grad_norm": 7.133095118516192,
	"learning_rate": 6.497523254635296e-06,
	"loss": 0.242,
	"num_input_tokens_seen": 33561600,
	"step": 2870
	},
	{
	"epoch": 1.4805562709245428,
	"grad_norm": 3.725193081900286,
	"learning_rate": 6.37817026463432e-06,
	"loss": 0.1864,
	"num_input_tokens_seen": 33620056,
	"step": 2875
	},
	{
	"epoch": 1.483131599278908,
	"grad_norm": 5.26408055314188,
	"learning_rate": 6.25984893734034e-06,
	"loss": 0.2406,
	"num_input_tokens_seen": 33678512,
	"step": 2880
	},
	{
	"epoch": 1.4857069276332733,
	"grad_norm": 5.139938399894378,
	"learning_rate": 6.142562071070179e-06,
	"loss": 0.2287,
	"num_input_tokens_seen": 33736960,
	"step": 2885
	},
	{
	"epoch": 1.4882822559876385,
	"grad_norm": 5.551633292498772,
	"learning_rate": 6.026312439675552e-06,
	"loss": 0.2643,
	"num_input_tokens_seen": 33795416,
	"step": 2890
	},
	{
	"epoch": 1.4908575843420036,
	"grad_norm": 5.974549504189433,
	"learning_rate": 5.911102792477357e-06,
	"loss": 0.2956,
	"num_input_tokens_seen": 33853936,
	"step": 2895
	},
	{
	"epoch": 1.4934329126963688,
	"grad_norm": 5.786971041370645,
	"learning_rate": 5.796935854200763e-06,
	"loss": 0.29,
	"num_input_tokens_seen": 33912440,
	"step": 2900
	},
	{
	"epoch": 1.4934329126963688,
	"eval_loss": 0.8113046884536743,
	"eval_runtime": 16.0025,
	"eval_samples_per_second": 3.749,
	"eval_steps_per_second": 0.937,
	"num_input_tokens_seen": 33912440,
	"step": 2900
	},
	{
	"epoch": 1.496008241050734,
	"grad_norm": 5.559213288581127,
	"learning_rate": 5.683814324910685e-06,
	"loss": 0.2815,
	"num_input_tokens_seen": 33970888,
	"step": 2905
	},
	{
	"epoch": 1.498583569405099,
	"grad_norm": 4.093818675769417,
	"learning_rate": 5.571740879947979e-06,
	"loss": 0.2737,
	"num_input_tokens_seen": 34029376,
	"step": 2910
	},
	{
	"epoch": 1.5011588977594643,
	"grad_norm": 3.092699650877493,
	"learning_rate": 5.4607181698661634e-06,
	"loss": 0.2445,
	"num_input_tokens_seen": 34087864,
	"step": 2915
	},
	{
	"epoch": 1.5037342261138296,
	"grad_norm": 11.010380823046683,
	"learning_rate": 5.35074882036869e-06,
	"loss": 0.2802,
	"num_input_tokens_seen": 34146296,
	"step": 2920
	},
	{
	"epoch": 1.5063095544681948,
	"grad_norm": 6.09904123406433,
	"learning_rate": 5.241835432246889e-06,
	"loss": 0.2379,
	"num_input_tokens_seen": 34204800,
	"step": 2925
	},
	{
	"epoch": 1.5088848828225598,
	"grad_norm": 6.205588168386299,
	"learning_rate": 5.133980581318459e-06,
	"loss": 0.2783,
	"num_input_tokens_seen": 34263296,
	"step": 2930
	},
	{
	"epoch": 1.511460211176925,
	"grad_norm": 5.945749064464075,
	"learning_rate": 5.027186818366542e-06,
	"loss": 0.2609,
	"num_input_tokens_seen": 34321792,
	"step": 2935
	},
	{
	"epoch": 1.51403553953129,
	"grad_norm": 6.50829738633896,
	"learning_rate": 4.921456669079366e-06,
	"loss": 0.2367,
	"num_input_tokens_seen": 34380264,
	"step": 2940
	},
	{
	"epoch": 1.5166108678856554,
	"grad_norm": 8.02525724539128,
	"learning_rate": 4.816792633990569e-06,
	"loss": 0.3644,
	"num_input_tokens_seen": 34438752,
	"step": 2945
	},
	{
	"epoch": 1.5191861962400206,
	"grad_norm": 8.28398511184134,
	"learning_rate": 4.713197188420026e-06,
	"loss": 0.2494,
	"num_input_tokens_seen": 34497216,
	"step": 2950
	},
	{
	"epoch": 1.5191861962400206,
	"eval_loss": 0.8177086710929871,
	"eval_runtime": 16.0851,
	"eval_samples_per_second": 3.73,
	"eval_steps_per_second": 0.933,
	"num_input_tokens_seen": 34497216,
	"step": 2950
	},
	{
	"epoch": 1.5217615245943859,
	"grad_norm": 7.1653439027229,
	"learning_rate": 4.610672782415276e-06,
	"loss": 0.2892,
	"num_input_tokens_seen": 34555704,
	"step": 2955
	},
	{
	"epoch": 1.524336852948751,
	"grad_norm": 5.9872264088640295,
	"learning_rate": 4.509221840693656e-06,
	"loss": 0.3006,
	"num_input_tokens_seen": 34614168,
	"step": 2960
	},
	{
	"epoch": 1.5269121813031161,
	"grad_norm": 3.47728801697101,
	"learning_rate": 4.408846762584901e-06,
	"loss": 0.2931,
	"num_input_tokens_seen": 34672624,
	"step": 2965
	},
	{
	"epoch": 1.5294875096574814,
	"grad_norm": 5.342563435045045,
	"learning_rate": 4.309549921974421e-06,
	"loss": 0.2255,
	"num_input_tokens_seen": 34731056,
	"step": 2970
	},
	{
	"epoch": 1.5320628380118464,
	"grad_norm": 8.130368656554953,
	"learning_rate": 4.2113336672471245e-06,
	"loss": 0.2725,
	"num_input_tokens_seen": 34789552,
	"step": 2975
	},
	{
	"epoch": 1.5346381663662116,
	"grad_norm": 6.656792231449799,
	"learning_rate": 4.114200321231937e-06,
	"loss": 0.3158,
	"num_input_tokens_seen": 34848064,
	"step": 2980
	},
	{
	"epoch": 1.537213494720577,
	"grad_norm": 16.361277885783338,
	"learning_rate": 4.018152181146823e-06,
	"loss": 0.2562,
	"num_input_tokens_seen": 34906592,
	"step": 2985
	},
	{
	"epoch": 1.5397888230749421,
	"grad_norm": 5.885778380254227,
	"learning_rate": 3.923191518544434e-06,
	"loss": 0.2814,
	"num_input_tokens_seen": 34965064,
	"step": 2990
	},
	{
	"epoch": 1.5423641514293074,
	"grad_norm": 7.567800102342742,
	"learning_rate": 3.829320579258466e-06,
	"loss": 0.2555,
	"num_input_tokens_seen": 35023552,
	"step": 2995
	},
	{
	"epoch": 1.5449394797836724,
	"grad_norm": 6.846236051634878,
	"learning_rate": 3.7365415833504725e-06,
	"loss": 0.2259,
	"num_input_tokens_seen": 35082056,
	"step": 3000
	},
	{
	"epoch": 1.5449394797836724,
	"eval_loss": 0.8405727744102478,
	"eval_runtime": 16.2083,
	"eval_samples_per_second": 3.702,
	"eval_steps_per_second": 0.925,
	"num_input_tokens_seen": 35082056,
	"step": 3000
	},
	{
	"epoch": 1.5475148081380374,
	"grad_norm": 5.643348291984009,
	"learning_rate": 3.644856725057405e-06,
	"loss": 0.2157,
	"num_input_tokens_seen": 35140568,
	"step": 3005
	},
	{
	"epoch": 1.5500901364924027,
	"grad_norm": 6.225693907549098,
	"learning_rate": 3.554268172739661e-06,
	"loss": 0.2233,
	"num_input_tokens_seen": 35199064,
	"step": 3010
	},
	{
	"epoch": 1.552665464846768,
	"grad_norm": 5.080945994557626,
	"learning_rate": 3.4647780688298826e-06,
	"loss": 0.2951,
	"num_input_tokens_seen": 35257576,
	"step": 3015
	},
	{
	"epoch": 1.5552407932011332,
	"grad_norm": 5.263879934995459,
	"learning_rate": 3.376388529782215e-06,
	"loss": 0.2274,
	"num_input_tokens_seen": 35316064,
	"step": 3020
	},
	{
	"epoch": 1.5578161215554984,
	"grad_norm": 5.655349471422181,
	"learning_rate": 3.2891016460222967e-06,
	"loss": 0.2479,
	"num_input_tokens_seen": 35374504,
	"step": 3025
	},
	{
	"epoch": 1.5603914499098637,
	"grad_norm": 7.871895425892081,
	"learning_rate": 3.2029194818977983e-06,
	"loss": 0.292,
	"num_input_tokens_seen": 35432984,
	"step": 3030
	},
	{
	"epoch": 1.5629667782642287,
	"grad_norm": 6.441418084723481,
	"learning_rate": 3.117844075629617e-06,
	"loss": 0.241,
	"num_input_tokens_seen": 35491488,
	"step": 3035
	},
	{
	"epoch": 1.5655421066185937,
	"grad_norm": 5.268339109046189,
	"learning_rate": 3.033877439263666e-06,
	"loss": 0.228,
	"num_input_tokens_seen": 35549984,
	"step": 3040
	},
	{
	"epoch": 1.568117434972959,
	"grad_norm": 7.110464304213341,
	"learning_rate": 2.951021558623274e-06,
	"loss": 0.2485,
	"num_input_tokens_seen": 35608488,
	"step": 3045
	},
	{
	"epoch": 1.5706927633273242,
	"grad_norm": 12.567694093056492,
	"learning_rate": 2.869278393262226e-06,
	"loss": 0.2851,
	"num_input_tokens_seen": 35666976,
	"step": 3050
	},
	{
	"epoch": 1.5706927633273242,
	"eval_loss": 0.8473746180534363,
	"eval_runtime": 16.0314,
	"eval_samples_per_second": 3.743,
	"eval_steps_per_second": 0.936,
	"num_input_tokens_seen": 35666976,
	"step": 3050
	},
	{
	"epoch": 1.5732680916816895,
	"grad_norm": 5.787936921221981,
	"learning_rate": 2.7886498764184588e-06,
	"loss": 0.2514,
	"num_input_tokens_seen": 35725456,
	"step": 3055
	},
	{
	"epoch": 1.5758434200360547,
	"grad_norm": 7.052716790363759,
	"learning_rate": 2.7091379149682685e-06,
	"loss": 0.3091,
	"num_input_tokens_seen": 35783912,
	"step": 3060
	},
	{
	"epoch": 1.5784187483904197,
	"grad_norm": 4.6737853290480915,
	"learning_rate": 2.6307443893812843e-06,
	"loss": 0.2629,
	"num_input_tokens_seen": 35842376,
	"step": 3065
	},
	{
	"epoch": 1.580994076744785,
	"grad_norm": 8.400296818269052,
	"learning_rate": 2.5534711536759404e-06,
	"loss": 0.3065,
	"num_input_tokens_seen": 35900824,
	"step": 3070
	},
	{
	"epoch": 1.58356940509915,
	"grad_norm": 3.909241159865706,
	"learning_rate": 2.4773200353756798e-06,
	"loss": 0.2577,
	"num_input_tokens_seen": 35959264,
	"step": 3075
	},
	{
	"epoch": 1.5861447334535153,
	"grad_norm": 5.227660314173737,
	"learning_rate": 2.4022928354656473e-06,
	"loss": 0.2359,
	"num_input_tokens_seen": 36017760,
	"step": 3080
	},
	{
	"epoch": 1.5887200618078805,
	"grad_norm": 5.407491053931616,
	"learning_rate": 2.3283913283502044e-06,
	"loss": 0.1897,
	"num_input_tokens_seen": 36076280,
	"step": 3085
	},
	{
	"epoch": 1.5912953901622457,
	"grad_norm": 5.771594174948701,
	"learning_rate": 2.2556172618108997e-06,
	"loss": 0.286,
	"num_input_tokens_seen": 36134784,
	"step": 3090
	},
	{
	"epoch": 1.593870718516611,
	"grad_norm": 5.508770087080472,
	"learning_rate": 2.183972356965125e-06,
	"loss": 0.2733,
	"num_input_tokens_seen": 36193288,
	"step": 3095
	},
	{
	"epoch": 1.596446046870976,
	"grad_norm": 6.343942326218544,
	"learning_rate": 2.113458308225458e-06,
	"loss": 0.2351,
	"num_input_tokens_seen": 36251744,
	"step": 3100
	},
	{
	"epoch": 1.596446046870976,
	"eval_loss": 0.8650907874107361,
	"eval_runtime": 16.0989,
	"eval_samples_per_second": 3.727,
	"eval_steps_per_second": 0.932,
	"num_input_tokens_seen": 36251744,
	"step": 3100
	},
	{
	"epoch": 1.5990213752253413,
	"grad_norm": 4.00048030481465,
	"learning_rate": 2.0440767832595574e-06,
	"loss": 0.2454,
	"num_input_tokens_seen": 36310200,
	"step": 3105
	},
	{
	"epoch": 1.6015967035797063,
	"grad_norm": 5.230064679031373,
	"learning_rate": 1.975829422950709e-06,
	"loss": 0.2629,
	"num_input_tokens_seen": 36368688,
	"step": 3110
	},
	{
	"epoch": 1.6041720319340715,
	"grad_norm": 12.271894553598498,
	"learning_rate": 1.908717841359048e-06,
	"loss": 0.2848,
	"num_input_tokens_seen": 36427192,
	"step": 3115
	},
	{
	"epoch": 1.6067473602884368,
	"grad_norm": 8.178213306290619,
	"learning_rate": 1.8427436256833852e-06,
	"loss": 0.228,
	"num_input_tokens_seen": 36485656,
	"step": 3120
	},
	{
	"epoch": 1.609322688642802,
	"grad_norm": 4.853366085377887,
	"learning_rate": 1.7779083362236547e-06,
	"loss": 0.2239,
	"num_input_tokens_seen": 36544128,
	"step": 3125
	},
	{
	"epoch": 1.6118980169971673,
	"grad_norm": 10.968162741068843,
	"learning_rate": 1.7142135063440035e-06,
	"loss": 0.2585,
	"num_input_tokens_seen": 36602568,
	"step": 3130
	},
	{
	"epoch": 1.6144733453515323,
	"grad_norm": 5.564416348243761,
	"learning_rate": 1.6516606424365643e-06,
	"loss": 0.2887,
	"num_input_tokens_seen": 36661064,
	"step": 3135
	},
	{
	"epoch": 1.6170486737058976,
	"grad_norm": 8.095832161946442,
	"learning_rate": 1.5902512238857858e-06,
	"loss": 0.2446,
	"num_input_tokens_seen": 36719544,
	"step": 3140
	},
	{
	"epoch": 1.6196240020602626,
	"grad_norm": 8.906257390618395,
	"learning_rate": 1.5299867030334814e-06,
	"loss": 0.2673,
	"num_input_tokens_seen": 36778064,
	"step": 3145
	},
	{
	"epoch": 1.6221993304146278,
	"grad_norm": 6.864070166407251,
	"learning_rate": 1.4708685051444515e-06,
	"loss": 0.2638,
	"num_input_tokens_seen": 36836560,
	"step": 3150
	},
	{
	"epoch": 1.6221993304146278,
	"eval_loss": 0.8633677363395691,
	"eval_runtime": 16.2031,
	"eval_samples_per_second": 3.703,
	"eval_steps_per_second": 0.926,
	"num_input_tokens_seen": 36836560,
	"step": 3150
	},
	{
	"epoch": 1.624774658768993,
	"grad_norm": 8.026607293073416,
	"learning_rate": 1.4128980283727943e-06,
	"loss": 0.2793,
	"num_input_tokens_seen": 36895016,
	"step": 3155
	},
	{
	"epoch": 1.6273499871233583,
	"grad_norm": 11.669862098293653,
	"learning_rate": 1.356076643728843e-06,
	"loss": 0.2887,
	"num_input_tokens_seen": 36953528,
	"step": 3160
	},
	{
	"epoch": 1.6299253154777236,
	"grad_norm": 5.580791837684188,
	"learning_rate": 1.3004056950467135e-06,
	"loss": 0.317,
	"num_input_tokens_seen": 37012056,
	"step": 3165
	},
	{
	"epoch": 1.6325006438320886,
	"grad_norm": 4.650356589287389,
	"learning_rate": 1.2458864989525698e-06,
	"loss": 0.2095,
	"num_input_tokens_seen": 37070528,
	"step": 3170
	},
	{
	"epoch": 1.6350759721864536,
	"grad_norm": 6.089813437162075,
	"learning_rate": 1.19252034483342e-06,
	"loss": 0.237,
	"num_input_tokens_seen": 37129008,
	"step": 3175
	},
	{
	"epoch": 1.6376513005408189,
	"grad_norm": 5.287668578489162,
	"learning_rate": 1.1403084948067021e-06,
	"loss": 0.2448,
	"num_input_tokens_seen": 37187472,
	"step": 3180
	},
	{
	"epoch": 1.6402266288951841,
	"grad_norm": 6.982602482070445,
	"learning_rate": 1.089252183690348e-06,
	"loss": 0.2563,
	"num_input_tokens_seen": 37245936,
	"step": 3185
	},
	{
	"epoch": 1.6428019572495494,
	"grad_norm": 2.9242653665827647,
	"learning_rate": 1.0393526189736602e-06,
	"loss": 0.2538,
	"num_input_tokens_seen": 37304424,
	"step": 3190
	},
	{
	"epoch": 1.6453772856039146,
	"grad_norm": 6.894723044936381,
	"learning_rate": 9.906109807887032e-07,
	"loss": 0.1768,
	"num_input_tokens_seen": 37362888,
	"step": 3195
	},
	{
	"epoch": 1.6479526139582796,
	"grad_norm": 6.796664957587956,
	"learning_rate": 9.430284218824026e-07,
	"loss": 0.312,
	"num_input_tokens_seen": 37421416,
	"step": 3200
	},
	{
	"epoch": 1.6479526139582796,
	"eval_loss": 0.8679988980293274,
	"eval_runtime": 16.1678,
	"eval_samples_per_second": 3.711,
	"eval_steps_per_second": 0.928,
	"num_input_tokens_seen": 37421416,
	"step": 3200
	},
	{
	"epoch": 1.6505279423126449,
	"grad_norm": 12.027460444161642,
	"learning_rate": 8.966060675892951e-07,
	"loss": 0.2865,
	"num_input_tokens_seen": 37479848,
	"step": 3205
	},
	{
	"epoch": 1.65310327066701,
	"grad_norm": 6.851221931248735,
	"learning_rate": 8.513450158049108e-07,
	"loss": 0.3299,
	"num_input_tokens_seen": 37538312,
	"step": 3210
	},
	{
	"epoch": 1.6556785990213752,
	"grad_norm": 6.971651790450948,
	"learning_rate": 8.072463369597993e-07,
	"loss": 0.3218,
	"num_input_tokens_seen": 37596800,
	"step": 3215
	},
	{
	"epoch": 1.6582539273757404,
	"grad_norm": 10.994527310957624,
	"learning_rate": 7.643110739942172e-07,
	"loss": 0.2593,
	"num_input_tokens_seen": 37655312,
	"step": 3220
	},
	{
	"epoch": 1.6608292557301056,
	"grad_norm": 13.542379224085927,
	"learning_rate": 7.225402423334693e-07,
	"loss": 0.3072,
	"num_input_tokens_seen": 37713800,
	"step": 3225
	},
	{
	"epoch": 1.663404584084471,
	"grad_norm": 5.442561929450427,
	"learning_rate": 6.819348298638839e-07,
	"loss": 0.2276,
	"num_input_tokens_seen": 37772280,
	"step": 3230
	},
	{
	"epoch": 1.665979912438836,
	"grad_norm": 8.128386248398428,
	"learning_rate": 6.424957969094536e-07,
	"loss": 0.2489,
	"num_input_tokens_seen": 37830800,
	"step": 3235
	},
	{
	"epoch": 1.6685552407932012,
	"grad_norm": 3.9766881915113266,
	"learning_rate": 6.0422407620912e-07,
	"loss": 0.2552,
	"num_input_tokens_seen": 37889280,
	"step": 3240
	},
	{
	"epoch": 1.6711305691475662,
	"grad_norm": 5.555365927504982,
	"learning_rate": 5.671205728947305e-07,
	"loss": 0.226,
	"num_input_tokens_seen": 37947728,
	"step": 3245
	},
	{
	"epoch": 1.6737058975019314,
	"grad_norm": 5.733028191926084,
	"learning_rate": 5.311861644696048e-07,
	"loss": 0.2785,
	"num_input_tokens_seen": 38006200,
	"step": 3250
	},
	{
	"epoch": 1.6737058975019314,
	"eval_loss": 0.8640011548995972,
	"eval_runtime": 16.0965,
	"eval_samples_per_second": 3.728,
	"eval_steps_per_second": 0.932,
	"num_input_tokens_seen": 38006200,
	"step": 3250
	},
	{
	"epoch": 1.6762812258562967,
	"grad_norm": 4.778342712582032,
	"learning_rate": 4.964217007878081e-07,
	"loss": 0.2291,
	"num_input_tokens_seen": 38064672,
	"step": 3255
	},
	{
	"epoch": 1.678856554210662,
	"grad_norm": 4.4902131141962,
	"learning_rate": 4.6282800403402715e-07,
	"loss": 0.3101,
	"num_input_tokens_seen": 38123192,
	"step": 3260
	},
	{
	"epoch": 1.6814318825650272,
	"grad_norm": 7.687294001046122,
	"learning_rate": 4.3040586870415346e-07,
	"loss": 0.3196,
	"num_input_tokens_seen": 38181696,
	"step": 3265
	},
	{
	"epoch": 1.6840072109193922,
	"grad_norm": 7.392271519909896,
	"learning_rate": 3.991560615864587e-07,
	"loss": 0.2587,
	"num_input_tokens_seen": 38240216,
	"step": 3270
	},
	{
	"epoch": 1.6865825392737575,
	"grad_norm": 6.335589264461425,
	"learning_rate": 3.6907932174349846e-07,
	"loss": 0.2093,
	"num_input_tokens_seen": 38298688,
	"step": 3275
	},
	{
	"epoch": 1.6891578676281225,
	"grad_norm": 7.268228162683875,
	"learning_rate": 3.40176360494604e-07,
	"loss": 0.2282,
	"num_input_tokens_seen": 38357128,
	"step": 3280
	},
	{
	"epoch": 1.6917331959824877,
	"grad_norm": 4.776419874246786,
	"learning_rate": 3.124478613990733e-07,
	"loss": 0.2092,
	"num_input_tokens_seen": 38415600,
	"step": 3285
	},
	{
	"epoch": 1.694308524336853,
	"grad_norm": 8.522894464657169,
	"learning_rate": 2.8589448023998987e-07,
	"loss": 0.2861,
	"num_input_tokens_seen": 38474112,
	"step": 3290
	},
	{
	"epoch": 1.6968838526912182,
	"grad_norm": 5.304805044526707,
	"learning_rate": 2.605168450087514e-07,
	"loss": 0.2494,
	"num_input_tokens_seen": 38532624,
	"step": 3295
	},
	{
	"epoch": 1.6994591810455835,
	"grad_norm": 7.112591931914542,
	"learning_rate": 2.363155558901542e-07,
	"loss": 0.2752,
	"num_input_tokens_seen": 38591128,
	"step": 3300
	},
	{
	"epoch": 1.6994591810455835,
	"eval_loss": 0.8644178509712219,
	"eval_runtime": 16.1497,
	"eval_samples_per_second": 3.715,
	"eval_steps_per_second": 0.929,
	"num_input_tokens_seen": 38591128,
	"step": 3300
	},
	{
	"epoch": 1.7020345093999485,
	"grad_norm": 4.935833215525081,
	"learning_rate": 2.1329118524827662e-07,
	"loss": 0.2337,
	"num_input_tokens_seen": 38649640,
	"step": 3305
	},
	{
	"epoch": 1.7046098377543135,
	"grad_norm": 5.746920185244728,
	"learning_rate": 1.9144427761286222e-07,
	"loss": 0.215,
	"num_input_tokens_seen": 38708112,
	"step": 3310
	},
	{
	"epoch": 1.7071851661086788,
	"grad_norm": 6.501004359690972,
	"learning_rate": 1.7077534966650766e-07,
	"loss": 0.2871,
	"num_input_tokens_seen": 38766624,
	"step": 3315
	},
	{
	"epoch": 1.709760494463044,
	"grad_norm": 6.996403813160393,
	"learning_rate": 1.51284890232406e-07,
	"loss": 0.3478,
	"num_input_tokens_seen": 38825104,
	"step": 3320
	},
	{
	"epoch": 1.7123358228174093,
	"grad_norm": 5.178545190033401,
	"learning_rate": 1.3297336026280027e-07,
	"loss": 0.2055,
	"num_input_tokens_seen": 38883560,
	"step": 3325
	},
	{
	"epoch": 1.7149111511717745,
	"grad_norm": 6.686144266429449,
	"learning_rate": 1.158411928280645e-07,
	"loss": 0.2992,
	"num_input_tokens_seen": 38942040,
	"step": 3330
	},
	{
	"epoch": 1.7174864795261395,
	"grad_norm": 4.337439288142164,
	"learning_rate": 9.988879310649513e-08,
	"loss": 0.2302,
	"num_input_tokens_seen": 39000488,
	"step": 3335
	},
	{
	"epoch": 1.7200618078805048,
	"grad_norm": 6.5240260149211755,
	"learning_rate": 8.511653837470212e-08,
	"loss": 0.265,
	"num_input_tokens_seen": 39058960,
	"step": 3340
	},
	{
	"epoch": 1.7226371362348698,
	"grad_norm": 7.592689596688837,
	"learning_rate": 7.152477799867719e-08,
	"loss": 0.3147,
	"num_input_tokens_seen": 39117416,
	"step": 3345
	},
	{
	"epoch": 1.725212464589235,
	"grad_norm": 6.429413076205037,
	"learning_rate": 5.911383342556143e-08,
	"loss": 0.2674,
	"num_input_tokens_seen": 39175888,
	"step": 3350
	},
	{
	"epoch": 1.725212464589235,
	"eval_loss": 0.8666485548019409,
	"eval_runtime": 16.1238,
	"eval_samples_per_second": 3.721,
	"eval_steps_per_second": 0.93,
	"num_input_tokens_seen": 39175888,
	"step": 3350
	},
	{
	"epoch": 1.7277877929436003,
	"grad_norm": 10.968051828666288,
	"learning_rate": 4.788399817602929e-08,
	"loss": 0.2565,
	"num_input_tokens_seen": 39234336,
	"step": 3355
	},
	{
	"epoch": 1.7303631212979655,
	"grad_norm": 5.1159559645491335,
	"learning_rate": 3.7835537837338506e-08,
	"loss": 0.2762,
	"num_input_tokens_seen": 39292800,
	"step": 3360
	},
	{
	"epoch": 1.7329384496523308,
	"grad_norm": 6.735859744015271,
	"learning_rate": 2.8968690057051828e-08,
	"loss": 0.2196,
	"num_input_tokens_seen": 39351272,
	"step": 3365
	},
	{
	"epoch": 1.7355137780066958,
	"grad_norm": 3.989003741597172,
	"learning_rate": 2.128366453743591e-08,
	"loss": 0.2482,
	"num_input_tokens_seen": 39409736,
	"step": 3370
	},
	{
	"epoch": 1.738089106361061,
	"grad_norm": 5.083412307953648,
	"learning_rate": 1.4780643030476438e-08,
	"loss": 0.2778,
	"num_input_tokens_seen": 39468176,
	"step": 3375
	},
	{
	"epoch": 1.740664434715426,
	"grad_norm": 7.4306605849577565,
	"learning_rate": 9.459779333587104e-09,
	"loss": 0.2048,
	"num_input_tokens_seen": 39526688,
	"step": 3380
	},
	{
	"epoch": 1.7432397630697913,
	"grad_norm": 4.202839419581782,
	"learning_rate": 5.3211992859791835e-09,
	"loss": 0.2296,
	"num_input_tokens_seen": 39585152,
	"step": 3385
	},
	{
	"epoch": 1.7458150914241566,
	"grad_norm": 7.909317855624412,
	"learning_rate": 2.3650007656805806e-09,
	"loss": 0.2713,
	"num_input_tokens_seen": 39643640,
	"step": 3390
	},
	{
	"epoch": 1.7483904197785218,
	"grad_norm": 7.880795429819755,
	"learning_rate": 5.912536872321184e-10,
	"loss": 0.2964,
	"num_input_tokens_seen": 39702144,
	"step": 3395
	},
	{
	"epoch": 1.750965748132887,
	"grad_norm": 4.00234080349809,
	"learning_rate": 0.0,
	"loss": 0.1797,
	"num_input_tokens_seen": 39760664,
	"step": 3400
	},
	{
	"epoch": 1.750965748132887,
	"eval_loss": 0.8603056073188782,
	"eval_runtime": 16.2474,
	"eval_samples_per_second": 3.693,
	"eval_steps_per_second": 0.923,
	"num_input_tokens_seen": 39760664,
	"step": 3400
	},
	{
	"epoch": 1.750965748132887,
	"num_input_tokens_seen": 39760664,
	"step": 3400,
	"total_flos": 2232757993603072.0,
	"train_loss": 0.5904174627801951,
	"train_runtime": 45337.3565,
	"train_samples_per_second": 1.8,
	"train_steps_per_second": 0.075
	}
	],
	"logging_steps": 5,
	"max_steps": 3400,
	"num_input_tokens_seen": 39760664,
	"num_train_epochs": 2,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2232757993603072.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}