{ "best_metric": null, "best_model_checkpoint": null, "epoch": 1.0, "eval_steps": 500, "global_step": 9375, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "avg_step_time": 0.0, "epoch": 0, "eta_time": 0.0, "step": 0 }, { "epoch": 0.00010666666666666667, "grad_norm": 3.084085397990669, "learning_rate": 3.546099290780142e-08, "loss": 0.6625, "step": 1 }, { "avg_step_time": 17.34018850326538, "epoch": 0.00010666666666666667, "eta_time": 45.151924174891576, "step": 1 }, { "epoch": 0.00021333333333333333, "grad_norm": 3.4311862631654195, "learning_rate": 7.092198581560284e-08, "loss": 0.5383, "step": 2 }, { "avg_step_time": 11.596324443817139, "epoch": 0.00021333333333333333, "eta_time": 30.19231916997168, "step": 2 }, { "epoch": 0.00032, "grad_norm": 2.918268066270447, "learning_rate": 1.0638297872340426e-07, "loss": 0.5708, "step": 3 }, { "avg_step_time": 9.642574389775595, "epoch": 0.00032, "eta_time": 25.10283532804913, "step": 3 }, { "epoch": 0.00042666666666666667, "grad_norm": 4.00155724499593, "learning_rate": 1.4184397163120568e-07, "loss": 0.6131, "step": 4 }, { "avg_step_time": 8.697223722934723, "epoch": 0.00042666666666666667, "eta_time": 22.6393565298948, "step": 4 }, { "epoch": 0.0005333333333333334, "grad_norm": 2.788451944464248, "learning_rate": 1.7730496453900713e-07, "loss": 0.6424, "step": 5 }, { "avg_step_time": 8.676218175888062, "epoch": 0.0005333333333333334, "eta_time": 22.582267863353092, "step": 5 }, { "epoch": 0.00064, "grad_norm": 2.0793420303143417, "learning_rate": 2.1276595744680852e-07, "loss": 0.4674, "step": 6 }, { "avg_step_time": 8.156734625498453, "epoch": 0.00064, "eta_time": 21.227901862859724, "step": 6 }, { "epoch": 0.0007466666666666666, "grad_norm": 3.248369800515899, "learning_rate": 2.4822695035460997e-07, "loss": 0.5541, "step": 7 }, { "avg_step_time": 7.784950188228062, "epoch": 0.0007466666666666666, "eta_time": 20.258170378700132, "step": 7 }, { "epoch": 0.0008533333333333333, "grad_norm": 2.383115532940748, "learning_rate": 2.8368794326241136e-07, "loss": 0.4671, "step": 8 }, { "avg_step_time": 7.520486414432526, "epoch": 0.0008533333333333333, "eta_time": 19.56788784555263, "step": 8 }, { "epoch": 0.00096, "grad_norm": 1.9901896705720663, "learning_rate": 3.1914893617021275e-07, "loss": 0.5776, "step": 9 }, { "avg_step_time": 7.351433700985378, "epoch": 0.00096, "eta_time": 19.125980012063625, "step": 9 }, { "epoch": 0.0010666666666666667, "grad_norm": 0.6431903519774168, "learning_rate": 3.5460992907801425e-07, "loss": 0.4162, "step": 10 }, { "avg_step_time": 7.0754230260849, "epoch": 0.0010666666666666667, "eta_time": 18.405926844245858, "step": 10 }, { "epoch": 0.0011733333333333333, "grad_norm": 3.442301361818832, "learning_rate": 3.9007092198581565e-07, "loss": 0.5614, "step": 11 }, { "avg_step_time": 6.988999106667259, "epoch": 0.0011733333333333333, "eta_time": 18.17916323189784, "step": 11 }, { "epoch": 0.00128, "grad_norm": 1.5902271490422097, "learning_rate": 4.2553191489361704e-07, "loss": 0.5629, "step": 12 }, { "avg_step_time": 6.921389242013295, "epoch": 0.00128, "eta_time": 18.001379853602913, "step": 12 }, { "epoch": 0.0013866666666666667, "grad_norm": 0.6476680367555032, "learning_rate": 4.6099290780141843e-07, "loss": 0.4346, "step": 13 }, { "avg_step_time": 6.567934256333571, "epoch": 0.0013866666666666667, "eta_time": 17.080277918831914, "step": 13 }, { "epoch": 0.0014933333333333333, "grad_norm": 2.354710712172833, "learning_rate": 4.964539007092199e-07, "loss": 0.5268, "step": 14 }, { "avg_step_time": 6.4980340003967285, "epoch": 0.0014933333333333333, "eta_time": 16.89669341047605, "step": 14 }, { "epoch": 0.0016, "grad_norm": 2.695862264437117, "learning_rate": 5.319148936170213e-07, "loss": 0.5996, "step": 15 }, { "avg_step_time": 6.4418964862823485, "epoch": 0.0016, "eta_time": 16.748930864334106, "step": 15 }, { "epoch": 0.0017066666666666667, "grad_norm": 2.916675199374949, "learning_rate": 5.673758865248227e-07, "loss": 0.5476, "step": 16 }, { "avg_step_time": 6.398791044950485, "epoch": 0.0017066666666666667, "eta_time": 16.635079274914332, "step": 16 }, { "epoch": 0.0018133333333333332, "grad_norm": 2.7560032432264148, "learning_rate": 6.028368794326241e-07, "loss": 0.598, "step": 17 }, { "avg_step_time": 6.396147573695464, "epoch": 0.0018133333333333332, "eta_time": 16.626430276289486, "step": 17 }, { "epoch": 0.00192, "grad_norm": 2.9040739904775688, "learning_rate": 6.382978723404255e-07, "loss": 0.5386, "step": 18 }, { "avg_step_time": 6.350225898954603, "epoch": 0.00192, "eta_time": 16.505295482366172, "step": 18 }, { "epoch": 0.0020266666666666666, "grad_norm": 3.050023085835821, "learning_rate": 6.73758865248227e-07, "loss": 0.5105, "step": 19 }, { "avg_step_time": 6.407962610847072, "epoch": 0.0020266666666666666, "eta_time": 16.65358282974589, "step": 19 }, { "epoch": 0.0021333333333333334, "grad_norm": 2.133980635255545, "learning_rate": 7.092198581560285e-07, "loss": 0.633, "step": 20 }, { "avg_step_time": 6.363661444187164, "epoch": 0.0021333333333333334, "eta_time": 16.536681336214144, "step": 20 }, { "epoch": 0.00224, "grad_norm": 2.6342780713830893, "learning_rate": 7.446808510638298e-07, "loss": 0.5712, "step": 21 }, { "avg_step_time": 6.32387748218718, "epoch": 0.00224, "eta_time": 16.431541657883024, "step": 21 }, { "epoch": 0.0023466666666666666, "grad_norm": 2.8929123604541176, "learning_rate": 7.801418439716313e-07, "loss": 0.5053, "step": 22 }, { "avg_step_time": 6.35018206726421, "epoch": 0.0023466666666666666, "eta_time": 16.498125798645045, "step": 22 }, { "epoch": 0.0024533333333333334, "grad_norm": 2.32887177775177, "learning_rate": 8.156028368794328e-07, "loss": 0.5079, "step": 23 }, { "avg_step_time": 6.336628405944161, "epoch": 0.0024533333333333334, "eta_time": 16.461152458997166, "step": 23 }, { "epoch": 0.00256, "grad_norm": 1.9935462818417764, "learning_rate": 8.510638297872341e-07, "loss": 0.5979, "step": 24 }, { "avg_step_time": 6.303900957107544, "epoch": 0.00256, "eta_time": 16.374382736086844, "step": 24 }, { "epoch": 0.0026666666666666666, "grad_norm": 2.932858134500598, "learning_rate": 8.865248226950356e-07, "loss": 0.6472, "step": 25 }, { "avg_step_time": 6.281169853210449, "epoch": 0.0026666666666666666, "eta_time": 16.31359392431047, "step": 25 }, { "epoch": 0.0027733333333333334, "grad_norm": 2.6690364252033256, "learning_rate": 9.219858156028369e-07, "loss": 0.5988, "step": 26 }, { "avg_step_time": 6.34681197313162, "epoch": 0.0027733333333333334, "eta_time": 16.482318093557645, "step": 26 }, { "epoch": 0.00288, "grad_norm": 2.299065013176099, "learning_rate": 9.574468085106384e-07, "loss": 0.4852, "step": 27 }, { "avg_step_time": 6.3335972627003985, "epoch": 0.00288, "eta_time": 16.44624089214537, "step": 27 }, { "epoch": 0.0029866666666666665, "grad_norm": 2.30113143191034, "learning_rate": 9.929078014184399e-07, "loss": 0.597, "step": 28 }, { "avg_step_time": 6.310758880206516, "epoch": 0.0029866666666666665, "eta_time": 16.385184237025086, "step": 28 }, { "epoch": 0.0030933333333333334, "grad_norm": 2.0889927559812693, "learning_rate": 1.0283687943262412e-06, "loss": 0.55, "step": 29 }, { "avg_step_time": 6.331142326881146, "epoch": 0.0030933333333333334, "eta_time": 16.436348940842, "step": 29 }, { "epoch": 0.0032, "grad_norm": 1.991568025028942, "learning_rate": 1.0638297872340427e-06, "loss": 0.4124, "step": 30 }, { "avg_step_time": 6.39054491519928, "epoch": 0.0032, "eta_time": 16.58878950903813, "step": 30 }, { "epoch": 0.0033066666666666665, "grad_norm": 0.6127257951641044, "learning_rate": 1.0992907801418442e-06, "loss": 0.4172, "step": 31 }, { "avg_step_time": 6.253965746971868, "epoch": 0.0033066666666666665, "eta_time": 16.232515538806982, "step": 31 }, { "epoch": 0.0034133333333333333, "grad_norm": 2.0883254373720455, "learning_rate": 1.1347517730496454e-06, "loss": 0.5254, "step": 32 }, { "avg_step_time": 6.234361909329891, "epoch": 0.0034133333333333333, "eta_time": 16.179900921908104, "step": 32 }, { "epoch": 0.00352, "grad_norm": 1.873241365038378, "learning_rate": 1.170212765957447e-06, "loss": 0.5506, "step": 33 }, { "avg_step_time": 6.213418353687633, "epoch": 0.00352, "eta_time": 16.123820627819406, "step": 33 }, { "epoch": 0.0036266666666666665, "grad_norm": 1.964421847696134, "learning_rate": 1.2056737588652482e-06, "loss": 0.5815, "step": 34 }, { "avg_step_time": 6.196545453632579, "epoch": 0.0036266666666666665, "eta_time": 16.078314189550532, "step": 34 }, { "epoch": 0.0037333333333333333, "grad_norm": 2.115348692162746, "learning_rate": 1.2411347517730497e-06, "loss": 0.5343, "step": 35 }, { "avg_step_time": 6.1796649524143765, "epoch": 0.0037333333333333333, "eta_time": 16.03279740431952, "step": 35 }, { "epoch": 0.00384, "grad_norm": 1.8708887491642654, "learning_rate": 1.276595744680851e-06, "loss": 0.4929, "step": 36 }, { "avg_step_time": 6.194449424743652, "epoch": 0.00384, "eta_time": 16.06943421602249, "step": 36 }, { "epoch": 0.003946666666666667, "grad_norm": 1.7906075570880557, "learning_rate": 1.3120567375886525e-06, "loss": 0.4589, "step": 37 }, { "avg_step_time": 6.195286905443346, "epoch": 0.003946666666666667, "eta_time": 16.069885867508326, "step": 37 }, { "epoch": 0.004053333333333333, "grad_norm": 1.7631359779999405, "learning_rate": 1.347517730496454e-06, "loss": 0.5617, "step": 38 }, { "avg_step_time": 6.180185983055516, "epoch": 0.004053333333333333, "eta_time": 16.02899903438593, "step": 38 }, { "epoch": 0.00416, "grad_norm": 0.6365168444005307, "learning_rate": 1.3829787234042555e-06, "loss": 0.4302, "step": 39 }, { "avg_step_time": 6.0766658538427105, "epoch": 0.00416, "eta_time": 15.758820114298763, "step": 39 }, { "epoch": 0.004266666666666667, "grad_norm": 1.5146095821689876, "learning_rate": 1.418439716312057e-06, "loss": 0.4821, "step": 40 }, { "avg_step_time": 6.068864667415619, "epoch": 0.004266666666666667, "eta_time": 15.73690324175689, "step": 40 }, { "epoch": 0.004373333333333333, "grad_norm": 1.8084600237739707, "learning_rate": 1.453900709219858e-06, "loss": 0.4991, "step": 41 }, { "avg_step_time": 6.069180750265354, "epoch": 0.004373333333333333, "eta_time": 15.736036978604671, "step": 41 }, { "epoch": 0.00448, "grad_norm": 2.264104101589247, "learning_rate": 1.4893617021276596e-06, "loss": 0.494, "step": 42 }, { "avg_step_time": 6.080417979331243, "epoch": 0.00448, "eta_time": 15.763483611416248, "step": 42 }, { "epoch": 0.004586666666666667, "grad_norm": 1.729302530598024, "learning_rate": 1.524822695035461e-06, "loss": 0.5076, "step": 43 }, { "avg_step_time": 6.084373557290365, "epoch": 0.004586666666666667, "eta_time": 15.772048343509358, "step": 43 }, { "epoch": 0.004693333333333333, "grad_norm": 2.352457198720527, "learning_rate": 1.5602836879432626e-06, "loss": 0.4283, "step": 44 }, { "avg_step_time": 6.074408108537847, "epoch": 0.004693333333333333, "eta_time": 15.74452835021296, "step": 44 }, { "epoch": 0.0048, "grad_norm": 1.6774281241268698, "learning_rate": 1.595744680851064e-06, "loss": 0.5209, "step": 45 }, { "avg_step_time": 6.063561842176649, "epoch": 0.0048, "eta_time": 15.71473110764115, "step": 45 }, { "epoch": 0.004906666666666667, "grad_norm": 1.6461405915554936, "learning_rate": 1.6312056737588656e-06, "loss": 0.6406, "step": 46 }, { "avg_step_time": 6.0574753802755605, "epoch": 0.004906666666666667, "eta_time": 15.697274395164085, "step": 46 }, { "epoch": 0.005013333333333333, "grad_norm": 1.9016346417047514, "learning_rate": 1.6666666666666667e-06, "loss": 0.5468, "step": 47 }, { "avg_step_time": 6.0535257369913955, "epoch": 0.005013333333333333, "eta_time": 15.685357798515481, "step": 47 }, { "epoch": 0.00512, "grad_norm": 1.8871370792673585, "learning_rate": 1.7021276595744682e-06, "loss": 0.5507, "step": 48 }, { "avg_step_time": 6.040963431199391, "epoch": 0.00512, "eta_time": 15.651129422999091, "step": 48 }, { "epoch": 0.005226666666666667, "grad_norm": 0.5887315374809066, "learning_rate": 1.7375886524822697e-06, "loss": 0.4047, "step": 49 }, { "avg_step_time": 5.961532339757802, "epoch": 0.005226666666666667, "eta_time": 15.443680722383686, "step": 49 }, { "epoch": 0.005333333333333333, "grad_norm": 1.5788492353215235, "learning_rate": 1.7730496453900712e-06, "loss": 0.4785, "step": 50 }, { "avg_step_time": 5.954068436622619, "epoch": 0.005333333333333333, "eta_time": 15.422691158751647, "step": 50 }, { "epoch": 0.00544, "grad_norm": 1.93079440620853, "learning_rate": 1.8085106382978727e-06, "loss": 0.4841, "step": 51 }, { "avg_step_time": 5.959473815618777, "epoch": 0.00544, "eta_time": 15.435037182452632, "step": 51 }, { "epoch": 0.005546666666666667, "grad_norm": 1.6125741099803133, "learning_rate": 1.8439716312056737e-06, "loss": 0.5071, "step": 52 }, { "avg_step_time": 5.954686334499946, "epoch": 0.005546666666666667, "eta_time": 15.420983526817498, "step": 52 }, { "epoch": 0.005653333333333333, "grad_norm": 1.5138879307962807, "learning_rate": 1.8794326241134752e-06, "loss": 0.4838, "step": 53 }, { "avg_step_time": 5.9496136431424125, "epoch": 0.005653333333333333, "eta_time": 15.406193994825992, "step": 53 }, { "epoch": 0.00576, "grad_norm": 1.5647706834311355, "learning_rate": 1.9148936170212767e-06, "loss": 0.4391, "step": 54 }, { "avg_step_time": 6.002499169773525, "epoch": 0.00576, "eta_time": 15.541470767071953, "step": 54 }, { "epoch": 0.005866666666666667, "grad_norm": 1.525787194416589, "learning_rate": 1.9503546099290782e-06, "loss": 0.5181, "step": 55 }, { "avg_step_time": 5.999037144400857, "epoch": 0.005866666666666667, "eta_time": 15.530840607171108, "step": 55 }, { "epoch": 0.005973333333333333, "grad_norm": 1.516382696952423, "learning_rate": 1.9858156028368797e-06, "loss": 0.4321, "step": 56 }, { "avg_step_time": 6.014843957764762, "epoch": 0.005973333333333333, "eta_time": 15.570091900669393, "step": 56 }, { "epoch": 0.00608, "grad_norm": 1.5798780705508182, "learning_rate": 2.021276595744681e-06, "loss": 0.4205, "step": 57 }, { "avg_step_time": 6.009082731447722, "epoch": 0.00608, "eta_time": 15.553509136563854, "step": 57 }, { "epoch": 0.006186666666666667, "grad_norm": 1.8807540715575868, "learning_rate": 2.0567375886524823e-06, "loss": 0.5635, "step": 58 }, { "avg_step_time": 6.004636616542421, "epoch": 0.006186666666666667, "eta_time": 15.540333154534926, "step": 58 }, { "epoch": 0.006293333333333333, "grad_norm": 1.669518433012777, "learning_rate": 2.092198581560284e-06, "loss": 0.4388, "step": 59 }, { "avg_step_time": 6.003691240892572, "epoch": 0.006293333333333333, "eta_time": 15.536218777820888, "step": 59 }, { "epoch": 0.0064, "grad_norm": 2.480435701712154, "learning_rate": 2.1276595744680853e-06, "loss": 0.4713, "step": 60 }, { "avg_step_time": 5.999528237183889, "epoch": 0.0064, "eta_time": 15.523779313713314, "step": 60 }, { "epoch": 0.006506666666666667, "grad_norm": 1.597573831924709, "learning_rate": 2.163120567375887e-06, "loss": 0.5399, "step": 61 }, { "avg_step_time": 5.9965949918403, "epoch": 0.006506666666666667, "eta_time": 15.514523820555707, "step": 61 }, { "epoch": 0.006613333333333333, "grad_norm": 0.617148442462861, "learning_rate": 2.1985815602836883e-06, "loss": 0.4154, "step": 62 }, { "avg_step_time": 5.94335094574959, "epoch": 0.006613333333333333, "eta_time": 15.375118710490536, "step": 62 }, { "epoch": 0.00672, "grad_norm": 1.7892269255696158, "learning_rate": 2.2340425531914894e-06, "loss": 0.5772, "step": 63 }, { "avg_step_time": 5.939650100374979, "epoch": 0.00672, "eta_time": 15.363894926303278, "step": 63 }, { "epoch": 0.006826666666666667, "grad_norm": 1.6733222544609272, "learning_rate": 2.269503546099291e-06, "loss": 0.5107, "step": 64 }, { "avg_step_time": 5.937607429921627, "epoch": 0.006826666666666667, "eta_time": 15.356961883333408, "step": 64 }, { "epoch": 0.006933333333333333, "grad_norm": 1.367078300772898, "learning_rate": 2.3049645390070924e-06, "loss": 0.4779, "step": 65 }, { "avg_step_time": 5.933587466753446, "epoch": 0.006933333333333333, "eta_time": 15.344916476520716, "step": 65 }, { "epoch": 0.00704, "grad_norm": 1.477060304848401, "learning_rate": 2.340425531914894e-06, "loss": 0.4184, "step": 66 }, { "avg_step_time": 5.932064110582525, "epoch": 0.00704, "eta_time": 15.339329112614646, "step": 66 }, { "epoch": 0.007146666666666667, "grad_norm": 1.754500707657633, "learning_rate": 2.3758865248226954e-06, "loss": 0.4309, "step": 67 }, { "avg_step_time": 5.992578282285092, "epoch": 0.007146666666666667, "eta_time": 15.494144069863788, "step": 67 }, { "epoch": 0.007253333333333333, "grad_norm": 1.4581152871806367, "learning_rate": 2.4113475177304965e-06, "loss": 0.4599, "step": 68 }, { "avg_step_time": 5.995859549326055, "epoch": 0.007253333333333333, "eta_time": 15.500962451549332, "step": 68 }, { "epoch": 0.00736, "grad_norm": 1.813025810801961, "learning_rate": 2.446808510638298e-06, "loss": 0.5817, "step": 69 }, { "avg_step_time": 5.991188788759535, "epoch": 0.00736, "eta_time": 15.487223018943398, "step": 69 }, { "epoch": 0.007466666666666667, "grad_norm": 2.717803795907202, "learning_rate": 2.4822695035460995e-06, "loss": 0.5285, "step": 70 }, { "avg_step_time": 5.985104182788304, "epoch": 0.007466666666666667, "eta_time": 15.469831783568104, "step": 70 }, { "epoch": 0.007573333333333333, "grad_norm": 0.6308701856790953, "learning_rate": 2.5177304964539005e-06, "loss": 0.4307, "step": 71 }, { "avg_step_time": 5.938074162308599, "epoch": 0.007573333333333333, "eta_time": 15.346622779477556, "step": 71 }, { "epoch": 0.00768, "grad_norm": 1.6152457941093374, "learning_rate": 2.553191489361702e-06, "loss": 0.4806, "step": 72 }, { "avg_step_time": 5.931982613272137, "epoch": 0.00768, "eta_time": 15.32923173646408, "step": 72 }, { "epoch": 0.0077866666666666666, "grad_norm": 1.5769786338955363, "learning_rate": 2.5886524822695035e-06, "loss": 0.3949, "step": 73 }, { "avg_step_time": 5.928939838931985, "epoch": 0.0077866666666666666, "eta_time": 15.319721772707034, "step": 73 }, { "epoch": 0.007893333333333334, "grad_norm": 1.6884358748347934, "learning_rate": 2.624113475177305e-06, "loss": 0.5757, "step": 74 }, { "avg_step_time": 5.927496945535815, "epoch": 0.007893333333333334, "eta_time": 15.314346969563504, "step": 74 }, { "epoch": 0.008, "grad_norm": 1.6595240709376007, "learning_rate": 2.6595744680851065e-06, "loss": 0.5373, "step": 75 }, { "avg_step_time": 5.924682579040527, "epoch": 0.008, "eta_time": 15.305429995854695, "step": 75 }, { "epoch": 0.008106666666666667, "grad_norm": 0.6378702888936245, "learning_rate": 2.695035460992908e-06, "loss": 0.4463, "step": 76 }, { "avg_step_time": 5.879174188563698, "epoch": 0.008106666666666667, "eta_time": 15.186233549848286, "step": 76 }, { "epoch": 0.008213333333333333, "grad_norm": 1.9900256313273228, "learning_rate": 2.7304964539007095e-06, "loss": 0.531, "step": 77 }, { "avg_step_time": 5.8738021324207255, "epoch": 0.008213333333333333, "eta_time": 15.170725618679974, "step": 77 }, { "epoch": 0.00832, "grad_norm": 1.420044852180203, "learning_rate": 2.765957446808511e-06, "loss": 0.5649, "step": 78 }, { "avg_step_time": 5.872461823316721, "epoch": 0.00832, "eta_time": 15.165632658715431, "step": 78 }, { "epoch": 0.008426666666666667, "grad_norm": 1.6775374136382264, "learning_rate": 2.8014184397163125e-06, "loss": 0.4268, "step": 79 }, { "avg_step_time": 5.8677323226687275, "epoch": 0.008426666666666667, "eta_time": 15.151788797646802, "step": 79 }, { "epoch": 0.008533333333333334, "grad_norm": 1.7722634855680472, "learning_rate": 2.836879432624114e-06, "loss": 0.5256, "step": 80 }, { "avg_step_time": 5.866296970844269, "epoch": 0.008533333333333334, "eta_time": 15.146452873332633, "step": 80 }, { "epoch": 0.00864, "grad_norm": 1.871649621530765, "learning_rate": 2.8723404255319155e-06, "loss": 0.5298, "step": 81 }, { "avg_step_time": 5.878288869504575, "epoch": 0.00864, "eta_time": 15.175782431437646, "step": 81 }, { "epoch": 0.008746666666666666, "grad_norm": 2.115254234343105, "learning_rate": 2.907801418439716e-06, "loss": 0.5615, "step": 82 }, { "avg_step_time": 5.876920685535524, "epoch": 0.008746666666666666, "eta_time": 15.170617758522672, "step": 82 }, { "epoch": 0.008853333333333333, "grad_norm": 2.088614326187798, "learning_rate": 2.9432624113475177e-06, "loss": 0.4319, "step": 83 }, { "avg_step_time": 5.873459146683475, "epoch": 0.008853333333333333, "eta_time": 15.1600506641619, "step": 83 }, { "epoch": 0.00896, "grad_norm": 1.9039189399145693, "learning_rate": 2.978723404255319e-06, "loss": 0.3883, "step": 84 }, { "avg_step_time": 5.87324508315041, "epoch": 0.00896, "eta_time": 15.157866685430681, "step": 84 }, { "epoch": 0.009066666666666667, "grad_norm": 1.8028158445269225, "learning_rate": 3.0141843971631207e-06, "loss": 0.4976, "step": 85 }, { "avg_step_time": 5.901120390611537, "epoch": 0.009066666666666667, "eta_time": 15.228169007994772, "step": 85 }, { "epoch": 0.009173333333333334, "grad_norm": 2.432362306619825, "learning_rate": 3.049645390070922e-06, "loss": 0.5521, "step": 86 }, { "avg_step_time": 5.898249739824339, "epoch": 0.009173333333333334, "eta_time": 15.219122731452302, "step": 86 }, { "epoch": 0.00928, "grad_norm": 1.7212016988003727, "learning_rate": 3.0851063829787237e-06, "loss": 0.5632, "step": 87 }, { "avg_step_time": 5.8931458873310305, "epoch": 0.00928, "eta_time": 15.204316389314059, "step": 87 }, { "epoch": 0.009386666666666666, "grad_norm": 0.692429085708392, "learning_rate": 3.120567375886525e-06, "loss": 0.4422, "step": 88 }, { "avg_step_time": 5.8557598265734585, "epoch": 0.009386666666666666, "eta_time": 15.106233752607697, "step": 88 }, { "epoch": 0.009493333333333333, "grad_norm": 1.584704745100871, "learning_rate": 3.1560283687943267e-06, "loss": 0.4043, "step": 89 }, { "avg_step_time": 5.8704822920681385, "epoch": 0.009493333333333333, "eta_time": 15.142582934484649, "step": 89 }, { "epoch": 0.0096, "grad_norm": 1.5996344178829283, "learning_rate": 3.191489361702128e-06, "loss": 0.4175, "step": 90 }, { "avg_step_time": 5.871956483523051, "epoch": 0.0096, "eta_time": 15.14475443041987, "step": 90 }, { "epoch": 0.009706666666666667, "grad_norm": 1.8167556110164926, "learning_rate": 3.2269503546099297e-06, "loss": 0.5161, "step": 91 }, { "avg_step_time": 5.878014910352099, "epoch": 0.009706666666666667, "eta_time": 15.158747341030246, "step": 91 }, { "epoch": 0.009813333333333334, "grad_norm": 0.628864582767006, "learning_rate": 3.262411347517731e-06, "loss": 0.4436, "step": 92 }, { "avg_step_time": 5.855349794678066, "epoch": 0.009813333333333334, "eta_time": 15.098670039999023, "step": 92 }, { "epoch": 0.00992, "grad_norm": 0.6791651015784482, "learning_rate": 3.297872340425532e-06, "loss": 0.4265, "step": 93 }, { "avg_step_time": 5.815736224574428, "epoch": 0.00992, "eta_time": 14.9949065656944, "step": 93 }, { "epoch": 0.010026666666666666, "grad_norm": 0.6405582727884217, "learning_rate": 3.3333333333333333e-06, "loss": 0.4129, "step": 94 }, { "avg_step_time": 5.779189513084736, "epoch": 0.010026666666666666, "eta_time": 14.899071630816511, "step": 94 }, { "epoch": 0.010133333333333333, "grad_norm": 1.5825963974914536, "learning_rate": 3.368794326241135e-06, "loss": 0.4154, "step": 95 }, { "avg_step_time": 5.780639166581003, "epoch": 0.010133333333333333, "eta_time": 14.901203184964363, "step": 95 }, { "epoch": 0.01024, "grad_norm": 1.8860439080709042, "learning_rate": 3.4042553191489363e-06, "loss": 0.5204, "step": 96 }, { "avg_step_time": 5.783403567969799, "epoch": 0.01024, "eta_time": 14.906722696442158, "step": 96 }, { "epoch": 0.010346666666666667, "grad_norm": 1.771572435143326, "learning_rate": 3.439716312056738e-06, "loss": 0.5491, "step": 97 }, { "avg_step_time": 5.781373879344193, "epoch": 0.010346666666666667, "eta_time": 14.899885236820952, "step": 97 }, { "epoch": 0.010453333333333334, "grad_norm": 0.6594674886701122, "learning_rate": 3.4751773049645393e-06, "loss": 0.4327, "step": 98 }, { "avg_step_time": 5.746597474935103, "epoch": 0.010453333333333334, "eta_time": 14.808662437492487, "step": 98 }, { "epoch": 0.01056, "grad_norm": 1.6910436342547681, "learning_rate": 3.510638297872341e-06, "loss": 0.5196, "step": 99 }, { "avg_step_time": 5.748087728866423, "epoch": 0.01056, "eta_time": 14.810906048045817, "step": 99 }, { "epoch": 0.010666666666666666, "grad_norm": 1.627151561050013, "learning_rate": 3.5460992907801423e-06, "loss": 0.5476, "step": 100 }, { "avg_step_time": 5.631933790264708, "epoch": 0.010666666666666666, "eta_time": 14.510051640195881, "step": 100 }, { "epoch": 0.010773333333333333, "grad_norm": 0.6608525071250718, "learning_rate": 3.581560283687944e-06, "loss": 0.4442, "step": 101 }, { "avg_step_time": 5.594100215218284, "epoch": 0.010773333333333333, "eta_time": 14.41102372109288, "step": 101 }, { "epoch": 0.01088, "grad_norm": 1.6110316482718419, "learning_rate": 3.6170212765957453e-06, "loss": 0.45, "step": 102 }, { "avg_step_time": 5.593313720491198, "epoch": 0.01088, "eta_time": 14.40744392503191, "step": 102 }, { "epoch": 0.010986666666666667, "grad_norm": 1.8079429380458265, "learning_rate": 3.652482269503547e-06, "loss": 0.4863, "step": 103 }, { "avg_step_time": 5.60062545236915, "epoch": 0.010986666666666667, "eta_time": 14.424721998435212, "step": 103 }, { "epoch": 0.011093333333333334, "grad_norm": 1.8712511355740136, "learning_rate": 3.6879432624113475e-06, "loss": 0.5689, "step": 104 }, { "avg_step_time": 5.5767916597501195, "epoch": 0.011093333333333334, "eta_time": 14.361787632650934, "step": 104 }, { "epoch": 0.0112, "grad_norm": 1.6755131168370914, "learning_rate": 3.723404255319149e-06, "loss": 0.5293, "step": 105 }, { "avg_step_time": 5.576048858237989, "epoch": 0.0112, "eta_time": 14.358325809962821, "step": 105 }, { "epoch": 0.011306666666666666, "grad_norm": 0.640111419456978, "learning_rate": 3.7588652482269505e-06, "loss": 0.4288, "step": 106 }, { "avg_step_time": 5.543212396929962, "epoch": 0.011306666666666666, "eta_time": 14.272232140873284, "step": 106 }, { "epoch": 0.011413333333333333, "grad_norm": 1.4611373990204763, "learning_rate": 3.794326241134752e-06, "loss": 0.5725, "step": 107 }, { "avg_step_time": 5.543973693943987, "epoch": 0.011413333333333333, "eta_time": 14.272652276520242, "step": 107 }, { "epoch": 0.01152, "grad_norm": 1.7359639129573543, "learning_rate": 3.8297872340425535e-06, "loss": 0.4348, "step": 108 }, { "avg_step_time": 5.539920147019203, "epoch": 0.01152, "eta_time": 14.260677778451932, "step": 108 }, { "epoch": 0.011626666666666667, "grad_norm": 0.6211424052788519, "learning_rate": 3.865248226950355e-06, "loss": 0.4333, "step": 109 }, { "avg_step_time": 5.519470378606006, "epoch": 0.011626666666666667, "eta_time": 14.206503480045347, "step": 109 }, { "epoch": 0.011733333333333333, "grad_norm": 1.2567158951316166, "learning_rate": 3.9007092198581565e-06, "loss": 0.3842, "step": 110 }, { "avg_step_time": 5.535562115486222, "epoch": 0.011733333333333333, "eta_time": 14.246384166661068, "step": 110 }, { "epoch": 0.01184, "grad_norm": 1.982874421226851, "learning_rate": 3.936170212765958e-06, "loss": 0.4532, "step": 111 }, { "avg_step_time": 5.549179103639391, "epoch": 0.01184, "eta_time": 14.279887560032034, "step": 111 }, { "epoch": 0.011946666666666666, "grad_norm": 1.796040957382499, "learning_rate": 3.9716312056737595e-06, "loss": 0.5169, "step": 112 }, { "avg_step_time": 5.584984692660245, "epoch": 0.011946666666666666, "eta_time": 14.37047589114218, "step": 112 }, { "epoch": 0.012053333333333333, "grad_norm": 1.5843764104507787, "learning_rate": 4.007092198581561e-06, "loss": 0.4604, "step": 113 }, { "avg_step_time": 5.584401149942417, "epoch": 0.012053333333333333, "eta_time": 14.36742318076852, "step": 113 }, { "epoch": 0.01216, "grad_norm": 1.4078928186960513, "learning_rate": 4.042553191489362e-06, "loss": 0.4832, "step": 114 }, { "avg_step_time": 5.585325566205111, "epoch": 0.01216, "eta_time": 14.368250019062648, "step": 114 }, { "epoch": 0.012266666666666667, "grad_norm": 1.493867346358992, "learning_rate": 4.078014184397163e-06, "loss": 0.4419, "step": 115 }, { "avg_step_time": 5.597140709559123, "epoch": 0.012266666666666667, "eta_time": 14.397089714032633, "step": 115 }, { "epoch": 0.012373333333333333, "grad_norm": 1.6178432109250473, "learning_rate": 4.113475177304965e-06, "loss": 0.4561, "step": 116 }, { "avg_step_time": 5.589118092951148, "epoch": 0.012373333333333333, "eta_time": 14.374901228509634, "step": 116 }, { "epoch": 0.01248, "grad_norm": 1.9202407732798887, "learning_rate": 4.148936170212766e-06, "loss": 0.5282, "step": 117 }, { "avg_step_time": 5.590302472162729, "epoch": 0.01248, "eta_time": 14.376394524245152, "step": 117 }, { "epoch": 0.012586666666666666, "grad_norm": 1.3752584839294588, "learning_rate": 4.184397163120568e-06, "loss": 0.4037, "step": 118 }, { "avg_step_time": 5.572478739902227, "epoch": 0.012586666666666666, "eta_time": 14.329009915354144, "step": 118 }, { "epoch": 0.012693333333333333, "grad_norm": 1.8607379888423554, "learning_rate": 4.219858156028369e-06, "loss": 0.4794, "step": 119 }, { "avg_step_time": 5.572489391673695, "epoch": 0.012693333333333333, "eta_time": 14.327489391481034, "step": 119 }, { "epoch": 0.0128, "grad_norm": 1.3290217682281331, "learning_rate": 4.255319148936171e-06, "loss": 0.5486, "step": 120 }, { "avg_step_time": 5.624777194225427, "epoch": 0.0128, "eta_time": 14.460364703487869, "step": 120 }, { "epoch": 0.012906666666666667, "grad_norm": 0.6541017908205465, "learning_rate": 4.290780141843972e-06, "loss": 0.4329, "step": 121 }, { "avg_step_time": 5.5767795991415925, "epoch": 0.012906666666666667, "eta_time": 14.335421780682305, "step": 121 }, { "epoch": 0.013013333333333333, "grad_norm": 1.45460829826481, "learning_rate": 4.326241134751774e-06, "loss": 0.5843, "step": 122 }, { "avg_step_time": 5.570845755663785, "epoch": 0.013013333333333333, "eta_time": 14.318621049210279, "step": 122 }, { "epoch": 0.01312, "grad_norm": 1.4679196228635556, "learning_rate": 4.361702127659575e-06, "loss": 0.4225, "step": 123 }, { "avg_step_time": 5.5883677150263935, "epoch": 0.01312, "eta_time": 14.362105027617831, "step": 123 }, { "epoch": 0.013226666666666666, "grad_norm": 1.5512277408270174, "learning_rate": 4.397163120567377e-06, "loss": 0.4493, "step": 124 }, { "avg_step_time": 5.589613685704241, "epoch": 0.013226666666666666, "eta_time": 14.363754501791647, "step": 124 }, { "epoch": 0.013333333333333334, "grad_norm": 1.4408755842467251, "learning_rate": 4.432624113475177e-06, "loss": 0.4174, "step": 125 }, { "avg_step_time": 5.580791738298204, "epoch": 0.013333333333333334, "eta_time": 14.339534327571775, "step": 125 }, { "epoch": 0.01344, "grad_norm": 1.6886591050865578, "learning_rate": 4.468085106382979e-06, "loss": 0.4156, "step": 126 }, { "avg_step_time": 5.577626394503044, "epoch": 0.01344, "eta_time": 14.329851811877404, "step": 126 }, { "epoch": 0.013546666666666667, "grad_norm": 1.7044845430684816, "learning_rate": 4.50354609929078e-06, "loss": 0.4909, "step": 127 }, { "avg_step_time": 5.576924791239729, "epoch": 0.013546666666666667, "eta_time": 14.326500130384726, "step": 127 }, { "epoch": 0.013653333333333333, "grad_norm": 1.7418096688370122, "learning_rate": 4.539007092198582e-06, "loss": 0.5294, "step": 128 }, { "avg_step_time": 5.611126704649492, "epoch": 0.013653333333333333, "eta_time": 14.412802399414959, "step": 128 }, { "epoch": 0.01376, "grad_norm": 2.543804085896344, "learning_rate": 4.574468085106383e-06, "loss": 0.5927, "step": 129 }, { "avg_step_time": 5.584395170211792, "epoch": 0.01376, "eta_time": 14.34258826216062, "step": 129 }, { "epoch": 0.013866666666666666, "grad_norm": 1.9362351608806019, "learning_rate": 4.609929078014185e-06, "loss": 0.5267, "step": 130 }, { "avg_step_time": 5.6220656476839626, "epoch": 0.013866666666666666, "eta_time": 14.437776920232844, "step": 130 }, { "epoch": 0.013973333333333334, "grad_norm": 0.6204015042439769, "learning_rate": 4.645390070921986e-06, "loss": 0.4223, "step": 131 }, { "avg_step_time": 5.596297406186961, "epoch": 0.013973333333333334, "eta_time": 14.370048117442296, "step": 131 }, { "epoch": 0.01408, "grad_norm": 1.7181175307824732, "learning_rate": 4.680851063829788e-06, "loss": 0.4083, "step": 132 }, { "avg_step_time": 5.600235674116346, "epoch": 0.01408, "eta_time": 14.37860509329372, "step": 132 }, { "epoch": 0.014186666666666667, "grad_norm": 1.8524585090216739, "learning_rate": 4.716312056737589e-06, "loss": 0.513, "step": 133 }, { "avg_step_time": 5.601193430447819, "epoch": 0.014186666666666667, "eta_time": 14.379508245610761, "step": 133 }, { "epoch": 0.014293333333333333, "grad_norm": 1.7069104976907297, "learning_rate": 4.751773049645391e-06, "loss": 0.427, "step": 134 }, { "avg_step_time": 5.60227863234703, "epoch": 0.014293333333333333, "eta_time": 14.380738011533028, "step": 134 }, { "epoch": 0.0144, "grad_norm": 1.8123218002398915, "learning_rate": 4.787234042553192e-06, "loss": 0.4812, "step": 135 }, { "avg_step_time": 5.589459029110995, "epoch": 0.0144, "eta_time": 14.34627817471822, "step": 135 }, { "epoch": 0.014506666666666666, "grad_norm": 1.5556938578005433, "learning_rate": 4.822695035460993e-06, "loss": 0.4642, "step": 136 }, { "avg_step_time": 5.580932381177189, "epoch": 0.014506666666666666, "eta_time": 14.322842852693347, "step": 136 }, { "epoch": 0.014613333333333334, "grad_norm": 1.4848593344212426, "learning_rate": 4.858156028368794e-06, "loss": 0.4516, "step": 137 }, { "avg_step_time": 5.58379191581649, "epoch": 0.014613333333333334, "eta_time": 14.328630477309092, "step": 137 }, { "epoch": 0.01472, "grad_norm": 1.7864241007142894, "learning_rate": 4.893617021276596e-06, "loss": 0.5092, "step": 138 }, { "avg_step_time": 5.620376126934784, "epoch": 0.01472, "eta_time": 14.420948412360167, "step": 138 }, { "epoch": 0.014826666666666667, "grad_norm": 1.905769538116361, "learning_rate": 4.929078014184397e-06, "loss": 0.4094, "step": 139 }, { "avg_step_time": 5.637936818479288, "epoch": 0.014826666666666667, "eta_time": 14.464440126520751, "step": 139 }, { "epoch": 0.014933333333333333, "grad_norm": 1.7498578213291642, "learning_rate": 4.964539007092199e-06, "loss": 0.5392, "step": 140 }, { "avg_step_time": 5.632542434364859, "epoch": 0.014933333333333333, "eta_time": 14.449035939266519, "step": 140 }, { "epoch": 0.01504, "grad_norm": 1.31425806057757, "learning_rate": 5e-06, "loss": 0.4849, "step": 141 }, { "avg_step_time": 5.624912175265226, "epoch": 0.01504, "eta_time": 14.427899729555303, "step": 141 }, { "epoch": 0.015146666666666666, "grad_norm": 2.080482144524288, "learning_rate": 5.035460992907801e-06, "loss": 0.534, "step": 142 }, { "avg_step_time": 5.620655669106378, "epoch": 0.015146666666666666, "eta_time": 14.415420498016442, "step": 142 }, { "epoch": 0.015253333333333334, "grad_norm": 1.342698539797104, "learning_rate": 5.070921985815603e-06, "loss": 0.5079, "step": 143 }, { "avg_step_time": 5.622133269454494, "epoch": 0.015253333333333334, "eta_time": 14.417648428778858, "step": 143 }, { "epoch": 0.01536, "grad_norm": 1.737419761677664, "learning_rate": 5.106382978723404e-06, "loss": 0.4436, "step": 144 }, { "avg_step_time": 5.629823441457266, "epoch": 0.01536, "eta_time": 14.43580560780334, "step": 144 }, { "epoch": 0.015466666666666667, "grad_norm": 1.8224781241374897, "learning_rate": 5.141843971631206e-06, "loss": 0.451, "step": 145 }, { "avg_step_time": 5.6279165094549, "epoch": 0.015466666666666667, "eta_time": 14.429352606185759, "step": 145 }, { "epoch": 0.015573333333333333, "grad_norm": 1.5694804647293592, "learning_rate": 5.177304964539007e-06, "loss": 0.4381, "step": 146 }, { "avg_step_time": 5.639172592548409, "epoch": 0.015573333333333333, "eta_time": 14.45664551573035, "step": 146 }, { "epoch": 0.01568, "grad_norm": 1.6954758808853776, "learning_rate": 5.212765957446809e-06, "loss": 0.5223, "step": 147 }, { "avg_step_time": 5.648226051619559, "epoch": 0.01568, "eta_time": 14.478286112318134, "step": 147 }, { "epoch": 0.015786666666666668, "grad_norm": 1.5806477137430672, "learning_rate": 5.24822695035461e-06, "loss": 0.5036, "step": 148 }, { "avg_step_time": 5.686249154986757, "epoch": 0.015786666666666668, "eta_time": 14.57417248696189, "step": 148 }, { "epoch": 0.015893333333333332, "grad_norm": 1.5479726321254645, "learning_rate": 5.283687943262412e-06, "loss": 0.4881, "step": 149 }, { "avg_step_time": 5.694982326391972, "epoch": 0.015893333333333332, "eta_time": 14.594974150914535, "step": 149 }, { "epoch": 0.016, "grad_norm": 2.247598715250476, "learning_rate": 5.319148936170213e-06, "loss": 0.4626, "step": 150 }, { "avg_step_time": 5.687716334757178, "epoch": 0.016, "eta_time": 14.57477310781527, "step": 150 }, { "epoch": 0.016106666666666665, "grad_norm": 1.5033516612256475, "learning_rate": 5.354609929078015e-06, "loss": 0.5023, "step": 151 }, { "avg_step_time": 5.699815254018764, "epoch": 0.016106666666666665, "eta_time": 14.604193306408078, "step": 151 }, { "epoch": 0.016213333333333333, "grad_norm": 1.7489771881667553, "learning_rate": 5.390070921985816e-06, "loss": 0.4762, "step": 152 }, { "avg_step_time": 5.699100927873091, "epoch": 0.016213333333333333, "eta_time": 14.600779960492643, "step": 152 }, { "epoch": 0.01632, "grad_norm": 0.6602475774841912, "learning_rate": 5.425531914893617e-06, "loss": 0.4291, "step": 153 }, { "avg_step_time": 5.639491531583998, "epoch": 0.01632, "eta_time": 14.446497473407673, "step": 153 }, { "epoch": 0.016426666666666666, "grad_norm": 1.7106681772593317, "learning_rate": 5.460992907801419e-06, "loss": 0.4859, "step": 154 }, { "avg_step_time": 5.638171723394683, "epoch": 0.016426666666666666, "eta_time": 14.44155040595066, "step": 154 }, { "epoch": 0.016533333333333334, "grad_norm": 2.1266302986827306, "learning_rate": 5.49645390070922e-06, "loss": 0.4994, "step": 155 }, { "avg_step_time": 5.6319235695732965, "epoch": 0.016533333333333334, "eta_time": 14.423982030962721, "step": 155 }, { "epoch": 0.01664, "grad_norm": 1.7642802558277824, "learning_rate": 5.531914893617022e-06, "loss": 0.4753, "step": 156 }, { "avg_step_time": 5.6295746432410345, "epoch": 0.01664, "eta_time": 14.41640239889975, "step": 156 }, { "epoch": 0.016746666666666667, "grad_norm": 1.3935229808536969, "learning_rate": 5.567375886524823e-06, "loss": 0.4584, "step": 157 }, { "avg_step_time": 5.628705087334219, "epoch": 0.016746666666666667, "eta_time": 14.412612081957453, "step": 157 }, { "epoch": 0.016853333333333335, "grad_norm": 1.5320375703179592, "learning_rate": 5.602836879432625e-06, "loss": 0.456, "step": 158 }, { "avg_step_time": 5.6291465879690765, "epoch": 0.016853333333333335, "eta_time": 14.412178917030827, "step": 158 }, { "epoch": 0.01696, "grad_norm": 1.730560652772855, "learning_rate": 5.638297872340426e-06, "loss": 0.4612, "step": 159 }, { "avg_step_time": 5.628237083704785, "epoch": 0.01696, "eta_time": 14.408286934284249, "step": 159 }, { "epoch": 0.017066666666666667, "grad_norm": 1.6722791591173791, "learning_rate": 5.673758865248228e-06, "loss": 0.4433, "step": 160 }, { "avg_step_time": 5.636416476182263, "epoch": 0.017066666666666667, "eta_time": 14.427660507783209, "step": 160 }, { "epoch": 0.017173333333333332, "grad_norm": 1.6564111879106087, "learning_rate": 5.709219858156029e-06, "loss": 0.5139, "step": 161 }, { "avg_step_time": 5.667374319500393, "epoch": 0.017173333333333332, "eta_time": 14.505329716632394, "step": 161 }, { "epoch": 0.01728, "grad_norm": 1.6960426797163568, "learning_rate": 5.744680851063831e-06, "loss": 0.5091, "step": 162 }, { "avg_step_time": 5.670984870255595, "epoch": 0.01728, "eta_time": 14.512995447129112, "step": 162 }, { "epoch": 0.01738666666666667, "grad_norm": 1.9245733768305846, "learning_rate": 5.780141843971632e-06, "loss": 0.4463, "step": 163 }, { "avg_step_time": 5.667290620129518, "epoch": 0.01738666666666667, "eta_time": 14.501966997953643, "step": 163 }, { "epoch": 0.017493333333333333, "grad_norm": 1.6409831787198075, "learning_rate": 5.815602836879432e-06, "loss": 0.487, "step": 164 }, { "avg_step_time": 5.666531897554494, "epoch": 0.017493333333333333, "eta_time": 14.498451474548455, "step": 164 }, { "epoch": 0.0176, "grad_norm": 1.6198637794402007, "learning_rate": 5.851063829787235e-06, "loss": 0.5049, "step": 165 }, { "avg_step_time": 5.670660580047453, "epoch": 0.0176, "eta_time": 14.507439983954734, "step": 165 }, { "epoch": 0.017706666666666666, "grad_norm": 1.620122836252598, "learning_rate": 5.886524822695035e-06, "loss": 0.4759, "step": 166 }, { "avg_step_time": 5.628568630025844, "epoch": 0.017706666666666666, "eta_time": 14.398191253863333, "step": 166 }, { "epoch": 0.017813333333333334, "grad_norm": 1.76236451920614, "learning_rate": 5.921985815602838e-06, "loss": 0.506, "step": 167 }, { "avg_step_time": 5.623947090572781, "epoch": 0.017813333333333334, "eta_time": 14.384806891665047, "step": 167 }, { "epoch": 0.01792, "grad_norm": 1.5302857341314229, "learning_rate": 5.957446808510638e-06, "loss": 0.4747, "step": 168 }, { "avg_step_time": 5.657229698065556, "epoch": 0.01792, "eta_time": 14.468364952802657, "step": 168 }, { "epoch": 0.018026666666666667, "grad_norm": 1.6337124092024458, "learning_rate": 5.992907801418441e-06, "loss": 0.4362, "step": 169 }, { "avg_step_time": 5.657355224243318, "epoch": 0.018026666666666667, "eta_time": 14.467114498439996, "step": 169 }, { "epoch": 0.018133333333333335, "grad_norm": 1.6042039146461606, "learning_rate": 6.028368794326241e-06, "loss": 0.4206, "step": 170 }, { "avg_step_time": 5.714217183565853, "epoch": 0.018133333333333335, "eta_time": 14.610935881867688, "step": 170 }, { "epoch": 0.01824, "grad_norm": 1.8406528217656173, "learning_rate": 6.063829787234044e-06, "loss": 0.5166, "step": 171 }, { "avg_step_time": 5.7201504490592265, "epoch": 0.01824, "eta_time": 14.62451798142809, "step": 171 }, { "epoch": 0.018346666666666667, "grad_norm": 1.8191116983553006, "learning_rate": 6.099290780141844e-06, "loss": 0.525, "step": 172 }, { "avg_step_time": 5.722078593090327, "epoch": 0.018346666666666667, "eta_time": 14.627858136725077, "step": 172 }, { "epoch": 0.018453333333333332, "grad_norm": 1.7106731065154872, "learning_rate": 6.134751773049647e-06, "loss": 0.4807, "step": 173 }, { "avg_step_time": 5.747010963131683, "epoch": 0.018453333333333332, "eta_time": 14.689998578538264, "step": 173 }, { "epoch": 0.01856, "grad_norm": 0.6572250347082841, "learning_rate": 6.170212765957447e-06, "loss": 0.453, "step": 174 }, { "avg_step_time": 5.71407040682706, "epoch": 0.01856, "eta_time": 14.604211614782159, "step": 174 }, { "epoch": 0.018666666666666668, "grad_norm": 1.6165150333804952, "learning_rate": 6.205673758865248e-06, "loss": 0.4988, "step": 175 }, { "avg_step_time": 5.8010551688647025, "epoch": 0.018666666666666668, "eta_time": 14.824918764876463, "step": 175 }, { "epoch": 0.018773333333333333, "grad_norm": 0.642055571088222, "learning_rate": 6.24113475177305e-06, "loss": 0.4208, "step": 176 }, { "avg_step_time": 5.768329943069304, "epoch": 0.018773333333333333, "eta_time": 14.739685318415146, "step": 176 }, { "epoch": 0.01888, "grad_norm": 1.6579077351167322, "learning_rate": 6.276595744680851e-06, "loss": 0.4862, "step": 177 }, { "avg_step_time": 5.769517852802469, "epoch": 0.01888, "eta_time": 14.741118113910309, "step": 177 }, { "epoch": 0.018986666666666666, "grad_norm": 1.4880343849765567, "learning_rate": 6.312056737588653e-06, "loss": 0.4199, "step": 178 }, { "avg_step_time": 5.771007330730708, "epoch": 0.018986666666666666, "eta_time": 14.743320672425089, "step": 178 }, { "epoch": 0.019093333333333334, "grad_norm": 1.7613298876682457, "learning_rate": 6.347517730496454e-06, "loss": 0.4232, "step": 179 }, { "avg_step_time": 5.768995701664626, "epoch": 0.019093333333333334, "eta_time": 14.736579020141084, "step": 179 }, { "epoch": 0.0192, "grad_norm": 1.7468024804423763, "learning_rate": 6.382978723404256e-06, "loss": 0.5139, "step": 180 }, { "avg_step_time": 5.765840176380042, "epoch": 0.0192, "eta_time": 14.726916783837357, "step": 180 }, { "epoch": 0.019306666666666666, "grad_norm": 1.501069831656347, "learning_rate": 6.418439716312057e-06, "loss": 0.4797, "step": 181 }, { "avg_step_time": 5.776716362346303, "epoch": 0.019306666666666666, "eta_time": 14.753091732058863, "step": 181 }, { "epoch": 0.019413333333333335, "grad_norm": 0.6232824034509902, "learning_rate": 6.453900709219859e-06, "loss": 0.4255, "step": 182 }, { "avg_step_time": 5.742012664525196, "epoch": 0.019413333333333335, "eta_time": 14.662867340272255, "step": 182 }, { "epoch": 0.01952, "grad_norm": 1.6795044768578948, "learning_rate": 6.48936170212766e-06, "loss": 0.56, "step": 183 }, { "avg_step_time": 5.764179802904225, "epoch": 0.01952, "eta_time": 14.717872430082123, "step": 183 }, { "epoch": 0.019626666666666667, "grad_norm": 1.7649498318085284, "learning_rate": 6.524822695035462e-06, "loss": 0.5153, "step": 184 }, { "avg_step_time": 5.750978267554081, "epoch": 0.019626666666666667, "eta_time": 14.682567015858211, "step": 184 }, { "epoch": 0.019733333333333332, "grad_norm": 2.313310349174642, "learning_rate": 6.560283687943263e-06, "loss": 0.4679, "step": 185 }, { "avg_step_time": 5.750804949288416, "epoch": 0.019733333333333332, "eta_time": 14.68052707887793, "step": 185 }, { "epoch": 0.01984, "grad_norm": 1.5826571597152936, "learning_rate": 6.595744680851064e-06, "loss": 0.4288, "step": 186 }, { "avg_step_time": 5.757029764580004, "epoch": 0.01984, "eta_time": 14.694818474090459, "step": 186 }, { "epoch": 0.019946666666666668, "grad_norm": 1.607228722756382, "learning_rate": 6.631205673758866e-06, "loss": 0.4824, "step": 187 }, { "avg_step_time": 5.800265454282664, "epoch": 0.019946666666666668, "eta_time": 14.803566387208088, "step": 187 }, { "epoch": 0.020053333333333333, "grad_norm": 1.695391426732319, "learning_rate": 6.666666666666667e-06, "loss": 0.4697, "step": 188 }, { "avg_step_time": 5.800184541278416, "epoch": 0.020053333333333333, "eta_time": 14.801748716868001, "step": 188 }, { "epoch": 0.02016, "grad_norm": 1.5550799343687758, "learning_rate": 6.702127659574469e-06, "loss": 0.4522, "step": 189 }, { "avg_step_time": 5.7960276868608265, "epoch": 0.02016, "eta_time": 14.789530647639877, "step": 189 }, { "epoch": 0.020266666666666665, "grad_norm": 1.5321884310301037, "learning_rate": 6.73758865248227e-06, "loss": 0.5753, "step": 190 }, { "avg_step_time": 5.790460044687444, "epoch": 0.020266666666666665, "eta_time": 14.773715419570605, "step": 190 }, { "epoch": 0.020373333333333334, "grad_norm": 1.5784657458269133, "learning_rate": 6.773049645390072e-06, "loss": 0.5534, "step": 191 }, { "avg_step_time": 5.807904496337429, "epoch": 0.020373333333333334, "eta_time": 14.816609692878595, "step": 191 }, { "epoch": 0.02048, "grad_norm": 1.6388173457918989, "learning_rate": 6.808510638297873e-06, "loss": 0.5343, "step": 192 }, { "avg_step_time": 5.844072158890541, "epoch": 0.02048, "eta_time": 14.90725406530329, "step": 192 }, { "epoch": 0.020586666666666666, "grad_norm": 4.394672711217244, "learning_rate": 6.843971631205675e-06, "loss": 0.4743, "step": 193 }, { "avg_step_time": 5.878233960180571, "epoch": 0.020586666666666666, "eta_time": 14.99276228399389, "step": 193 }, { "epoch": 0.020693333333333334, "grad_norm": 1.5657100418409882, "learning_rate": 6.879432624113476e-06, "loss": 0.4694, "step": 194 }, { "avg_step_time": 5.8756542735629615, "epoch": 0.020693333333333334, "eta_time": 14.984550523772652, "step": 194 }, { "epoch": 0.0208, "grad_norm": 1.6678354338102124, "learning_rate": 6.914893617021278e-06, "loss": 0.477, "step": 195 }, { "avg_step_time": 5.871348691709114, "epoch": 0.0208, "eta_time": 14.971939163858242, "step": 195 }, { "epoch": 0.020906666666666667, "grad_norm": 1.6989564684978813, "learning_rate": 6.950354609929079e-06, "loss": 0.4882, "step": 196 }, { "avg_step_time": 5.873811425584735, "epoch": 0.020906666666666667, "eta_time": 14.97658752095619, "step": 196 }, { "epoch": 0.021013333333333332, "grad_norm": 1.7118466912335837, "learning_rate": 6.985815602836879e-06, "loss": 0.473, "step": 197 }, { "avg_step_time": 5.906295742651428, "epoch": 0.021013333333333332, "eta_time": 15.057772868348557, "step": 197 }, { "epoch": 0.02112, "grad_norm": 1.421052438226842, "learning_rate": 7.021276595744682e-06, "loss": 0.453, "step": 198 }, { "avg_step_time": 5.905649967867919, "epoch": 0.02112, "eta_time": 15.054486043089968, "step": 198 }, { "epoch": 0.021226666666666668, "grad_norm": 1.7137569029903381, "learning_rate": 7.056737588652482e-06, "loss": 0.5359, "step": 199 }, { "avg_step_time": 5.903485575107613, "epoch": 0.021226666666666668, "eta_time": 15.047328788107627, "step": 199 }, { "epoch": 0.021333333333333333, "grad_norm": 1.7042749782268598, "learning_rate": 7.092198581560285e-06, "loss": 0.5228, "step": 200 }, { "avg_step_time": 5.938977349888194, "epoch": 0.021333333333333333, "eta_time": 15.136143662562272, "step": 200 }, { "epoch": 0.02144, "grad_norm": 1.6754628865220753, "learning_rate": 7.127659574468085e-06, "loss": 0.4664, "step": 201 }, { "avg_step_time": 5.936513327588939, "epoch": 0.02144, "eta_time": 15.128214796472479, "step": 201 }, { "epoch": 0.021546666666666665, "grad_norm": 1.6990825250084027, "learning_rate": 7.163120567375888e-06, "loss": 0.4761, "step": 202 }, { "avg_step_time": 5.934819488814383, "epoch": 0.021546666666666665, "eta_time": 15.12224976969287, "step": 202 }, { "epoch": 0.021653333333333333, "grad_norm": 1.5494108399485325, "learning_rate": 7.198581560283688e-06, "loss": 0.4068, "step": 203 }, { "avg_step_time": 5.92956835332543, "epoch": 0.021653333333333333, "eta_time": 15.107222482416901, "step": 203 }, { "epoch": 0.02176, "grad_norm": 1.527182806430845, "learning_rate": 7.234042553191491e-06, "loss": 0.4748, "step": 204 }, { "avg_step_time": 5.932655474152228, "epoch": 0.02176, "eta_time": 15.1134398204028, "step": 204 }, { "epoch": 0.021866666666666666, "grad_norm": 1.6609424633825853, "learning_rate": 7.269503546099291e-06, "loss": 0.4571, "step": 205 }, { "avg_step_time": 5.967158572842377, "epoch": 0.021866666666666666, "eta_time": 15.199678920267942, "step": 205 }, { "epoch": 0.021973333333333334, "grad_norm": 1.6870049151857274, "learning_rate": 7.304964539007094e-06, "loss": 0.4829, "step": 206 }, { "avg_step_time": 6.001926605147545, "epoch": 0.021973333333333334, "eta_time": 15.286573622943843, "step": 206 }, { "epoch": 0.02208, "grad_norm": 1.7125879025805726, "learning_rate": 7.340425531914894e-06, "loss": 0.5332, "step": 207 }, { "avg_step_time": 6.003022145743322, "epoch": 0.02208, "eta_time": 15.287696397826327, "step": 207 }, { "epoch": 0.022186666666666667, "grad_norm": 1.747791373118075, "learning_rate": 7.375886524822695e-06, "loss": 0.3768, "step": 208 }, { "avg_step_time": 6.0388348921380866, "epoch": 0.022186666666666667, "eta_time": 15.377222071174955, "step": 208 }, { "epoch": 0.02229333333333333, "grad_norm": 1.571391232736286, "learning_rate": 7.411347517730497e-06, "loss": 0.5346, "step": 209 }, { "avg_step_time": 6.020065688123607, "epoch": 0.02229333333333333, "eta_time": 15.327756138150272, "step": 209 }, { "epoch": 0.0224, "grad_norm": 1.4452345237881776, "learning_rate": 7.446808510638298e-06, "loss": 0.3956, "step": 210 }, { "avg_step_time": 6.002975962378762, "epoch": 0.0224, "eta_time": 15.282576304222598, "step": 210 }, { "epoch": 0.022506666666666668, "grad_norm": 1.8825166217593308, "learning_rate": 7.4822695035461e-06, "loss": 0.5403, "step": 211 }, { "avg_step_time": 6.000307013290097, "epoch": 0.022506666666666668, "eta_time": 15.27411485271957, "step": 211 }, { "epoch": 0.022613333333333333, "grad_norm": 1.568452303650436, "learning_rate": 7.517730496453901e-06, "loss": 0.4989, "step": 212 }, { "avg_step_time": 6.003597575004655, "epoch": 0.022613333333333333, "eta_time": 15.280823494379902, "step": 212 }, { "epoch": 0.02272, "grad_norm": 1.581851681266175, "learning_rate": 7.553191489361703e-06, "loss": 0.5053, "step": 213 }, { "avg_step_time": 6.005861344963614, "epoch": 0.02272, "eta_time": 15.284917122932397, "step": 213 }, { "epoch": 0.022826666666666665, "grad_norm": 1.6251273064366836, "learning_rate": 7.588652482269504e-06, "loss": 0.5487, "step": 214 }, { "avg_step_time": 5.992293767254762, "epoch": 0.022826666666666665, "eta_time": 15.24872311161691, "step": 214 }, { "epoch": 0.022933333333333333, "grad_norm": 1.7038143264061947, "learning_rate": 7.624113475177306e-06, "loss": 0.4506, "step": 215 }, { "avg_step_time": 5.991967887589426, "epoch": 0.022933333333333333, "eta_time": 15.246229402866428, "step": 215 }, { "epoch": 0.02304, "grad_norm": 1.4003882036601176, "learning_rate": 7.659574468085107e-06, "loss": 0.4169, "step": 216 }, { "avg_step_time": 5.991174868863038, "epoch": 0.02304, "eta_time": 15.242547395532382, "step": 216 }, { "epoch": 0.023146666666666666, "grad_norm": 1.9604988748109111, "learning_rate": 7.695035460992908e-06, "loss": 0.4748, "step": 217 }, { "avg_step_time": 5.989199089281486, "epoch": 0.023146666666666666, "eta_time": 15.235857016566626, "step": 217 }, { "epoch": 0.023253333333333334, "grad_norm": 3.546059564492797, "learning_rate": 7.73049645390071e-06, "loss": 0.4666, "step": 218 }, { "avg_step_time": 5.991558296511871, "epoch": 0.023253333333333334, "eta_time": 15.240194255877556, "step": 218 }, { "epoch": 0.02336, "grad_norm": 1.8779378104195115, "learning_rate": 7.765957446808511e-06, "loss": 0.4815, "step": 219 }, { "avg_step_time": 5.94167056709829, "epoch": 0.02336, "eta_time": 15.11164880898665, "step": 219 }, { "epoch": 0.023466666666666667, "grad_norm": 1.5666975637337142, "learning_rate": 7.801418439716313e-06, "loss": 0.5012, "step": 220 }, { "avg_step_time": 5.977776683942236, "epoch": 0.023466666666666667, "eta_time": 15.20181820596977, "step": 220 }, { "epoch": 0.023573333333333335, "grad_norm": 0.6445073401874107, "learning_rate": 7.836879432624114e-06, "loss": 0.4243, "step": 221 }, { "avg_step_time": 5.945688897913152, "epoch": 0.023573333333333335, "eta_time": 15.118565603193609, "step": 221 }, { "epoch": 0.02368, "grad_norm": 1.5940386131994702, "learning_rate": 7.872340425531916e-06, "loss": 0.472, "step": 222 }, { "avg_step_time": 5.933092668803051, "epoch": 0.02368, "eta_time": 15.084888110431757, "step": 222 }, { "epoch": 0.023786666666666668, "grad_norm": 1.626372047867353, "learning_rate": 7.907801418439717e-06, "loss": 0.4864, "step": 223 }, { "avg_step_time": 5.929359833399455, "epoch": 0.023786666666666668, "eta_time": 15.073750332019948, "step": 223 }, { "epoch": 0.023893333333333332, "grad_norm": 0.6607514334454305, "learning_rate": 7.943262411347519e-06, "loss": 0.4276, "step": 224 }, { "avg_step_time": 5.879096175685073, "epoch": 0.023893333333333332, "eta_time": 14.944335862137251, "step": 224 }, { "epoch": 0.024, "grad_norm": 1.7088887230758931, "learning_rate": 7.97872340425532e-06, "loss": 0.4818, "step": 225 }, { "avg_step_time": 5.8772244116272585, "epoch": 0.024, "eta_time": 14.937945379552614, "step": 225 }, { "epoch": 0.024106666666666665, "grad_norm": 2.2270792463316016, "learning_rate": 8.014184397163122e-06, "loss": 0.5042, "step": 226 }, { "avg_step_time": 5.875762799773553, "epoch": 0.024106666666666665, "eta_time": 14.932598293091178, "step": 226 }, { "epoch": 0.024213333333333333, "grad_norm": 0.6787277350570751, "learning_rate": 8.049645390070923e-06, "loss": 0.4492, "step": 227 }, { "avg_step_time": 5.797656186903366, "epoch": 0.024213333333333333, "eta_time": 14.732488554942218, "step": 227 }, { "epoch": 0.02432, "grad_norm": 1.6996967888803347, "learning_rate": 8.085106382978723e-06, "loss": 0.5441, "step": 228 }, { "avg_step_time": 5.8234584596421985, "epoch": 0.02432, "eta_time": 14.796437369540886, "step": 228 }, { "epoch": 0.024426666666666666, "grad_norm": 1.5145778401395604, "learning_rate": 8.120567375886525e-06, "loss": 0.4264, "step": 229 }, { "avg_step_time": 5.865177520597824, "epoch": 0.024426666666666666, "eta_time": 14.90080933427436, "step": 229 }, { "epoch": 0.024533333333333334, "grad_norm": 1.7319354111588134, "learning_rate": 8.156028368794326e-06, "loss": 0.4815, "step": 230 }, { "avg_step_time": 5.891840371218595, "epoch": 0.024533333333333334, "eta_time": 14.96691116522057, "step": 230 }, { "epoch": 0.02464, "grad_norm": 1.3422731816298936, "learning_rate": 8.191489361702128e-06, "loss": 0.4342, "step": 231 }, { "avg_step_time": 5.886725717120701, "epoch": 0.02464, "eta_time": 14.95228332148658, "step": 231 }, { "epoch": 0.024746666666666667, "grad_norm": 1.859160667081749, "learning_rate": 8.22695035460993e-06, "loss": 0.6569, "step": 232 }, { "avg_step_time": 5.890456235770023, "epoch": 0.024746666666666667, "eta_time": 14.960122601012591, "step": 232 }, { "epoch": 0.024853333333333335, "grad_norm": 0.6166565765448342, "learning_rate": 8.26241134751773e-06, "loss": 0.4006, "step": 233 }, { "avg_step_time": 5.86590922240055, "epoch": 0.024853333333333335, "eta_time": 14.896150586440507, "step": 233 }, { "epoch": 0.02496, "grad_norm": 1.7069564282690257, "learning_rate": 8.297872340425532e-06, "loss": 0.5302, "step": 234 }, { "avg_step_time": 5.870685736338298, "epoch": 0.02496, "eta_time": 14.90664953218566, "step": 234 }, { "epoch": 0.025066666666666668, "grad_norm": 1.5335496332050897, "learning_rate": 8.333333333333334e-06, "loss": 0.5354, "step": 235 }, { "avg_step_time": 5.884715754576404, "epoch": 0.025066666666666668, "eta_time": 14.940639443563425, "step": 235 }, { "epoch": 0.025173333333333332, "grad_norm": 1.7432025732376732, "learning_rate": 8.368794326241135e-06, "loss": 0.4612, "step": 236 }, { "avg_step_time": 5.88592053663851, "epoch": 0.025173333333333332, "eta_time": 14.942063273427594, "step": 236 }, { "epoch": 0.02528, "grad_norm": 0.6637228344603382, "learning_rate": 8.404255319148937e-06, "loss": 0.4327, "step": 237 }, { "avg_step_time": 5.856997448988635, "epoch": 0.02528, "eta_time": 14.867011858016152, "step": 237 }, { "epoch": 0.025386666666666665, "grad_norm": 1.5819883780882504, "learning_rate": 8.439716312056738e-06, "loss": 0.5945, "step": 238 }, { "avg_step_time": 5.8402307322531035, "epoch": 0.025386666666666665, "eta_time": 14.822830055721278, "step": 238 }, { "epoch": 0.025493333333333333, "grad_norm": 1.748404864476934, "learning_rate": 8.47517730496454e-06, "loss": 0.3632, "step": 239 }, { "avg_step_time": 5.842198135876896, "epoch": 0.025493333333333333, "eta_time": 14.826200602603144, "step": 239 }, { "epoch": 0.0256, "grad_norm": 1.701791766899899, "learning_rate": 8.510638297872341e-06, "loss": 0.4459, "step": 240 }, { "avg_step_time": 5.840237622309213, "epoch": 0.0256, "eta_time": 14.819602966609628, "step": 240 }, { "epoch": 0.025706666666666666, "grad_norm": 1.5968585684167704, "learning_rate": 8.546099290780143e-06, "loss": 0.4291, "step": 241 }, { "avg_step_time": 5.838847707016299, "epoch": 0.025706666666666666, "eta_time": 14.81445415441302, "step": 241 }, { "epoch": 0.025813333333333334, "grad_norm": 1.6876507100380185, "learning_rate": 8.581560283687944e-06, "loss": 0.447, "step": 242 }, { "avg_step_time": 5.84235146792248, "epoch": 0.025813333333333334, "eta_time": 14.82172109903778, "step": 242 }, { "epoch": 0.02592, "grad_norm": 1.6900518745771924, "learning_rate": 8.617021276595746e-06, "loss": 0.4494, "step": 243 }, { "avg_step_time": 5.836298985914751, "epoch": 0.02592, "eta_time": 14.804745094270418, "step": 243 }, { "epoch": 0.026026666666666667, "grad_norm": 1.8710174761113934, "learning_rate": 8.652482269503547e-06, "loss": 0.5348, "step": 244 }, { "avg_step_time": 5.837794458023225, "epoch": 0.026026666666666667, "eta_time": 14.806916998947242, "step": 244 }, { "epoch": 0.026133333333333335, "grad_norm": 1.6125239260870239, "learning_rate": 8.687943262411349e-06, "loss": 0.4665, "step": 245 }, { "avg_step_time": 5.849974381803262, "epoch": 0.026133333333333335, "eta_time": 14.836185029406606, "step": 245 }, { "epoch": 0.02624, "grad_norm": 1.6730273999951155, "learning_rate": 8.72340425531915e-06, "loss": 0.5, "step": 246 }, { "avg_step_time": 5.894355487341833, "epoch": 0.02624, "eta_time": 14.947103123317664, "step": 246 }, { "epoch": 0.026346666666666668, "grad_norm": 1.767754076481934, "learning_rate": 8.758865248226952e-06, "loss": 0.4702, "step": 247 }, { "avg_step_time": 5.892405777266531, "epoch": 0.026346666666666668, "eta_time": 14.940522204135807, "step": 247 }, { "epoch": 0.026453333333333332, "grad_norm": 1.483032556433822, "learning_rate": 8.794326241134753e-06, "loss": 0.4413, "step": 248 }, { "avg_step_time": 5.889423127126212, "epoch": 0.026453333333333332, "eta_time": 14.931323578133593, "step": 248 }, { "epoch": 0.02656, "grad_norm": 1.6028824005134277, "learning_rate": 8.829787234042555e-06, "loss": 0.4844, "step": 249 }, { "avg_step_time": 5.889269173747361, "epoch": 0.02656, "eta_time": 14.92929735544956, "step": 249 }, { "epoch": 0.02666666666666667, "grad_norm": 1.4229823447062075, "learning_rate": 8.865248226950355e-06, "loss": 0.6062, "step": 250 }, { "avg_step_time": 5.881383110778501, "epoch": 0.02666666666666667, "eta_time": 14.907672468292727, "step": 250 }, { "epoch": 0.026773333333333333, "grad_norm": 1.6455044560477596, "learning_rate": 8.900709219858156e-06, "loss": 0.5282, "step": 251 }, { "avg_step_time": 5.885088634009313, "epoch": 0.026773333333333333, "eta_time": 14.915430193528048, "step": 251 }, { "epoch": 0.02688, "grad_norm": 1.806740216691655, "learning_rate": 8.936170212765958e-06, "loss": 0.4351, "step": 252 }, { "avg_step_time": 5.912830959666859, "epoch": 0.02688, "eta_time": 14.984099123622432, "step": 252 }, { "epoch": 0.026986666666666666, "grad_norm": 1.6161132669946556, "learning_rate": 8.971631205673759e-06, "loss": 0.4668, "step": 253 }, { "avg_step_time": 5.9179694026407565, "epoch": 0.026986666666666666, "eta_time": 14.995476914135828, "step": 253 }, { "epoch": 0.027093333333333334, "grad_norm": 1.8201220351317897, "learning_rate": 9.00709219858156e-06, "loss": 0.4312, "step": 254 }, { "avg_step_time": 5.912029598698472, "epoch": 0.027093333333333334, "eta_time": 14.978783880480211, "step": 254 }, { "epoch": 0.0272, "grad_norm": 1.5309521153537338, "learning_rate": 9.042553191489362e-06, "loss": 0.524, "step": 255 }, { "avg_step_time": 5.914635643814549, "epoch": 0.0272, "eta_time": 14.983743630996857, "step": 255 }, { "epoch": 0.027306666666666667, "grad_norm": 1.6042252643873784, "learning_rate": 9.078014184397164e-06, "loss": 0.5049, "step": 256 }, { "avg_step_time": 5.91302659294822, "epoch": 0.027306666666666667, "eta_time": 14.978024861415227, "step": 256 }, { "epoch": 0.027413333333333335, "grad_norm": 1.860738427848133, "learning_rate": 9.113475177304965e-06, "loss": 0.5555, "step": 257 }, { "avg_step_time": 5.968252702192827, "epoch": 0.027413333333333335, "eta_time": 15.116257816276166, "step": 257 }, { "epoch": 0.02752, "grad_norm": 1.676161123987651, "learning_rate": 9.148936170212767e-06, "loss": 0.4597, "step": 258 }, { "avg_step_time": 5.967688926542648, "epoch": 0.02752, "eta_time": 15.113172206469256, "step": 258 }, { "epoch": 0.027626666666666667, "grad_norm": 1.7746577689502423, "learning_rate": 9.184397163120568e-06, "loss": 0.4754, "step": 259 }, { "avg_step_time": 5.959338823954265, "epoch": 0.027626666666666667, "eta_time": 15.090370199768632, "step": 259 }, { "epoch": 0.027733333333333332, "grad_norm": 1.5628694592551906, "learning_rate": 9.21985815602837e-06, "loss": 0.4735, "step": 260 }, { "avg_step_time": 5.9563176896837025, "epoch": 0.027733333333333332, "eta_time": 15.081065483740819, "step": 260 }, { "epoch": 0.02784, "grad_norm": 1.8647705233609164, "learning_rate": 9.255319148936171e-06, "loss": 0.4431, "step": 261 }, { "avg_step_time": 5.975688691091055, "epoch": 0.02784, "eta_time": 15.128451869612189, "step": 261 }, { "epoch": 0.02794666666666667, "grad_norm": 1.71202304028645, "learning_rate": 9.290780141843973e-06, "loss": 0.4727, "step": 262 }, { "avg_step_time": 5.9801684557789505, "epoch": 0.02794666666666667, "eta_time": 15.13813198264266, "step": 262 }, { "epoch": 0.028053333333333333, "grad_norm": 1.7348960199807988, "learning_rate": 9.326241134751774e-06, "loss": 0.5118, "step": 263 }, { "avg_step_time": 5.980414031731962, "epoch": 0.028053333333333333, "eta_time": 15.137092404761566, "step": 263 }, { "epoch": 0.02816, "grad_norm": 1.7411115707023392, "learning_rate": 9.361702127659576e-06, "loss": 0.4853, "step": 264 }, { "avg_step_time": 5.974341190222538, "epoch": 0.02816, "eta_time": 15.120061828921541, "step": 264 }, { "epoch": 0.028266666666666666, "grad_norm": 1.615624502961425, "learning_rate": 9.397163120567377e-06, "loss": 0.4693, "step": 265 }, { "avg_step_time": 5.97839551501804, "epoch": 0.028266666666666666, "eta_time": 15.128661983837317, "step": 265 }, { "epoch": 0.028373333333333334, "grad_norm": 1.6783739647902933, "learning_rate": 9.432624113475179e-06, "loss": 0.5268, "step": 266 }, { "avg_step_time": 5.976353332249805, "epoch": 0.028373333333333334, "eta_time": 15.121834028739853, "step": 266 }, { "epoch": 0.02848, "grad_norm": 1.906542687136002, "learning_rate": 9.46808510638298e-06, "loss": 0.5222, "step": 267 }, { "avg_step_time": 5.942319022284614, "epoch": 0.02848, "eta_time": 15.034067126380073, "step": 267 }, { "epoch": 0.028586666666666666, "grad_norm": 1.6503119515531048, "learning_rate": 9.503546099290782e-06, "loss": 0.4513, "step": 268 }, { "avg_step_time": 5.9591071557517, "epoch": 0.028586666666666666, "eta_time": 15.074885796508536, "step": 268 }, { "epoch": 0.028693333333333335, "grad_norm": 0.6842527886050925, "learning_rate": 9.539007092198583e-06, "loss": 0.4533, "step": 269 }, { "avg_step_time": 5.920852420305965, "epoch": 0.028693333333333335, "eta_time": 14.976467260918366, "step": 269 }, { "epoch": 0.0288, "grad_norm": 1.5644359811030837, "learning_rate": 9.574468085106385e-06, "loss": 0.5458, "step": 270 }, { "avg_step_time": 5.9162025981479225, "epoch": 0.0288, "eta_time": 14.963062404482454, "step": 270 }, { "epoch": 0.028906666666666667, "grad_norm": 1.9656204850361712, "learning_rate": 9.609929078014186e-06, "loss": 0.4723, "step": 271 }, { "avg_step_time": 5.928488136541964, "epoch": 0.028906666666666667, "eta_time": 14.992487776410567, "step": 271 }, { "epoch": 0.029013333333333332, "grad_norm": 1.6368037324201465, "learning_rate": 9.645390070921986e-06, "loss": 0.439, "step": 272 }, { "avg_step_time": 5.903453463255757, "epoch": 0.029013333333333332, "eta_time": 14.927538021115877, "step": 272 }, { "epoch": 0.02912, "grad_norm": 0.6345271751486673, "learning_rate": 9.680851063829787e-06, "loss": 0.4154, "step": 273 }, { "avg_step_time": 5.924975578231041, "epoch": 0.02912, "eta_time": 14.98031325362748, "step": 273 }, { "epoch": 0.029226666666666668, "grad_norm": 1.628099608481322, "learning_rate": 9.716312056737589e-06, "loss": 0.4247, "step": 274 }, { "avg_step_time": 5.870594698973377, "epoch": 0.029226666666666668, "eta_time": 14.84118954315464, "step": 274 }, { "epoch": 0.029333333333333333, "grad_norm": 0.639296108706194, "learning_rate": 9.75177304964539e-06, "loss": 0.4301, "step": 275 }, { "avg_step_time": 5.8742044887157405, "epoch": 0.029333333333333333, "eta_time": 14.848683568698123, "step": 275 }, { "epoch": 0.02944, "grad_norm": 1.8573770265488645, "learning_rate": 9.787234042553192e-06, "loss": 0.5392, "step": 276 }, { "avg_step_time": 5.872686542645849, "epoch": 0.02944, "eta_time": 14.843215236537382, "step": 276 }, { "epoch": 0.029546666666666666, "grad_norm": 1.5209395467663913, "learning_rate": 9.822695035460993e-06, "loss": 0.5101, "step": 277 }, { "avg_step_time": 5.873778786322083, "epoch": 0.029546666666666666, "eta_time": 14.844344277210642, "step": 277 }, { "epoch": 0.029653333333333334, "grad_norm": 1.6391877648342443, "learning_rate": 9.858156028368795e-06, "loss": 0.4806, "step": 278 }, { "avg_step_time": 5.8740437560611305, "epoch": 0.029653333333333334, "eta_time": 14.84338223580225, "step": 278 }, { "epoch": 0.02976, "grad_norm": 1.6106791349576712, "learning_rate": 9.893617021276596e-06, "loss": 0.4152, "step": 279 }, { "avg_step_time": 5.8639529016282825, "epoch": 0.02976, "eta_time": 14.816254331447462, "step": 279 }, { "epoch": 0.029866666666666666, "grad_norm": 1.5886078020512973, "learning_rate": 9.929078014184398e-06, "loss": 0.483, "step": 280 }, { "avg_step_time": 5.857177274395721, "epoch": 0.029866666666666666, "eta_time": 14.797507586285857, "step": 280 }, { "epoch": 0.029973333333333334, "grad_norm": 1.6185545504155467, "learning_rate": 9.9645390070922e-06, "loss": 0.4849, "step": 281 }, { "avg_step_time": 5.89356015426944, "epoch": 0.029973333333333334, "eta_time": 14.887787789701747, "step": 281 }, { "epoch": 0.03008, "grad_norm": 1.3966987108977575, "learning_rate": 1e-05, "loss": 0.4471, "step": 282 }, { "avg_step_time": 5.8706194872807975, "epoch": 0.03008, "eta_time": 14.82820638829008, "step": 282 }, { "epoch": 0.030186666666666667, "grad_norm": 1.9342333379307182, "learning_rate": 9.999999701581759e-06, "loss": 0.5339, "step": 283 }, { "avg_step_time": 5.857969226259174, "epoch": 0.030186666666666667, "eta_time": 14.794626723652335, "step": 283 }, { "epoch": 0.030293333333333332, "grad_norm": 1.6354971631207957, "learning_rate": 9.99999880632707e-06, "loss": 0.5118, "step": 284 }, { "avg_step_time": 5.860864995705961, "epoch": 0.030293333333333332, "eta_time": 14.800312132211914, "step": 284 }, { "epoch": 0.0304, "grad_norm": 1.654675033814602, "learning_rate": 9.999997314236036e-06, "loss": 0.4654, "step": 285 }, { "avg_step_time": 5.856271250079376, "epoch": 0.0304, "eta_time": 14.787084906450424, "step": 285 }, { "epoch": 0.030506666666666668, "grad_norm": 1.5950839015031097, "learning_rate": 9.999995225308842e-06, "loss": 0.4187, "step": 286 }, { "avg_step_time": 5.84315641239436, "epoch": 0.030506666666666668, "eta_time": 14.752346842292315, "step": 286 }, { "epoch": 0.030613333333333333, "grad_norm": 1.6037351853097819, "learning_rate": 9.999992539545732e-06, "loss": 0.4727, "step": 287 }, { "avg_step_time": 5.824545653179438, "epoch": 0.030613333333333333, "eta_time": 14.70374191558187, "step": 287 }, { "epoch": 0.03072, "grad_norm": 1.4055645413544184, "learning_rate": 9.999989256947029e-06, "loss": 0.4304, "step": 288 }, { "avg_step_time": 5.827045101107973, "epoch": 0.03072, "eta_time": 14.708433009380041, "step": 288 }, { "epoch": 0.030826666666666665, "grad_norm": 1.7507025674286092, "learning_rate": 9.999985377513126e-06, "loss": 0.4703, "step": 289 }, { "avg_step_time": 5.828018838709051, "epoch": 0.030826666666666665, "eta_time": 14.7092719912529, "step": 289 }, { "epoch": 0.030933333333333334, "grad_norm": 2.6135576296830743, "learning_rate": 9.999980901244483e-06, "loss": 0.5069, "step": 290 }, { "avg_step_time": 5.830264447915433, "epoch": 0.030933333333333334, "eta_time": 14.713320141475476, "step": 290 }, { "epoch": 0.03104, "grad_norm": 1.4297616544458525, "learning_rate": 9.999975828141635e-06, "loss": 0.4947, "step": 291 }, { "avg_step_time": 5.8295366667737865, "epoch": 0.03104, "eta_time": 14.709864189159187, "step": 291 }, { "epoch": 0.031146666666666666, "grad_norm": 0.7122736151204531, "learning_rate": 9.99997015820519e-06, "loss": 0.4379, "step": 292 }, { "avg_step_time": 5.800688233038391, "epoch": 0.031146666666666666, "eta_time": 14.635458672413252, "step": 292 }, { "epoch": 0.031253333333333334, "grad_norm": 1.7850121767155833, "learning_rate": 9.999963891435822e-06, "loss": 0.4684, "step": 293 }, { "avg_step_time": 5.831162219095712, "epoch": 0.031253333333333334, "eta_time": 14.710726464952016, "step": 293 }, { "epoch": 0.03136, "grad_norm": 1.733640428659447, "learning_rate": 9.999957027834282e-06, "loss": 0.5007, "step": 294 }, { "avg_step_time": 5.82992289042232, "epoch": 0.03136, "eta_time": 14.705980491090301, "step": 294 }, { "epoch": 0.031466666666666664, "grad_norm": 1.6104338261179538, "learning_rate": 9.999949567401386e-06, "loss": 0.5182, "step": 295 }, { "avg_step_time": 5.829138206713127, "epoch": 0.031466666666666664, "eta_time": 14.702381921376443, "step": 295 }, { "epoch": 0.031573333333333335, "grad_norm": 0.7266403163207199, "learning_rate": 9.999941510138025e-06, "loss": 0.4487, "step": 296 }, { "avg_step_time": 5.7958628119844375, "epoch": 0.031573333333333335, "eta_time": 14.616844019446308, "step": 296 }, { "epoch": 0.03168, "grad_norm": 1.704170302479292, "learning_rate": 9.999932856045164e-06, "loss": 0.4448, "step": 297 }, { "avg_step_time": 5.7954932029801185, "epoch": 0.03168, "eta_time": 14.6143020268482, "step": 297 }, { "epoch": 0.031786666666666664, "grad_norm": 1.6748522613674686, "learning_rate": 9.999923605123833e-06, "loss": 0.5089, "step": 298 }, { "avg_step_time": 5.796785884433323, "epoch": 0.031786666666666664, "eta_time": 14.61595152027813, "step": 298 }, { "epoch": 0.031893333333333336, "grad_norm": 1.5484771970001887, "learning_rate": 9.999913757375138e-06, "loss": 0.5233, "step": 299 }, { "avg_step_time": 5.798869065564088, "epoch": 0.031893333333333336, "eta_time": 14.619593233072129, "step": 299 }, { "epoch": 0.032, "grad_norm": 1.7346049626925304, "learning_rate": 9.99990331280025e-06, "loss": 0.492, "step": 300 }, { "avg_step_time": 5.800591314681853, "epoch": 0.032, "eta_time": 14.622323939093837, "step": 300 }, { "epoch": 0.032106666666666665, "grad_norm": 0.6696545912882741, "learning_rate": 9.999892271400424e-06, "loss": 0.4511, "step": 301 }, { "avg_step_time": 5.758259575776379, "epoch": 0.032106666666666665, "eta_time": 14.51401316405413, "step": 301 }, { "epoch": 0.03221333333333333, "grad_norm": 1.4539208425335695, "learning_rate": 9.99988063317697e-06, "loss": 0.4991, "step": 302 }, { "avg_step_time": 5.754669692781237, "epoch": 0.03221333333333333, "eta_time": 14.503366145167822, "step": 302 }, { "epoch": 0.03232, "grad_norm": 1.520818433817979, "learning_rate": 9.999868398131282e-06, "loss": 0.4209, "step": 303 }, { "avg_step_time": 5.751823769675361, "epoch": 0.03232, "eta_time": 14.49459589958191, "step": 303 }, { "epoch": 0.032426666666666666, "grad_norm": 1.6974150120499116, "learning_rate": 9.999855566264818e-06, "loss": 0.4359, "step": 304 }, { "avg_step_time": 5.751169744164053, "epoch": 0.032426666666666666, "eta_time": 14.491350208142256, "step": 304 }, { "epoch": 0.03253333333333333, "grad_norm": 1.5014468622565893, "learning_rate": 9.999842137579112e-06, "loss": 0.3551, "step": 305 }, { "avg_step_time": 5.713897611155654, "epoch": 0.03253333333333333, "eta_time": 14.395847592550496, "step": 305 }, { "epoch": 0.03264, "grad_norm": 1.8981590352992215, "learning_rate": 9.999828112075764e-06, "loss": 0.5583, "step": 306 }, { "avg_step_time": 5.715591731697622, "epoch": 0.03264, "eta_time": 14.39852817076826, "step": 306 }, { "epoch": 0.03274666666666667, "grad_norm": 1.8280132324646667, "learning_rate": 9.999813489756452e-06, "loss": 0.4499, "step": 307 }, { "avg_step_time": 5.71126244044063, "epoch": 0.03274666666666667, "eta_time": 14.386035502754343, "step": 307 }, { "epoch": 0.03285333333333333, "grad_norm": 1.6290231388119074, "learning_rate": 9.999798270622918e-06, "loss": 0.475, "step": 308 }, { "avg_step_time": 5.71260616273591, "epoch": 0.03285333333333333, "eta_time": 14.387833354868471, "step": 308 }, { "epoch": 0.03296, "grad_norm": 1.7886809338887988, "learning_rate": 9.99978245467698e-06, "loss": 0.5427, "step": 309 }, { "avg_step_time": 5.736998577310581, "epoch": 0.03296, "eta_time": 14.447674750527147, "step": 309 }, { "epoch": 0.03306666666666667, "grad_norm": 0.6746591348436414, "learning_rate": 9.999766041920525e-06, "loss": 0.416, "step": 310 }, { "avg_step_time": 5.7053106312799935, "epoch": 0.03306666666666667, "eta_time": 14.366289131264763, "step": 310 }, { "epoch": 0.03317333333333333, "grad_norm": 1.6552108664641776, "learning_rate": 9.999749032355514e-06, "loss": 0.4501, "step": 311 }, { "avg_step_time": 5.704641662462794, "epoch": 0.03317333333333333, "eta_time": 14.363020007934102, "step": 311 }, { "epoch": 0.03328, "grad_norm": 0.6212441661114074, "learning_rate": 9.999731425983975e-06, "loss": 0.4234, "step": 312 }, { "avg_step_time": 5.666175750770954, "epoch": 0.03328, "eta_time": 14.264597452565877, "step": 312 }, { "epoch": 0.03338666666666667, "grad_norm": 1.6000824794900892, "learning_rate": 9.999713222808014e-06, "loss": 0.4929, "step": 313 }, { "avg_step_time": 5.672303989680127, "epoch": 0.03338666666666667, "eta_time": 14.278449654022586, "step": 313 }, { "epoch": 0.03349333333333333, "grad_norm": 1.497636334005993, "learning_rate": 9.999694422829798e-06, "loss": 0.5162, "step": 314 }, { "avg_step_time": 5.678237464692858, "epoch": 0.03349333333333333, "eta_time": 14.291808240994994, "step": 314 }, { "epoch": 0.0336, "grad_norm": 1.7099058387685853, "learning_rate": 9.999675026051576e-06, "loss": 0.5599, "step": 315 }, { "avg_step_time": 5.677142054143578, "epoch": 0.0336, "eta_time": 14.287474169594672, "step": 315 }, { "epoch": 0.03370666666666667, "grad_norm": 1.7081635170183596, "learning_rate": 9.99965503247566e-06, "loss": 0.4946, "step": 316 }, { "avg_step_time": 5.683393846858632, "epoch": 0.03370666666666667, "eta_time": 14.30162912741454, "step": 316 }, { "epoch": 0.033813333333333334, "grad_norm": 1.7924909810433876, "learning_rate": 9.999634442104438e-06, "loss": 0.5638, "step": 317 }, { "avg_step_time": 5.685531310360841, "epoch": 0.033813333333333334, "eta_time": 14.305428502569027, "step": 317 }, { "epoch": 0.03392, "grad_norm": 1.5526296890934428, "learning_rate": 9.999613254940368e-06, "loss": 0.502, "step": 318 }, { "avg_step_time": 5.685400086219865, "epoch": 0.03392, "eta_time": 14.303519050248141, "step": 318 }, { "epoch": 0.03402666666666666, "grad_norm": 1.5239369525104967, "learning_rate": 9.999591470985979e-06, "loss": 0.4679, "step": 319 }, { "avg_step_time": 5.693445643993339, "epoch": 0.03402666666666666, "eta_time": 14.322178820001023, "step": 319 }, { "epoch": 0.034133333333333335, "grad_norm": 1.853598286243358, "learning_rate": 9.99956909024387e-06, "loss": 0.4409, "step": 320 }, { "avg_step_time": 5.725730823748039, "epoch": 0.034133333333333335, "eta_time": 14.401803502510692, "step": 320 }, { "epoch": 0.03424, "grad_norm": 1.4761176472034148, "learning_rate": 9.999546112716715e-06, "loss": 0.5133, "step": 321 }, { "avg_step_time": 5.720228659986246, "epoch": 0.03424, "eta_time": 14.38637507986541, "step": 321 }, { "epoch": 0.034346666666666664, "grad_norm": 1.6595088646430662, "learning_rate": 9.999522538407253e-06, "loss": 0.5708, "step": 322 }, { "avg_step_time": 5.72250321176317, "epoch": 0.034346666666666664, "eta_time": 14.390505993358882, "step": 322 }, { "epoch": 0.034453333333333336, "grad_norm": 1.70507229778728, "learning_rate": 9.999498367318303e-06, "loss": 0.5089, "step": 323 }, { "avg_step_time": 5.757012649015947, "epoch": 0.034453333333333336, "eta_time": 14.475688471914543, "step": 323 }, { "epoch": 0.03456, "grad_norm": 0.651024514266122, "learning_rate": 9.999473599452746e-06, "loss": 0.4336, "step": 324 }, { "avg_step_time": 5.748130880220972, "epoch": 0.03456, "eta_time": 14.451759054688894, "step": 324 }, { "epoch": 0.034666666666666665, "grad_norm": 2.1639211080944567, "learning_rate": 9.999448234813541e-06, "loss": 0.5192, "step": 325 }, { "avg_step_time": 5.748411477214158, "epoch": 0.034666666666666665, "eta_time": 14.450867741330034, "step": 325 }, { "epoch": 0.03477333333333334, "grad_norm": 1.5966727464213, "learning_rate": 9.999422273403714e-06, "loss": 0.4731, "step": 326 }, { "avg_step_time": 5.78058126719311, "epoch": 0.03477333333333334, "eta_time": 14.530133301897347, "step": 326 }, { "epoch": 0.03488, "grad_norm": 1.4492453007691013, "learning_rate": 9.999395715226365e-06, "loss": 0.4603, "step": 327 }, { "avg_step_time": 5.7559714076494926, "epoch": 0.03488, "eta_time": 14.466674804559057, "step": 327 }, { "epoch": 0.034986666666666666, "grad_norm": 1.6272841475331978, "learning_rate": 9.999368560284663e-06, "loss": 0.513, "step": 328 }, { "avg_step_time": 5.713583399551084, "epoch": 0.034986666666666666, "eta_time": 14.358552504371847, "step": 328 }, { "epoch": 0.03509333333333333, "grad_norm": 1.515910488534664, "learning_rate": 9.999340808581851e-06, "loss": 0.467, "step": 329 }, { "avg_step_time": 5.744489612001361, "epoch": 0.03509333333333333, "eta_time": 14.43462584171231, "step": 329 }, { "epoch": 0.0352, "grad_norm": 1.4792425629939026, "learning_rate": 9.999312460121242e-06, "loss": 0.4324, "step": 330 }, { "avg_step_time": 5.751511607507263, "epoch": 0.0352, "eta_time": 14.450672913861997, "step": 330 }, { "epoch": 0.03530666666666667, "grad_norm": 1.5769395994467579, "learning_rate": 9.999283514906217e-06, "loss": 0.502, "step": 331 }, { "avg_step_time": 5.747732766950973, "epoch": 0.03530666666666667, "eta_time": 14.439581984529056, "step": 331 }, { "epoch": 0.03541333333333333, "grad_norm": 1.706112700798078, "learning_rate": 9.999253972940233e-06, "loss": 0.5425, "step": 332 }, { "avg_step_time": 5.7771667904324, "epoch": 0.03541333333333333, "eta_time": 14.51192202385561, "step": 332 }, { "epoch": 0.03552, "grad_norm": 0.667923559441938, "learning_rate": 9.999223834226817e-06, "loss": 0.4325, "step": 333 }, { "avg_step_time": 5.738870861554386, "epoch": 0.03552, "eta_time": 14.414130647270767, "step": 333 }, { "epoch": 0.03562666666666667, "grad_norm": 1.5337407706665593, "learning_rate": 9.999193098769566e-06, "loss": 0.4892, "step": 334 }, { "avg_step_time": 5.729249708580248, "epoch": 0.03562666666666667, "eta_time": 14.38837405979834, "step": 334 }, { "epoch": 0.03573333333333333, "grad_norm": 1.7345796608890143, "learning_rate": 9.999161766572148e-06, "loss": 0.449, "step": 335 }, { "avg_step_time": 5.724169709465721, "epoch": 0.03573333333333333, "eta_time": 14.374026159325032, "step": 335 }, { "epoch": 0.03584, "grad_norm": 1.7871940438199243, "learning_rate": 9.999129837638303e-06, "loss": 0.5139, "step": 336 }, { "avg_step_time": 5.750585392268017, "epoch": 0.03584, "eta_time": 14.43876148908628, "step": 336 }, { "epoch": 0.03594666666666667, "grad_norm": 1.4642923290959144, "learning_rate": 9.999097311971846e-06, "loss": 0.459, "step": 337 }, { "avg_step_time": 5.748853281290844, "epoch": 0.03594666666666667, "eta_time": 14.432815543418513, "step": 337 }, { "epoch": 0.03605333333333333, "grad_norm": 1.976734288737464, "learning_rate": 9.999064189576653e-06, "loss": 0.5139, "step": 338 }, { "avg_step_time": 5.752452286806974, "epoch": 0.03605333333333333, "eta_time": 14.440253143298506, "step": 338 }, { "epoch": 0.03616, "grad_norm": 1.8715660879273568, "learning_rate": 9.999030470456684e-06, "loss": 0.5171, "step": 339 }, { "avg_step_time": 5.760310274181944, "epoch": 0.03616, "eta_time": 14.458378788196681, "step": 339 }, { "epoch": 0.03626666666666667, "grad_norm": 0.6564386098879205, "learning_rate": 9.998996154615959e-06, "loss": 0.4288, "step": 340 }, { "avg_step_time": 5.724892736685397, "epoch": 0.03626666666666667, "eta_time": 14.367890521097932, "step": 340 }, { "epoch": 0.036373333333333334, "grad_norm": 1.9006463592550735, "learning_rate": 9.998961242058578e-06, "loss": 0.498, "step": 341 }, { "avg_step_time": 5.718906840892753, "epoch": 0.036373333333333334, "eta_time": 14.351279000173648, "step": 341 }, { "epoch": 0.03648, "grad_norm": 1.66913943489471, "learning_rate": 9.998925732788706e-06, "loss": 0.5384, "step": 342 }, { "avg_step_time": 5.71843287920711, "epoch": 0.03648, "eta_time": 14.348501166077172, "step": 342 }, { "epoch": 0.03658666666666667, "grad_norm": 1.751225343419792, "learning_rate": 9.998889626810581e-06, "loss": 0.5106, "step": 343 }, { "avg_step_time": 5.724891089429759, "epoch": 0.03658666666666667, "eta_time": 14.363115644369328, "step": 343 }, { "epoch": 0.036693333333333335, "grad_norm": 1.826752020708614, "learning_rate": 9.998852924128518e-06, "loss": 0.47, "step": 344 }, { "avg_step_time": 5.69861067425121, "epoch": 0.036693333333333335, "eta_time": 14.295598055322966, "step": 344 }, { "epoch": 0.0368, "grad_norm": 1.5360602716586935, "learning_rate": 9.99881562474689e-06, "loss": 0.4173, "step": 345 }, { "avg_step_time": 5.65266442539716, "epoch": 0.0368, "eta_time": 14.17876660037121, "step": 345 }, { "epoch": 0.036906666666666664, "grad_norm": 1.8635247746021466, "learning_rate": 9.998777728670156e-06, "loss": 0.5332, "step": 346 }, { "avg_step_time": 5.655892634632612, "epoch": 0.036906666666666664, "eta_time": 14.185292943916071, "step": 346 }, { "epoch": 0.037013333333333336, "grad_norm": 1.8072219199049409, "learning_rate": 9.998739235902836e-06, "loss": 0.4609, "step": 347 }, { "avg_step_time": 5.651266273826059, "epoch": 0.037013333333333336, "eta_time": 14.172119977806018, "step": 347 }, { "epoch": 0.03712, "grad_norm": 1.6196918394477804, "learning_rate": 9.998700146449528e-06, "loss": 0.4793, "step": 348 }, { "avg_step_time": 5.655819413637874, "epoch": 0.03712, "eta_time": 14.181967179696969, "step": 348 }, { "epoch": 0.037226666666666665, "grad_norm": 1.7326087187243329, "learning_rate": 9.998660460314895e-06, "loss": 0.6157, "step": 349 }, { "avg_step_time": 5.652355885264849, "epoch": 0.037226666666666665, "eta_time": 14.17171228344459, "step": 349 }, { "epoch": 0.037333333333333336, "grad_norm": 1.6352706145606566, "learning_rate": 9.998620177503675e-06, "loss": 0.4557, "step": 350 }, { "avg_step_time": 5.6523757944203386, "epoch": 0.037333333333333336, "eta_time": 14.17019209573432, "step": 350 }, { "epoch": 0.03744, "grad_norm": 1.8188885724336519, "learning_rate": 9.998579298020676e-06, "loss": 0.5415, "step": 351 }, { "avg_step_time": 5.652115853145869, "epoch": 0.03744, "eta_time": 14.167970405218979, "step": 351 }, { "epoch": 0.037546666666666666, "grad_norm": 0.6402976108420091, "learning_rate": 9.99853782187078e-06, "loss": 0.4139, "step": 352 }, { "avg_step_time": 5.612959038127553, "epoch": 0.037546666666666666, "eta_time": 14.068258166951363, "step": 352 }, { "epoch": 0.03765333333333333, "grad_norm": 1.6776046516317278, "learning_rate": 9.998495749058935e-06, "loss": 0.4546, "step": 353 }, { "avg_step_time": 5.621834771801727, "epoch": 0.03765333333333333, "eta_time": 14.088942586443105, "step": 353 }, { "epoch": 0.03776, "grad_norm": 0.6529579687601269, "learning_rate": 9.998453079590167e-06, "loss": 0.4386, "step": 354 }, { "avg_step_time": 5.588095506032308, "epoch": 0.03776, "eta_time": 14.002835988865959, "step": 354 }, { "epoch": 0.037866666666666667, "grad_norm": 1.8020269268890456, "learning_rate": 9.998409813469563e-06, "loss": 0.4432, "step": 355 }, { "avg_step_time": 5.590131196108731, "epoch": 0.037866666666666667, "eta_time": 14.006384274694655, "step": 355 }, { "epoch": 0.03797333333333333, "grad_norm": 0.6628764896996457, "learning_rate": 9.998365950702294e-06, "loss": 0.4291, "step": 356 }, { "avg_step_time": 5.5034418419154, "epoch": 0.03797333333333333, "eta_time": 13.787650547843054, "step": 356 }, { "epoch": 0.03808, "grad_norm": 0.6338962581675657, "learning_rate": 9.998321491293592e-06, "loss": 0.4348, "step": 357 }, { "avg_step_time": 5.475429125506468, "epoch": 0.03808, "eta_time": 13.715949959393702, "step": 357 }, { "epoch": 0.03818666666666667, "grad_norm": 1.804048547428823, "learning_rate": 9.998276435248766e-06, "loss": 0.5048, "step": 358 }, { "avg_step_time": 5.486223110044845, "epoch": 0.03818666666666667, "eta_time": 13.741464939798435, "step": 358 }, { "epoch": 0.03829333333333333, "grad_norm": 0.6443176380997458, "learning_rate": 9.998230782573192e-06, "loss": 0.4609, "step": 359 }, { "avg_step_time": 5.457791070745449, "epoch": 0.03829333333333333, "eta_time": 13.668734526066936, "step": 359 }, { "epoch": 0.0384, "grad_norm": 1.9742400253308106, "learning_rate": 9.998184533272321e-06, "loss": 0.6161, "step": 360 }, { "avg_step_time": 5.436436101643726, "epoch": 0.0384, "eta_time": 13.613742071199498, "step": 360 }, { "epoch": 0.03850666666666667, "grad_norm": 1.7697930706033465, "learning_rate": 9.998137687351675e-06, "loss": 0.4749, "step": 361 }, { "avg_step_time": 5.431933923201128, "epoch": 0.03850666666666667, "eta_time": 13.600958995481935, "step": 361 }, { "epoch": 0.03861333333333333, "grad_norm": 0.6888743412053155, "learning_rate": 9.998090244816841e-06, "loss": 0.4384, "step": 362 }, { "avg_step_time": 5.396337138281928, "epoch": 0.03861333333333333, "eta_time": 13.510329618704171, "step": 362 }, { "epoch": 0.03872, "grad_norm": 1.4606432989722744, "learning_rate": 9.998042205673489e-06, "loss": 0.5144, "step": 363 }, { "avg_step_time": 5.395732475049568, "epoch": 0.03872, "eta_time": 13.507316962540754, "step": 363 }, { "epoch": 0.03882666666666667, "grad_norm": 1.5672798904327399, "learning_rate": 9.997993569927347e-06, "loss": 0.5005, "step": 364 }, { "avg_step_time": 5.391258174722845, "epoch": 0.03882666666666667, "eta_time": 13.49461872567432, "step": 364 }, { "epoch": 0.038933333333333334, "grad_norm": 1.6364207777487472, "learning_rate": 9.997944337584224e-06, "loss": 0.5066, "step": 365 }, { "avg_step_time": 5.391900255222513, "epoch": 0.038933333333333334, "eta_time": 13.494728138765234, "step": 365 }, { "epoch": 0.03904, "grad_norm": 1.5005438091372312, "learning_rate": 9.997894508649995e-06, "loss": 0.5084, "step": 366 }, { "avg_step_time": 5.391589321271337, "epoch": 0.03904, "eta_time": 13.492452276481522, "step": 366 }, { "epoch": 0.03914666666666667, "grad_norm": 1.841753274205304, "learning_rate": 9.99784408313061e-06, "loss": 0.4976, "step": 367 }, { "avg_step_time": 5.377972882203381, "epoch": 0.03914666666666667, "eta_time": 13.456883256357795, "step": 367 }, { "epoch": 0.039253333333333335, "grad_norm": 1.509425445949397, "learning_rate": 9.997793061032087e-06, "loss": 0.4712, "step": 368 }, { "avg_step_time": 5.390241001591538, "epoch": 0.039253333333333335, "eta_time": 13.486083528148606, "step": 368 }, { "epoch": 0.03936, "grad_norm": 1.3364960815522091, "learning_rate": 9.997741442360515e-06, "loss": 0.4643, "step": 369 }, { "avg_step_time": 5.3919172624144895, "epoch": 0.03936, "eta_time": 13.488779684806914, "step": 369 }, { "epoch": 0.039466666666666664, "grad_norm": 1.6375041482482953, "learning_rate": 9.99768922712206e-06, "loss": 0.4478, "step": 370 }, { "avg_step_time": 5.378338529606058, "epoch": 0.039466666666666664, "eta_time": 13.453316238639598, "step": 370 }, { "epoch": 0.039573333333333335, "grad_norm": 1.680891438825607, "learning_rate": 9.997636415322949e-06, "loss": 0.4905, "step": 371 }, { "avg_step_time": 5.376921752486566, "epoch": 0.039573333333333335, "eta_time": 13.448278738719178, "step": 371 }, { "epoch": 0.03968, "grad_norm": 1.6855205130184487, "learning_rate": 9.99758300696949e-06, "loss": 0.5477, "step": 372 }, { "avg_step_time": 5.388687911659781, "epoch": 0.03968, "eta_time": 13.476210352409169, "step": 372 }, { "epoch": 0.039786666666666665, "grad_norm": 1.6955811942488241, "learning_rate": 9.997529002068056e-06, "loss": 0.5249, "step": 373 }, { "avg_step_time": 5.391217698954573, "epoch": 0.039786666666666665, "eta_time": 13.481039368330295, "step": 373 }, { "epoch": 0.039893333333333336, "grad_norm": 1.6442783430623042, "learning_rate": 9.997474400625096e-06, "loss": 0.5021, "step": 374 }, { "avg_step_time": 5.421682386687308, "epoch": 0.039893333333333336, "eta_time": 13.55571198960346, "step": 374 }, { "epoch": 0.04, "grad_norm": 1.5411990425296285, "learning_rate": 9.997419202647124e-06, "loss": 0.5107, "step": 375 }, { "avg_step_time": 5.419586533247823, "epoch": 0.04, "eta_time": 13.548966333119555, "step": 375 }, { "epoch": 0.040106666666666665, "grad_norm": 1.65724791414127, "learning_rate": 9.997363408140732e-06, "loss": 0.475, "step": 376 }, { "avg_step_time": 5.4320725696255465, "epoch": 0.040106666666666665, "eta_time": 13.578672515016747, "step": 376 }, { "epoch": 0.04021333333333333, "grad_norm": 1.5324311432229758, "learning_rate": 9.997307017112579e-06, "loss": 0.4614, "step": 377 }, { "avg_step_time": 5.430536901107942, "epoch": 0.04021333333333333, "eta_time": 13.573325287824796, "step": 377 }, { "epoch": 0.04032, "grad_norm": 1.5965731765950988, "learning_rate": 9.997250029569395e-06, "loss": 0.5235, "step": 378 }, { "avg_step_time": 5.445992460154524, "epoch": 0.04032, "eta_time": 13.610442823336182, "step": 378 }, { "epoch": 0.040426666666666666, "grad_norm": 1.6885200342160176, "learning_rate": 9.997192445517985e-06, "loss": 0.5457, "step": 379 }, { "avg_step_time": 5.439375877380371, "epoch": 0.040426666666666666, "eta_time": 13.592395942476061, "step": 379 }, { "epoch": 0.04053333333333333, "grad_norm": 1.3820928950804334, "learning_rate": 9.99713426496522e-06, "loss": 0.4738, "step": 380 }, { "avg_step_time": 5.43836176034176, "epoch": 0.04053333333333333, "eta_time": 13.588351120631703, "step": 380 }, { "epoch": 0.04064, "grad_norm": 1.9461252702578178, "learning_rate": 9.997075487918047e-06, "loss": 0.464, "step": 381 }, { "avg_step_time": 5.467712780441901, "epoch": 0.04064, "eta_time": 13.660169096470682, "step": 381 }, { "epoch": 0.04074666666666667, "grad_norm": 1.7685321572084074, "learning_rate": 9.99701611438348e-06, "loss": 0.5644, "step": 382 }, { "avg_step_time": 5.465982892296531, "epoch": 0.04074666666666667, "eta_time": 13.654328930672975, "step": 382 }, { "epoch": 0.04085333333333333, "grad_norm": 1.5387036891170247, "learning_rate": 9.996956144368608e-06, "loss": 0.3934, "step": 383 }, { "avg_step_time": 5.469996560703624, "epoch": 0.04085333333333333, "eta_time": 13.662835853846385, "step": 383 }, { "epoch": 0.04096, "grad_norm": 0.6663281440850367, "learning_rate": 9.99689557788059e-06, "loss": 0.4372, "step": 384 }, { "avg_step_time": 5.435665754356769, "epoch": 0.04096, "eta_time": 13.575575221506032, "step": 384 }, { "epoch": 0.04106666666666667, "grad_norm": 1.514712918808297, "learning_rate": 9.996834414926653e-06, "loss": 0.5035, "step": 385 }, { "avg_step_time": 5.436807129118177, "epoch": 0.04106666666666667, "eta_time": 13.576915580770116, "step": 385 }, { "epoch": 0.04117333333333333, "grad_norm": 1.7108243663614842, "learning_rate": 9.9967726555141e-06, "loss": 0.491, "step": 386 }, { "avg_step_time": 5.437527509650799, "epoch": 0.04117333333333333, "eta_time": 13.577204106736398, "step": 386 }, { "epoch": 0.04128, "grad_norm": 1.5932801397199101, "learning_rate": 9.996710299650302e-06, "loss": 0.459, "step": 387 }, { "avg_step_time": 5.467479255464342, "epoch": 0.04128, "eta_time": 13.65047320780931, "step": 387 }, { "epoch": 0.04138666666666667, "grad_norm": 1.7023547587200887, "learning_rate": 9.996647347342703e-06, "loss": 0.4926, "step": 388 }, { "avg_step_time": 5.464260999602501, "epoch": 0.04138666666666667, "eta_time": 13.640920445396576, "step": 388 }, { "epoch": 0.04149333333333333, "grad_norm": 1.706929337283041, "learning_rate": 9.996583798598816e-06, "loss": 0.4506, "step": 389 }, { "avg_step_time": 5.463561098984997, "epoch": 0.04149333333333333, "eta_time": 13.637655565410887, "step": 389 }, { "epoch": 0.0416, "grad_norm": 1.5630946864338506, "learning_rate": 9.996519653426229e-06, "loss": 0.4038, "step": 390 }, { "avg_step_time": 5.468049434700397, "epoch": 0.0416, "eta_time": 13.64734004743974, "step": 390 }, { "epoch": 0.04170666666666667, "grad_norm": 1.6012809898583846, "learning_rate": 9.996454911832598e-06, "loss": 0.3737, "step": 391 }, { "avg_step_time": 5.496483106805821, "epoch": 0.04170666666666667, "eta_time": 13.716778953206525, "step": 391 }, { "epoch": 0.041813333333333334, "grad_norm": 1.8298713239442974, "learning_rate": 9.99638957382565e-06, "loss": 0.4832, "step": 392 }, { "avg_step_time": 5.46459550086898, "epoch": 0.041813333333333334, "eta_time": 13.635683717862792, "step": 392 }, { "epoch": 0.04192, "grad_norm": 1.7466169998226915, "learning_rate": 9.996323639413185e-06, "loss": 0.4675, "step": 393 }, { "avg_step_time": 5.468082160660715, "epoch": 0.04192, "eta_time": 13.642864990848484, "step": 393 }, { "epoch": 0.042026666666666664, "grad_norm": 1.646082701866134, "learning_rate": 9.996257108603073e-06, "loss": 0.4316, "step": 394 }, { "avg_step_time": 5.467187910368948, "epoch": 0.042026666666666664, "eta_time": 13.63911517306209, "step": 394 }, { "epoch": 0.042133333333333335, "grad_norm": 1.6268802084776943, "learning_rate": 9.996189981403255e-06, "loss": 0.5861, "step": 395 }, { "avg_step_time": 5.5037025032621445, "epoch": 0.042133333333333335, "eta_time": 13.728680133137239, "step": 395 }, { "epoch": 0.04224, "grad_norm": 1.697985540979817, "learning_rate": 9.996122257821746e-06, "loss": 0.4684, "step": 396 }, { "avg_step_time": 5.5230609816734235, "epoch": 0.04224, "eta_time": 13.775434598457132, "step": 396 }, { "epoch": 0.042346666666666664, "grad_norm": 1.5873735327802145, "learning_rate": 9.996053937866628e-06, "loss": 0.5468, "step": 397 }, { "avg_step_time": 5.521267105834653, "epoch": 0.042346666666666664, "eta_time": 13.769426687828753, "step": 397 }, { "epoch": 0.042453333333333336, "grad_norm": 1.720527425375361, "learning_rate": 9.995985021546058e-06, "loss": 0.432, "step": 398 }, { "avg_step_time": 5.5190229102818655, "epoch": 0.042453333333333336, "eta_time": 13.762296851555641, "step": 398 }, { "epoch": 0.04256, "grad_norm": 2.06189251650827, "learning_rate": 9.99591550886826e-06, "loss": 0.5746, "step": 399 }, { "avg_step_time": 5.520203920325848, "epoch": 0.04256, "eta_time": 13.76370844134578, "step": 399 }, { "epoch": 0.042666666666666665, "grad_norm": 1.4830999977737744, "learning_rate": 9.995845399841533e-06, "loss": 0.5055, "step": 400 }, { "avg_step_time": 5.553271137102686, "epoch": 0.042666666666666665, "eta_time": 13.844613459860168, "step": 400 }, { "epoch": 0.04277333333333333, "grad_norm": 1.6934255457789005, "learning_rate": 9.995774694474245e-06, "loss": 0.5159, "step": 401 }, { "avg_step_time": 5.554126399936098, "epoch": 0.04277333333333333, "eta_time": 13.845202864729595, "step": 401 }, { "epoch": 0.04288, "grad_norm": 2.125849064414552, "learning_rate": 9.995703392774836e-06, "loss": 0.5116, "step": 402 }, { "avg_step_time": 5.554545060552732, "epoch": 0.04288, "eta_time": 13.844703563427684, "step": 402 }, { "epoch": 0.042986666666666666, "grad_norm": 1.531318827517575, "learning_rate": 9.995631494751819e-06, "loss": 0.4373, "step": 403 }, { "avg_step_time": 5.597576606153238, "epoch": 0.042986666666666666, "eta_time": 13.950404808446347, "step": 403 }, { "epoch": 0.04309333333333333, "grad_norm": 2.0056737751333693, "learning_rate": 9.995559000413773e-06, "loss": 0.5218, "step": 404 }, { "avg_step_time": 5.599447250366211, "epoch": 0.04309333333333333, "eta_time": 13.953511467509799, "step": 404 }, { "epoch": 0.0432, "grad_norm": 1.5250936032493083, "learning_rate": 9.995485909769354e-06, "loss": 0.5218, "step": 405 }, { "avg_step_time": 5.595021611512309, "epoch": 0.0432, "eta_time": 13.940928848684836, "step": 405 }, { "epoch": 0.04330666666666667, "grad_norm": 1.98127103823001, "learning_rate": 9.995412222827286e-06, "loss": 0.5633, "step": 406 }, { "avg_step_time": 5.59704098556981, "epoch": 0.04330666666666667, "eta_time": 13.944405722104339, "step": 406 }, { "epoch": 0.04341333333333333, "grad_norm": 1.8868561985989862, "learning_rate": 9.995337939596364e-06, "loss": 0.5624, "step": 407 }, { "avg_step_time": 5.594104227393564, "epoch": 0.04341333333333333, "eta_time": 13.935535197573746, "step": 407 }, { "epoch": 0.04352, "grad_norm": 1.8695822922254173, "learning_rate": 9.995263060085456e-06, "loss": 0.542, "step": 408 }, { "avg_step_time": 5.5763104443598275, "epoch": 0.04352, "eta_time": 13.88965993182627, "step": 408 }, { "epoch": 0.04362666666666667, "grad_norm": 1.5208209902948149, "learning_rate": 9.995187584303498e-06, "loss": 0.4164, "step": 409 }, { "avg_step_time": 5.610841086416533, "epoch": 0.04362666666666667, "eta_time": 13.974111439114067, "step": 409 }, { "epoch": 0.04373333333333333, "grad_norm": 1.6613558255063658, "learning_rate": 9.995111512259503e-06, "loss": 0.5477, "step": 410 }, { "avg_step_time": 5.612602568636037, "epoch": 0.04373333333333333, "eta_time": 13.976939452172799, "step": 410 }, { "epoch": 0.04384, "grad_norm": 1.7397555357122119, "learning_rate": 9.99503484396255e-06, "loss": 0.494, "step": 411 }, { "avg_step_time": 5.648173269599375, "epoch": 0.04384, "eta_time": 14.063951441302443, "step": 411 }, { "epoch": 0.04394666666666667, "grad_norm": 2.023171874395827, "learning_rate": 9.994957579421789e-06, "loss": 0.6136, "step": 412 }, { "avg_step_time": 5.6455215179558955, "epoch": 0.04394666666666667, "eta_time": 14.055780379288525, "step": 412 }, { "epoch": 0.04405333333333333, "grad_norm": 1.730929933077708, "learning_rate": 9.994879718646445e-06, "loss": 0.457, "step": 413 }, { "avg_step_time": 5.659381098217434, "epoch": 0.04405333333333333, "eta_time": 14.08871483395129, "step": 413 }, { "epoch": 0.04416, "grad_norm": 1.2997185337668957, "learning_rate": 9.99480126164581e-06, "loss": 0.4709, "step": 414 }, { "avg_step_time": 5.6745960110365745, "epoch": 0.04416, "eta_time": 14.125015237471873, "step": 414 }, { "epoch": 0.04426666666666667, "grad_norm": 0.6971241486185501, "learning_rate": 9.994722208429251e-06, "loss": 0.4599, "step": 415 }, { "avg_step_time": 5.634290418239555, "epoch": 0.04426666666666667, "eta_time": 14.02312281872956, "step": 415 }, { "epoch": 0.044373333333333334, "grad_norm": 1.4875937871675942, "learning_rate": 9.994642559006204e-06, "loss": 0.482, "step": 416 }, { "avg_step_time": 5.630824368409436, "epoch": 0.044373333333333334, "eta_time": 14.012932087938927, "step": 416 }, { "epoch": 0.04448, "grad_norm": 1.424303052410301, "learning_rate": 9.994562313386177e-06, "loss": 0.5466, "step": 417 }, { "avg_step_time": 5.637228224012587, "epoch": 0.04448, "eta_time": 14.027302897417986, "step": 417 }, { "epoch": 0.04458666666666666, "grad_norm": 1.6058316003004258, "learning_rate": 9.994481471578748e-06, "loss": 0.4219, "step": 418 }, { "avg_step_time": 5.627878564776796, "epoch": 0.04458666666666666, "eta_time": 14.002474529084935, "step": 418 }, { "epoch": 0.044693333333333335, "grad_norm": 1.8109935751445594, "learning_rate": 9.994400033593566e-06, "loss": 0.5558, "step": 419 }, { "avg_step_time": 5.628085324258516, "epoch": 0.044693333333333335, "eta_time": 14.001425601127574, "step": 419 }, { "epoch": 0.0448, "grad_norm": 2.047943887197416, "learning_rate": 9.994317999440351e-06, "loss": 0.4785, "step": 420 }, { "avg_step_time": 5.628901173370053, "epoch": 0.0448, "eta_time": 14.00189166875801, "step": 420 }, { "epoch": 0.044906666666666664, "grad_norm": 1.6337304390214402, "learning_rate": 9.994235369128899e-06, "loss": 0.5636, "step": 421 }, { "avg_step_time": 5.643168740802341, "epoch": 0.044906666666666664, "eta_time": 14.03581469587338, "step": 421 }, { "epoch": 0.045013333333333336, "grad_norm": 1.81864353882326, "learning_rate": 9.994152142669073e-06, "loss": 0.4465, "step": 422 }, { "avg_step_time": 5.642989295901674, "epoch": 0.045013333333333336, "eta_time": 14.033800879502136, "step": 422 }, { "epoch": 0.04512, "grad_norm": 1.4648513100600964, "learning_rate": 9.994068320070805e-06, "loss": 0.4312, "step": 423 }, { "avg_step_time": 5.653840089085127, "epoch": 0.04512, "eta_time": 14.059215688191681, "step": 423 }, { "epoch": 0.045226666666666665, "grad_norm": 1.7274727965870516, "learning_rate": 9.9939839013441e-06, "loss": 0.4785, "step": 424 }, { "avg_step_time": 5.662894988300825, "epoch": 0.045226666666666665, "eta_time": 14.080159177855744, "step": 424 }, { "epoch": 0.04533333333333334, "grad_norm": 1.52750328013181, "learning_rate": 9.993898886499037e-06, "loss": 0.5026, "step": 425 }, { "avg_step_time": 5.661367965467049, "epoch": 0.04533333333333334, "eta_time": 14.074789803036134, "step": 425 }, { "epoch": 0.04544, "grad_norm": 2.058294122295827, "learning_rate": 9.993813275545764e-06, "loss": 0.5864, "step": 426 }, { "avg_step_time": 5.66273204967229, "epoch": 0.04544, "eta_time": 14.076608086810369, "step": 426 }, { "epoch": 0.045546666666666666, "grad_norm": 1.4758829996788791, "learning_rate": 9.9937270684945e-06, "loss": 0.5259, "step": 427 }, { "avg_step_time": 5.661777831087209, "epoch": 0.045546666666666666, "eta_time": 14.072663342380096, "step": 427 }, { "epoch": 0.04565333333333333, "grad_norm": 1.5164658988009005, "learning_rate": 9.993640265355534e-06, "loss": 0.452, "step": 428 }, { "avg_step_time": 5.649079236117276, "epoch": 0.04565333333333333, "eta_time": 14.039531090428133, "step": 428 }, { "epoch": 0.04576, "grad_norm": 2.017918044784003, "learning_rate": 9.99355286613923e-06, "loss": 0.5779, "step": 429 }, { "avg_step_time": 5.643703053695987, "epoch": 0.04576, "eta_time": 14.024602088434527, "step": 429 }, { "epoch": 0.04586666666666667, "grad_norm": 0.7080927878500979, "learning_rate": 9.993464870856017e-06, "loss": 0.4603, "step": 430 }, { "avg_step_time": 5.608374651032265, "epoch": 0.04586666666666667, "eta_time": 13.93525312596767, "step": 430 }, { "epoch": 0.04597333333333333, "grad_norm": 1.6148613595989314, "learning_rate": 9.9933762795164e-06, "loss": 0.5116, "step": 431 }, { "avg_step_time": 5.6057888931698265, "epoch": 0.04597333333333333, "eta_time": 13.927271072364146, "step": 431 }, { "epoch": 0.04608, "grad_norm": 0.6629016443542104, "learning_rate": 9.993287092130956e-06, "loss": 0.4621, "step": 432 }, { "avg_step_time": 5.609137173854943, "epoch": 0.04608, "eta_time": 13.934031596051321, "step": 432 }, { "epoch": 0.04618666666666667, "grad_norm": 1.7795490959907576, "learning_rate": 9.993197308710332e-06, "loss": 0.5659, "step": 433 }, { "avg_step_time": 5.6344835011646, "epoch": 0.04618666666666667, "eta_time": 13.995430963170515, "step": 433 }, { "epoch": 0.04629333333333333, "grad_norm": 1.7055511733958322, "learning_rate": 9.99310692926524e-06, "loss": 0.4754, "step": 434 }, { "avg_step_time": 5.647879480111478, "epoch": 0.04629333333333333, "eta_time": 14.027136231021313, "step": 434 }, { "epoch": 0.0464, "grad_norm": 1.7786481611564997, "learning_rate": 9.993015953806472e-06, "loss": 0.4297, "step": 435 }, { "avg_step_time": 5.686215258607961, "epoch": 0.0464, "eta_time": 14.12076789220977, "step": 435 }, { "epoch": 0.04650666666666667, "grad_norm": 1.6631733562470357, "learning_rate": 9.992924382344887e-06, "loss": 0.455, "step": 436 }, { "avg_step_time": 5.688365603938247, "epoch": 0.04650666666666667, "eta_time": 14.124527814889998, "step": 436 }, { "epoch": 0.04661333333333333, "grad_norm": 1.5826174827991724, "learning_rate": 9.992832214891415e-06, "loss": 0.5165, "step": 437 }, { "avg_step_time": 5.6843155225118, "epoch": 0.04661333333333333, "eta_time": 14.112892261169574, "step": 437 }, { "epoch": 0.04672, "grad_norm": 1.5010585291845668, "learning_rate": 9.992739451457058e-06, "loss": 0.5018, "step": 438 }, { "avg_step_time": 5.677150003837816, "epoch": 0.04672, "eta_time": 14.09352488452738, "step": 438 }, { "epoch": 0.04682666666666667, "grad_norm": 1.591450748527758, "learning_rate": 9.992646092052888e-06, "loss": 0.5445, "step": 439 }, { "avg_step_time": 5.722914746313384, "epoch": 0.04682666666666667, "eta_time": 14.205546159182333, "step": 439 }, { "epoch": 0.046933333333333334, "grad_norm": 1.737275871911258, "learning_rate": 9.992552136690052e-06, "loss": 0.5014, "step": 440 }, { "avg_step_time": 5.722577145605376, "epoch": 0.046933333333333334, "eta_time": 14.203118554440008, "step": 440 }, { "epoch": 0.04704, "grad_norm": 1.7943764704600698, "learning_rate": 9.992457585379764e-06, "loss": 0.5551, "step": 441 }, { "avg_step_time": 5.721607299766156, "epoch": 0.04704, "eta_time": 14.199122115586341, "step": 441 }, { "epoch": 0.04714666666666667, "grad_norm": 1.537533722002679, "learning_rate": 9.992362438133307e-06, "loss": 0.5324, "step": 442 }, { "avg_step_time": 5.71267974256265, "epoch": 0.04714666666666667, "eta_time": 14.175380038975598, "step": 442 }, { "epoch": 0.047253333333333335, "grad_norm": 1.6768317328577564, "learning_rate": 9.992266694962044e-06, "loss": 0.5053, "step": 443 }, { "avg_step_time": 5.718592735251995, "epoch": 0.047253333333333335, "eta_time": 14.188463975353006, "step": 443 }, { "epoch": 0.04736, "grad_norm": 1.4352468249911776, "learning_rate": 9.992170355877398e-06, "loss": 0.4166, "step": 444 }, { "avg_step_time": 5.715912698495267, "epoch": 0.04736, "eta_time": 14.180226752850341, "step": 444 }, { "epoch": 0.047466666666666664, "grad_norm": 1.9635784563449112, "learning_rate": 9.992073420890873e-06, "loss": 0.5129, "step": 445 }, { "avg_step_time": 5.719460256171949, "epoch": 0.047466666666666664, "eta_time": 14.187438913226531, "step": 445 }, { "epoch": 0.047573333333333336, "grad_norm": 1.5942518661805247, "learning_rate": 9.991975890014039e-06, "loss": 0.5256, "step": 446 }, { "avg_step_time": 5.726629035641449, "epoch": 0.047573333333333336, "eta_time": 14.203630738678472, "step": 446 }, { "epoch": 0.04768, "grad_norm": 1.8508232372685087, "learning_rate": 9.991877763258538e-06, "loss": 0.4624, "step": 447 }, { "avg_step_time": 5.723192267947727, "epoch": 0.04768, "eta_time": 14.193516824510363, "step": 447 }, { "epoch": 0.047786666666666665, "grad_norm": 1.5342601963965976, "learning_rate": 9.99177904063608e-06, "loss": 0.4517, "step": 448 }, { "avg_step_time": 5.722099516126844, "epoch": 0.047786666666666665, "eta_time": 14.189217327906762, "step": 448 }, { "epoch": 0.047893333333333336, "grad_norm": 0.6966477866389488, "learning_rate": 9.991679722158451e-06, "loss": 0.4387, "step": 449 }, { "avg_step_time": 5.684520516732727, "epoch": 0.047893333333333336, "eta_time": 14.094452814543422, "step": 449 }, { "epoch": 0.048, "grad_norm": 1.5270249537717437, "learning_rate": 9.991579807837511e-06, "loss": 0.4719, "step": 450 }, { "avg_step_time": 5.689617224413939, "epoch": 0.048, "eta_time": 14.105509368859558, "step": 450 }, { "epoch": 0.048106666666666666, "grad_norm": 1.9340070593940843, "learning_rate": 9.99147929768518e-06, "loss": 0.4997, "step": 451 }, { "avg_step_time": 5.721912909035731, "epoch": 0.048106666666666666, "eta_time": 14.183986333398572, "step": 451 }, { "epoch": 0.04821333333333333, "grad_norm": 1.3991150207195122, "learning_rate": 9.991378191713458e-06, "loss": 0.5122, "step": 452 }, { "avg_step_time": 5.713507852168998, "epoch": 0.04821333333333333, "eta_time": 14.161564045806658, "step": 452 }, { "epoch": 0.04832, "grad_norm": 1.51003679849515, "learning_rate": 9.991276489934416e-06, "loss": 0.4695, "step": 453 }, { "avg_step_time": 5.74942518243886, "epoch": 0.04832, "eta_time": 14.24899207714431, "step": 453 }, { "epoch": 0.048426666666666666, "grad_norm": 1.764520204208801, "learning_rate": 9.991174192360189e-06, "loss": 0.4523, "step": 454 }, { "avg_step_time": 5.747436443964641, "epoch": 0.048426666666666666, "eta_time": 14.242466810169043, "step": 454 }, { "epoch": 0.04853333333333333, "grad_norm": 1.9173960878914644, "learning_rate": 9.991071299002992e-06, "loss": 0.4479, "step": 455 }, { "avg_step_time": 5.77505495572331, "epoch": 0.04853333333333333, "eta_time": 14.309302834736647, "step": 455 }, { "epoch": 0.04864, "grad_norm": 1.6283894792229714, "learning_rate": 9.990967809875107e-06, "loss": 0.5709, "step": 456 }, { "avg_step_time": 5.802779125444816, "epoch": 0.04864, "eta_time": 14.376385283289531, "step": 456 }, { "epoch": 0.04874666666666667, "grad_norm": 1.7512188051641262, "learning_rate": 9.990863724988886e-06, "loss": 0.4751, "step": 457 }, { "avg_step_time": 5.796114666293366, "epoch": 0.04874666666666667, "eta_time": 14.358264053890064, "step": 457 }, { "epoch": 0.04885333333333333, "grad_norm": 1.5255934238970266, "learning_rate": 9.990759044356753e-06, "loss": 0.4063, "step": 458 }, { "avg_step_time": 5.826342797038531, "epoch": 0.04885333333333333, "eta_time": 14.431527422553494, "step": 458 }, { "epoch": 0.04896, "grad_norm": 1.5504641925247822, "learning_rate": 9.990653767991203e-06, "loss": 0.5317, "step": 459 }, { "avg_step_time": 5.830264233579539, "epoch": 0.04896, "eta_time": 14.439621085165326, "step": 459 }, { "epoch": 0.04906666666666667, "grad_norm": 1.69684160019296, "learning_rate": 9.990547895904806e-06, "loss": 0.5008, "step": 460 }, { "avg_step_time": 5.835029009616736, "epoch": 0.04906666666666667, "eta_time": 14.449801005759225, "step": 460 }, { "epoch": 0.04917333333333333, "grad_norm": 1.5306796273691505, "learning_rate": 9.990441428110193e-06, "loss": 0.4811, "step": 461 }, { "avg_step_time": 5.87165273560418, "epoch": 0.04917333333333333, "eta_time": 14.538864579215462, "step": 461 }, { "epoch": 0.04928, "grad_norm": 1.6198909939835022, "learning_rate": 9.99033436462008e-06, "loss": 0.5959, "step": 462 }, { "avg_step_time": 5.874422152837117, "epoch": 0.04928, "eta_time": 14.544090180065897, "step": 462 }, { "epoch": 0.04938666666666667, "grad_norm": 1.8298178075673859, "learning_rate": 9.990226705447244e-06, "loss": 0.4794, "step": 463 }, { "avg_step_time": 5.8728100651442405, "epoch": 0.04938666666666667, "eta_time": 14.538467583490409, "step": 463 }, { "epoch": 0.049493333333333334, "grad_norm": 1.769830769946521, "learning_rate": 9.990118450604535e-06, "loss": 0.4958, "step": 464 }, { "avg_step_time": 5.92870433402784, "epoch": 0.049493333333333334, "eta_time": 14.675190089033912, "step": 464 }, { "epoch": 0.0496, "grad_norm": 0.6682125576156817, "learning_rate": 9.990009600104875e-06, "loss": 0.4546, "step": 465 }, { "avg_step_time": 5.8992768200961025, "epoch": 0.0496, "eta_time": 14.600710129737854, "step": 465 }, { "epoch": 0.04970666666666667, "grad_norm": 1.484554277636979, "learning_rate": 9.98990015396126e-06, "loss": 0.4807, "step": 466 }, { "avg_step_time": 5.898604725346421, "epoch": 0.04970666666666667, "eta_time": 14.597408193919795, "step": 466 }, { "epoch": 0.049813333333333334, "grad_norm": 0.6519056614588151, "learning_rate": 9.98979011218675e-06, "loss": 0.4311, "step": 467 }, { "avg_step_time": 5.8677213095655345, "epoch": 0.049813333333333334, "eta_time": 14.519350396002718, "step": 467 }, { "epoch": 0.04992, "grad_norm": 1.7873985828972707, "learning_rate": 9.989679474794484e-06, "loss": 0.5526, "step": 468 }, { "avg_step_time": 5.867808568357217, "epoch": 0.04992, "eta_time": 14.517936366210481, "step": 468 }, { "epoch": 0.050026666666666664, "grad_norm": 1.5160026700297897, "learning_rate": 9.989568241797667e-06, "loss": 0.4852, "step": 469 }, { "avg_step_time": 5.867213998178039, "epoch": 0.050026666666666664, "eta_time": 14.514835518826004, "step": 469 }, { "epoch": 0.050133333333333335, "grad_norm": 0.6281609517491823, "learning_rate": 9.989456413209578e-06, "loss": 0.4274, "step": 470 }, { "avg_step_time": 5.842006001809631, "epoch": 0.050133333333333335, "eta_time": 14.4508509572541, "step": 470 }, { "epoch": 0.05024, "grad_norm": 1.6377211265397944, "learning_rate": 9.989343989043563e-06, "loss": 0.5191, "step": 471 }, { "avg_step_time": 5.841280019644535, "epoch": 0.05024, "eta_time": 14.447432581920816, "step": 471 }, { "epoch": 0.050346666666666665, "grad_norm": 1.8375397582877178, "learning_rate": 9.989230969313044e-06, "loss": 0.5747, "step": 472 }, { "avg_step_time": 5.838020471611408, "epoch": 0.050346666666666665, "eta_time": 14.437748960765656, "step": 472 }, { "epoch": 0.050453333333333336, "grad_norm": 1.629398480918051, "learning_rate": 9.98911735403151e-06, "loss": 0.5121, "step": 473 }, { "avg_step_time": 5.838586226858274, "epoch": 0.050453333333333336, "eta_time": 14.437526275414541, "step": 473 }, { "epoch": 0.05056, "grad_norm": 0.6542924552434695, "learning_rate": 9.989003143212526e-06, "loss": 0.4438, "step": 474 }, { "avg_step_time": 5.809806640702065, "epoch": 0.05056, "eta_time": 14.364746919135854, "step": 474 }, { "epoch": 0.050666666666666665, "grad_norm": 1.893567178898996, "learning_rate": 9.988888336869722e-06, "loss": 0.5356, "step": 475 }, { "avg_step_time": 5.795476728015476, "epoch": 0.050666666666666665, "eta_time": 14.327706355371594, "step": 475 }, { "epoch": 0.05077333333333333, "grad_norm": 1.299879882744483, "learning_rate": 9.988772935016802e-06, "loss": 0.4391, "step": 476 }, { "avg_step_time": 5.798574784789422, "epoch": 0.05077333333333333, "eta_time": 14.333754724955853, "step": 476 }, { "epoch": 0.05088, "grad_norm": 0.6225628906835519, "learning_rate": 9.988656937667544e-06, "loss": 0.4382, "step": 477 }, { "avg_step_time": 5.754037681252066, "epoch": 0.05088, "eta_time": 14.22206313549469, "step": 477 }, { "epoch": 0.050986666666666666, "grad_norm": 2.257832671761423, "learning_rate": 9.988540344835794e-06, "loss": 0.5341, "step": 478 }, { "avg_step_time": 5.774915577185275, "epoch": 0.050986666666666666, "eta_time": 14.272062191727052, "step": 478 }, { "epoch": 0.05109333333333333, "grad_norm": 1.6989503635948455, "learning_rate": 9.988423156535465e-06, "loss": 0.4899, "step": 479 }, { "avg_step_time": 5.774426913020586, "epoch": 0.05109333333333333, "eta_time": 14.269250505064205, "step": 479 }, { "epoch": 0.0512, "grad_norm": 1.6230354505153026, "learning_rate": 9.98830537278055e-06, "loss": 0.5053, "step": 480 }, { "avg_step_time": 5.747154356253268, "epoch": 0.0512, "eta_time": 14.20026055524245, "step": 480 }, { "epoch": 0.05130666666666667, "grad_norm": 1.4870354584352672, "learning_rate": 9.988186993585108e-06, "loss": 0.5026, "step": 481 }, { "avg_step_time": 5.749966850184431, "epoch": 0.05130666666666667, "eta_time": 14.205612545983424, "step": 481 }, { "epoch": 0.05141333333333333, "grad_norm": 1.6452893130303698, "learning_rate": 9.988068018963268e-06, "loss": 0.5528, "step": 482 }, { "avg_step_time": 5.771432322685165, "epoch": 0.05141333333333333, "eta_time": 14.257041012677547, "step": 482 }, { "epoch": 0.05152, "grad_norm": 1.5792600281324518, "learning_rate": 9.987948448929232e-06, "loss": 0.4248, "step": 483 }, { "avg_step_time": 5.812203453044699, "epoch": 0.05152, "eta_time": 14.356142529020406, "step": 483 }, { "epoch": 0.05162666666666667, "grad_norm": 1.6553439828379621, "learning_rate": 9.987828283497272e-06, "loss": 0.4306, "step": 484 }, { "avg_step_time": 5.81168481797883, "epoch": 0.05162666666666667, "eta_time": 14.353247143513828, "step": 484 }, { "epoch": 0.05173333333333333, "grad_norm": 1.471957962650519, "learning_rate": 9.987707522681735e-06, "loss": 0.4934, "step": 485 }, { "avg_step_time": 5.813957866996225, "epoch": 0.05173333333333333, "eta_time": 14.357245954887901, "step": 485 }, { "epoch": 0.05184, "grad_norm": 1.7477627806833198, "learning_rate": 9.987586166497032e-06, "loss": 0.5211, "step": 486 }, { "avg_step_time": 5.78530300024784, "epoch": 0.05184, "eta_time": 14.284877324778625, "step": 486 }, { "epoch": 0.05194666666666667, "grad_norm": 0.6641360208455539, "learning_rate": 9.987464214957652e-06, "loss": 0.4361, "step": 487 }, { "avg_step_time": 5.748741619514696, "epoch": 0.05194666666666667, "eta_time": 14.19300430951295, "step": 487 }, { "epoch": 0.05205333333333333, "grad_norm": 1.7771175733338525, "learning_rate": 9.98734166807815e-06, "loss": 0.449, "step": 488 }, { "avg_step_time": 5.749302365563133, "epoch": 0.05205333333333333, "eta_time": 14.192791700766545, "step": 488 }, { "epoch": 0.05216, "grad_norm": 1.91199905947923, "learning_rate": 9.987218525873155e-06, "loss": 0.5159, "step": 489 }, { "avg_step_time": 5.744057583086418, "epoch": 0.05216, "eta_time": 14.178248800918308, "step": 489 }, { "epoch": 0.05226666666666667, "grad_norm": 1.6191304226263832, "learning_rate": 9.987094788357367e-06, "loss": 0.4898, "step": 490 }, { "avg_step_time": 5.806175195809566, "epoch": 0.05226666666666667, "eta_time": 14.329962948546665, "step": 490 }, { "epoch": 0.052373333333333334, "grad_norm": 1.7220196641990457, "learning_rate": 9.986970455545555e-06, "loss": 0.4917, "step": 491 }, { "avg_step_time": 5.8108919052162555, "epoch": 0.052373333333333334, "eta_time": 14.339989912761448, "step": 491 }, { "epoch": 0.05248, "grad_norm": 1.706523307771393, "learning_rate": 9.98684552745256e-06, "loss": 0.4849, "step": 492 }, { "avg_step_time": 5.808163416506064, "epoch": 0.05248, "eta_time": 14.331643230228712, "step": 492 }, { "epoch": 0.052586666666666664, "grad_norm": 1.6153115296324874, "learning_rate": 9.986720004093295e-06, "loss": 0.5524, "step": 493 }, { "avg_step_time": 5.807526065845682, "epoch": 0.052586666666666664, "eta_time": 14.328457365789262, "step": 493 }, { "epoch": 0.052693333333333335, "grad_norm": 0.6232200423958832, "learning_rate": 9.986593885482744e-06, "loss": 0.4274, "step": 494 }, { "avg_step_time": 5.774234928265966, "epoch": 0.052693333333333335, "eta_time": 14.244716777202791, "step": 494 }, { "epoch": 0.0528, "grad_norm": 1.6196167935121197, "learning_rate": 9.98646717163596e-06, "loss": 0.4636, "step": 495 }, { "avg_step_time": 5.7533689026880745, "epoch": 0.0528, "eta_time": 14.19164329329725, "step": 495 }, { "epoch": 0.052906666666666664, "grad_norm": 1.5443885543307116, "learning_rate": 9.986339862568068e-06, "loss": 0.4795, "step": 496 }, { "avg_step_time": 5.757202227910359, "epoch": 0.052906666666666664, "eta_time": 14.199499606004467, "step": 496 }, { "epoch": 0.053013333333333336, "grad_norm": 1.565648319085986, "learning_rate": 9.986211958294267e-06, "loss": 0.4456, "step": 497 }, { "avg_step_time": 5.758068819238682, "epoch": 0.053013333333333336, "eta_time": 14.200037493666951, "step": 497 }, { "epoch": 0.05312, "grad_norm": 1.5544132925547036, "learning_rate": 9.986083458829824e-06, "loss": 0.4845, "step": 498 }, { "avg_step_time": 5.7599760715407555, "epoch": 0.05312, "eta_time": 14.203140996407578, "step": 498 }, { "epoch": 0.053226666666666665, "grad_norm": 1.8571860582787307, "learning_rate": 9.985954364190076e-06, "loss": 0.5477, "step": 499 }, { "avg_step_time": 5.764447443413012, "epoch": 0.053226666666666665, "eta_time": 14.21256541881497, "step": 499 }, { "epoch": 0.05333333333333334, "grad_norm": 1.5804571310333884, "learning_rate": 9.985824674390434e-06, "loss": 0.4974, "step": 500 }, { "avg_step_time": 5.776737087904805, "epoch": 0.05333333333333334, "eta_time": 14.24126157087643, "step": 500 }, { "epoch": 0.05344, "grad_norm": 1.9349403912860896, "learning_rate": 9.985694389446378e-06, "loss": 0.5509, "step": 501 }, { "avg_step_time": 5.77800478838911, "epoch": 0.05344, "eta_time": 14.242781803379156, "step": 501 }, { "epoch": 0.053546666666666666, "grad_norm": 1.7055129737543822, "learning_rate": 9.98556350937346e-06, "loss": 0.447, "step": 502 }, { "avg_step_time": 5.759776500740436, "epoch": 0.053546666666666666, "eta_time": 14.196249136408301, "step": 502 }, { "epoch": 0.05365333333333333, "grad_norm": 1.5986487317767488, "learning_rate": 9.985432034187304e-06, "loss": 0.498, "step": 503 }, { "avg_step_time": 5.758783179100114, "epoch": 0.05365333333333333, "eta_time": 14.19220121249339, "step": 503 }, { "epoch": 0.05376, "grad_norm": 1.9610658679457604, "learning_rate": 9.9852999639036e-06, "loss": 0.5996, "step": 504 }, { "avg_step_time": 5.764453302730214, "epoch": 0.05376, "eta_time": 14.20457368014437, "step": 504 }, { "epoch": 0.05386666666666667, "grad_norm": 1.6249053568935699, "learning_rate": 9.98516729853812e-06, "loss": 0.501, "step": 505 }, { "avg_step_time": 5.766844527889984, "epoch": 0.05386666666666667, "eta_time": 14.208864156217821, "step": 505 }, { "epoch": 0.05397333333333333, "grad_norm": 1.7019256794471476, "learning_rate": 9.98503403810669e-06, "loss": 0.5448, "step": 506 }, { "avg_step_time": 5.766411937848486, "epoch": 0.05397333333333333, "eta_time": 14.206196521327282, "step": 506 }, { "epoch": 0.05408, "grad_norm": 1.6027201407284195, "learning_rate": 9.984900182625226e-06, "loss": 0.4681, "step": 507 }, { "avg_step_time": 5.7760404962481875, "epoch": 0.05408, "eta_time": 14.228313089091369, "step": 507 }, { "epoch": 0.05418666666666667, "grad_norm": 0.6842926576431764, "learning_rate": 9.984765732109703e-06, "loss": 0.4537, "step": 508 }, { "avg_step_time": 5.73955703263331, "epoch": 0.05418666666666667, "eta_time": 14.136847835655432, "step": 508 }, { "epoch": 0.05429333333333333, "grad_norm": 1.6543480794255845, "learning_rate": 9.984630686576167e-06, "loss": 0.572, "step": 509 }, { "avg_step_time": 5.7477428046139805, "epoch": 0.05429333333333333, "eta_time": 14.155413251585431, "step": 509 }, { "epoch": 0.0544, "grad_norm": 1.3580053548938524, "learning_rate": 9.98449504604074e-06, "loss": 0.4763, "step": 510 }, { "avg_step_time": 5.771610303358599, "epoch": 0.0544, "eta_time": 14.21259037202055, "step": 510 }, { "epoch": 0.05450666666666667, "grad_norm": 0.666594269067575, "learning_rate": 9.984358810519616e-06, "loss": 0.452, "step": 511 }, { "avg_step_time": 5.757554451624553, "epoch": 0.05450666666666667, "eta_time": 14.176378516444455, "step": 511 }, { "epoch": 0.05461333333333333, "grad_norm": 1.5832364174594045, "learning_rate": 9.984221980029054e-06, "loss": 0.5048, "step": 512 }, { "avg_step_time": 5.737211506776135, "epoch": 0.05461333333333333, "eta_time": 14.124695995710246, "step": 512 }, { "epoch": 0.05472, "grad_norm": 1.6078514647738784, "learning_rate": 9.984084554585387e-06, "loss": 0.4943, "step": 513 }, { "avg_step_time": 5.724601911775993, "epoch": 0.05472, "eta_time": 14.092061706155237, "step": 513 }, { "epoch": 0.05482666666666667, "grad_norm": 0.6478372783825307, "learning_rate": 9.98394653420502e-06, "loss": 0.4447, "step": 514 }, { "avg_step_time": 5.725393834740225, "epoch": 0.05482666666666667, "eta_time": 14.092420769342537, "step": 514 }, { "epoch": 0.054933333333333334, "grad_norm": 1.520925294226722, "learning_rate": 9.983807918904428e-06, "loss": 0.5256, "step": 515 }, { "avg_step_time": 5.726438808922816, "epoch": 0.054933333333333334, "eta_time": 14.093402179737819, "step": 515 }, { "epoch": 0.05504, "grad_norm": 1.693682559919017, "learning_rate": 9.983668708700156e-06, "loss": 0.4875, "step": 516 }, { "avg_step_time": 5.7211435370975074, "epoch": 0.05504, "eta_time": 14.078780720874116, "step": 516 }, { "epoch": 0.05514666666666666, "grad_norm": 0.6626636400818235, "learning_rate": 9.983528903608824e-06, "loss": 0.4094, "step": 517 }, { "avg_step_time": 5.691946265673397, "epoch": 0.05514666666666666, "eta_time": 14.005350005926376, "step": 517 }, { "epoch": 0.055253333333333335, "grad_norm": 1.691552139093982, "learning_rate": 9.983388503647117e-06, "loss": 0.5044, "step": 518 }, { "avg_step_time": 5.696915486846307, "epoch": 0.055253333333333335, "eta_time": 14.01599457416604, "step": 518 }, { "epoch": 0.05536, "grad_norm": 1.7563886492182732, "learning_rate": 9.983247508831795e-06, "loss": 0.5186, "step": 519 }, { "avg_step_time": 5.69695340262519, "epoch": 0.05536, "eta_time": 14.014505370457966, "step": 519 }, { "epoch": 0.055466666666666664, "grad_norm": 1.5220038035947778, "learning_rate": 9.98310591917969e-06, "loss": 0.53, "step": 520 }, { "avg_step_time": 5.7171008586883545, "epoch": 0.055466666666666664, "eta_time": 14.062480028801494, "step": 520 }, { "epoch": 0.055573333333333336, "grad_norm": 0.6725923743627379, "learning_rate": 9.982963734707701e-06, "loss": 0.4168, "step": 521 }, { "avg_step_time": 5.6843638251526185, "epoch": 0.055573333333333336, "eta_time": 13.98037702997258, "step": 521 }, { "epoch": 0.05568, "grad_norm": 1.62083724067875, "learning_rate": 9.9828209554328e-06, "loss": 0.5088, "step": 522 }, { "avg_step_time": 5.685106494209983, "epoch": 0.05568, "eta_time": 13.980624387011384, "step": 522 }, { "epoch": 0.055786666666666665, "grad_norm": 0.6691165547597842, "learning_rate": 9.982677581372033e-06, "loss": 0.4461, "step": 523 }, { "avg_step_time": 5.644750592684505, "epoch": 0.055786666666666665, "eta_time": 13.8798145129009, "step": 523 }, { "epoch": 0.05589333333333334, "grad_norm": 1.8553106930354044, "learning_rate": 9.982533612542511e-06, "loss": 0.5153, "step": 524 }, { "avg_step_time": 5.646144563501531, "epoch": 0.05589333333333334, "eta_time": 13.88167375876446, "step": 524 }, { "epoch": 0.056, "grad_norm": 2.1444448694814895, "learning_rate": 9.982389048961421e-06, "loss": 0.517, "step": 525 }, { "avg_step_time": 5.646797948413425, "epoch": 0.056, "eta_time": 13.881711623183005, "step": 525 }, { "epoch": 0.056106666666666666, "grad_norm": 1.8602765784670696, "learning_rate": 9.982243890646018e-06, "loss": 0.4631, "step": 526 }, { "avg_step_time": 5.645778538000704, "epoch": 0.056106666666666666, "eta_time": 13.877637300768953, "step": 526 }, { "epoch": 0.05621333333333333, "grad_norm": 2.059137563142124, "learning_rate": 9.982098137613631e-06, "loss": 0.5343, "step": 527 }, { "avg_step_time": 5.631382405155837, "epoch": 0.05621333333333333, "eta_time": 13.840686533560792, "step": 527 }, { "epoch": 0.05632, "grad_norm": 1.9008155491526537, "learning_rate": 9.981951789881657e-06, "loss": 0.5124, "step": 528 }, { "avg_step_time": 5.632418341106838, "epoch": 0.05632, "eta_time": 13.841668073270055, "step": 528 }, { "epoch": 0.05642666666666667, "grad_norm": 1.619361886008362, "learning_rate": 9.981804847467564e-06, "loss": 0.4442, "step": 529 }, { "avg_step_time": 5.667547016432791, "epoch": 0.05642666666666667, "eta_time": 13.926422474267909, "step": 529 }, { "epoch": 0.05653333333333333, "grad_norm": 1.7005370883847302, "learning_rate": 9.981657310388893e-06, "loss": 0.5224, "step": 530 }, { "avg_step_time": 5.6656839365911, "epoch": 0.05653333333333333, "eta_time": 13.920270671985634, "step": 530 }, { "epoch": 0.05664, "grad_norm": 1.5182820455269084, "learning_rate": 9.981509178663256e-06, "loss": 0.4593, "step": 531 }, { "avg_step_time": 5.699601356429283, "epoch": 0.05664, "eta_time": 14.002020665627937, "step": 531 }, { "epoch": 0.05674666666666667, "grad_norm": 0.6974365820887087, "learning_rate": 9.981360452308334e-06, "loss": 0.4767, "step": 532 }, { "avg_step_time": 5.639261279443298, "epoch": 0.05674666666666667, "eta_time": 13.852218748365857, "step": 532 }, { "epoch": 0.05685333333333333, "grad_norm": 1.5625239940702818, "learning_rate": 9.981211131341881e-06, "loss": 0.4549, "step": 533 }, { "avg_step_time": 5.627148936493228, "epoch": 0.05685333333333333, "eta_time": 13.82090302679809, "step": 533 }, { "epoch": 0.05696, "grad_norm": 1.765885499136222, "learning_rate": 9.98106121578172e-06, "loss": 0.4913, "step": 534 }, { "avg_step_time": 5.5897591065878816, "epoch": 0.05696, "eta_time": 13.727516739262072, "step": 534 }, { "epoch": 0.05706666666666667, "grad_norm": 1.7388383346500975, "learning_rate": 9.980910705645747e-06, "loss": 0.4755, "step": 535 }, { "avg_step_time": 5.5876460581114795, "epoch": 0.05706666666666667, "eta_time": 13.720775320473745, "step": 535 }, { "epoch": 0.05717333333333333, "grad_norm": 1.8094348977985724, "learning_rate": 9.980759600951926e-06, "loss": 0.53, "step": 536 }, { "avg_step_time": 5.586774276964592, "epoch": 0.05717333333333333, "eta_time": 13.717082731691674, "step": 536 }, { "epoch": 0.05728, "grad_norm": 1.5515985464004183, "learning_rate": 9.980607901718297e-06, "loss": 0.5017, "step": 537 }, { "avg_step_time": 5.587745572581436, "epoch": 0.05728, "eta_time": 13.717915380687423, "step": 537 }, { "epoch": 0.05738666666666667, "grad_norm": 1.7988850536293874, "learning_rate": 9.980455607962967e-06, "loss": 0.5157, "step": 538 }, { "avg_step_time": 5.575645726136487, "epoch": 0.05738666666666667, "eta_time": 13.686661467185592, "step": 538 }, { "epoch": 0.057493333333333334, "grad_norm": 0.6398979032090735, "learning_rate": 9.980302719704112e-06, "loss": 0.4079, "step": 539 }, { "avg_step_time": 5.545233044961487, "epoch": 0.057493333333333334, "eta_time": 13.610466440355472, "step": 539 }, { "epoch": 0.0576, "grad_norm": 1.6417369576198775, "learning_rate": 9.980149236959986e-06, "loss": 0.4956, "step": 540 }, { "avg_step_time": 5.5794756653332955, "epoch": 0.0576, "eta_time": 13.692963195338796, "step": 540 }, { "epoch": 0.05770666666666667, "grad_norm": 1.6734388180164534, "learning_rate": 9.979995159748907e-06, "loss": 0.4597, "step": 541 }, { "avg_step_time": 5.580374561174952, "epoch": 0.05770666666666667, "eta_time": 13.693619131505423, "step": 541 }, { "epoch": 0.057813333333333335, "grad_norm": 1.6540442750266944, "learning_rate": 9.979840488089268e-06, "loss": 0.5536, "step": 542 }, { "avg_step_time": 5.576320669867775, "epoch": 0.057813333333333335, "eta_time": 13.682122354706129, "step": 542 }, { "epoch": 0.05792, "grad_norm": 1.5538034305883779, "learning_rate": 9.979685221999532e-06, "loss": 0.499, "step": 543 }, { "avg_step_time": 5.573842677203092, "epoch": 0.05792, "eta_time": 13.674494034738252, "step": 543 }, { "epoch": 0.058026666666666664, "grad_norm": 0.6352492435583262, "learning_rate": 9.979529361498233e-06, "loss": 0.4153, "step": 544 }, { "avg_step_time": 5.53100137277083, "epoch": 0.058026666666666664, "eta_time": 13.56785364526089, "step": 544 }, { "epoch": 0.058133333333333335, "grad_norm": 1.6082767360311339, "learning_rate": 9.979372906603973e-06, "loss": 0.5468, "step": 545 }, { "avg_step_time": 5.52222749440357, "epoch": 0.058133333333333335, "eta_time": 13.544796882106533, "step": 545 }, { "epoch": 0.05824, "grad_norm": 1.5818093880653403, "learning_rate": 9.97921585733543e-06, "loss": 0.4849, "step": 546 }, { "avg_step_time": 5.524048636658023, "epoch": 0.05824, "eta_time": 13.5477292814038, "step": 546 }, { "epoch": 0.058346666666666665, "grad_norm": 1.5140034512418272, "learning_rate": 9.97905821371135e-06, "loss": 0.5699, "step": 547 }, { "avg_step_time": 5.543119033177693, "epoch": 0.058346666666666665, "eta_time": 13.5929596735813, "step": 547 }, { "epoch": 0.058453333333333336, "grad_norm": 1.4347838824275327, "learning_rate": 9.978899975750548e-06, "loss": 0.5157, "step": 548 }, { "avg_step_time": 5.604635448166818, "epoch": 0.058453333333333336, "eta_time": 13.74225475026903, "step": 548 }, { "epoch": 0.05856, "grad_norm": 1.4196266036782927, "learning_rate": 9.97874114347192e-06, "loss": 0.4916, "step": 549 }, { "avg_step_time": 5.600117416092844, "epoch": 0.05856, "eta_time": 13.72962119845429, "step": 549 }, { "epoch": 0.058666666666666666, "grad_norm": 1.442900779626105, "learning_rate": 9.978581716894417e-06, "loss": 0.5064, "step": 550 }, { "avg_step_time": 5.6055394134136165, "epoch": 0.058666666666666666, "eta_time": 13.741357034270878, "step": 550 }, { "epoch": 0.05877333333333333, "grad_norm": 1.5748531968631103, "learning_rate": 9.978421696037073e-06, "loss": 0.5635, "step": 551 }, { "avg_step_time": 5.606155706174446, "epoch": 0.05877333333333333, "eta_time": 13.741310542023143, "step": 551 }, { "epoch": 0.05888, "grad_norm": 1.6208501850018548, "learning_rate": 9.978261080918988e-06, "loss": 0.5224, "step": 552 }, { "avg_step_time": 5.60273374933185, "epoch": 0.05888, "eta_time": 13.731366630654142, "step": 552 }, { "epoch": 0.058986666666666666, "grad_norm": 1.7930611539484176, "learning_rate": 9.978099871559338e-06, "loss": 0.445, "step": 553 }, { "avg_step_time": 5.604353647039394, "epoch": 0.058986666666666666, "eta_time": 13.733779965050427, "step": 553 }, { "epoch": 0.05909333333333333, "grad_norm": 1.589830714530068, "learning_rate": 9.977938067977359e-06, "loss": 0.4704, "step": 554 }, { "avg_step_time": 5.6078868707021075, "epoch": 0.05909333333333333, "eta_time": 13.740880579573135, "step": 554 }, { "epoch": 0.0592, "grad_norm": 1.7078567802107552, "learning_rate": 9.977775670192373e-06, "loss": 0.4848, "step": 555 }, { "avg_step_time": 5.610855661257349, "epoch": 0.0592, "eta_time": 13.746596370080505, "step": 555 }, { "epoch": 0.05930666666666667, "grad_norm": 1.9699624687747308, "learning_rate": 9.977612678223759e-06, "loss": 0.4951, "step": 556 }, { "avg_step_time": 5.604562561921399, "epoch": 0.05930666666666667, "eta_time": 13.729621453773559, "step": 556 }, { "epoch": 0.05941333333333333, "grad_norm": 1.5742452509578089, "learning_rate": 9.977449092090977e-06, "loss": 0.4721, "step": 557 }, { "avg_step_time": 5.606815814971924, "epoch": 0.05941333333333333, "eta_time": 13.733583849006228, "step": 557 }, { "epoch": 0.05952, "grad_norm": 0.6837805211749309, "learning_rate": 9.977284911813549e-06, "loss": 0.4351, "step": 558 }, { "avg_step_time": 5.5796984133094245, "epoch": 0.05952, "eta_time": 13.665611363930331, "step": 558 }, { "epoch": 0.05962666666666667, "grad_norm": 1.360929904425439, "learning_rate": 9.977120137411076e-06, "loss": 0.533, "step": 559 }, { "avg_step_time": 5.577762974633111, "epoch": 0.05962666666666667, "eta_time": 13.659321773434863, "step": 559 }, { "epoch": 0.05973333333333333, "grad_norm": 1.667875675199378, "learning_rate": 9.976954768903228e-06, "loss": 0.534, "step": 560 }, { "avg_step_time": 5.59978884639162, "epoch": 0.05973333333333333, "eta_time": 13.711705189150592, "step": 560 }, { "epoch": 0.05984, "grad_norm": 1.471346460853622, "learning_rate": 9.976788806309742e-06, "loss": 0.442, "step": 561 }, { "avg_step_time": 5.599402059208263, "epoch": 0.05984, "eta_time": 13.709202708294896, "step": 561 }, { "epoch": 0.05994666666666667, "grad_norm": 1.4764766652160297, "learning_rate": 9.976622249650432e-06, "loss": 0.4725, "step": 562 }, { "avg_step_time": 5.632900613726991, "epoch": 0.05994666666666667, "eta_time": 13.789653641326659, "step": 562 }, { "epoch": 0.060053333333333334, "grad_norm": 1.6826705179095953, "learning_rate": 9.976455098945175e-06, "loss": 0.5292, "step": 563 }, { "avg_step_time": 5.576314439677229, "epoch": 0.060053333333333334, "eta_time": 13.64957856734326, "step": 563 }, { "epoch": 0.06016, "grad_norm": 1.507908442482486, "learning_rate": 9.976287354213924e-06, "loss": 0.4888, "step": 564 }, { "avg_step_time": 5.61549085559267, "epoch": 0.06016, "eta_time": 13.743913869063059, "step": 564 }, { "epoch": 0.06026666666666667, "grad_norm": 1.67149917318952, "learning_rate": 9.976119015476706e-06, "loss": 0.4663, "step": 565 }, { "avg_step_time": 5.615849475667934, "epoch": 0.06026666666666667, "eta_time": 13.743231633509584, "step": 565 }, { "epoch": 0.060373333333333334, "grad_norm": 0.6564015314645696, "learning_rate": 9.975950082753612e-06, "loss": 0.4499, "step": 566 }, { "avg_step_time": 5.610424482461178, "epoch": 0.060373333333333334, "eta_time": 13.728397018333476, "step": 566 }, { "epoch": 0.06048, "grad_norm": 1.7553904132497524, "learning_rate": 9.975780556064806e-06, "loss": 0.4647, "step": 567 }, { "avg_step_time": 5.609838461635088, "epoch": 0.06048, "eta_time": 13.725404769467183, "step": 567 }, { "epoch": 0.060586666666666664, "grad_norm": 1.8207677060447862, "learning_rate": 9.975610435430528e-06, "loss": 0.5791, "step": 568 }, { "avg_step_time": 5.615556582055911, "epoch": 0.060586666666666664, "eta_time": 13.737835227268446, "step": 568 }, { "epoch": 0.060693333333333335, "grad_norm": 1.6670546881626616, "learning_rate": 9.975439720871079e-06, "loss": 0.4614, "step": 569 }, { "avg_step_time": 5.641295726853188, "epoch": 0.060693333333333335, "eta_time": 13.799236158519214, "step": 569 }, { "epoch": 0.0608, "grad_norm": 1.6143138504468264, "learning_rate": 9.975268412406842e-06, "loss": 0.5323, "step": 570 }, { "avg_step_time": 5.643735743532277, "epoch": 0.0608, "eta_time": 13.803637006056027, "step": 570 }, { "epoch": 0.060906666666666665, "grad_norm": 1.7718732586132608, "learning_rate": 9.975096510058265e-06, "loss": 0.4784, "step": 571 }, { "avg_step_time": 5.645133680767483, "epoch": 0.060906666666666665, "eta_time": 13.805488034854699, "step": 571 }, { "epoch": 0.061013333333333336, "grad_norm": 1.7987529356387393, "learning_rate": 9.974924013845865e-06, "loss": 0.5491, "step": 572 }, { "avg_step_time": 5.6438910335001315, "epoch": 0.061013333333333336, "eta_time": 13.800881324417126, "step": 572 }, { "epoch": 0.06112, "grad_norm": 1.6826076749748033, "learning_rate": 9.974750923790234e-06, "loss": 0.5141, "step": 573 }, { "avg_step_time": 5.6812315396588255, "epoch": 0.06112, "eta_time": 13.890611114465829, "step": 573 }, { "epoch": 0.061226666666666665, "grad_norm": 2.0291779104330216, "learning_rate": 9.974577239912033e-06, "loss": 0.5181, "step": 574 }, { "avg_step_time": 5.684044556184248, "epoch": 0.061226666666666665, "eta_time": 13.89591003860488, "step": 574 }, { "epoch": 0.06133333333333333, "grad_norm": 1.6692504565928916, "learning_rate": 9.974402962231994e-06, "loss": 0.4927, "step": 575 }, { "avg_step_time": 5.6830669966611, "epoch": 0.06133333333333333, "eta_time": 13.891941547393799, "step": 575 }, { "epoch": 0.06144, "grad_norm": 1.8252047335706363, "learning_rate": 9.97422809077092e-06, "loss": 0.5021, "step": 576 }, { "avg_step_time": 5.737596189132844, "epoch": 0.06144, "eta_time": 14.023641352272195, "step": 576 }, { "epoch": 0.061546666666666666, "grad_norm": 1.685299165590327, "learning_rate": 9.974052625549687e-06, "loss": 0.4793, "step": 577 }, { "avg_step_time": 5.7178778865120625, "epoch": 0.061546666666666666, "eta_time": 13.973858234870313, "step": 577 }, { "epoch": 0.06165333333333333, "grad_norm": 0.6874971948233076, "learning_rate": 9.973876566589236e-06, "loss": 0.44, "step": 578 }, { "avg_step_time": 5.68264297283057, "epoch": 0.06165333333333333, "eta_time": 13.886169508886256, "step": 578 }, { "epoch": 0.06176, "grad_norm": 0.6642973871934835, "learning_rate": 9.973699913910584e-06, "loss": 0.4846, "step": 579 }, { "avg_step_time": 5.643531527182068, "epoch": 0.06176, "eta_time": 13.78902869808152, "step": 579 }, { "epoch": 0.06186666666666667, "grad_norm": 1.5803070022272037, "learning_rate": 9.97352266753482e-06, "loss": 0.4897, "step": 580 }, { "avg_step_time": 5.641795926623875, "epoch": 0.06186666666666667, "eta_time": 13.78322088184916, "step": 580 }, { "epoch": 0.06197333333333333, "grad_norm": 0.6478159252492937, "learning_rate": 9.973344827483098e-06, "loss": 0.4471, "step": 581 }, { "avg_step_time": 5.583273731096827, "epoch": 0.06197333333333333, "eta_time": 13.638696997573748, "step": 581 }, { "epoch": 0.06208, "grad_norm": 0.6326359451854024, "learning_rate": 9.97316639377665e-06, "loss": 0.4285, "step": 582 }, { "avg_step_time": 5.5424985861537435, "epoch": 0.06208, "eta_time": 13.537552796680519, "step": 582 }, { "epoch": 0.06218666666666667, "grad_norm": 1.5759885628324741, "learning_rate": 9.972987366436772e-06, "loss": 0.5064, "step": 583 }, { "avg_step_time": 5.545553946735883, "epoch": 0.06218666666666667, "eta_time": 13.543475083250524, "step": 583 }, { "epoch": 0.06229333333333333, "grad_norm": 1.4700275823408047, "learning_rate": 9.972807745484833e-06, "loss": 0.4837, "step": 584 }, { "avg_step_time": 5.548340050861089, "epoch": 0.06229333333333333, "eta_time": 13.548738163088844, "step": 584 }, { "epoch": 0.0624, "grad_norm": 1.5771385057552307, "learning_rate": 9.97262753094228e-06, "loss": 0.3887, "step": 585 }, { "avg_step_time": 5.546666056218774, "epoch": 0.0624, "eta_time": 13.54310962060084, "step": 585 }, { "epoch": 0.06250666666666667, "grad_norm": 1.4741704411569672, "learning_rate": 9.972446722830618e-06, "loss": 0.475, "step": 586 }, { "avg_step_time": 5.6050894477150655, "epoch": 0.06250666666666667, "eta_time": 13.68420309887992, "step": 586 }, { "epoch": 0.06261333333333333, "grad_norm": 1.6252048039125158, "learning_rate": 9.972265321171433e-06, "loss": 0.4604, "step": 587 }, { "avg_step_time": 5.601842282998441, "epoch": 0.06261333333333333, "eta_time": 13.674719439719528, "step": 587 }, { "epoch": 0.06272, "grad_norm": 1.6059509407849066, "learning_rate": 9.972083325986377e-06, "loss": 0.5002, "step": 588 }, { "avg_step_time": 5.604798572232025, "epoch": 0.06272, "eta_time": 13.680379181723001, "step": 588 }, { "epoch": 0.06282666666666667, "grad_norm": 1.3584385786293196, "learning_rate": 9.971900737297176e-06, "loss": 0.5216, "step": 589 }, { "avg_step_time": 5.5405922032365895, "epoch": 0.06282666666666667, "eta_time": 13.522123082676854, "step": 589 }, { "epoch": 0.06293333333333333, "grad_norm": 1.672215944836693, "learning_rate": 9.971717555125623e-06, "loss": 0.4471, "step": 590 }, { "avg_step_time": 5.6058872853866735, "epoch": 0.06293333333333333, "eta_time": 13.67992216725609, "step": 590 }, { "epoch": 0.06304, "grad_norm": 1.4551204785989642, "learning_rate": 9.971533779493586e-06, "loss": 0.4416, "step": 591 }, { "avg_step_time": 5.605432257507786, "epoch": 0.06304, "eta_time": 13.677254708318998, "step": 591 }, { "epoch": 0.06314666666666667, "grad_norm": 1.8022324267239935, "learning_rate": 9.971349410423e-06, "loss": 0.4794, "step": 592 }, { "avg_step_time": 5.60526837483801, "epoch": 0.06314666666666667, "eta_time": 13.675297815611735, "step": 592 }, { "epoch": 0.06325333333333333, "grad_norm": 0.7209907889771876, "learning_rate": 9.971164447935875e-06, "loss": 0.4591, "step": 593 }, { "avg_step_time": 5.624196240396211, "epoch": 0.06325333333333333, "eta_time": 13.719914273099867, "step": 593 }, { "epoch": 0.06336, "grad_norm": 1.4382766074684639, "learning_rate": 9.970978892054286e-06, "loss": 0.4721, "step": 594 }, { "avg_step_time": 5.634835293798735, "epoch": 0.06336, "eta_time": 13.74430242079075, "step": 594 }, { "epoch": 0.06346666666666667, "grad_norm": 1.438557445964598, "learning_rate": 9.970792742800386e-06, "loss": 0.4717, "step": 595 }, { "avg_step_time": 5.653608998866996, "epoch": 0.06346666666666667, "eta_time": 13.788524169458952, "step": 595 }, { "epoch": 0.06357333333333333, "grad_norm": 1.610210177930083, "learning_rate": 9.970606000196392e-06, "loss": 0.4637, "step": 596 }, { "avg_step_time": 5.654772228664822, "epoch": 0.06357333333333333, "eta_time": 13.789790387624574, "step": 596 }, { "epoch": 0.06368, "grad_norm": 1.7079397508034353, "learning_rate": 9.970418664264596e-06, "loss": 0.5066, "step": 597 }, { "avg_step_time": 5.652748384861031, "epoch": 0.06368, "eta_time": 13.783284811752813, "step": 597 }, { "epoch": 0.06378666666666667, "grad_norm": 0.640495862349432, "learning_rate": 9.970230735027362e-06, "loss": 0.4169, "step": 598 }, { "avg_step_time": 5.616725452018507, "epoch": 0.06378666666666667, "eta_time": 13.693888692324009, "step": 598 }, { "epoch": 0.06389333333333333, "grad_norm": 1.6149857470150397, "learning_rate": 9.970042212507118e-06, "loss": 0.4817, "step": 599 }, { "avg_step_time": 5.607287207035103, "epoch": 0.06389333333333333, "eta_time": 13.669320146927797, "step": 599 }, { "epoch": 0.064, "grad_norm": 1.7134903710436913, "learning_rate": 9.969853096726372e-06, "loss": 0.4815, "step": 600 }, { "avg_step_time": 5.606459222658716, "epoch": 0.064, "eta_time": 13.665744355230622, "step": 600 }, { "epoch": 0.06410666666666667, "grad_norm": 1.622288876549281, "learning_rate": 9.969663387707696e-06, "loss": 0.5025, "step": 601 }, { "avg_step_time": 5.581190075537171, "epoch": 0.06410666666666667, "eta_time": 13.602600478545314, "step": 601 }, { "epoch": 0.06421333333333333, "grad_norm": 1.5729475892379479, "learning_rate": 9.969473085473735e-06, "loss": 0.4852, "step": 602 }, { "avg_step_time": 5.580349604288737, "epoch": 0.06421333333333333, "eta_time": 13.599001966229192, "step": 602 }, { "epoch": 0.06432, "grad_norm": 1.542155816091303, "learning_rate": 9.969282190047207e-06, "loss": 0.5235, "step": 603 }, { "avg_step_time": 5.575544718540076, "epoch": 0.06432, "eta_time": 13.585743964175984, "step": 603 }, { "epoch": 0.06442666666666666, "grad_norm": 1.6234534017077553, "learning_rate": 9.969090701450896e-06, "loss": 0.5557, "step": 604 }, { "avg_step_time": 5.573881765808722, "epoch": 0.06442666666666666, "eta_time": 13.58014360219675, "step": 604 }, { "epoch": 0.06453333333333333, "grad_norm": 1.6209138995882444, "learning_rate": 9.96889861970766e-06, "loss": 0.5678, "step": 605 }, { "avg_step_time": 5.572156135482017, "epoch": 0.06453333333333333, "eta_time": 13.57439147449369, "step": 605 }, { "epoch": 0.06464, "grad_norm": 0.6814747921818458, "learning_rate": 9.968705944840428e-06, "loss": 0.4587, "step": 606 }, { "avg_step_time": 5.520594035736238, "epoch": 0.06464, "eta_time": 13.44724697204752, "step": 606 }, { "epoch": 0.06474666666666666, "grad_norm": 1.771568744814897, "learning_rate": 9.9685126768722e-06, "loss": 0.4892, "step": 607 }, { "avg_step_time": 5.553060302830706, "epoch": 0.06474666666666666, "eta_time": 13.524786870894342, "step": 607 }, { "epoch": 0.06485333333333333, "grad_norm": 1.3974058831434393, "learning_rate": 9.968318815826041e-06, "loss": 0.485, "step": 608 }, { "avg_step_time": 5.5471497400842535, "epoch": 0.06485333333333333, "eta_time": 13.508850492032959, "step": 608 }, { "epoch": 0.06496, "grad_norm": 1.5382292372093962, "learning_rate": 9.968124361725098e-06, "loss": 0.4768, "step": 609 }, { "avg_step_time": 5.522310543541956, "epoch": 0.06496, "eta_time": 13.446826173524665, "step": 609 }, { "epoch": 0.06506666666666666, "grad_norm": 1.8969314257195042, "learning_rate": 9.96792931459258e-06, "loss": 0.5328, "step": 610 }, { "avg_step_time": 5.536832749241531, "epoch": 0.06506666666666666, "eta_time": 13.480649735306116, "step": 610 }, { "epoch": 0.06517333333333333, "grad_norm": 1.7020530172257948, "learning_rate": 9.96773367445177e-06, "loss": 0.4737, "step": 611 }, { "avg_step_time": 5.539727774533358, "epoch": 0.06517333333333333, "eta_time": 13.48615950444732, "step": 611 }, { "epoch": 0.06528, "grad_norm": 1.8245547909467768, "learning_rate": 9.967537441326018e-06, "loss": 0.482, "step": 612 }, { "avg_step_time": 5.538017684763128, "epoch": 0.06528, "eta_time": 13.480458047660914, "step": 612 }, { "epoch": 0.06538666666666666, "grad_norm": 1.9235343854086029, "learning_rate": 9.96734061523875e-06, "loss": 0.5195, "step": 613 }, { "avg_step_time": 5.576036561619151, "epoch": 0.06538666666666666, "eta_time": 13.571453431363057, "step": 613 }, { "epoch": 0.06549333333333333, "grad_norm": 1.7692532955891735, "learning_rate": 9.96714319621346e-06, "loss": 0.4806, "step": 614 }, { "avg_step_time": 5.576618353525798, "epoch": 0.06549333333333333, "eta_time": 13.571320387566532, "step": 614 }, { "epoch": 0.0656, "grad_norm": 1.6725006371913163, "learning_rate": 9.966945184273716e-06, "loss": 0.6014, "step": 615 }, { "avg_step_time": 5.578621271884803, "epoch": 0.0656, "eta_time": 13.574645094919687, "step": 615 }, { "epoch": 0.06570666666666666, "grad_norm": 0.6529184221165736, "learning_rate": 9.966746579443152e-06, "loss": 0.4421, "step": 616 }, { "avg_step_time": 5.575189889079392, "epoch": 0.06570666666666666, "eta_time": 13.564746732901778, "step": 616 }, { "epoch": 0.06581333333333333, "grad_norm": 0.6731934045080312, "learning_rate": 9.966547381745473e-06, "loss": 0.4403, "step": 617 }, { "avg_step_time": 5.5440250478609645, "epoch": 0.06581333333333333, "eta_time": 13.487380935879536, "step": 617 }, { "epoch": 0.06592, "grad_norm": 1.68323380445904, "learning_rate": 9.966347591204459e-06, "loss": 0.528, "step": 618 }, { "avg_step_time": 5.54394864554357, "epoch": 0.06592, "eta_time": 13.485655080284733, "step": 618 }, { "epoch": 0.06602666666666666, "grad_norm": 1.4080751114352517, "learning_rate": 9.96614720784396e-06, "loss": 0.5124, "step": 619 }, { "avg_step_time": 5.508206873229056, "epoch": 0.06602666666666666, "eta_time": 13.397183161664893, "step": 619 }, { "epoch": 0.06613333333333334, "grad_norm": 1.8019292510766796, "learning_rate": 9.96594623168789e-06, "loss": 0.4956, "step": 620 }, { "avg_step_time": 5.542189003241183, "epoch": 0.06613333333333334, "eta_time": 13.47829575649349, "step": 620 }, { "epoch": 0.06624, "grad_norm": 0.6535955960467024, "learning_rate": 9.965744662760246e-06, "loss": 0.4464, "step": 621 }, { "avg_step_time": 5.506617245047983, "epoch": 0.06624, "eta_time": 13.390257600875014, "step": 621 }, { "epoch": 0.06634666666666666, "grad_norm": 1.5285373753222131, "learning_rate": 9.965542501085082e-06, "loss": 0.445, "step": 622 }, { "avg_step_time": 5.541140867002083, "epoch": 0.06634666666666666, "eta_time": 13.472668335797009, "step": 622 }, { "epoch": 0.06645333333333334, "grad_norm": 1.7548019296696171, "learning_rate": 9.965339746686536e-06, "loss": 0.4962, "step": 623 }, { "avg_step_time": 5.539773803768736, "epoch": 0.06645333333333334, "eta_time": 13.467805647384438, "step": 623 }, { "epoch": 0.06656, "grad_norm": 1.498062478274082, "learning_rate": 9.965136399588803e-06, "loss": 0.508, "step": 624 }, { "avg_step_time": 5.539876420088489, "epoch": 0.06656, "eta_time": 13.466516264498436, "step": 624 }, { "epoch": 0.06666666666666667, "grad_norm": 1.4539281429003303, "learning_rate": 9.964932459816161e-06, "loss": 0.5207, "step": 625 }, { "avg_step_time": 5.5552446962607025, "epoch": 0.06666666666666667, "eta_time": 13.502330858966985, "step": 625 }, { "epoch": 0.06677333333333334, "grad_norm": 1.9167518207377665, "learning_rate": 9.964727927392954e-06, "loss": 0.5576, "step": 626 }, { "avg_step_time": 5.554188212963066, "epoch": 0.06677333333333334, "eta_time": 13.498220187559406, "step": 626 }, { "epoch": 0.06688, "grad_norm": 1.5980233404755029, "learning_rate": 9.964522802343593e-06, "loss": 0.499, "step": 627 }, { "avg_step_time": 5.556327395968967, "epoch": 0.06688, "eta_time": 13.50187557220459, "step": 627 }, { "epoch": 0.06698666666666667, "grad_norm": 1.5402269597342304, "learning_rate": 9.964317084692568e-06, "loss": 0.6319, "step": 628 }, { "avg_step_time": 5.55562028017911, "epoch": 0.06698666666666667, "eta_time": 13.498614052979633, "step": 628 }, { "epoch": 0.06709333333333334, "grad_norm": 1.6386873863604912, "learning_rate": 9.964110774464429e-06, "loss": 0.5283, "step": 629 }, { "avg_step_time": 5.551410219886086, "epoch": 0.06709333333333334, "eta_time": 13.486842717534364, "step": 629 }, { "epoch": 0.0672, "grad_norm": 1.6507897654472095, "learning_rate": 9.963903871683806e-06, "loss": 0.4904, "step": 630 }, { "avg_step_time": 5.566241355857464, "epoch": 0.0672, "eta_time": 13.521327960270424, "step": 630 }, { "epoch": 0.06730666666666667, "grad_norm": 1.5668459711576044, "learning_rate": 9.963696376375399e-06, "loss": 0.5689, "step": 631 }, { "avg_step_time": 5.6003742290265635, "epoch": 0.06730666666666667, "eta_time": 13.602686738502296, "step": 631 }, { "epoch": 0.06741333333333334, "grad_norm": 0.6798789908483666, "learning_rate": 9.963488288563972e-06, "loss": 0.4432, "step": 632 }, { "avg_step_time": 5.56733572844303, "epoch": 0.06741333333333334, "eta_time": 13.520893409382614, "step": 632 }, { "epoch": 0.06752, "grad_norm": 1.690550118162991, "learning_rate": 9.963279608274364e-06, "loss": 0.5549, "step": 633 }, { "avg_step_time": 5.570659589285802, "epoch": 0.06752, "eta_time": 13.52741836931569, "step": 633 }, { "epoch": 0.06762666666666667, "grad_norm": 1.5580601232546791, "learning_rate": 9.963070335531488e-06, "loss": 0.4155, "step": 634 }, { "avg_step_time": 5.584983671554411, "epoch": 0.06762666666666667, "eta_time": 13.560650631404753, "step": 634 }, { "epoch": 0.06773333333333334, "grad_norm": 1.567605714574118, "learning_rate": 9.962860470360321e-06, "loss": 0.5304, "step": 635 }, { "avg_step_time": 5.5944412308509905, "epoch": 0.06773333333333334, "eta_time": 13.582060099343794, "step": 635 }, { "epoch": 0.06784, "grad_norm": 1.8387242083541626, "learning_rate": 9.962650012785917e-06, "loss": 0.5482, "step": 636 }, { "avg_step_time": 5.598256954038986, "epoch": 0.06784, "eta_time": 13.589768755929638, "step": 636 }, { "epoch": 0.06794666666666667, "grad_norm": 1.6633944914354764, "learning_rate": 9.962438962833393e-06, "loss": 0.4404, "step": 637 }, { "avg_step_time": 5.602139212868431, "epoch": 0.06794666666666667, "eta_time": 13.597636789456764, "step": 637 }, { "epoch": 0.06805333333333333, "grad_norm": 1.7969315581634175, "learning_rate": 9.962227320527946e-06, "loss": 0.5349, "step": 638 }, { "avg_step_time": 5.635340969971936, "epoch": 0.06805333333333333, "eta_time": 13.676659459623556, "step": 638 }, { "epoch": 0.06816, "grad_norm": 1.3883643156988532, "learning_rate": 9.962015085894838e-06, "loss": 0.4516, "step": 639 }, { "avg_step_time": 5.617398406520034, "epoch": 0.06816, "eta_time": 13.631553466488615, "step": 639 }, { "epoch": 0.06826666666666667, "grad_norm": 1.7413500712616552, "learning_rate": 9.961802258959402e-06, "loss": 0.5255, "step": 640 }, { "avg_step_time": 5.620412458073009, "epoch": 0.06826666666666667, "eta_time": 13.637306339241036, "step": 640 }, { "epoch": 0.06837333333333333, "grad_norm": 2.035852090094358, "learning_rate": 9.961588839747044e-06, "loss": 0.5857, "step": 641 }, { "avg_step_time": 5.652312228173921, "epoch": 0.06837333333333333, "eta_time": 13.71313750024195, "step": 641 }, { "epoch": 0.06848, "grad_norm": 1.6711842765730704, "learning_rate": 9.961374828283239e-06, "loss": 0.4919, "step": 642 }, { "avg_step_time": 5.651540999460702, "epoch": 0.06848, "eta_time": 13.709696541191754, "step": 642 }, { "epoch": 0.06858666666666667, "grad_norm": 0.6844780038040924, "learning_rate": 9.961160224593531e-06, "loss": 0.4355, "step": 643 }, { "avg_step_time": 5.65140548619357, "epoch": 0.06858666666666667, "eta_time": 13.707797973733959, "step": 643 }, { "epoch": 0.06869333333333333, "grad_norm": 1.7190165322925783, "learning_rate": 9.960945028703539e-06, "loss": 0.4986, "step": 644 }, { "avg_step_time": 5.652828430888628, "epoch": 0.06869333333333333, "eta_time": 13.709679175024615, "step": 644 }, { "epoch": 0.0688, "grad_norm": 1.5021988700884539, "learning_rate": 9.960729240638947e-06, "loss": 0.491, "step": 645 }, { "avg_step_time": 5.65429532648337, "epoch": 0.0688, "eta_time": 13.711666166722173, "step": 645 }, { "epoch": 0.06890666666666667, "grad_norm": 1.9422728765621364, "learning_rate": 9.960512860425517e-06, "loss": 0.5418, "step": 646 }, { "avg_step_time": 5.633485782026041, "epoch": 0.06890666666666667, "eta_time": 13.659638164251474, "step": 646 }, { "epoch": 0.06901333333333333, "grad_norm": 1.6647417297399303, "learning_rate": 9.960295888089078e-06, "loss": 0.554, "step": 647 }, { "avg_step_time": 5.604403071933323, "epoch": 0.06901333333333333, "eta_time": 13.587563892176123, "step": 647 }, { "epoch": 0.06912, "grad_norm": 0.6142576236563672, "learning_rate": 9.960078323655524e-06, "loss": 0.4115, "step": 648 }, { "avg_step_time": 5.573214586334999, "epoch": 0.06912, "eta_time": 13.510401026373762, "step": 648 }, { "epoch": 0.06922666666666667, "grad_norm": 2.2079449386501597, "learning_rate": 9.959860167150832e-06, "loss": 0.5889, "step": 649 }, { "avg_step_time": 5.5678093842785765, "epoch": 0.06922666666666667, "eta_time": 13.495751302004127, "step": 649 }, { "epoch": 0.06933333333333333, "grad_norm": 1.9181876100896744, "learning_rate": 9.959641418601037e-06, "loss": 0.5279, "step": 650 }, { "avg_step_time": 5.566086135729395, "epoch": 0.06933333333333333, "eta_time": 13.490028203955271, "step": 650 }, { "epoch": 0.06944, "grad_norm": 1.6497911857854957, "learning_rate": 9.959422078032253e-06, "loss": 0.5474, "step": 651 }, { "avg_step_time": 5.567518985632694, "epoch": 0.06944, "eta_time": 13.491954341849896, "step": 651 }, { "epoch": 0.06954666666666667, "grad_norm": 0.6583692181162532, "learning_rate": 9.959202145470663e-06, "loss": 0.4587, "step": 652 }, { "avg_step_time": 5.534421528228606, "epoch": 0.06954666666666667, "eta_time": 13.41021083076059, "step": 652 }, { "epoch": 0.06965333333333333, "grad_norm": 0.6496119255124626, "learning_rate": 9.958981620942519e-06, "loss": 0.4142, "step": 653 }, { "avg_step_time": 5.496511382285995, "epoch": 0.06965333333333333, "eta_time": 13.316825632305124, "step": 653 }, { "epoch": 0.06976, "grad_norm": 1.8340476900669007, "learning_rate": 9.958760504474144e-06, "loss": 0.5408, "step": 654 }, { "avg_step_time": 5.493344574263602, "epoch": 0.06976, "eta_time": 13.307627231153575, "step": 654 }, { "epoch": 0.06986666666666666, "grad_norm": 1.5011730937940246, "learning_rate": 9.95853879609193e-06, "loss": 0.5531, "step": 655 }, { "avg_step_time": 5.495976224090114, "epoch": 0.06986666666666666, "eta_time": 13.312475742796055, "step": 655 }, { "epoch": 0.06997333333333333, "grad_norm": 1.4984525236776143, "learning_rate": 9.958316495822345e-06, "loss": 0.4123, "step": 656 }, { "avg_step_time": 5.522445230773001, "epoch": 0.06997333333333333, "eta_time": 13.375055546419388, "step": 656 }, { "epoch": 0.07008, "grad_norm": 1.7358877828744719, "learning_rate": 9.958093603691923e-06, "loss": 0.54, "step": 657 }, { "avg_step_time": 5.545200482763425, "epoch": 0.07008, "eta_time": 13.428627169092094, "step": 657 }, { "epoch": 0.07018666666666666, "grad_norm": 0.6430532124971282, "learning_rate": 9.957870119727271e-06, "loss": 0.4208, "step": 658 }, { "avg_step_time": 5.514370017581516, "epoch": 0.07018666666666666, "eta_time": 13.35243428979391, "step": 658 }, { "epoch": 0.07029333333333333, "grad_norm": 1.884655865291775, "learning_rate": 9.957646043955066e-06, "loss": 0.5201, "step": 659 }, { "avg_step_time": 5.492365203722559, "epoch": 0.07029333333333333, "eta_time": 13.29762642101273, "step": 659 }, { "epoch": 0.0704, "grad_norm": 1.6855218473233786, "learning_rate": 9.957421376402053e-06, "loss": 0.443, "step": 660 }, { "avg_step_time": 5.490256562377468, "epoch": 0.0704, "eta_time": 13.290996094755453, "step": 660 }, { "epoch": 0.07050666666666666, "grad_norm": 1.684174472547844, "learning_rate": 9.957196117095048e-06, "loss": 0.5103, "step": 661 }, { "avg_step_time": 5.455487477658975, "epoch": 0.07050666666666666, "eta_time": 13.205310522311196, "step": 661 }, { "epoch": 0.07061333333333333, "grad_norm": 1.9811605011158389, "learning_rate": 9.956970266060947e-06, "loss": 0.532, "step": 662 }, { "avg_step_time": 5.457532213191794, "epoch": 0.07061333333333333, "eta_time": 13.208743937094471, "step": 662 }, { "epoch": 0.07072, "grad_norm": 1.6985363798238262, "learning_rate": 9.956743823326704e-06, "loss": 0.5559, "step": 663 }, { "avg_step_time": 5.4458809693654375, "epoch": 0.07072, "eta_time": 13.17903194586436, "step": 663 }, { "epoch": 0.07082666666666666, "grad_norm": 1.730254588345158, "learning_rate": 9.95651678891935e-06, "loss": 0.5296, "step": 664 }, { "avg_step_time": 5.455228636963199, "epoch": 0.07082666666666666, "eta_time": 13.200137960162895, "step": 664 }, { "epoch": 0.07093333333333333, "grad_norm": 0.6547358403247512, "learning_rate": 9.956289162865987e-06, "loss": 0.4511, "step": 665 }, { "avg_step_time": 5.458626747131348, "epoch": 0.07093333333333333, "eta_time": 13.206844157642788, "step": 665 }, { "epoch": 0.07104, "grad_norm": 1.7124816116575918, "learning_rate": 9.956060945193781e-06, "loss": 0.4432, "step": 666 }, { "avg_step_time": 5.477307382256094, "epoch": 0.07104, "eta_time": 13.2505194422412, "step": 666 }, { "epoch": 0.07114666666666666, "grad_norm": 1.7487899615311278, "learning_rate": 9.955832135929978e-06, "loss": 0.5215, "step": 667 }, { "avg_step_time": 5.483277670060746, "epoch": 0.07114666666666666, "eta_time": 13.263439430802492, "step": 667 }, { "epoch": 0.07125333333333334, "grad_norm": 1.7014786104921897, "learning_rate": 9.955602735101892e-06, "loss": 0.4736, "step": 668 }, { "avg_step_time": 5.480655997690528, "epoch": 0.07125333333333334, "eta_time": 13.255575492192063, "step": 668 }, { "epoch": 0.07136, "grad_norm": 1.7062451489693018, "learning_rate": 9.955372742736903e-06, "loss": 0.4525, "step": 669 }, { "avg_step_time": 5.477327997034246, "epoch": 0.07136, "eta_time": 13.246004872827818, "step": 669 }, { "epoch": 0.07146666666666666, "grad_norm": 1.7797090487652745, "learning_rate": 9.955142158862463e-06, "loss": 0.5153, "step": 670 }, { "avg_step_time": 5.500075817108154, "epoch": 0.07146666666666666, "eta_time": 13.299488885535133, "step": 670 }, { "epoch": 0.07157333333333334, "grad_norm": 1.6441026305348128, "learning_rate": 9.9549109835061e-06, "loss": 0.6139, "step": 671 }, { "avg_step_time": 5.5078056773754085, "epoch": 0.07157333333333334, "eta_time": 13.316650171076544, "step": 671 }, { "epoch": 0.07168, "grad_norm": 1.3648373599325205, "learning_rate": 9.954679216695406e-06, "loss": 0.4504, "step": 672 }, { "avg_step_time": 5.5000588388154, "epoch": 0.07168, "eta_time": 13.29639224283623, "step": 672 }, { "epoch": 0.07178666666666667, "grad_norm": 1.6288291407171949, "learning_rate": 9.95444685845805e-06, "loss": 0.4394, "step": 673 }, { "avg_step_time": 5.4965928034348925, "epoch": 0.07178666666666667, "eta_time": 13.286486270969565, "step": 673 }, { "epoch": 0.07189333333333334, "grad_norm": 1.6996493706739813, "learning_rate": 9.954213908821762e-06, "loss": 0.423, "step": 674 }, { "avg_step_time": 5.495028074341591, "epoch": 0.07189333333333334, "eta_time": 13.281177576346163, "step": 674 }, { "epoch": 0.072, "grad_norm": 1.720261205725932, "learning_rate": 9.953980367814354e-06, "loss": 0.5451, "step": 675 }, { "avg_step_time": 5.474688426412717, "epoch": 0.072, "eta_time": 13.2304970304974, "step": 675 }, { "epoch": 0.07210666666666667, "grad_norm": 1.89082147327199, "learning_rate": 9.953746235463699e-06, "loss": 0.5413, "step": 676 }, { "avg_step_time": 5.4750657202017425, "epoch": 0.07210666666666667, "eta_time": 13.229887972231932, "step": 676 }, { "epoch": 0.07221333333333334, "grad_norm": 1.7041985115951854, "learning_rate": 9.95351151179775e-06, "loss": 0.5698, "step": 677 }, { "avg_step_time": 5.512938294747864, "epoch": 0.07221333333333334, "eta_time": 13.319871468810254, "step": 677 }, { "epoch": 0.07232, "grad_norm": 1.6621201198794895, "learning_rate": 9.953276196844519e-06, "loss": 0.5661, "step": 678 }, { "avg_step_time": 5.550726230698403, "epoch": 0.07232, "eta_time": 13.409629452328891, "step": 678 }, { "epoch": 0.07242666666666667, "grad_norm": 1.4362164791748342, "learning_rate": 9.9530402906321e-06, "loss": 0.3974, "step": 679 }, { "avg_step_time": 5.584270597708346, "epoch": 0.07242666666666667, "eta_time": 13.489115866019937, "step": 679 }, { "epoch": 0.07253333333333334, "grad_norm": 1.644075661210843, "learning_rate": 9.95280379318865e-06, "loss": 0.5361, "step": 680 }, { "avg_step_time": 5.618922252847691, "epoch": 0.07253333333333334, "eta_time": 13.571258052364074, "step": 680 }, { "epoch": 0.07264, "grad_norm": 1.4926227456073673, "learning_rate": 9.9525667045424e-06, "loss": 0.4701, "step": 681 }, { "avg_step_time": 5.6857294675075645, "epoch": 0.07264, "eta_time": 13.731036664030768, "step": 681 }, { "epoch": 0.07274666666666667, "grad_norm": 1.4837179419540452, "learning_rate": 9.95232902472165e-06, "loss": 0.4793, "step": 682 }, { "avg_step_time": 5.6855202251010475, "epoch": 0.07274666666666667, "eta_time": 13.728952032445392, "step": 682 }, { "epoch": 0.07285333333333334, "grad_norm": 0.6779691316896986, "learning_rate": 9.952090753754772e-06, "loss": 0.4466, "step": 683 }, { "avg_step_time": 5.64730854708739, "epoch": 0.07285333333333334, "eta_time": 13.635112747578777, "step": 683 }, { "epoch": 0.07296, "grad_norm": 1.8569386773783187, "learning_rate": 9.951851891670206e-06, "loss": 0.5199, "step": 684 }, { "avg_step_time": 5.648492418154322, "epoch": 0.07296, "eta_time": 13.63640211282756, "step": 684 }, { "epoch": 0.07306666666666667, "grad_norm": 1.730907127301447, "learning_rate": 9.951612438496467e-06, "loss": 0.4955, "step": 685 }, { "avg_step_time": 5.631530063320892, "epoch": 0.07306666666666667, "eta_time": 13.593887847294043, "step": 685 }, { "epoch": 0.07317333333333334, "grad_norm": 1.9760266877705788, "learning_rate": 9.951372394262135e-06, "loss": 0.5264, "step": 686 }, { "avg_step_time": 5.635532186488913, "epoch": 0.07317333333333334, "eta_time": 13.601983102333936, "step": 686 }, { "epoch": 0.07328, "grad_norm": 1.8835661242699757, "learning_rate": 9.951131758995866e-06, "loss": 0.5168, "step": 687 }, { "avg_step_time": 5.635954628087053, "epoch": 0.07328, "eta_time": 13.601437169116755, "step": 687 }, { "epoch": 0.07338666666666667, "grad_norm": 1.6583875128516066, "learning_rate": 9.950890532726382e-06, "loss": 0.4621, "step": 688 }, { "avg_step_time": 5.638325724938904, "epoch": 0.07338666666666667, "eta_time": 13.605593214595627, "step": 688 }, { "epoch": 0.07349333333333333, "grad_norm": 1.5595885233435103, "learning_rate": 9.95064871548248e-06, "loss": 0.415, "step": 689 }, { "avg_step_time": 5.5680585413268116, "epoch": 0.07349333333333333, "eta_time": 13.434487913879078, "step": 689 }, { "epoch": 0.0736, "grad_norm": 1.6627617348510237, "learning_rate": 9.950406307293023e-06, "loss": 0.5142, "step": 690 }, { "avg_step_time": 5.572497627951882, "epoch": 0.0736, "eta_time": 13.443650527433915, "step": 690 }, { "epoch": 0.07370666666666667, "grad_norm": 0.6769749105851044, "learning_rate": 9.950163308186946e-06, "loss": 0.4746, "step": 691 }, { "avg_step_time": 5.562813334994846, "epoch": 0.07370666666666667, "eta_time": 13.41874194474868, "step": 691 }, { "epoch": 0.07381333333333333, "grad_norm": 1.521563210707938, "learning_rate": 9.949919718193257e-06, "loss": 0.4116, "step": 692 }, { "avg_step_time": 5.5741617872257425, "epoch": 0.07381333333333333, "eta_time": 13.444568555133644, "step": 692 }, { "epoch": 0.07392, "grad_norm": 1.4616324443582949, "learning_rate": 9.949675537341031e-06, "loss": 0.4673, "step": 693 }, { "avg_step_time": 5.563710634154503, "epoch": 0.07392, "eta_time": 13.417815479369276, "step": 693 }, { "epoch": 0.07402666666666667, "grad_norm": 1.7150945922688385, "learning_rate": 9.949430765659417e-06, "loss": 0.4435, "step": 694 }, { "avg_step_time": 5.542483194909915, "epoch": 0.07402666666666667, "eta_time": 13.36508239305916, "step": 694 }, { "epoch": 0.07413333333333333, "grad_norm": 1.679543096495581, "learning_rate": 9.949185403177632e-06, "loss": 0.5196, "step": 695 }, { "avg_step_time": 5.540835409453421, "epoch": 0.07413333333333333, "eta_time": 13.359569820571027, "step": 695 }, { "epoch": 0.07424, "grad_norm": 1.9416580136518775, "learning_rate": 9.948939449924964e-06, "loss": 0.5562, "step": 696 }, { "avg_step_time": 5.540663459084251, "epoch": 0.07424, "eta_time": 13.357616155942281, "step": 696 }, { "epoch": 0.07434666666666667, "grad_norm": 1.6509823963316783, "learning_rate": 9.94869290593077e-06, "loss": 0.4468, "step": 697 }, { "avg_step_time": 5.573528417433151, "epoch": 0.07434666666666667, "eta_time": 13.435299890690246, "step": 697 }, { "epoch": 0.07445333333333333, "grad_norm": 1.6663108550956396, "learning_rate": 9.948445771224484e-06, "loss": 0.5454, "step": 698 }, { "avg_step_time": 5.5765831831729775, "epoch": 0.07445333333333333, "eta_time": 13.441114522331091, "step": 698 }, { "epoch": 0.07456, "grad_norm": 1.610718454344579, "learning_rate": 9.948198045835601e-06, "loss": 0.4724, "step": 699 }, { "avg_step_time": 5.5801953787755485, "epoch": 0.07456, "eta_time": 13.448270862849073, "step": 699 }, { "epoch": 0.07466666666666667, "grad_norm": 1.7946508863916577, "learning_rate": 9.947949729793693e-06, "loss": 0.5194, "step": 700 }, { "avg_step_time": 5.581935858485674, "epoch": 0.07466666666666667, "eta_time": 13.450914881212007, "step": 700 }, { "epoch": 0.07477333333333333, "grad_norm": 1.7015161789476196, "learning_rate": 9.947700823128403e-06, "loss": 0.5552, "step": 701 }, { "avg_step_time": 5.582809715559988, "epoch": 0.07477333333333333, "eta_time": 13.451469853546485, "step": 701 }, { "epoch": 0.07488, "grad_norm": 1.6861766414902937, "learning_rate": 9.94745132586944e-06, "loss": 0.553, "step": 702 }, { "avg_step_time": 5.583864426372027, "epoch": 0.07488, "eta_time": 13.452460047201276, "step": 702 }, { "epoch": 0.07498666666666666, "grad_norm": 1.8858088701940752, "learning_rate": 9.947201238046585e-06, "loss": 0.49, "step": 703 }, { "avg_step_time": 5.591467305867359, "epoch": 0.07498666666666666, "eta_time": 13.469223465689371, "step": 703 }, { "epoch": 0.07509333333333333, "grad_norm": 1.7956385619923323, "learning_rate": 9.946950559689691e-06, "loss": 0.537, "step": 704 }, { "avg_step_time": 5.606232879137752, "epoch": 0.07509333333333333, "eta_time": 13.503234804167626, "step": 704 }, { "epoch": 0.0752, "grad_norm": 1.6642055495692487, "learning_rate": 9.946699290828683e-06, "loss": 0.4604, "step": 705 }, { "avg_step_time": 5.637934282572583, "epoch": 0.0752, "eta_time": 13.578025063862302, "step": 705 }, { "epoch": 0.07530666666666666, "grad_norm": 1.5499356823191155, "learning_rate": 9.946447431493553e-06, "loss": 0.5535, "step": 706 }, { "avg_step_time": 5.639568839410339, "epoch": 0.07530666666666666, "eta_time": 13.580395074680064, "step": 706 }, { "epoch": 0.07541333333333333, "grad_norm": 1.5749841596424377, "learning_rate": 9.946194981714364e-06, "loss": 0.5148, "step": 707 }, { "avg_step_time": 5.634638950078174, "epoch": 0.07541333333333333, "eta_time": 13.566958449799337, "step": 707 }, { "epoch": 0.07552, "grad_norm": 1.7407108396223163, "learning_rate": 9.94594194152125e-06, "loss": 0.4612, "step": 708 }, { "avg_step_time": 5.632941862549445, "epoch": 0.07552, "eta_time": 13.561307534087788, "step": 708 }, { "epoch": 0.07562666666666666, "grad_norm": 1.6771920778372407, "learning_rate": 9.945688310944415e-06, "loss": 0.5739, "step": 709 }, { "avg_step_time": 5.628610100408997, "epoch": 0.07562666666666666, "eta_time": 13.549315313928991, "step": 709 }, { "epoch": 0.07573333333333333, "grad_norm": 1.870368765214324, "learning_rate": 9.945434090014136e-06, "loss": 0.581, "step": 710 }, { "avg_step_time": 5.630125045776367, "epoch": 0.07573333333333333, "eta_time": 13.55139820045895, "step": 710 }, { "epoch": 0.07584, "grad_norm": 1.5782005920517637, "learning_rate": 9.945179278760759e-06, "loss": 0.4717, "step": 711 }, { "avg_step_time": 5.650596180347481, "epoch": 0.07584, "eta_time": 13.599101474036273, "step": 711 }, { "epoch": 0.07594666666666666, "grad_norm": 1.8699299369911206, "learning_rate": 9.944923877214701e-06, "loss": 0.5382, "step": 712 }, { "avg_step_time": 5.682008991337786, "epoch": 0.07594666666666666, "eta_time": 13.673123303322011, "step": 712 }, { "epoch": 0.07605333333333333, "grad_norm": 1.5223875093796495, "learning_rate": 9.944667885406445e-06, "loss": 0.4377, "step": 713 }, { "avg_step_time": 5.682528026176222, "epoch": 0.07605333333333333, "eta_time": 13.672793822982898, "step": 713 }, { "epoch": 0.07616, "grad_norm": 0.6124615216099616, "learning_rate": 9.94441130336655e-06, "loss": 0.4228, "step": 714 }, { "avg_step_time": 5.6470695432990485, "epoch": 0.07616, "eta_time": 13.585908142920294, "step": 714 }, { "epoch": 0.07626666666666666, "grad_norm": 1.7130563444390323, "learning_rate": 9.944154131125643e-06, "loss": 0.5066, "step": 715 }, { "avg_step_time": 5.680591128089211, "epoch": 0.07626666666666666, "eta_time": 13.664977547014601, "step": 715 }, { "epoch": 0.07637333333333333, "grad_norm": 2.3509577248319853, "learning_rate": 9.943896368714423e-06, "loss": 0.4603, "step": 716 }, { "avg_step_time": 5.707368633963845, "epoch": 0.07637333333333333, "eta_time": 13.727806944859148, "step": 716 }, { "epoch": 0.07648, "grad_norm": 1.6725656657852523, "learning_rate": 9.943638016163658e-06, "loss": 0.4379, "step": 717 }, { "avg_step_time": 5.711329373446378, "epoch": 0.07648, "eta_time": 13.735747143138537, "step": 717 }, { "epoch": 0.07658666666666666, "grad_norm": 0.6673743457675548, "learning_rate": 9.943379073504187e-06, "loss": 0.4308, "step": 718 }, { "avg_step_time": 5.676849141265407, "epoch": 0.07658666666666666, "eta_time": 13.651245282204064, "step": 718 }, { "epoch": 0.07669333333333334, "grad_norm": 1.7454670140214745, "learning_rate": 9.94311954076692e-06, "loss": 0.4356, "step": 719 }, { "avg_step_time": 5.6771166926682595, "epoch": 0.07669333333333334, "eta_time": 13.650311692149016, "step": 719 }, { "epoch": 0.0768, "grad_norm": 0.6149361367199496, "learning_rate": 9.942859417982833e-06, "loss": 0.4268, "step": 720 }, { "avg_step_time": 5.682281354461053, "epoch": 0.0768, "eta_time": 13.661151423016781, "step": 720 }, { "epoch": 0.07690666666666666, "grad_norm": 1.5402902650393815, "learning_rate": 9.94259870518298e-06, "loss": 0.4148, "step": 721 }, { "avg_step_time": 5.682247747074474, "epoch": 0.07690666666666666, "eta_time": 13.659492223106248, "step": 721 }, { "epoch": 0.07701333333333334, "grad_norm": 2.100608278347142, "learning_rate": 9.942337402398481e-06, "loss": 0.4288, "step": 722 }, { "avg_step_time": 5.682894415325588, "epoch": 0.07701333333333334, "eta_time": 13.659468159947865, "step": 722 }, { "epoch": 0.07712, "grad_norm": 1.7528083598564674, "learning_rate": 9.942075509660527e-06, "loss": 0.5676, "step": 723 }, { "avg_step_time": 5.682443219001847, "epoch": 0.07712, "eta_time": 13.656805203001104, "step": 723 }, { "epoch": 0.07722666666666667, "grad_norm": 1.5027528382251425, "learning_rate": 9.941813027000377e-06, "loss": 0.4631, "step": 724 }, { "avg_step_time": 5.666708190031726, "epoch": 0.07722666666666667, "eta_time": 13.617414597767906, "step": 724 }, { "epoch": 0.07733333333333334, "grad_norm": 1.4681806915812852, "learning_rate": 9.941549954449365e-06, "loss": 0.4549, "step": 725 }, { "avg_step_time": 5.662302221914734, "epoch": 0.07733333333333334, "eta_time": 13.60525394987846, "step": 725 }, { "epoch": 0.07744, "grad_norm": 1.5457474718818565, "learning_rate": 9.941286292038894e-06, "loss": 0.517, "step": 726 }, { "avg_step_time": 5.661642736858791, "epoch": 0.07744, "eta_time": 13.602096675303248, "step": 726 }, { "epoch": 0.07754666666666667, "grad_norm": 2.083340796956408, "learning_rate": 9.941022039800437e-06, "loss": 0.5711, "step": 727 }, { "avg_step_time": 5.660508803646974, "epoch": 0.07754666666666667, "eta_time": 13.597800037205287, "step": 727 }, { "epoch": 0.07765333333333334, "grad_norm": 1.9620025103088898, "learning_rate": 9.940757197765533e-06, "loss": 0.5056, "step": 728 }, { "avg_step_time": 5.663579817974206, "epoch": 0.07765333333333334, "eta_time": 13.603604079450822, "step": 728 }, { "epoch": 0.07776, "grad_norm": 1.5417929368657424, "learning_rate": 9.940491765965798e-06, "loss": 0.4989, "step": 729 }, { "avg_step_time": 5.650080370180534, "epoch": 0.07776, "eta_time": 13.569609689050251, "step": 729 }, { "epoch": 0.07786666666666667, "grad_norm": 1.851531820289441, "learning_rate": 9.940225744432919e-06, "loss": 0.4743, "step": 730 }, { "avg_step_time": 5.6489776625777735, "epoch": 0.07786666666666667, "eta_time": 13.565392192495791, "step": 730 }, { "epoch": 0.07797333333333334, "grad_norm": 1.6003962314238684, "learning_rate": 9.939959133198644e-06, "loss": 0.5447, "step": 731 }, { "avg_step_time": 5.682523260212908, "epoch": 0.07797333333333334, "eta_time": 13.64436973924455, "step": 731 }, { "epoch": 0.07808, "grad_norm": 0.6337912410699357, "learning_rate": 9.939691932294804e-06, "loss": 0.4303, "step": 732 }, { "avg_step_time": 5.646196505036017, "epoch": 0.07808, "eta_time": 13.555576775840638, "step": 732 }, { "epoch": 0.07818666666666667, "grad_norm": 1.5782359200754204, "learning_rate": 9.939424141753289e-06, "loss": 0.5401, "step": 733 }, { "avg_step_time": 5.633098060434515, "epoch": 0.07818666666666667, "eta_time": 13.522564843965299, "step": 733 }, { "epoch": 0.07829333333333334, "grad_norm": 1.7498093632699363, "learning_rate": 9.939155761606066e-06, "loss": 0.5359, "step": 734 }, { "avg_step_time": 5.634538657737501, "epoch": 0.07829333333333334, "eta_time": 13.524457928197151, "step": 734 }, { "epoch": 0.0784, "grad_norm": 1.9550375165755727, "learning_rate": 9.938886791885172e-06, "loss": 0.4805, "step": 735 }, { "avg_step_time": 5.63019618843541, "epoch": 0.0784, "eta_time": 13.512470852244986, "step": 735 }, { "epoch": 0.07850666666666667, "grad_norm": 1.477556579688246, "learning_rate": 9.938617232622713e-06, "loss": 0.4463, "step": 736 }, { "avg_step_time": 5.658856449705182, "epoch": 0.07850666666666667, "eta_time": 13.579683574723074, "step": 736 }, { "epoch": 0.07861333333333333, "grad_norm": 1.6572610409648343, "learning_rate": 9.938347083850866e-06, "loss": 0.4787, "step": 737 }, { "avg_step_time": 5.6615864604410495, "epoch": 0.07861333333333333, "eta_time": 13.584662179247163, "step": 737 }, { "epoch": 0.07872, "grad_norm": 0.6194150930645927, "learning_rate": 9.938076345601875e-06, "loss": 0.427, "step": 738 }, { "avg_step_time": 5.610859141205296, "epoch": 0.07872, "eta_time": 13.461386222941705, "step": 738 }, { "epoch": 0.07882666666666667, "grad_norm": 1.6269656591786914, "learning_rate": 9.93780501790806e-06, "loss": 0.4699, "step": 739 }, { "avg_step_time": 5.611080889750009, "epoch": 0.07882666666666667, "eta_time": 13.460359601078077, "step": 739 }, { "epoch": 0.07893333333333333, "grad_norm": 1.5068893651808266, "learning_rate": 9.937533100801808e-06, "loss": 0.5732, "step": 740 }, { "avg_step_time": 5.579604895427973, "epoch": 0.07893333333333333, "eta_time": 13.383302297783487, "step": 740 }, { "epoch": 0.07904, "grad_norm": 1.6628119976645632, "learning_rate": 9.937260594315578e-06, "loss": 0.5918, "step": 741 }, { "avg_step_time": 5.580308728747898, "epoch": 0.07904, "eta_time": 13.383440434447042, "step": 741 }, { "epoch": 0.07914666666666667, "grad_norm": 0.6449434804564538, "learning_rate": 9.936987498481896e-06, "loss": 0.4623, "step": 742 }, { "avg_step_time": 5.584061160232082, "epoch": 0.07914666666666667, "eta_time": 13.390888887856544, "step": 742 }, { "epoch": 0.07925333333333333, "grad_norm": 1.6361422112788964, "learning_rate": 9.936713813333362e-06, "loss": 0.4744, "step": 743 }, { "avg_step_time": 5.585473299026489, "epoch": 0.07925333333333333, "eta_time": 13.39272375477685, "step": 743 }, { "epoch": 0.07936, "grad_norm": 1.4094947605578734, "learning_rate": 9.936439538902644e-06, "loss": 0.4678, "step": 744 }, { "avg_step_time": 5.583648199986929, "epoch": 0.07936, "eta_time": 13.386796559468664, "step": 744 }, { "epoch": 0.07946666666666667, "grad_norm": 1.7125592190057637, "learning_rate": 9.936164675222485e-06, "loss": 0.6022, "step": 745 }, { "avg_step_time": 5.585693730248345, "epoch": 0.07946666666666667, "eta_time": 13.390149136678673, "step": 745 }, { "epoch": 0.07957333333333333, "grad_norm": 1.6493417992692865, "learning_rate": 9.93588922232569e-06, "loss": 0.4405, "step": 746 }, { "avg_step_time": 5.585616865543404, "epoch": 0.07957333333333333, "eta_time": 13.388413314659452, "step": 746 }, { "epoch": 0.07968, "grad_norm": 1.6064692627325627, "learning_rate": 9.935613180245143e-06, "loss": 0.4577, "step": 747 }, { "avg_step_time": 5.61481746278628, "epoch": 0.07968, "eta_time": 13.456845852477784, "step": 747 }, { "epoch": 0.07978666666666667, "grad_norm": 1.820739083056488, "learning_rate": 9.935336549013791e-06, "loss": 0.5832, "step": 748 }, { "avg_step_time": 5.621142067090429, "epoch": 0.07978666666666667, "eta_time": 13.470442392441425, "step": 748 }, { "epoch": 0.07989333333333333, "grad_norm": 0.6394930506811983, "learning_rate": 9.935059328664657e-06, "loss": 0.4467, "step": 749 }, { "avg_step_time": 5.585651903441458, "epoch": 0.07989333333333333, "eta_time": 13.383842588635003, "step": 749 }, { "epoch": 0.08, "grad_norm": 1.5008662802091626, "learning_rate": 9.934781519230832e-06, "loss": 0.4961, "step": 750 }, { "avg_step_time": 5.5810178578502, "epoch": 0.08, "eta_time": 13.371188617766105, "step": 750 }, { "epoch": 0.08010666666666667, "grad_norm": 1.5373440883467397, "learning_rate": 9.934503120745476e-06, "loss": 0.4317, "step": 751 }, { "avg_step_time": 5.614432503478696, "epoch": 0.08010666666666667, "eta_time": 13.449684975000077, "step": 751 }, { "epoch": 0.08021333333333333, "grad_norm": 0.6700731107084179, "learning_rate": 9.934224133241823e-06, "loss": 0.4583, "step": 752 }, { "avg_step_time": 5.613659285535716, "epoch": 0.08021333333333333, "eta_time": 13.446273338659578, "step": 752 }, { "epoch": 0.08032, "grad_norm": 1.7090839723208864, "learning_rate": 9.933944556753173e-06, "loss": 0.5215, "step": 753 }, { "avg_step_time": 5.615043854472613, "epoch": 0.08032, "eta_time": 13.448030031461906, "step": 753 }, { "epoch": 0.08042666666666666, "grad_norm": 1.7611310888073686, "learning_rate": 9.933664391312897e-06, "loss": 0.5378, "step": 754 }, { "avg_step_time": 5.614283106543801, "epoch": 0.08042666666666666, "eta_time": 13.444648517087252, "step": 754 }, { "epoch": 0.08053333333333333, "grad_norm": 1.406793610193637, "learning_rate": 9.93338363695444e-06, "loss": 0.5341, "step": 755 }, { "avg_step_time": 5.5934601697054775, "epoch": 0.08053333333333333, "eta_time": 13.39322962857256, "step": 755 }, { "epoch": 0.08064, "grad_norm": 1.3514816331365507, "learning_rate": 9.933102293711314e-06, "loss": 0.4092, "step": 756 }, { "avg_step_time": 5.594961626361115, "epoch": 0.08064, "eta_time": 13.395270627112902, "step": 756 }, { "epoch": 0.08074666666666666, "grad_norm": 1.5766480284165474, "learning_rate": 9.932820361617104e-06, "loss": 0.4897, "step": 757 }, { "avg_step_time": 5.6280791952152445, "epoch": 0.08074666666666666, "eta_time": 13.472996251212495, "step": 757 }, { "epoch": 0.08085333333333333, "grad_norm": 0.6538346725257991, "learning_rate": 9.93253784070546e-06, "loss": 0.4478, "step": 758 }, { "avg_step_time": 5.593096140659217, "epoch": 0.08085333333333333, "eta_time": 13.387697067794575, "step": 758 }, { "epoch": 0.08096, "grad_norm": 1.6655551989869313, "learning_rate": 9.932254731010108e-06, "loss": 0.5048, "step": 759 }, { "avg_step_time": 5.594349425248425, "epoch": 0.08096, "eta_time": 13.38914295776123, "step": 759 }, { "epoch": 0.08106666666666666, "grad_norm": 1.6496214169007772, "learning_rate": 9.931971032564842e-06, "loss": 0.617, "step": 760 }, { "avg_step_time": 5.593770971201887, "epoch": 0.08106666666666666, "eta_time": 13.386204699140071, "step": 760 }, { "epoch": 0.08117333333333333, "grad_norm": 1.9441474092526505, "learning_rate": 9.931686745403527e-06, "loss": 0.5949, "step": 761 }, { "avg_step_time": 5.594911223710185, "epoch": 0.08117333333333333, "eta_time": 13.387379244733204, "step": 761 }, { "epoch": 0.08128, "grad_norm": 1.67594952323371, "learning_rate": 9.931401869560096e-06, "loss": 0.5486, "step": 762 }, { "avg_step_time": 5.597181691063775, "epoch": 0.08128, "eta_time": 13.391257195870082, "step": 762 }, { "epoch": 0.08138666666666666, "grad_norm": 1.48334030291088, "learning_rate": 9.931116405068554e-06, "loss": 0.4823, "step": 763 }, { "avg_step_time": 5.584065008645106, "epoch": 0.08138666666666666, "eta_time": 13.358324404014347, "step": 763 }, { "epoch": 0.08149333333333333, "grad_norm": 1.8182623104013318, "learning_rate": 9.930830351962976e-06, "loss": 0.522, "step": 764 }, { "avg_step_time": 5.61525925963816, "epoch": 0.08149333333333333, "eta_time": 13.43138819020672, "step": 764 }, { "epoch": 0.0816, "grad_norm": 1.9058329340587963, "learning_rate": 9.93054371027751e-06, "loss": 0.5165, "step": 765 }, { "avg_step_time": 5.595807718508171, "epoch": 0.0816, "eta_time": 13.383306793432043, "step": 765 }, { "epoch": 0.08170666666666666, "grad_norm": 1.6103897739995112, "learning_rate": 9.930256480046367e-06, "loss": 0.5177, "step": 766 }, { "avg_step_time": 5.585445066895148, "epoch": 0.08170666666666666, "eta_time": 13.356971272472315, "step": 766 }, { "epoch": 0.08181333333333334, "grad_norm": 1.6925863696482952, "learning_rate": 9.929968661303837e-06, "loss": 0.5354, "step": 767 }, { "avg_step_time": 5.601573681590533, "epoch": 0.08181333333333334, "eta_time": 13.393985069758696, "step": 767 }, { "epoch": 0.08192, "grad_norm": 1.5696991144370513, "learning_rate": 9.929680254084273e-06, "loss": 0.5481, "step": 768 }, { "avg_step_time": 5.601534995165738, "epoch": 0.08192, "eta_time": 13.39233658427542, "step": 768 }, { "epoch": 0.08202666666666666, "grad_norm": 1.3489297612472506, "learning_rate": 9.929391258422106e-06, "loss": 0.3897, "step": 769 }, { "avg_step_time": 5.610949521112924, "epoch": 0.08202666666666666, "eta_time": 13.413286549638286, "step": 769 }, { "epoch": 0.08213333333333334, "grad_norm": 1.764181749290517, "learning_rate": 9.929101674351827e-06, "loss": 0.5819, "step": 770 }, { "avg_step_time": 5.602751825795029, "epoch": 0.08213333333333334, "eta_time": 13.392133183601729, "step": 770 }, { "epoch": 0.08224, "grad_norm": 1.4166699447094973, "learning_rate": 9.928811501908006e-06, "loss": 0.5243, "step": 771 }, { "avg_step_time": 5.605266766114668, "epoch": 0.08224, "eta_time": 13.396587571014058, "step": 771 }, { "epoch": 0.08234666666666667, "grad_norm": 1.5340881580190748, "learning_rate": 9.92852074112528e-06, "loss": 0.4863, "step": 772 }, { "avg_step_time": 5.633798736514467, "epoch": 0.08234666666666667, "eta_time": 13.4632140361761, "step": 772 }, { "epoch": 0.08245333333333334, "grad_norm": 1.8677395939697836, "learning_rate": 9.928229392038356e-06, "loss": 0.5143, "step": 773 }, { "avg_step_time": 5.641975556961214, "epoch": 0.08245333333333334, "eta_time": 13.481187150272323, "step": 773 }, { "epoch": 0.08256, "grad_norm": 1.6635124097956047, "learning_rate": 9.92793745468201e-06, "loss": 0.4878, "step": 774 }, { "avg_step_time": 5.655578745736016, "epoch": 0.08256, "eta_time": 13.512120220020966, "step": 774 }, { "epoch": 0.08266666666666667, "grad_norm": 1.7027057973392141, "learning_rate": 9.927644929091094e-06, "loss": 0.47, "step": 775 }, { "avg_step_time": 5.662590816767529, "epoch": 0.08266666666666667, "eta_time": 13.527300284500207, "step": 775 }, { "epoch": 0.08277333333333334, "grad_norm": 1.365534790170899, "learning_rate": 9.927351815300522e-06, "loss": 0.4109, "step": 776 }, { "avg_step_time": 5.659000765193593, "epoch": 0.08277333333333334, "eta_time": 13.517152105527696, "step": 776 }, { "epoch": 0.08288, "grad_norm": 1.8812631200417909, "learning_rate": 9.927058113345282e-06, "loss": 0.5126, "step": 777 }, { "avg_step_time": 5.6604462970386855, "epoch": 0.08288, "eta_time": 13.519032572760729, "step": 777 }, { "epoch": 0.08298666666666667, "grad_norm": 1.6142055671654252, "learning_rate": 9.926763823260437e-06, "loss": 0.4443, "step": 778 }, { "avg_step_time": 5.625388280309812, "epoch": 0.08298666666666667, "eta_time": 13.43373973495096, "step": 778 }, { "epoch": 0.08309333333333334, "grad_norm": 1.4962087989097492, "learning_rate": 9.926468945081109e-06, "loss": 0.4012, "step": 779 }, { "avg_step_time": 5.621256048029119, "epoch": 0.08309333333333334, "eta_time": 13.422310274682863, "step": 779 }, { "epoch": 0.0832, "grad_norm": 1.8586878260952866, "learning_rate": 9.926173478842502e-06, "loss": 0.4434, "step": 780 }, { "avg_step_time": 5.591474383768409, "epoch": 0.0832, "eta_time": 13.349645091247076, "step": 780 }, { "epoch": 0.08330666666666667, "grad_norm": 1.6002830903227712, "learning_rate": 9.925877424579884e-06, "loss": 0.4052, "step": 781 }, { "avg_step_time": 5.590477757983738, "epoch": 0.08330666666666667, "eta_time": 13.345712736697847, "step": 781 }, { "epoch": 0.08341333333333334, "grad_norm": 1.6442996001427337, "learning_rate": 9.925580782328592e-06, "loss": 0.495, "step": 782 }, { "avg_step_time": 5.62718641155898, "epoch": 0.08341333333333334, "eta_time": 13.431781342923976, "step": 782 }, { "epoch": 0.08352, "grad_norm": 0.6641049519920208, "learning_rate": 9.925283552124039e-06, "loss": 0.4365, "step": 783 }, { "avg_step_time": 5.589841281524812, "epoch": 0.08352, "eta_time": 13.341087858572552, "step": 783 }, { "epoch": 0.08362666666666667, "grad_norm": 1.6916873633005676, "learning_rate": 9.9249857340017e-06, "loss": 0.5461, "step": 784 }, { "avg_step_time": 5.585871910808062, "epoch": 0.08362666666666667, "eta_time": 13.330062662708904, "step": 784 }, { "epoch": 0.08373333333333334, "grad_norm": 1.7198230713092775, "learning_rate": 9.924687327997128e-06, "loss": 0.4756, "step": 785 }, { "avg_step_time": 5.586178061938045, "epoch": 0.08373333333333334, "eta_time": 13.329241542235502, "step": 785 }, { "epoch": 0.08384, "grad_norm": 1.6646267071631036, "learning_rate": 9.924388334145943e-06, "loss": 0.4916, "step": 786 }, { "avg_step_time": 5.585290232090035, "epoch": 0.08384, "eta_time": 13.325571612061475, "step": 786 }, { "epoch": 0.08394666666666667, "grad_norm": 2.2644379659601075, "learning_rate": 9.924088752483834e-06, "loss": 0.4912, "step": 787 }, { "avg_step_time": 5.58316653906697, "epoch": 0.08394666666666667, "eta_time": 13.318953954863094, "step": 787 }, { "epoch": 0.08405333333333333, "grad_norm": 1.586909554162558, "learning_rate": 9.923788583046561e-06, "loss": 0.481, "step": 788 }, { "avg_step_time": 5.586437088070494, "epoch": 0.08405333333333333, "eta_time": 13.325204243128146, "step": 788 }, { "epoch": 0.08416, "grad_norm": 1.3926595513798194, "learning_rate": 9.923487825869955e-06, "loss": 0.4368, "step": 789 }, { "avg_step_time": 5.592543705545291, "epoch": 0.08416, "eta_time": 13.338216737725519, "step": 789 }, { "epoch": 0.08426666666666667, "grad_norm": 1.9139780482414348, "learning_rate": 9.923186480989916e-06, "loss": 0.6815, "step": 790 }, { "avg_step_time": 5.6018240355482005, "epoch": 0.08426666666666667, "eta_time": 13.358794262550362, "step": 790 }, { "epoch": 0.08437333333333333, "grad_norm": 1.4709087411675854, "learning_rate": 9.922884548442416e-06, "loss": 0.5156, "step": 791 }, { "avg_step_time": 5.621465692616472, "epoch": 0.08437333333333333, "eta_time": 13.404072640394388, "step": 791 }, { "epoch": 0.08448, "grad_norm": 1.7270511426428048, "learning_rate": 9.922582028263495e-06, "loss": 0.4871, "step": 792 }, { "avg_step_time": 5.621068443914856, "epoch": 0.08448, "eta_time": 13.401564015033669, "step": 792 }, { "epoch": 0.08458666666666667, "grad_norm": 0.6744887147446578, "learning_rate": 9.922278920489262e-06, "loss": 0.457, "step": 793 }, { "avg_step_time": 5.58511509798994, "epoch": 0.08458666666666667, "eta_time": 13.314293825263796, "step": 793 }, { "epoch": 0.08469333333333333, "grad_norm": 1.882257785249503, "learning_rate": 9.921975225155902e-06, "loss": 0.5533, "step": 794 }, { "avg_step_time": 5.587537293482309, "epoch": 0.08469333333333333, "eta_time": 13.318515976492137, "step": 794 }, { "epoch": 0.0848, "grad_norm": 1.4682367314869618, "learning_rate": 9.921670942299664e-06, "loss": 0.512, "step": 795 }, { "avg_step_time": 5.5930958901992955, "epoch": 0.0848, "eta_time": 13.330211871641655, "step": 795 }, { "epoch": 0.08490666666666667, "grad_norm": 1.6166986360120055, "learning_rate": 9.92136607195687e-06, "loss": 0.4597, "step": 796 }, { "avg_step_time": 5.593473511512833, "epoch": 0.08490666666666667, "eta_time": 13.3295581264635, "step": 796 }, { "epoch": 0.08501333333333333, "grad_norm": 1.8162229911144625, "learning_rate": 9.921060614163911e-06, "loss": 0.5384, "step": 797 }, { "avg_step_time": 5.5873058877810085, "epoch": 0.08501333333333333, "eta_time": 13.313308307051525, "step": 797 }, { "epoch": 0.08512, "grad_norm": 1.7055116827528096, "learning_rate": 9.92075456895725e-06, "loss": 0.4741, "step": 798 }, { "avg_step_time": 5.583324042233554, "epoch": 0.08512, "eta_time": 13.302269530621441, "step": 798 }, { "epoch": 0.08522666666666667, "grad_norm": 0.645938939499114, "learning_rate": 9.920447936373418e-06, "loss": 0.4591, "step": 799 }, { "avg_step_time": 5.570680866337786, "epoch": 0.08522666666666667, "eta_time": 13.270599752698013, "step": 799 }, { "epoch": 0.08533333333333333, "grad_norm": 1.500022779123269, "learning_rate": 9.920140716449016e-06, "loss": 0.4567, "step": 800 }, { "avg_step_time": 5.612470174076582, "epoch": 0.08533333333333333, "eta_time": 13.368592150751857, "step": 800 }, { "epoch": 0.08544, "grad_norm": 1.467509977802929, "learning_rate": 9.919832909220717e-06, "loss": 0.4926, "step": 801 }, { "avg_step_time": 5.61468011441857, "epoch": 0.08544, "eta_time": 13.372296472506894, "step": 801 }, { "epoch": 0.08554666666666666, "grad_norm": 0.6270044890151336, "learning_rate": 9.919524514725262e-06, "loss": 0.4262, "step": 802 }, { "avg_step_time": 5.57673533275874, "epoch": 0.08554666666666666, "eta_time": 13.280375557705744, "step": 802 }, { "epoch": 0.08565333333333333, "grad_norm": 1.3336139270051384, "learning_rate": 9.919215532999467e-06, "loss": 0.4714, "step": 803 }, { "avg_step_time": 5.564273559685909, "epoch": 0.08565333333333333, "eta_time": 13.249153598229894, "step": 803 }, { "epoch": 0.08576, "grad_norm": 1.7555373601103448, "learning_rate": 9.91890596408021e-06, "loss": 0.4934, "step": 804 }, { "avg_step_time": 5.582006550798512, "epoch": 0.08576, "eta_time": 13.289827263026126, "step": 804 }, { "epoch": 0.08586666666666666, "grad_norm": 1.7342089737244664, "learning_rate": 9.918595808004444e-06, "loss": 0.4469, "step": 805 }, { "avg_step_time": 5.582539657149652, "epoch": 0.08586666666666666, "eta_time": 13.289545794936808, "step": 805 }, { "epoch": 0.08597333333333333, "grad_norm": 0.6441179597014317, "learning_rate": 9.918285064809193e-06, "loss": 0.4684, "step": 806 }, { "avg_step_time": 5.549167587299539, "epoch": 0.08597333333333333, "eta_time": 13.20856029321382, "step": 806 }, { "epoch": 0.08608, "grad_norm": 1.795100810824331, "learning_rate": 9.917973734531549e-06, "loss": 0.5063, "step": 807 }, { "avg_step_time": 5.552750098584879, "epoch": 0.08608, "eta_time": 13.21554523463201, "step": 807 }, { "epoch": 0.08618666666666666, "grad_norm": 2.038926664307826, "learning_rate": 9.917661817208675e-06, "loss": 0.5104, "step": 808 }, { "avg_step_time": 5.553760347944317, "epoch": 0.08618666666666666, "eta_time": 13.216406916899713, "step": 808 }, { "epoch": 0.08629333333333333, "grad_norm": 1.5148490217663761, "learning_rate": 9.917349312877802e-06, "loss": 0.4998, "step": 809 }, { "avg_step_time": 5.561380461008862, "epoch": 0.08629333333333333, "eta_time": 13.23299584138942, "step": 809 }, { "epoch": 0.0864, "grad_norm": 1.380718656084814, "learning_rate": 9.917036221576235e-06, "loss": 0.4849, "step": 810 }, { "avg_step_time": 5.5538367020963415, "epoch": 0.0864, "eta_time": 13.213503153737545, "step": 810 }, { "epoch": 0.08650666666666666, "grad_norm": 1.7820319051829774, "learning_rate": 9.916722543341345e-06, "loss": 0.5512, "step": 811 }, { "avg_step_time": 5.520830679421473, "epoch": 0.08650666666666666, "eta_time": 13.133442760712638, "step": 811 }, { "epoch": 0.08661333333333333, "grad_norm": 1.4781895390400341, "learning_rate": 9.91640827821058e-06, "loss": 0.5407, "step": 812 }, { "avg_step_time": 5.559053589599301, "epoch": 0.08661333333333333, "eta_time": 13.222826635483006, "step": 812 }, { "epoch": 0.08672, "grad_norm": 1.8597447753746816, "learning_rate": 9.916093426221445e-06, "loss": 0.4477, "step": 813 }, { "avg_step_time": 5.587063524458143, "epoch": 0.08672, "eta_time": 13.287899415669617, "step": 813 }, { "epoch": 0.08682666666666666, "grad_norm": 0.6399696892887705, "learning_rate": 9.915777987411527e-06, "loss": 0.4518, "step": 814 }, { "avg_step_time": 5.551476772385414, "epoch": 0.08682666666666666, "eta_time": 13.201720180108758, "step": 814 }, { "epoch": 0.08693333333333333, "grad_norm": 1.6189909466974877, "learning_rate": 9.91546196181848e-06, "loss": 0.6321, "step": 815 }, { "avg_step_time": 5.5549125406477184, "epoch": 0.08693333333333333, "eta_time": 13.208347596651242, "step": 815 }, { "epoch": 0.08704, "grad_norm": 1.5448398171817468, "learning_rate": 9.915145349480027e-06, "loss": 0.4559, "step": 816 }, { "avg_step_time": 5.55026800463898, "epoch": 0.08704, "eta_time": 13.195762181029174, "step": 816 }, { "epoch": 0.08714666666666666, "grad_norm": 1.6841282025519821, "learning_rate": 9.914828150433958e-06, "loss": 0.489, "step": 817 }, { "avg_step_time": 5.586044313931706, "epoch": 0.08714666666666666, "eta_time": 13.279268677396537, "step": 817 }, { "epoch": 0.08725333333333334, "grad_norm": 1.9934843310061454, "learning_rate": 9.91451036471814e-06, "loss": 0.601, "step": 818 }, { "avg_step_time": 5.589800275937475, "epoch": 0.08725333333333334, "eta_time": 13.286644711443603, "step": 818 }, { "epoch": 0.08736, "grad_norm": 1.6449067999641256, "learning_rate": 9.914191992370504e-06, "loss": 0.5178, "step": 819 }, { "avg_step_time": 5.626150208290177, "epoch": 0.08736, "eta_time": 13.371483661702987, "step": 819 }, { "epoch": 0.08746666666666666, "grad_norm": 1.4601313082151954, "learning_rate": 9.913873033429054e-06, "loss": 0.4561, "step": 820 }, { "avg_step_time": 5.624809041167751, "epoch": 0.08746666666666666, "eta_time": 13.366733707552807, "step": 820 }, { "epoch": 0.08757333333333334, "grad_norm": 1.744213141420528, "learning_rate": 9.913553487931865e-06, "loss": 0.4729, "step": 821 }, { "avg_step_time": 5.6220563589924515, "epoch": 0.08757333333333334, "eta_time": 13.358630581894841, "step": 821 }, { "epoch": 0.08768, "grad_norm": 0.6383587413101359, "learning_rate": 9.913233355917075e-06, "loss": 0.4417, "step": 822 }, { "avg_step_time": 5.597673413729427, "epoch": 0.08768, "eta_time": 13.299139085452165, "step": 822 }, { "epoch": 0.08778666666666667, "grad_norm": 1.727480813566209, "learning_rate": 9.912912637422905e-06, "loss": 0.5624, "step": 823 }, { "avg_step_time": 5.5998376306861335, "epoch": 0.08778666666666667, "eta_time": 13.302725393785503, "step": 823 }, { "epoch": 0.08789333333333334, "grad_norm": 1.8208016261812021, "learning_rate": 9.912591332487631e-06, "loss": 0.486, "step": 824 }, { "avg_step_time": 5.611405502666127, "epoch": 0.08789333333333334, "eta_time": 13.328646792582791, "step": 824 }, { "epoch": 0.088, "grad_norm": 1.5451030124181127, "learning_rate": 9.91226944114961e-06, "loss": 0.5125, "step": 825 }, { "avg_step_time": 5.61021156022043, "epoch": 0.088, "eta_time": 13.32425245552352, "step": 825 }, { "epoch": 0.08810666666666667, "grad_norm": 1.7209579669545194, "learning_rate": 9.911946963447265e-06, "loss": 0.5721, "step": 826 }, { "avg_step_time": 5.608623851429332, "epoch": 0.08810666666666667, "eta_time": 13.318923696074823, "step": 826 }, { "epoch": 0.08821333333333334, "grad_norm": 0.6772662956431614, "learning_rate": 9.911623899419089e-06, "loss": 0.4226, "step": 827 }, { "avg_step_time": 5.618845997434674, "epoch": 0.08821333333333334, "eta_time": 13.341637662797664, "step": 827 }, { "epoch": 0.08832, "grad_norm": 1.7925319842431509, "learning_rate": 9.911300249103646e-06, "loss": 0.4283, "step": 828 }, { "avg_step_time": 5.678618139690823, "epoch": 0.08832, "eta_time": 13.481985899982629, "step": 828 }, { "epoch": 0.08842666666666667, "grad_norm": 1.7978767651331704, "learning_rate": 9.910976012539567e-06, "loss": 0.5612, "step": 829 }, { "avg_step_time": 5.681959101648042, "epoch": 0.08842666666666667, "eta_time": 13.48833957852338, "step": 829 }, { "epoch": 0.08853333333333334, "grad_norm": 1.361527733348084, "learning_rate": 9.910651189765557e-06, "loss": 0.4834, "step": 830 }, { "avg_step_time": 5.683105952811964, "epoch": 0.08853333333333334, "eta_time": 13.489483435216174, "step": 830 }, { "epoch": 0.08864, "grad_norm": 1.7228592506518527, "learning_rate": 9.910325780820391e-06, "loss": 0.4524, "step": 831 }, { "avg_step_time": 5.7189801558099616, "epoch": 0.08864, "eta_time": 13.573046236455642, "step": 831 }, { "epoch": 0.08874666666666667, "grad_norm": 0.6947502801392955, "learning_rate": 9.909999785742908e-06, "loss": 0.4589, "step": 832 }, { "avg_step_time": 5.68573742201834, "epoch": 0.08874666666666667, "eta_time": 13.492570776750744, "step": 832 }, { "epoch": 0.08885333333333334, "grad_norm": 1.7175361372414748, "learning_rate": 9.909673204572023e-06, "loss": 0.4401, "step": 833 }, { "avg_step_time": 5.677561947793672, "epoch": 0.08885333333333334, "eta_time": 13.47159282168154, "step": 833 }, { "epoch": 0.08896, "grad_norm": 1.6796573785271827, "learning_rate": 9.90934603734672e-06, "loss": 0.3939, "step": 834 }, { "avg_step_time": 5.678123425955724, "epoch": 0.08896, "eta_time": 13.471347828079956, "step": 834 }, { "epoch": 0.08906666666666667, "grad_norm": 1.7252561274662948, "learning_rate": 9.909018284106054e-06, "loss": 0.4717, "step": 835 }, { "avg_step_time": 5.652052677038944, "epoch": 0.08906666666666667, "eta_time": 13.407924961642385, "step": 835 }, { "epoch": 0.08917333333333333, "grad_norm": 1.5077116971517184, "learning_rate": 9.908689944889143e-06, "loss": 0.4279, "step": 836 }, { "avg_step_time": 5.645797185223512, "epoch": 0.08917333333333333, "eta_time": 13.391517267950992, "step": 836 }, { "epoch": 0.08928, "grad_norm": 0.6661906655288066, "learning_rate": 9.908361019735181e-06, "loss": 0.4559, "step": 837 }, { "avg_step_time": 5.645477251573042, "epoch": 0.08928, "eta_time": 13.389190214980731, "step": 837 }, { "epoch": 0.08938666666666667, "grad_norm": 1.6448728271807747, "learning_rate": 9.908031508683436e-06, "loss": 0.536, "step": 838 }, { "avg_step_time": 5.664558877848616, "epoch": 0.08938666666666667, "eta_time": 13.43287198338712, "step": 838 }, { "epoch": 0.08949333333333333, "grad_norm": 1.7721718892506118, "learning_rate": 9.907701411773234e-06, "loss": 0.5065, "step": 839 }, { "avg_step_time": 5.664886002588754, "epoch": 0.08949333333333333, "eta_time": 13.432074143916001, "step": 839 }, { "epoch": 0.0896, "grad_norm": 1.517912931732173, "learning_rate": 9.907370729043984e-06, "loss": 0.3951, "step": 840 }, { "avg_step_time": 5.6640891619402955, "epoch": 0.0896, "eta_time": 13.428611388100117, "step": 840 }, { "epoch": 0.08970666666666667, "grad_norm": 1.5786684560549349, "learning_rate": 9.907039460535153e-06, "loss": 0.4778, "step": 841 }, { "avg_step_time": 5.7022236091922025, "epoch": 0.08970666666666667, "eta_time": 13.517437855790627, "step": 841 }, { "epoch": 0.08981333333333333, "grad_norm": 2.0198660169503855, "learning_rate": 9.906707606286287e-06, "loss": 0.4906, "step": 842 }, { "avg_step_time": 5.699800845348474, "epoch": 0.08981333333333333, "eta_time": 13.51011128148848, "step": 842 }, { "epoch": 0.08992, "grad_norm": 1.548292341035029, "learning_rate": 9.906375166336998e-06, "loss": 0.5352, "step": 843 }, { "avg_step_time": 5.698860303320066, "epoch": 0.08992, "eta_time": 13.506298918868557, "step": 843 }, { "epoch": 0.09002666666666667, "grad_norm": 0.662059664917195, "learning_rate": 9.90604214072697e-06, "loss": 0.4584, "step": 844 }, { "avg_step_time": 5.66465512429825, "epoch": 0.09002666666666667, "eta_time": 13.423659129274547, "step": 844 }, { "epoch": 0.09013333333333333, "grad_norm": 1.8014077687742067, "learning_rate": 9.905708529495953e-06, "loss": 0.4829, "step": 845 }, { "avg_step_time": 5.667467360544687, "epoch": 0.09013333333333333, "eta_time": 13.428749051512828, "step": 845 }, { "epoch": 0.09024, "grad_norm": 1.4895351477469907, "learning_rate": 9.905374332683768e-06, "loss": 0.4278, "step": 846 }, { "avg_step_time": 5.670149408205591, "epoch": 0.09024, "eta_time": 13.433528972940413, "step": 846 }, { "epoch": 0.09034666666666667, "grad_norm": 1.5435288157856955, "learning_rate": 9.90503955033031e-06, "loss": 0.4567, "step": 847 }, { "avg_step_time": 5.6659244768547286, "epoch": 0.09034666666666667, "eta_time": 13.421945538504758, "step": 847 }, { "epoch": 0.09045333333333333, "grad_norm": 0.6371744414097377, "learning_rate": 9.904704182475542e-06, "loss": 0.4289, "step": 848 }, { "avg_step_time": 5.666408353381687, "epoch": 0.09045333333333333, "eta_time": 13.42151778591268, "step": 848 }, { "epoch": 0.09056, "grad_norm": 1.3995558208812255, "learning_rate": 9.904368229159494e-06, "loss": 0.5273, "step": 849 }, { "avg_step_time": 5.676319582293732, "epoch": 0.09056, "eta_time": 13.443416877398988, "step": 849 }, { "epoch": 0.09066666666666667, "grad_norm": 0.6217135564154668, "learning_rate": 9.904031690422266e-06, "loss": 0.4538, "step": 850 }, { "avg_step_time": 5.646210193634033, "epoch": 0.09066666666666667, "eta_time": 13.370539416869482, "step": 850 }, { "epoch": 0.09077333333333333, "grad_norm": 1.9550272064534933, "learning_rate": 9.903694566304031e-06, "loss": 0.5381, "step": 851 }, { "avg_step_time": 5.706023618428394, "epoch": 0.09077333333333333, "eta_time": 13.510595923189896, "step": 851 }, { "epoch": 0.09088, "grad_norm": 1.6162231950472699, "learning_rate": 9.903356856845035e-06, "loss": 0.4814, "step": 852 }, { "avg_step_time": 5.70750472762368, "epoch": 0.09088, "eta_time": 13.512517442649061, "step": 852 }, { "epoch": 0.09098666666666666, "grad_norm": 1.9704141899772696, "learning_rate": 9.903018562085583e-06, "loss": 0.468, "step": 853 }, { "avg_step_time": 5.709902996968741, "epoch": 0.09098666666666666, "eta_time": 13.51660926115767, "step": 853 }, { "epoch": 0.09109333333333333, "grad_norm": 1.6193259080202762, "learning_rate": 9.902679682066059e-06, "loss": 0.51, "step": 854 }, { "avg_step_time": 5.718006914312189, "epoch": 0.09109333333333333, "eta_time": 13.534204699126157, "step": 854 }, { "epoch": 0.0912, "grad_norm": 1.6362517026912164, "learning_rate": 9.902340216826915e-06, "loss": 0.5297, "step": 855 }, { "avg_step_time": 5.717150298031894, "epoch": 0.0912, "eta_time": 13.530589038675481, "step": 855 }, { "epoch": 0.09130666666666666, "grad_norm": 1.7746248706134962, "learning_rate": 9.902000166408672e-06, "loss": 0.5184, "step": 856 }, { "avg_step_time": 5.714830006011809, "epoch": 0.09130666666666666, "eta_time": 13.523510228115166, "step": 856 }, { "epoch": 0.09141333333333333, "grad_norm": 1.7678640859853616, "learning_rate": 9.90165953085192e-06, "loss": 0.5946, "step": 857 }, { "avg_step_time": 5.7478504421735055, "epoch": 0.09141333333333333, "eta_time": 13.600052796231644, "step": 857 }, { "epoch": 0.09152, "grad_norm": 2.200229905028866, "learning_rate": 9.90131831019732e-06, "loss": 0.4653, "step": 858 }, { "avg_step_time": 5.746615279804576, "epoch": 0.09152, "eta_time": 13.595533982804326, "step": 858 }, { "epoch": 0.09162666666666666, "grad_norm": 1.9143855527368336, "learning_rate": 9.900976504485601e-06, "loss": 0.4579, "step": 859 }, { "avg_step_time": 5.7488075121484625, "epoch": 0.09162666666666666, "eta_time": 13.599123548182307, "step": 859 }, { "epoch": 0.09173333333333333, "grad_norm": 1.9814509521381667, "learning_rate": 9.900634113757568e-06, "loss": 0.5299, "step": 860 }, { "avg_step_time": 5.745607010041825, "epoch": 0.09173333333333333, "eta_time": 13.58995658069615, "step": 860 }, { "epoch": 0.09184, "grad_norm": 1.571416763485523, "learning_rate": 9.900291138054086e-06, "loss": 0.5495, "step": 861 }, { "avg_step_time": 5.745348860519101, "epoch": 0.09184, "eta_time": 13.587750055127673, "step": 861 }, { "epoch": 0.09194666666666666, "grad_norm": 1.6618291385628625, "learning_rate": 9.899947577416097e-06, "loss": 0.5811, "step": 862 }, { "avg_step_time": 5.766580733385953, "epoch": 0.09194666666666666, "eta_time": 13.636361606476283, "step": 862 }, { "epoch": 0.09205333333333333, "grad_norm": 1.6993858634463896, "learning_rate": 9.899603431884613e-06, "loss": 0.5663, "step": 863 }, { "avg_step_time": 5.764889146342422, "epoch": 0.09205333333333333, "eta_time": 13.630760114907416, "step": 863 }, { "epoch": 0.09216, "grad_norm": 1.925225590165804, "learning_rate": 9.899258701500712e-06, "loss": 0.5899, "step": 864 }, { "avg_step_time": 5.766712056265937, "epoch": 0.09216, "eta_time": 13.633468419688718, "step": 864 }, { "epoch": 0.09226666666666666, "grad_norm": 0.6760152789240258, "learning_rate": 9.898913386305542e-06, "loss": 0.4481, "step": 865 }, { "avg_step_time": 5.733864991351812, "epoch": 0.09226666666666666, "eta_time": 13.554219743445534, "step": 865 }, { "epoch": 0.09237333333333334, "grad_norm": 1.5677942431642653, "learning_rate": 9.898567486340325e-06, "loss": 0.5122, "step": 866 }, { "avg_step_time": 5.718291747449625, "epoch": 0.09237333333333334, "eta_time": 13.515817910846904, "step": 866 }, { "epoch": 0.09248, "grad_norm": 1.4635428122516119, "learning_rate": 9.89822100164635e-06, "loss": 0.4723, "step": 867 }, { "avg_step_time": 5.719214588704736, "epoch": 0.09248, "eta_time": 13.516410477972192, "step": 867 }, { "epoch": 0.09258666666666666, "grad_norm": 1.8262109405910996, "learning_rate": 9.897873932264972e-06, "loss": 0.5101, "step": 868 }, { "avg_step_time": 5.684939117142648, "epoch": 0.09258666666666666, "eta_time": 13.43382696375903, "step": 868 }, { "epoch": 0.09269333333333334, "grad_norm": 1.4240920672611337, "learning_rate": 9.897526278237624e-06, "loss": 0.5228, "step": 869 }, { "avg_step_time": 5.686447068898365, "epoch": 0.09269333333333334, "eta_time": 13.435810768902636, "step": 869 }, { "epoch": 0.0928, "grad_norm": 1.861256730738266, "learning_rate": 9.897178039605803e-06, "loss": 0.5161, "step": 870 }, { "avg_step_time": 5.734938999619147, "epoch": 0.0928, "eta_time": 13.548793386600236, "step": 870 }, { "epoch": 0.09290666666666667, "grad_norm": 1.5406453710848256, "learning_rate": 9.896829216411076e-06, "loss": 0.4205, "step": 871 }, { "avg_step_time": 5.707374132040775, "epoch": 0.09290666666666667, "eta_time": 13.482086005242987, "step": 871 }, { "epoch": 0.09301333333333334, "grad_norm": 0.6111988820588262, "learning_rate": 9.896479808695086e-06, "loss": 0.4338, "step": 872 }, { "avg_step_time": 5.669747306842996, "epoch": 0.09301333333333334, "eta_time": 13.391628152801667, "step": 872 }, { "epoch": 0.09312, "grad_norm": 1.38355114411587, "learning_rate": 9.896129816499535e-06, "loss": 0.5156, "step": 873 }, { "avg_step_time": 5.6495698919199935, "epoch": 0.09312, "eta_time": 13.342400894751052, "step": 873 }, { "epoch": 0.09322666666666667, "grad_norm": 1.7573306450021038, "learning_rate": 9.895779239866204e-06, "loss": 0.4912, "step": 874 }, { "avg_step_time": 5.64341498384572, "epoch": 0.09322666666666667, "eta_time": 13.326297438242353, "step": 874 }, { "epoch": 0.09333333333333334, "grad_norm": 1.553283742368616, "learning_rate": 9.89542807883694e-06, "loss": 0.5123, "step": 875 }, { "avg_step_time": 5.6442017434823395, "epoch": 0.09333333333333334, "eta_time": 13.326587449888859, "step": 875 }, { "epoch": 0.09344, "grad_norm": 0.6559942147968276, "learning_rate": 9.89507633345366e-06, "loss": 0.4552, "step": 876 }, { "avg_step_time": 5.605516337385081, "epoch": 0.09344, "eta_time": 13.23368981984328, "step": 876 }, { "epoch": 0.09354666666666667, "grad_norm": 1.7278271166289965, "learning_rate": 9.894724003758349e-06, "loss": 0.4486, "step": 877 }, { "avg_step_time": 5.663422387055676, "epoch": 0.09354666666666667, "eta_time": 13.368823179221982, "step": 877 }, { "epoch": 0.09365333333333334, "grad_norm": 0.6260981711430404, "learning_rate": 9.894371089793065e-06, "loss": 0.4218, "step": 878 }, { "avg_step_time": 5.633137134590534, "epoch": 0.09365333333333334, "eta_time": 13.295768397948823, "step": 878 }, { "epoch": 0.09376, "grad_norm": 1.7400945786198485, "learning_rate": 9.894017591599934e-06, "loss": 0.5963, "step": 879 }, { "avg_step_time": 5.629223943960787, "epoch": 0.09376, "eta_time": 13.284968507747458, "step": 879 }, { "epoch": 0.09386666666666667, "grad_norm": 1.6857301451475122, "learning_rate": 9.893663509221155e-06, "loss": 0.5121, "step": 880 }, { "avg_step_time": 5.628516026217528, "epoch": 0.09386666666666667, "eta_time": 13.281734345199416, "step": 880 }, { "epoch": 0.09397333333333334, "grad_norm": 1.5716107197896039, "learning_rate": 9.89330884269899e-06, "loss": 0.5514, "step": 881 }, { "avg_step_time": 5.6451999346415205, "epoch": 0.09397333333333334, "eta_time": 13.319535623568077, "step": 881 }, { "epoch": 0.09408, "grad_norm": 1.4903506165527414, "learning_rate": 9.892953592075776e-06, "loss": 0.4397, "step": 882 }, { "avg_step_time": 5.699278826665396, "epoch": 0.09408, "eta_time": 13.445548631908114, "step": 882 }, { "epoch": 0.09418666666666667, "grad_norm": 1.5822840766384034, "learning_rate": 9.892597757393918e-06, "loss": 0.5423, "step": 883 }, { "avg_step_time": 5.702121455259998, "epoch": 0.09418666666666667, "eta_time": 13.45067094390775, "step": 883 }, { "epoch": 0.09429333333333334, "grad_norm": 1.5382665222016108, "learning_rate": 9.892241338695892e-06, "loss": 0.5021, "step": 884 }, { "avg_step_time": 5.702632997975205, "epoch": 0.09429333333333334, "eta_time": 13.450293551613184, "step": 884 }, { "epoch": 0.0944, "grad_norm": 1.6022225554446137, "learning_rate": 9.891884336024242e-06, "loss": 0.4705, "step": 885 }, { "avg_step_time": 5.699256270822852, "epoch": 0.0944, "eta_time": 13.44074603869056, "step": 885 }, { "epoch": 0.09450666666666667, "grad_norm": 0.6881393565261847, "learning_rate": 9.891526749421583e-06, "loss": 0.4623, "step": 886 }, { "avg_step_time": 5.666118951758953, "epoch": 0.09450666666666667, "eta_time": 13.36102327263382, "step": 886 }, { "epoch": 0.09461333333333333, "grad_norm": 1.5415613650807787, "learning_rate": 9.891168578930597e-06, "loss": 0.5176, "step": 887 }, { "avg_step_time": 5.666586466509886, "epoch": 0.09461333333333333, "eta_time": 13.36055164659331, "step": 887 }, { "epoch": 0.09472, "grad_norm": 1.6546481047943877, "learning_rate": 9.890809824594041e-06, "loss": 0.4993, "step": 888 }, { "avg_step_time": 5.665411257984663, "epoch": 0.09472, "eta_time": 13.356207040698841, "step": 888 }, { "epoch": 0.09482666666666667, "grad_norm": 1.6462375035289512, "learning_rate": 9.890450486454736e-06, "loss": 0.5122, "step": 889 }, { "avg_step_time": 5.671624094548852, "epoch": 0.09482666666666667, "eta_time": 13.369278351761544, "step": 889 }, { "epoch": 0.09493333333333333, "grad_norm": 1.6538047695836808, "learning_rate": 9.890090564555579e-06, "loss": 0.6094, "step": 890 }, { "avg_step_time": 5.653689644553444, "epoch": 0.09493333333333333, "eta_time": 13.325432398343326, "step": 890 }, { "epoch": 0.09504, "grad_norm": 1.9251243626556405, "learning_rate": 9.889730058939529e-06, "loss": 0.4741, "step": 891 }, { "avg_step_time": 5.652029502271402, "epoch": 0.09504, "eta_time": 13.319949527019604, "step": 891 }, { "epoch": 0.09514666666666667, "grad_norm": 1.6996711623804805, "learning_rate": 9.88936896964962e-06, "loss": 0.5, "step": 892 }, { "avg_step_time": 5.688948113508899, "epoch": 0.09514666666666667, "eta_time": 13.405374124137776, "step": 892 }, { "epoch": 0.09525333333333333, "grad_norm": 1.7413942334755912, "learning_rate": 9.889007296728952e-06, "loss": 0.5097, "step": 893 }, { "avg_step_time": 5.691307171426638, "epoch": 0.09525333333333333, "eta_time": 13.409352063344652, "step": 893 }, { "epoch": 0.09536, "grad_norm": 0.6067689501421132, "learning_rate": 9.8886450402207e-06, "loss": 0.4145, "step": 894 }, { "avg_step_time": 5.652136424575189, "epoch": 0.09536, "eta_time": 13.315491393561715, "step": 894 }, { "epoch": 0.09546666666666667, "grad_norm": 1.5348586389750927, "learning_rate": 9.888282200168106e-06, "loss": 0.4761, "step": 895 }, { "avg_step_time": 5.661513270753803, "epoch": 0.09546666666666667, "eta_time": 13.336009037775625, "step": 895 }, { "epoch": 0.09557333333333333, "grad_norm": 1.5049851032542596, "learning_rate": 9.887918776614479e-06, "loss": 0.5412, "step": 896 }, { "avg_step_time": 5.672052241335011, "epoch": 0.09557333333333333, "eta_time": 13.359258598410989, "step": 896 }, { "epoch": 0.09568, "grad_norm": 1.7169964445036077, "learning_rate": 9.8875547696032e-06, "loss": 0.5564, "step": 897 }, { "avg_step_time": 5.672871905143815, "epoch": 0.09568, "eta_time": 13.359613336613684, "step": 897 }, { "epoch": 0.09578666666666667, "grad_norm": 1.638218848468168, "learning_rate": 9.887190179177721e-06, "loss": 0.4481, "step": 898 }, { "avg_step_time": 5.6847868110194355, "epoch": 0.09578666666666667, "eta_time": 13.386093832503265, "step": 898 }, { "epoch": 0.09589333333333333, "grad_norm": 1.3938782231728513, "learning_rate": 9.886825005381561e-06, "loss": 0.4877, "step": 899 }, { "avg_step_time": 5.644448605450717, "epoch": 0.09589333333333333, "eta_time": 13.289540661055632, "step": 899 }, { "epoch": 0.096, "grad_norm": 0.650989105400939, "learning_rate": 9.88645924825831e-06, "loss": 0.4522, "step": 900 }, { "avg_step_time": 5.611920814321499, "epoch": 0.096, "eta_time": 13.211396917048528, "step": 900 }, { "epoch": 0.09610666666666667, "grad_norm": 1.7637734456586782, "learning_rate": 9.886092907851627e-06, "loss": 0.5141, "step": 901 }, { "avg_step_time": 5.643649862270163, "epoch": 0.09610666666666667, "eta_time": 13.284524703577045, "step": 901 }, { "epoch": 0.09621333333333333, "grad_norm": 1.5113773306793836, "learning_rate": 9.885725984205243e-06, "loss": 0.4554, "step": 902 }, { "avg_step_time": 5.65223815946868, "epoch": 0.09621333333333333, "eta_time": 13.3031705347717, "step": 902 }, { "epoch": 0.09632, "grad_norm": 1.7436547254060413, "learning_rate": 9.885358477362956e-06, "loss": 0.5014, "step": 903 }, { "avg_step_time": 5.636973200422345, "epoch": 0.09632, "eta_time": 13.265676931660584, "step": 903 }, { "epoch": 0.09642666666666666, "grad_norm": 1.4987974615675377, "learning_rate": 9.884990387368633e-06, "loss": 0.4961, "step": 904 }, { "avg_step_time": 5.6522531196324515, "epoch": 0.09642666666666666, "eta_time": 13.30006560455736, "step": 904 }, { "epoch": 0.09653333333333333, "grad_norm": 1.760847430392006, "learning_rate": 9.884621714266212e-06, "loss": 0.532, "step": 905 }, { "avg_step_time": 5.688045258473868, "epoch": 0.09653333333333333, "eta_time": 13.382706483131573, "step": 905 }, { "epoch": 0.09664, "grad_norm": 1.9657007142062883, "learning_rate": 9.8842524580997e-06, "loss": 0.5401, "step": 906 }, { "avg_step_time": 5.6874650006342415, "epoch": 0.09664, "eta_time": 13.379761413992053, "step": 906 }, { "epoch": 0.09674666666666666, "grad_norm": 1.7006144682672701, "learning_rate": 9.883882618913178e-06, "loss": 0.4799, "step": 907 }, { "avg_step_time": 5.686655001206831, "epoch": 0.09674666666666666, "eta_time": 13.376276263949846, "step": 907 }, { "epoch": 0.09685333333333333, "grad_norm": 1.5483302227626494, "learning_rate": 9.883512196750789e-06, "loss": 0.5868, "step": 908 }, { "avg_step_time": 5.6747169904034545, "epoch": 0.09685333333333333, "eta_time": 13.346619099373903, "step": 908 }, { "epoch": 0.09696, "grad_norm": 1.744754465616484, "learning_rate": 9.883141191656748e-06, "loss": 0.4722, "step": 909 }, { "avg_step_time": 5.674148747415254, "epoch": 0.09696, "eta_time": 13.343706471004872, "step": 909 }, { "epoch": 0.09706666666666666, "grad_norm": 1.9364248009718152, "learning_rate": 9.882769603675347e-06, "loss": 0.5085, "step": 910 }, { "avg_step_time": 5.67944629746254, "epoch": 0.09706666666666666, "eta_time": 13.354586918894558, "step": 910 }, { "epoch": 0.09717333333333333, "grad_norm": 1.7257367492396631, "learning_rate": 9.882397432850935e-06, "loss": 0.43, "step": 911 }, { "avg_step_time": 5.6406739480567705, "epoch": 0.09717333333333333, "eta_time": 13.261851193431252, "step": 911 }, { "epoch": 0.09728, "grad_norm": 1.4678414778413615, "learning_rate": 9.88202467922794e-06, "loss": 0.4391, "step": 912 }, { "avg_step_time": 5.6426459081245195, "epoch": 0.09728, "eta_time": 13.264920089016059, "step": 912 }, { "epoch": 0.09738666666666666, "grad_norm": 1.8002344411024982, "learning_rate": 9.881651342850856e-06, "loss": 0.4843, "step": 913 }, { "avg_step_time": 5.68138003590131, "epoch": 0.09738666666666666, "eta_time": 13.354399406610247, "step": 913 }, { "epoch": 0.09749333333333333, "grad_norm": 1.9559065653074745, "learning_rate": 9.881277423764246e-06, "loss": 0.5222, "step": 914 }, { "avg_step_time": 5.676552594310105, "epoch": 0.09749333333333333, "eta_time": 13.341475416793832, "step": 914 }, { "epoch": 0.0976, "grad_norm": 2.0548045968182413, "learning_rate": 9.880902922012747e-06, "loss": 0.5753, "step": 915 }, { "avg_step_time": 5.681763155291779, "epoch": 0.0976, "eta_time": 13.35214341493568, "step": 915 }, { "epoch": 0.09770666666666666, "grad_norm": 2.101426168396075, "learning_rate": 9.88052783764106e-06, "loss": 0.5009, "step": 916 }, { "avg_step_time": 5.6825932444948135, "epoch": 0.09770666666666666, "eta_time": 13.35251562643934, "step": 916 }, { "epoch": 0.09781333333333334, "grad_norm": 1.5213857409398854, "learning_rate": 9.880152170693957e-06, "loss": 0.5199, "step": 917 }, { "avg_step_time": 5.695507362635449, "epoch": 0.09781333333333334, "eta_time": 13.381278131436286, "step": 917 }, { "epoch": 0.09792, "grad_norm": 0.6821731627644398, "learning_rate": 9.879775921216284e-06, "loss": 0.4502, "step": 918 }, { "avg_step_time": 5.656606115476049, "epoch": 0.09792, "eta_time": 13.288310532939152, "step": 918 }, { "epoch": 0.09802666666666666, "grad_norm": 1.718548010686975, "learning_rate": 9.879399089252947e-06, "loss": 0.4913, "step": 919 }, { "avg_step_time": 5.654421059772222, "epoch": 0.09802666666666666, "eta_time": 13.28160680039831, "step": 919 }, { "epoch": 0.09813333333333334, "grad_norm": 1.7357129906535753, "learning_rate": 9.879021674848932e-06, "loss": 0.4831, "step": 920 }, { "avg_step_time": 5.690553029378255, "epoch": 0.09813333333333334, "eta_time": 13.364896073164761, "step": 920 }, { "epoch": 0.09824, "grad_norm": 1.6946501630870832, "learning_rate": 9.87864367804929e-06, "loss": 0.4835, "step": 921 }, { "avg_step_time": 5.712835851341787, "epoch": 0.09824, "eta_time": 13.415642857567631, "step": 921 }, { "epoch": 0.09834666666666667, "grad_norm": 1.9337965178461367, "learning_rate": 9.87826509889914e-06, "loss": 0.5414, "step": 922 }, { "avg_step_time": 5.713569973454331, "epoch": 0.09834666666666667, "eta_time": 13.415779718224849, "step": 922 }, { "epoch": 0.09845333333333334, "grad_norm": 0.6419114643982737, "learning_rate": 9.87788593744367e-06, "loss": 0.4363, "step": 923 }, { "avg_step_time": 5.6682973943575465, "epoch": 0.09845333333333334, "eta_time": 13.30790266030833, "step": 923 }, { "epoch": 0.09856, "grad_norm": 1.6417729763838045, "learning_rate": 9.877506193728144e-06, "loss": 0.4911, "step": 924 }, { "avg_step_time": 5.669320973482999, "epoch": 0.09856, "eta_time": 13.30873098525134, "step": 924 }, { "epoch": 0.09866666666666667, "grad_norm": 0.6297833328010861, "learning_rate": 9.877125867797886e-06, "loss": 0.4409, "step": 925 }, { "avg_step_time": 5.636806035282636, "epoch": 0.09866666666666667, "eta_time": 13.230836388371744, "step": 925 }, { "epoch": 0.09877333333333334, "grad_norm": 1.431129567900323, "learning_rate": 9.876744959698299e-06, "loss": 0.4493, "step": 926 }, { "avg_step_time": 5.626079667698253, "epoch": 0.09877333333333334, "eta_time": 13.20409642010626, "step": 926 }, { "epoch": 0.09888, "grad_norm": 1.755485012705029, "learning_rate": 9.876363469474848e-06, "loss": 0.4165, "step": 927 }, { "avg_step_time": 5.561725698336207, "epoch": 0.09888, "eta_time": 13.051516305428965, "step": 927 }, { "epoch": 0.09898666666666667, "grad_norm": 1.5841799882541134, "learning_rate": 9.875981397173071e-06, "loss": 0.4839, "step": 928 }, { "avg_step_time": 5.5604481865661315, "epoch": 0.09898666666666667, "eta_time": 13.046973842201142, "step": 928 }, { "epoch": 0.09909333333333334, "grad_norm": 1.686280178285897, "learning_rate": 9.875598742838578e-06, "loss": 0.5925, "step": 929 }, { "avg_step_time": 5.558793359332615, "epoch": 0.09909333333333334, "eta_time": 13.041546864700909, "step": 929 }, { "epoch": 0.0992, "grad_norm": 1.5756815525708847, "learning_rate": 9.87521550651704e-06, "loss": 0.5353, "step": 930 }, { "avg_step_time": 5.559377872582638, "epoch": 0.0992, "eta_time": 13.041373926100103, "step": 930 }, { "epoch": 0.09930666666666667, "grad_norm": 1.5031858669974711, "learning_rate": 9.874831688254208e-06, "loss": 0.5049, "step": 931 }, { "avg_step_time": 5.6111455108180195, "epoch": 0.09930666666666667, "eta_time": 13.161253525929823, "step": 931 }, { "epoch": 0.09941333333333334, "grad_norm": 1.4943267871824457, "learning_rate": 9.874447288095894e-06, "loss": 0.4898, "step": 932 }, { "avg_step_time": 5.625099750480267, "epoch": 0.09941333333333334, "eta_time": 13.192421442584694, "step": 932 }, { "epoch": 0.09952, "grad_norm": 1.8269861989041587, "learning_rate": 9.874062306087983e-06, "loss": 0.5911, "step": 933 }, { "avg_step_time": 5.63087010383606, "epoch": 0.09952, "eta_time": 13.20439039349556, "step": 933 }, { "epoch": 0.09962666666666667, "grad_norm": 1.7579480836279906, "learning_rate": 9.87367674227643e-06, "loss": 0.4822, "step": 934 }, { "avg_step_time": 5.630627966890431, "epoch": 0.09962666666666667, "eta_time": 13.202258519033924, "step": 934 }, { "epoch": 0.09973333333333333, "grad_norm": 1.5486337486448427, "learning_rate": 9.87329059670726e-06, "loss": 0.3959, "step": 935 }, { "avg_step_time": 5.635339500928166, "epoch": 0.09973333333333333, "eta_time": 13.211740385509366, "step": 935 }, { "epoch": 0.09984, "grad_norm": 1.5009848051858405, "learning_rate": 9.872903869426564e-06, "loss": 0.4848, "step": 936 }, { "avg_step_time": 5.670750637247105, "epoch": 0.09984, "eta_time": 13.293184618813422, "step": 936 }, { "epoch": 0.09994666666666667, "grad_norm": 1.7084285069016711, "learning_rate": 9.872516560480508e-06, "loss": 0.5601, "step": 937 }, { "avg_step_time": 5.6508750819196605, "epoch": 0.09994666666666667, "eta_time": 13.245023317010583, "step": 937 }, { "epoch": 0.10005333333333333, "grad_norm": 1.7517192589444786, "learning_rate": 9.872128669915319e-06, "loss": 0.4809, "step": 938 }, { "avg_step_time": 5.648455925662108, "epoch": 0.10005333333333333, "eta_time": 13.237784068003114, "step": 938 }, { "epoch": 0.10016, "grad_norm": 1.703220911903069, "learning_rate": 9.8717401977773e-06, "loss": 0.5513, "step": 939 }, { "avg_step_time": 5.65302022539004, "epoch": 0.10016, "eta_time": 13.246910728163993, "step": 939 }, { "epoch": 0.10026666666666667, "grad_norm": 1.5408113353951374, "learning_rate": 9.871351144112826e-06, "loss": 0.5467, "step": 940 }, { "avg_step_time": 5.650208600843795, "epoch": 0.10026666666666667, "eta_time": 13.238752652254837, "step": 940 }, { "epoch": 0.10037333333333333, "grad_norm": 1.6028489132980894, "learning_rate": 9.870961508968333e-06, "loss": 0.4667, "step": 941 }, { "avg_step_time": 5.652172866493765, "epoch": 0.10037333333333333, "eta_time": 13.241784987780115, "step": 941 }, { "epoch": 0.10048, "grad_norm": 1.8515159509600587, "learning_rate": 9.870571292390331e-06, "loss": 0.6336, "step": 942 }, { "avg_step_time": 5.654293927279386, "epoch": 0.10048, "eta_time": 13.245183524651962, "step": 942 }, { "epoch": 0.10058666666666667, "grad_norm": 1.522748741925625, "learning_rate": 9.8701804944254e-06, "loss": 0.5193, "step": 943 }, { "avg_step_time": 5.689720093601882, "epoch": 0.10058666666666667, "eta_time": 13.326588841458632, "step": 943 }, { "epoch": 0.10069333333333333, "grad_norm": 1.5871573887134984, "learning_rate": 9.86978911512019e-06, "loss": 0.5248, "step": 944 }, { "avg_step_time": 5.689241828340473, "epoch": 0.10069333333333333, "eta_time": 13.323888292982923, "step": 944 }, { "epoch": 0.1008, "grad_norm": 1.6604850236332864, "learning_rate": 9.869397154521418e-06, "loss": 0.447, "step": 945 }, { "avg_step_time": 5.688544986223934, "epoch": 0.1008, "eta_time": 13.320676176074377, "step": 945 }, { "epoch": 0.10090666666666667, "grad_norm": 1.67748756072918, "learning_rate": 9.869004612675867e-06, "loss": 0.4771, "step": 946 }, { "avg_step_time": 5.69010717941053, "epoch": 0.10090666666666667, "eta_time": 13.32275372645871, "step": 946 }, { "epoch": 0.10101333333333333, "grad_norm": 1.6504564610955335, "learning_rate": 9.868611489630401e-06, "loss": 0.4517, "step": 947 }, { "avg_step_time": 5.725895534862172, "epoch": 0.10101333333333333, "eta_time": 13.404957657727328, "step": 947 }, { "epoch": 0.10112, "grad_norm": 1.6900131993192633, "learning_rate": 9.868217785431942e-06, "loss": 0.5211, "step": 948 }, { "avg_step_time": 5.719304568839796, "epoch": 0.10112, "eta_time": 13.387938778225822, "step": 948 }, { "epoch": 0.10122666666666667, "grad_norm": 0.6690920405221167, "learning_rate": 9.867823500127483e-06, "loss": 0.4608, "step": 949 }, { "avg_step_time": 5.7130682661075785, "epoch": 0.10122666666666667, "eta_time": 13.371753669506237, "step": 949 }, { "epoch": 0.10133333333333333, "grad_norm": 1.437046284818084, "learning_rate": 9.867428633764093e-06, "loss": 0.4613, "step": 950 }, { "avg_step_time": 5.692555100026757, "epoch": 0.10133333333333333, "eta_time": 13.322160199368174, "step": 950 }, { "epoch": 0.10144, "grad_norm": 1.7961465908315002, "learning_rate": 9.867033186388906e-06, "loss": 0.5052, "step": 951 }, { "avg_step_time": 5.691821890647965, "epoch": 0.10144, "eta_time": 13.318863224116239, "step": 951 }, { "epoch": 0.10154666666666666, "grad_norm": 0.6472008048427702, "learning_rate": 9.866637158049122e-06, "loss": 0.4438, "step": 952 }, { "avg_step_time": 5.653074589642611, "epoch": 0.10154666666666666, "eta_time": 13.226624241266588, "step": 952 }, { "epoch": 0.10165333333333333, "grad_norm": 1.8700741502563933, "learning_rate": 9.866240548792018e-06, "loss": 0.519, "step": 953 }, { "avg_step_time": 5.670169541330049, "epoch": 0.10165333333333333, "eta_time": 13.265046632522687, "step": 953 }, { "epoch": 0.10176, "grad_norm": 1.913145585895937, "learning_rate": 9.865843358664933e-06, "loss": 0.5171, "step": 954 }, { "avg_step_time": 5.66599254174666, "epoch": 0.10176, "eta_time": 13.253700887235729, "step": 954 }, { "epoch": 0.10186666666666666, "grad_norm": 1.420149762606191, "learning_rate": 9.86544558771528e-06, "loss": 0.5253, "step": 955 }, { "avg_step_time": 5.6681020115361065, "epoch": 0.10186666666666666, "eta_time": 13.257060815870561, "step": 955 }, { "epoch": 0.10197333333333333, "grad_norm": 1.5316705602767273, "learning_rate": 9.86504723599054e-06, "loss": 0.5532, "step": 956 }, { "avg_step_time": 5.685698624813195, "epoch": 0.10197333333333333, "eta_time": 13.296637978417303, "step": 956 }, { "epoch": 0.10208, "grad_norm": 1.5880236580992453, "learning_rate": 9.86464830353826e-06, "loss": 0.4476, "step": 957 }, { "avg_step_time": 5.699768928566364, "epoch": 0.10208, "eta_time": 13.327959677964348, "step": 957 }, { "epoch": 0.10218666666666666, "grad_norm": 2.1661205391115637, "learning_rate": 9.864248790406063e-06, "loss": 0.5403, "step": 958 }, { "avg_step_time": 5.7125125966890895, "epoch": 0.10218666666666666, "eta_time": 13.356171812870018, "step": 958 }, { "epoch": 0.10229333333333333, "grad_norm": 1.8662016103056167, "learning_rate": 9.86384869664164e-06, "loss": 0.5194, "step": 959 }, { "avg_step_time": 5.714189086297546, "epoch": 0.10229333333333333, "eta_time": 13.358504263966708, "step": 959 }, { "epoch": 0.1024, "grad_norm": 0.6490159237305614, "learning_rate": 9.863448022292742e-06, "loss": 0.4771, "step": 960 }, { "avg_step_time": 5.686566735758926, "epoch": 0.1024, "eta_time": 13.29234974483649, "step": 960 }, { "epoch": 0.10250666666666666, "grad_norm": 1.8026715812918934, "learning_rate": 9.863046767407205e-06, "loss": 0.5456, "step": 961 }, { "avg_step_time": 5.6660098162564365, "epoch": 0.10250666666666666, "eta_time": 13.242724053883794, "step": 961 }, { "epoch": 0.10261333333333333, "grad_norm": 1.866487610536544, "learning_rate": 9.862644932032918e-06, "loss": 0.4826, "step": 962 }, { "avg_step_time": 5.678695151300142, "epoch": 0.10261333333333333, "eta_time": 13.27079508552447, "step": 962 }, { "epoch": 0.10272, "grad_norm": 0.6407494503157781, "learning_rate": 9.86224251621785e-06, "loss": 0.4457, "step": 963 }, { "avg_step_time": 5.64225161918486, "epoch": 0.10272, "eta_time": 13.18406128349529, "step": 963 }, { "epoch": 0.10282666666666666, "grad_norm": 1.874546195159387, "learning_rate": 9.861839520010038e-06, "loss": 0.6267, "step": 964 }, { "avg_step_time": 5.673488860178476, "epoch": 0.10282666666666666, "eta_time": 13.255476334155878, "step": 964 }, { "epoch": 0.10293333333333334, "grad_norm": 1.543284911116467, "learning_rate": 9.861435943457585e-06, "loss": 0.4604, "step": 965 }, { "avg_step_time": 5.677445744023179, "epoch": 0.10293333333333334, "eta_time": 13.263144085343036, "step": 965 }, { "epoch": 0.10304, "grad_norm": 1.7640878048119297, "learning_rate": 9.861031786608663e-06, "loss": 0.582, "step": 966 }, { "avg_step_time": 5.680613089089442, "epoch": 0.10304, "eta_time": 13.268965407264753, "step": 966 }, { "epoch": 0.10314666666666666, "grad_norm": 1.7174649854186412, "learning_rate": 9.86062704951152e-06, "loss": 0.4968, "step": 967 }, { "avg_step_time": 5.680678401330505, "epoch": 0.10314666666666666, "eta_time": 13.267539999551913, "step": 967 }, { "epoch": 0.10325333333333334, "grad_norm": 1.8000617599207531, "learning_rate": 9.860221732214463e-06, "loss": 0.4471, "step": 968 }, { "avg_step_time": 5.679805823046752, "epoch": 0.10325333333333334, "eta_time": 13.2639243206539, "step": 968 }, { "epoch": 0.10336, "grad_norm": 1.5721870638242388, "learning_rate": 9.859815834765875e-06, "loss": 0.5466, "step": 969 }, { "avg_step_time": 5.628447014876087, "epoch": 0.10336, "eta_time": 13.142423779735662, "step": 969 }, { "epoch": 0.10346666666666667, "grad_norm": 1.5626190683908747, "learning_rate": 9.859409357214211e-06, "loss": 0.5006, "step": 970 }, { "avg_step_time": 5.6281710610245215, "epoch": 0.10346666666666667, "eta_time": 13.140216046641973, "step": 970 }, { "epoch": 0.10357333333333334, "grad_norm": 0.6524018317239497, "learning_rate": 9.859002299607987e-06, "loss": 0.4245, "step": 971 }, { "avg_step_time": 5.628471152951019, "epoch": 0.10357333333333334, "eta_time": 13.139353213722323, "step": 971 }, { "epoch": 0.10368, "grad_norm": 0.6618111964440457, "learning_rate": 9.858594661995792e-06, "loss": 0.4568, "step": 972 }, { "avg_step_time": 5.597643416337292, "epoch": 0.10368, "eta_time": 13.06583267430063, "step": 972 }, { "epoch": 0.10378666666666667, "grad_norm": 1.7747851294657488, "learning_rate": 9.858186444426288e-06, "loss": 0.4832, "step": 973 }, { "avg_step_time": 5.597390092984594, "epoch": 0.10378666666666667, "eta_time": 13.06368654479349, "step": 973 }, { "epoch": 0.10389333333333334, "grad_norm": 1.7134235752405949, "learning_rate": 9.8577776469482e-06, "loss": 0.5446, "step": 974 }, { "avg_step_time": 5.629907138419874, "epoch": 0.10389333333333334, "eta_time": 13.138013852740379, "step": 974 }, { "epoch": 0.104, "grad_norm": 1.8673032736570683, "learning_rate": 9.857368269610325e-06, "loss": 0.4948, "step": 975 }, { "avg_step_time": 5.665068279613148, "epoch": 0.104, "eta_time": 13.218492652430681, "step": 975 }, { "epoch": 0.10410666666666667, "grad_norm": 0.6393197156334692, "learning_rate": 9.85695831246153e-06, "loss": 0.4517, "step": 976 }, { "avg_step_time": 5.575112309118714, "epoch": 0.10410666666666667, "eta_time": 13.007046745635575, "step": 976 }, { "epoch": 0.10421333333333334, "grad_norm": 1.8003292001256945, "learning_rate": 9.856547775550752e-06, "loss": 0.5352, "step": 977 }, { "avg_step_time": 5.610081171748614, "epoch": 0.10421333333333334, "eta_time": 13.087072688984684, "step": 977 }, { "epoch": 0.10432, "grad_norm": 1.9213798006375151, "learning_rate": 9.856136658926993e-06, "loss": 0.5835, "step": 978 }, { "avg_step_time": 5.622959450037793, "epoch": 0.10432, "eta_time": 13.11555291721315, "step": 978 }, { "epoch": 0.10442666666666667, "grad_norm": 1.8697819749844469, "learning_rate": 9.85572496263933e-06, "loss": 0.4578, "step": 979 }, { "avg_step_time": 5.624035076661543, "epoch": 0.10442666666666667, "eta_time": 13.11649958434731, "step": 979 }, { "epoch": 0.10453333333333334, "grad_norm": 2.0432066343060025, "learning_rate": 9.855312686736902e-06, "loss": 0.6063, "step": 980 }, { "avg_step_time": 5.671705508472944, "epoch": 0.10453333333333334, "eta_time": 13.226102151008435, "step": 980 }, { "epoch": 0.10464, "grad_norm": 0.6725380367847622, "learning_rate": 9.854899831268926e-06, "loss": 0.4418, "step": 981 }, { "avg_step_time": 5.619056104409574, "epoch": 0.10464, "eta_time": 13.101765816781656, "step": 981 }, { "epoch": 0.10474666666666667, "grad_norm": 1.6623630997658358, "learning_rate": 9.854486396284678e-06, "loss": 0.4612, "step": 982 }, { "avg_step_time": 5.615150538357821, "epoch": 0.10474666666666667, "eta_time": 13.091099574565888, "step": 982 }, { "epoch": 0.10485333333333334, "grad_norm": 1.5513541442296295, "learning_rate": 9.854072381833512e-06, "loss": 0.4206, "step": 983 }, { "avg_step_time": 5.612058415557399, "epoch": 0.10485333333333334, "eta_time": 13.082331728710471, "step": 983 }, { "epoch": 0.10496, "grad_norm": 1.41828983359499, "learning_rate": 9.85365778796485e-06, "loss": 0.558, "step": 984 }, { "avg_step_time": 5.616033881601661, "epoch": 0.10496, "eta_time": 13.09003897236654, "step": 984 }, { "epoch": 0.10506666666666667, "grad_norm": 1.776064440969778, "learning_rate": 9.853242614728175e-06, "loss": 0.497, "step": 985 }, { "avg_step_time": 5.650530213057393, "epoch": 0.10506666666666667, "eta_time": 13.168874579875425, "step": 985 }, { "epoch": 0.10517333333333333, "grad_norm": 0.6308812696219558, "learning_rate": 9.852826862173052e-06, "loss": 0.4246, "step": 986 }, { "avg_step_time": 5.613492238401163, "epoch": 0.10517333333333333, "eta_time": 13.080996218874265, "step": 986 }, { "epoch": 0.10528, "grad_norm": 1.4916683447823185, "learning_rate": 9.852410530349102e-06, "loss": 0.5189, "step": 987 }, { "avg_step_time": 5.604712076861449, "epoch": 0.10528, "eta_time": 13.058979139087176, "step": 987 }, { "epoch": 0.10538666666666667, "grad_norm": 1.5036493963716993, "learning_rate": 9.851993619306024e-06, "loss": 0.5176, "step": 988 }, { "avg_step_time": 5.5993670526176995, "epoch": 0.10538666666666667, "eta_time": 13.044969852862401, "step": 988 }, { "epoch": 0.10549333333333333, "grad_norm": 0.6631718911054757, "learning_rate": 9.851576129093584e-06, "loss": 0.4227, "step": 989 }, { "avg_step_time": 5.564562306259617, "epoch": 0.10549333333333333, "eta_time": 12.96233875008143, "step": 989 }, { "epoch": 0.1056, "grad_norm": 1.8538009542227398, "learning_rate": 9.851158059761617e-06, "loss": 0.5147, "step": 990 }, { "avg_step_time": 5.565736698381828, "epoch": 0.1056, "eta_time": 12.963528393314341, "step": 990 }, { "epoch": 0.10570666666666667, "grad_norm": 1.80906125923744, "learning_rate": 9.850739411360027e-06, "loss": 0.5245, "step": 991 }, { "avg_step_time": 5.569864615045413, "epoch": 0.10570666666666667, "eta_time": 12.97159581459465, "step": 991 }, { "epoch": 0.10581333333333333, "grad_norm": 1.851384566464647, "learning_rate": 9.850320183938784e-06, "loss": 0.5447, "step": 992 }, { "avg_step_time": 5.56893354473692, "epoch": 0.10581333333333333, "eta_time": 12.967880529313778, "step": 992 }, { "epoch": 0.10592, "grad_norm": 0.6532581006710849, "learning_rate": 9.849900377547933e-06, "loss": 0.4791, "step": 993 }, { "avg_step_time": 5.570186817284786, "epoch": 0.10592, "eta_time": 12.969251639578077, "step": 993 }, { "epoch": 0.10602666666666667, "grad_norm": 1.474595097776765, "learning_rate": 9.849479992237583e-06, "loss": 0.4945, "step": 994 }, { "avg_step_time": 5.561599471352317, "epoch": 0.10602666666666667, "eta_time": 12.947712547056604, "step": 994 }, { "epoch": 0.10613333333333333, "grad_norm": 1.704268415083654, "learning_rate": 9.849059028057917e-06, "loss": 0.4275, "step": 995 }, { "avg_step_time": 5.565140367758395, "epoch": 0.10613333333333333, "eta_time": 12.954410078282041, "step": 995 }, { "epoch": 0.10624, "grad_norm": 1.5363502207387774, "learning_rate": 9.848637485059183e-06, "loss": 0.5293, "step": 996 }, { "avg_step_time": 5.567042553063595, "epoch": 0.10624, "eta_time": 12.957291542255517, "step": 996 }, { "epoch": 0.10634666666666667, "grad_norm": 1.778211483389114, "learning_rate": 9.848215363291697e-06, "loss": 0.5673, "step": 997 }, { "avg_step_time": 5.56656614457718, "epoch": 0.10634666666666667, "eta_time": 12.954636433129894, "step": 997 }, { "epoch": 0.10645333333333333, "grad_norm": 1.7322397089004702, "learning_rate": 9.84779266280585e-06, "loss": 0.5785, "step": 998 }, { "avg_step_time": 5.566640328879308, "epoch": 0.10645333333333333, "eta_time": 12.9532627875061, "step": 998 }, { "epoch": 0.10656, "grad_norm": 0.6613568054499013, "learning_rate": 9.8473693836521e-06, "loss": 0.4352, "step": 999 }, { "avg_step_time": 5.563761886924204, "epoch": 0.10656, "eta_time": 12.94501932357698, "step": 999 }, { "epoch": 0.10666666666666667, "grad_norm": 1.5944001742923088, "learning_rate": 9.846945525880966e-06, "loss": 0.5831, "step": 1000 }, { "avg_step_time": 5.560459083980984, "epoch": 0.10666666666666667, "eta_time": 12.93579023009465, "step": 1000 }, { "epoch": 0.10677333333333333, "grad_norm": 0.6711843276297882, "learning_rate": 9.84652108954305e-06, "loss": 0.4618, "step": 1001 }, { "avg_step_time": 5.531229517676613, "epoch": 0.10677333333333333, "eta_time": 12.866254439173321, "step": 1001 }, { "epoch": 0.10688, "grad_norm": 1.6281786194908812, "learning_rate": 9.846096074689012e-06, "loss": 0.4827, "step": 1002 }, { "avg_step_time": 5.531493172501072, "epoch": 0.10688, "eta_time": 12.865331203708744, "step": 1002 }, { "epoch": 0.10698666666666666, "grad_norm": 1.6701341775348495, "learning_rate": 9.845670481369585e-06, "loss": 0.4612, "step": 1003 }, { "avg_step_time": 5.534386584253022, "epoch": 0.10698666666666666, "eta_time": 12.870523467601751, "step": 1003 }, { "epoch": 0.10709333333333333, "grad_norm": 1.7895532130948744, "learning_rate": 9.845244309635571e-06, "loss": 0.5012, "step": 1004 }, { "avg_step_time": 5.54326654684664, "epoch": 0.10709333333333333, "eta_time": 12.88963451768145, "step": 1004 }, { "epoch": 0.1072, "grad_norm": 1.8192021511485614, "learning_rate": 9.844817559537841e-06, "loss": 0.5352, "step": 1005 }, { "avg_step_time": 5.546780352640634, "epoch": 0.1072, "eta_time": 12.896264319889474, "step": 1005 }, { "epoch": 0.10730666666666666, "grad_norm": 1.9887454701004716, "learning_rate": 9.844390231127337e-06, "loss": 0.5378, "step": 1006 }, { "avg_step_time": 5.546888153962414, "epoch": 0.10730666666666666, "eta_time": 12.894974155697625, "step": 1006 }, { "epoch": 0.10741333333333333, "grad_norm": 1.613161506824205, "learning_rate": 9.843962324455064e-06, "loss": 0.5746, "step": 1007 }, { "avg_step_time": 5.5522187743524105, "epoch": 0.10741333333333333, "eta_time": 12.905824084383603, "step": 1007 }, { "epoch": 0.10752, "grad_norm": 2.0812765126581554, "learning_rate": 9.843533839572105e-06, "loss": 0.5576, "step": 1008 }, { "avg_step_time": 5.53984758348176, "epoch": 0.10752, "eta_time": 12.87552909194219, "step": 1008 }, { "epoch": 0.10762666666666666, "grad_norm": 1.4484447977877573, "learning_rate": 9.843104776529606e-06, "loss": 0.4057, "step": 1009 }, { "avg_step_time": 5.534734258748064, "epoch": 0.10762666666666666, "eta_time": 12.862107446857307, "step": 1009 }, { "epoch": 0.10773333333333333, "grad_norm": 1.9151153097920286, "learning_rate": 9.842675135378779e-06, "loss": 0.4926, "step": 1010 }, { "avg_step_time": 5.533435118318808, "epoch": 0.10773333333333333, "eta_time": 12.857551323538008, "step": 1010 }, { "epoch": 0.10784, "grad_norm": 1.8982871791270346, "learning_rate": 9.842244916170913e-06, "loss": 0.4916, "step": 1011 }, { "avg_step_time": 5.536521403476446, "epoch": 0.10784, "eta_time": 12.863184727410276, "step": 1011 }, { "epoch": 0.10794666666666666, "grad_norm": 1.450565532661768, "learning_rate": 9.84181411895736e-06, "loss": 0.4826, "step": 1012 }, { "avg_step_time": 5.532922650828506, "epoch": 0.10794666666666666, "eta_time": 12.853286702466331, "step": 1012 }, { "epoch": 0.10805333333333333, "grad_norm": 1.7537146804523265, "learning_rate": 9.841382743789544e-06, "loss": 0.4695, "step": 1013 }, { "avg_step_time": 5.534195184707642, "epoch": 0.10805333333333333, "eta_time": 12.854705592923693, "step": 1013 }, { "epoch": 0.10816, "grad_norm": 1.8685274428897605, "learning_rate": 9.840950790718959e-06, "loss": 0.4981, "step": 1014 }, { "avg_step_time": 5.548671414153745, "epoch": 0.10816, "eta_time": 12.886789359372074, "step": 1014 }, { "epoch": 0.10826666666666666, "grad_norm": 2.1477637818888473, "learning_rate": 9.840518259797163e-06, "loss": 0.6269, "step": 1015 }, { "avg_step_time": 5.547940097673975, "epoch": 0.10826666666666666, "eta_time": 12.88354978237623, "step": 1015 }, { "epoch": 0.10837333333333334, "grad_norm": 1.8161877066171812, "learning_rate": 9.840085151075787e-06, "loss": 0.602, "step": 1016 }, { "avg_step_time": 5.530746553883408, "epoch": 0.10837333333333334, "eta_time": 12.842086234419835, "step": 1016 }, { "epoch": 0.10848, "grad_norm": 0.6669684145068872, "learning_rate": 9.83965146460653e-06, "loss": 0.4237, "step": 1017 }, { "avg_step_time": 5.545842652369028, "epoch": 0.10848, "eta_time": 12.875598024583427, "step": 1017 }, { "epoch": 0.10858666666666666, "grad_norm": 1.3356522933620927, "learning_rate": 9.83921720044116e-06, "loss": 0.5016, "step": 1018 }, { "avg_step_time": 5.5464941130744085, "epoch": 0.10858666666666666, "eta_time": 12.875569806378564, "step": 1018 }, { "epoch": 0.10869333333333334, "grad_norm": 0.6583959300598403, "learning_rate": 9.838782358631516e-06, "loss": 0.4536, "step": 1019 }, { "avg_step_time": 5.47966077351811, "epoch": 0.10869333333333334, "eta_time": 12.71890150653259, "step": 1019 }, { "epoch": 0.1088, "grad_norm": 2.3081247947756354, "learning_rate": 9.838346939229501e-06, "loss": 0.5276, "step": 1020 }, { "avg_step_time": 5.48056435585022, "epoch": 0.1088, "eta_time": 12.719476442535719, "step": 1020 }, { "epoch": 0.10890666666666667, "grad_norm": 2.2905018175993113, "learning_rate": 9.837910942287091e-06, "loss": 0.5066, "step": 1021 }, { "avg_step_time": 5.479344958006734, "epoch": 0.10890666666666667, "eta_time": 12.715124383107849, "step": 1021 }, { "epoch": 0.10901333333333334, "grad_norm": 1.9324417584927644, "learning_rate": 9.83747436785633e-06, "loss": 0.5746, "step": 1022 }, { "avg_step_time": 5.520190535169659, "epoch": 0.10901333333333334, "eta_time": 12.80837542785338, "step": 1022 }, { "epoch": 0.10912, "grad_norm": 0.670618892843604, "learning_rate": 9.83703721598933e-06, "loss": 0.4714, "step": 1023 }, { "avg_step_time": 5.4849410851796465, "epoch": 0.10912, "eta_time": 12.725063317616781, "step": 1023 }, { "epoch": 0.10922666666666667, "grad_norm": 1.7264714698911718, "learning_rate": 9.836599486738271e-06, "loss": 0.4932, "step": 1024 }, { "avg_step_time": 5.5196866362985935, "epoch": 0.10922666666666667, "eta_time": 12.804139749924877, "step": 1024 }, { "epoch": 0.10933333333333334, "grad_norm": 1.6697474513955786, "learning_rate": 9.83616118015541e-06, "loss": 0.4437, "step": 1025 }, { "avg_step_time": 5.519890074778085, "epoch": 0.10933333333333334, "eta_time": 12.803078367888059, "step": 1025 }, { "epoch": 0.10944, "grad_norm": 1.3166507520128543, "learning_rate": 9.835722296293058e-06, "loss": 0.4149, "step": 1026 }, { "avg_step_time": 5.524691771979284, "epoch": 0.10944, "eta_time": 12.812681001181957, "step": 1026 }, { "epoch": 0.10954666666666667, "grad_norm": 1.7343983080930712, "learning_rate": 9.83528283520361e-06, "loss": 0.4988, "step": 1027 }, { "avg_step_time": 5.528362257312042, "epoch": 0.10954666666666667, "eta_time": 12.819657812233592, "step": 1027 }, { "epoch": 0.10965333333333334, "grad_norm": 1.7291459610321462, "learning_rate": 9.83484279693952e-06, "loss": 0.5328, "step": 1028 }, { "avg_step_time": 5.532698985302087, "epoch": 0.10965333333333334, "eta_time": 12.82817734175459, "step": 1028 }, { "epoch": 0.10976, "grad_norm": 1.880291898233122, "learning_rate": 9.834402181553314e-06, "loss": 0.4708, "step": 1029 }, { "avg_step_time": 5.529724894147931, "epoch": 0.10976, "eta_time": 12.819745546266287, "step": 1029 }, { "epoch": 0.10986666666666667, "grad_norm": 1.8226913705459038, "learning_rate": 9.83396098909759e-06, "loss": 0.4802, "step": 1030 }, { "avg_step_time": 5.5096851671584925, "epoch": 0.10986666666666667, "eta_time": 12.771756311093784, "step": 1030 }, { "epoch": 0.10997333333333334, "grad_norm": 1.9119196621513221, "learning_rate": 9.833519219625008e-06, "loss": 0.4897, "step": 1031 }, { "avg_step_time": 5.495875864317923, "epoch": 0.10997333333333334, "eta_time": 12.73821894774132, "step": 1031 }, { "epoch": 0.11008, "grad_norm": 1.6029759509825592, "learning_rate": 9.833076873188303e-06, "loss": 0.5088, "step": 1032 }, { "avg_step_time": 5.488411496383975, "epoch": 0.11008, "eta_time": 12.719393642869862, "step": 1032 }, { "epoch": 0.11018666666666667, "grad_norm": 1.824994760462913, "learning_rate": 9.832633949840277e-06, "loss": 0.5709, "step": 1033 }, { "avg_step_time": 5.495472982676342, "epoch": 0.11018666666666667, "eta_time": 12.734232117079458, "step": 1033 }, { "epoch": 0.11029333333333333, "grad_norm": 1.7264584841989294, "learning_rate": 9.832190449633801e-06, "loss": 0.4625, "step": 1034 }, { "avg_step_time": 5.49198630361846, "epoch": 0.11029333333333333, "eta_time": 12.72462715513377, "step": 1034 }, { "epoch": 0.1104, "grad_norm": 1.6304143827257016, "learning_rate": 9.831746372621811e-06, "loss": 0.4454, "step": 1035 }, { "avg_step_time": 5.494037242850872, "epoch": 0.1104, "eta_time": 12.727852945937855, "step": 1035 }, { "epoch": 0.11050666666666667, "grad_norm": 1.7996360697762923, "learning_rate": 9.83130171885732e-06, "loss": 0.524, "step": 1036 }, { "avg_step_time": 5.4951960269850915, "epoch": 0.11050666666666667, "eta_time": 12.729011019174633, "step": 1036 }, { "epoch": 0.11061333333333333, "grad_norm": 1.8731263301000949, "learning_rate": 9.830856488393401e-06, "loss": 0.5339, "step": 1037 }, { "avg_step_time": 5.4999268994186865, "epoch": 0.11061333333333333, "eta_time": 12.738441802042502, "step": 1037 }, { "epoch": 0.11072, "grad_norm": 1.669232151135803, "learning_rate": 9.830410681283203e-06, "loss": 0.5228, "step": 1038 }, { "avg_step_time": 5.49703857152149, "epoch": 0.11072, "eta_time": 12.730225158548516, "step": 1038 }, { "epoch": 0.11082666666666667, "grad_norm": 1.917485762645193, "learning_rate": 9.82996429757994e-06, "loss": 0.5666, "step": 1039 }, { "avg_step_time": 5.493516469242597, "epoch": 0.11082666666666667, "eta_time": 12.720542579890635, "step": 1039 }, { "epoch": 0.11093333333333333, "grad_norm": 1.605271025288255, "learning_rate": 9.829517337336893e-06, "loss": 0.5181, "step": 1040 }, { "avg_step_time": 5.494648822630294, "epoch": 0.11093333333333333, "eta_time": 12.72163831572875, "step": 1040 }, { "epoch": 0.11104, "grad_norm": 1.7087527632658033, "learning_rate": 9.829069800607418e-06, "loss": 0.5465, "step": 1041 }, { "avg_step_time": 5.49477499181574, "epoch": 0.11104, "eta_time": 12.72040410605344, "step": 1041 }, { "epoch": 0.11114666666666667, "grad_norm": 1.6029734709375025, "learning_rate": 9.828621687444935e-06, "loss": 0.4787, "step": 1042 }, { "avg_step_time": 5.495513641473019, "epoch": 0.11114666666666667, "eta_time": 12.720587548442962, "step": 1042 }, { "epoch": 0.11125333333333333, "grad_norm": 1.7726665102936456, "learning_rate": 9.828172997902934e-06, "loss": 0.5006, "step": 1043 }, { "avg_step_time": 5.493889078949437, "epoch": 0.11125333333333333, "eta_time": 12.715301057168528, "step": 1043 }, { "epoch": 0.11136, "grad_norm": 1.55751496254016, "learning_rate": 9.827723732034972e-06, "loss": 0.4342, "step": 1044 }, { "avg_step_time": 5.502863154266819, "epoch": 0.11136, "eta_time": 12.734542482832463, "step": 1044 }, { "epoch": 0.11146666666666667, "grad_norm": 1.3898046120608007, "learning_rate": 9.82727388989468e-06, "loss": 0.3858, "step": 1045 }, { "avg_step_time": 5.5084913138187295, "epoch": 0.11146666666666667, "eta_time": 12.746036845586115, "step": 1045 }, { "epoch": 0.11157333333333333, "grad_norm": 1.7093491283635522, "learning_rate": 9.826823471535754e-06, "loss": 0.5594, "step": 1046 }, { "avg_step_time": 5.515403747558594, "epoch": 0.11157333333333333, "eta_time": 12.760499392615424, "step": 1046 }, { "epoch": 0.11168, "grad_norm": 1.524694695131956, "learning_rate": 9.826372477011956e-06, "loss": 0.4883, "step": 1047 }, { "avg_step_time": 5.515038668507278, "epoch": 0.11168, "eta_time": 12.758122786480168, "step": 1047 }, { "epoch": 0.11178666666666667, "grad_norm": 1.691322782367819, "learning_rate": 9.825920906377124e-06, "loss": 0.5373, "step": 1048 }, { "avg_step_time": 5.551300352269953, "epoch": 0.11178666666666667, "eta_time": 12.840466120375527, "step": 1048 }, { "epoch": 0.11189333333333333, "grad_norm": 1.4753130195400184, "learning_rate": 9.825468759685157e-06, "loss": 0.4936, "step": 1049 }, { "avg_step_time": 5.548247956266307, "epoch": 0.11189333333333333, "eta_time": 12.831864578853686, "step": 1049 }, { "epoch": 0.112, "grad_norm": 1.8791816771681067, "learning_rate": 9.825016036990029e-06, "loss": 0.5508, "step": 1050 }, { "avg_step_time": 5.574348921727652, "epoch": 0.112, "eta_time": 12.890681881495196, "step": 1050 }, { "epoch": 0.11210666666666666, "grad_norm": 1.577393185522094, "learning_rate": 9.824562738345781e-06, "loss": 0.4897, "step": 1051 }, { "avg_step_time": 5.613426095307475, "epoch": 0.11210666666666666, "eta_time": 12.979488560372063, "step": 1051 }, { "epoch": 0.11221333333333333, "grad_norm": 1.5445831005116633, "learning_rate": 9.82410886380652e-06, "loss": 0.5222, "step": 1052 }, { "avg_step_time": 5.586025791938859, "epoch": 0.11221333333333333, "eta_time": 12.914581296196424, "step": 1052 }, { "epoch": 0.11232, "grad_norm": 1.8656336255835624, "learning_rate": 9.823654413426424e-06, "loss": 0.4885, "step": 1053 }, { "avg_step_time": 5.609836113573325, "epoch": 0.11232, "eta_time": 12.968071149210335, "step": 1053 }, { "epoch": 0.11242666666666666, "grad_norm": 1.7715456102075418, "learning_rate": 9.82319938725974e-06, "loss": 0.5706, "step": 1054 }, { "avg_step_time": 5.606580698128902, "epoch": 0.11242666666666666, "eta_time": 12.958988330314055, "step": 1054 }, { "epoch": 0.11253333333333333, "grad_norm": 25.237397079702987, "learning_rate": 9.822743785360783e-06, "loss": 0.5842, "step": 1055 }, { "avg_step_time": 5.590701360895176, "epoch": 0.11253333333333333, "eta_time": 12.920732034068852, "step": 1055 }, { "epoch": 0.11264, "grad_norm": 0.7019324020776619, "learning_rate": 9.822287607783938e-06, "loss": 0.433, "step": 1056 }, { "avg_step_time": 5.545773681968149, "epoch": 0.11264, "eta_time": 12.81535868341473, "step": 1056 }, { "epoch": 0.11274666666666666, "grad_norm": 1.837606513275721, "learning_rate": 9.821830854583657e-06, "loss": 0.5508, "step": 1057 }, { "avg_step_time": 5.5323144089091905, "epoch": 0.11274666666666666, "eta_time": 12.78271979258518, "step": 1057 }, { "epoch": 0.11285333333333333, "grad_norm": 1.569538839935085, "learning_rate": 9.82137352581446e-06, "loss": 0.4647, "step": 1058 }, { "avg_step_time": 5.534597794214885, "epoch": 0.11285333333333333, "eta_time": 12.786458292912556, "step": 1058 }, { "epoch": 0.11296, "grad_norm": 1.638915124537632, "learning_rate": 9.820915621530939e-06, "loss": 0.4782, "step": 1059 }, { "avg_step_time": 5.5620946354336205, "epoch": 0.11296, "eta_time": 12.848438607851664, "step": 1059 }, { "epoch": 0.11306666666666666, "grad_norm": 1.703797352484976, "learning_rate": 9.820457141787753e-06, "loss": 0.4634, "step": 1060 }, { "avg_step_time": 5.577536826181894, "epoch": 0.11306666666666666, "eta_time": 12.882560752695126, "step": 1060 }, { "epoch": 0.11317333333333333, "grad_norm": 1.6662397811072067, "learning_rate": 9.819998086639628e-06, "loss": 0.6046, "step": 1061 }, { "avg_step_time": 5.568517766817652, "epoch": 0.11317333333333333, "eta_time": 12.860182420367211, "step": 1061 }, { "epoch": 0.11328, "grad_norm": 1.5151239601299284, "learning_rate": 9.81953845614136e-06, "loss": 0.5148, "step": 1062 }, { "avg_step_time": 5.6061547813993515, "epoch": 0.11328, "eta_time": 12.945545749381337, "step": 1062 }, { "epoch": 0.11338666666666666, "grad_norm": 1.7282671186926644, "learning_rate": 9.819078250347817e-06, "loss": 0.5163, "step": 1063 }, { "avg_step_time": 5.607817382523508, "epoch": 0.11338666666666666, "eta_time": 12.9478272454265, "step": 1063 }, { "epoch": 0.11349333333333333, "grad_norm": 1.6274626577180273, "learning_rate": 9.81861746931393e-06, "loss": 0.5383, "step": 1064 }, { "avg_step_time": 5.6066858985207295, "epoch": 0.11349333333333333, "eta_time": 12.943657361834939, "step": 1064 }, { "epoch": 0.1136, "grad_norm": 1.4580188531891478, "learning_rate": 9.818156113094699e-06, "loss": 0.5296, "step": 1065 }, { "avg_step_time": 5.607964099055589, "epoch": 0.1136, "eta_time": 12.94505046198665, "step": 1065 }, { "epoch": 0.11370666666666666, "grad_norm": 1.6927267311887397, "learning_rate": 9.8176941817452e-06, "loss": 0.5038, "step": 1066 }, { "avg_step_time": 5.608560533234567, "epoch": 0.11370666666666666, "eta_time": 12.944869297401672, "step": 1066 }, { "epoch": 0.11381333333333334, "grad_norm": 1.6435075744636436, "learning_rate": 9.817231675320566e-06, "loss": 0.5186, "step": 1067 }, { "avg_step_time": 5.6383007174790505, "epoch": 0.11381333333333334, "eta_time": 13.011945100226654, "step": 1067 }, { "epoch": 0.11392, "grad_norm": 1.8205693062997295, "learning_rate": 9.816768593876012e-06, "loss": 0.4685, "step": 1068 }, { "avg_step_time": 5.637133155206238, "epoch": 0.11392, "eta_time": 13.007684755638394, "step": 1068 }, { "epoch": 0.11402666666666667, "grad_norm": 1.4942248577433876, "learning_rate": 9.81630493746681e-06, "loss": 0.5222, "step": 1069 }, { "avg_step_time": 5.641426014177727, "epoch": 0.11402666666666667, "eta_time": 13.016023464933388, "step": 1069 }, { "epoch": 0.11413333333333334, "grad_norm": 1.5959102658825963, "learning_rate": 9.815840706148308e-06, "loss": 0.4745, "step": 1070 }, { "avg_step_time": 5.671641087291216, "epoch": 0.11413333333333334, "eta_time": 13.084160897209319, "step": 1070 }, { "epoch": 0.11424, "grad_norm": 1.474050029549588, "learning_rate": 9.81537589997592e-06, "loss": 0.505, "step": 1071 }, { "avg_step_time": 5.718741664982805, "epoch": 0.11424, "eta_time": 13.19123077389367, "step": 1071 }, { "epoch": 0.11434666666666667, "grad_norm": 1.7013258612458333, "learning_rate": 9.814910519005126e-06, "loss": 0.4952, "step": 1072 }, { "avg_step_time": 5.718903274247141, "epoch": 0.11434666666666667, "eta_time": 13.190014968353891, "step": 1072 }, { "epoch": 0.11445333333333334, "grad_norm": 1.4978653548426357, "learning_rate": 9.814444563291478e-06, "loss": 0.4637, "step": 1073 }, { "avg_step_time": 5.687198075381192, "epoch": 0.11445333333333334, "eta_time": 13.115310672726293, "step": 1073 }, { "epoch": 0.11456, "grad_norm": 1.735649255023223, "learning_rate": 9.8139780328906e-06, "loss": 0.5525, "step": 1074 }, { "avg_step_time": 5.6910430855221215, "epoch": 0.11456, "eta_time": 13.12259684803309, "step": 1074 }, { "epoch": 0.11466666666666667, "grad_norm": 0.6620403660096753, "learning_rate": 9.813510927858177e-06, "loss": 0.4484, "step": 1075 }, { "avg_step_time": 5.691481274787826, "epoch": 0.11466666666666667, "eta_time": 13.122026272427487, "step": 1075 }, { "epoch": 0.11477333333333334, "grad_norm": 1.4570630918898997, "learning_rate": 9.813043248249965e-06, "loss": 0.5539, "step": 1076 }, { "avg_step_time": 5.685389326076315, "epoch": 0.11477333333333334, "eta_time": 13.106401671418704, "step": 1076 }, { "epoch": 0.11488, "grad_norm": 1.7015523398258383, "learning_rate": 9.812574994121791e-06, "loss": 0.4767, "step": 1077 }, { "avg_step_time": 5.672339615195688, "epoch": 0.11488, "eta_time": 13.074742813026061, "step": 1077 }, { "epoch": 0.11498666666666667, "grad_norm": 1.509881306106761, "learning_rate": 9.81210616552955e-06, "loss": 0.4352, "step": 1078 }, { "avg_step_time": 5.673599004745483, "epoch": 0.11498666666666667, "eta_time": 13.076069706214799, "step": 1078 }, { "epoch": 0.11509333333333334, "grad_norm": 0.6349100871196431, "learning_rate": 9.811636762529205e-06, "loss": 0.4283, "step": 1079 }, { "avg_step_time": 5.577660358313358, "epoch": 0.11509333333333334, "eta_time": 12.853408425713228, "step": 1079 }, { "epoch": 0.1152, "grad_norm": 1.9905341653601534, "learning_rate": 9.811166785176785e-06, "loss": 0.5531, "step": 1080 }, { "avg_step_time": 5.612857240619081, "epoch": 0.1152, "eta_time": 12.932958558593134, "step": 1080 }, { "epoch": 0.11530666666666667, "grad_norm": 1.6797866748618049, "learning_rate": 9.810696233528391e-06, "loss": 0.5079, "step": 1081 }, { "avg_step_time": 5.6198080910576715, "epoch": 0.11530666666666667, "eta_time": 12.947413418675646, "step": 1081 }, { "epoch": 0.11541333333333334, "grad_norm": 1.510936298337283, "learning_rate": 9.810225107640195e-06, "loss": 0.4915, "step": 1082 }, { "avg_step_time": 5.620205014643043, "epoch": 0.11541333333333334, "eta_time": 12.946766718454098, "step": 1082 }, { "epoch": 0.11552, "grad_norm": 2.0057830289778513, "learning_rate": 9.809753407568427e-06, "loss": 0.5254, "step": 1083 }, { "avg_step_time": 5.618671277556756, "epoch": 0.11552, "eta_time": 12.941672842639063, "step": 1083 }, { "epoch": 0.11562666666666667, "grad_norm": 1.5481883091016813, "learning_rate": 9.809281133369399e-06, "loss": 0.5449, "step": 1084 }, { "avg_step_time": 5.618665059407552, "epoch": 0.11562666666666667, "eta_time": 12.940097779874447, "step": 1084 }, { "epoch": 0.11573333333333333, "grad_norm": 0.666250417912742, "learning_rate": 9.808808285099483e-06, "loss": 0.4308, "step": 1085 }, { "avg_step_time": 5.618160062366062, "epoch": 0.11573333333333333, "eta_time": 12.937374143615182, "step": 1085 }, { "epoch": 0.11584, "grad_norm": 2.0202989965524103, "learning_rate": 9.80833486281512e-06, "loss": 0.5501, "step": 1086 }, { "avg_step_time": 5.62040820747915, "epoch": 0.11584, "eta_time": 12.940989897720742, "step": 1086 }, { "epoch": 0.11594666666666667, "grad_norm": 1.5043198185906974, "learning_rate": 9.807860866572822e-06, "loss": 0.4525, "step": 1087 }, { "avg_step_time": 5.619901864215581, "epoch": 0.11594666666666667, "eta_time": 12.938262958505206, "step": 1087 }, { "epoch": 0.11605333333333333, "grad_norm": 2.309632077735684, "learning_rate": 9.807386296429168e-06, "loss": 0.5715, "step": 1088 }, { "avg_step_time": 5.6556917681838526, "epoch": 0.11605333333333333, "eta_time": 13.019088245260996, "step": 1088 }, { "epoch": 0.11616, "grad_norm": 1.635150410972152, "learning_rate": 9.80691115244081e-06, "loss": 0.4767, "step": 1089 }, { "avg_step_time": 5.6933179889062435, "epoch": 0.11616, "eta_time": 13.104120237799204, "step": 1089 }, { "epoch": 0.11626666666666667, "grad_norm": 1.792138991800945, "learning_rate": 9.806435434664461e-06, "loss": 0.4645, "step": 1090 }, { "avg_step_time": 5.687289062172476, "epoch": 0.11626666666666667, "eta_time": 13.088663855583047, "step": 1090 }, { "epoch": 0.11637333333333333, "grad_norm": 1.7470299707366626, "learning_rate": 9.805959143156905e-06, "loss": 0.5979, "step": 1091 }, { "avg_step_time": 5.68317950614775, "epoch": 0.11637333333333333, "eta_time": 13.077627508035546, "step": 1091 }, { "epoch": 0.11648, "grad_norm": 0.6686924547413186, "learning_rate": 9.805482277974999e-06, "loss": 0.4545, "step": 1092 }, { "avg_step_time": 5.684560303736215, "epoch": 0.11648, "eta_time": 13.079225832179741, "step": 1092 }, { "epoch": 0.11658666666666667, "grad_norm": 0.6259752319122469, "learning_rate": 9.805004839175664e-06, "loss": 0.4375, "step": 1093 }, { "avg_step_time": 5.649598832082266, "epoch": 0.11658666666666667, "eta_time": 12.997215979807036, "step": 1093 }, { "epoch": 0.11669333333333333, "grad_norm": 1.5001954298589122, "learning_rate": 9.80452682681589e-06, "loss": 0.5609, "step": 1094 }, { "avg_step_time": 5.640979220168759, "epoch": 0.11669333333333333, "eta_time": 12.975819145060415, "step": 1094 }, { "epoch": 0.1168, "grad_norm": 1.6101527607186623, "learning_rate": 9.804048240952736e-06, "loss": 0.5434, "step": 1095 }, { "avg_step_time": 5.643393278121948, "epoch": 0.1168, "eta_time": 12.979804539680481, "step": 1095 }, { "epoch": 0.11690666666666667, "grad_norm": 1.5707481322663337, "learning_rate": 9.80356908164333e-06, "loss": 0.5411, "step": 1096 }, { "avg_step_time": 5.644600345630838, "epoch": 0.11690666666666667, "eta_time": 12.981012850410476, "step": 1096 }, { "epoch": 0.11701333333333333, "grad_norm": 1.6285432367274026, "learning_rate": 9.803089348944868e-06, "loss": 0.4296, "step": 1097 }, { "avg_step_time": 5.646089402112094, "epoch": 0.11701333333333333, "eta_time": 12.98286890852331, "step": 1097 }, { "epoch": 0.11712, "grad_norm": 1.7827867625722966, "learning_rate": 9.802609042914614e-06, "loss": 0.5614, "step": 1098 }, { "avg_step_time": 5.683328467186051, "epoch": 0.11712, "eta_time": 13.06691936747193, "step": 1098 }, { "epoch": 0.11722666666666667, "grad_norm": 1.4496620105173617, "learning_rate": 9.802128163609901e-06, "loss": 0.4291, "step": 1099 }, { "avg_step_time": 5.686010637668648, "epoch": 0.11722666666666667, "eta_time": 13.07150667704048, "step": 1099 }, { "epoch": 0.11733333333333333, "grad_norm": 1.5260947662609208, "learning_rate": 9.80164671108813e-06, "loss": 0.4158, "step": 1100 }, { "avg_step_time": 5.709021300980539, "epoch": 0.11733333333333333, "eta_time": 13.122819796003878, "step": 1100 }, { "epoch": 0.11744, "grad_norm": 1.859728202221353, "learning_rate": 9.80116468540677e-06, "loss": 0.5763, "step": 1101 }, { "avg_step_time": 5.708683510019322, "epoch": 0.11744, "eta_time": 13.12045760052774, "step": 1101 }, { "epoch": 0.11754666666666666, "grad_norm": 1.5070780990647286, "learning_rate": 9.800682086623363e-06, "loss": 0.5066, "step": 1102 }, { "avg_step_time": 5.68996543836112, "epoch": 0.11754666666666666, "eta_time": 13.075856686544872, "step": 1102 }, { "epoch": 0.11765333333333333, "grad_norm": 1.647912492192484, "learning_rate": 9.80019891479551e-06, "loss": 0.536, "step": 1103 }, { "avg_step_time": 5.677094307812777, "epoch": 0.11765333333333333, "eta_time": 13.044701142840916, "step": 1103 }, { "epoch": 0.11776, "grad_norm": 1.6892796069617189, "learning_rate": 9.79971516998089e-06, "loss": 0.4472, "step": 1104 }, { "avg_step_time": 5.675390479540584, "epoch": 0.11776, "eta_time": 13.039209626744492, "step": 1104 }, { "epoch": 0.11786666666666666, "grad_norm": 1.8890924277983494, "learning_rate": 9.799230852237243e-06, "loss": 0.4817, "step": 1105 }, { "avg_step_time": 5.679929511715668, "epoch": 0.11786666666666666, "eta_time": 13.048060294969046, "step": 1105 }, { "epoch": 0.11797333333333333, "grad_norm": 1.597697477013097, "learning_rate": 9.798745961622383e-06, "loss": 0.5298, "step": 1106 }, { "avg_step_time": 5.676878543815228, "epoch": 0.11797333333333333, "eta_time": 13.039474633002254, "step": 1106 }, { "epoch": 0.11808, "grad_norm": 1.6783366791432435, "learning_rate": 9.79826049819419e-06, "loss": 0.5437, "step": 1107 }, { "avg_step_time": 5.6777483068331325, "epoch": 0.11808, "eta_time": 13.03989527802676, "step": 1107 }, { "epoch": 0.11818666666666666, "grad_norm": 1.8032466461636487, "learning_rate": 9.797774462010611e-06, "loss": 0.5045, "step": 1108 }, { "avg_step_time": 5.675816384228793, "epoch": 0.11818666666666666, "eta_time": 13.03388168011651, "step": 1108 }, { "epoch": 0.11829333333333333, "grad_norm": 1.5734546734431782, "learning_rate": 9.797287853129666e-06, "loss": 0.4782, "step": 1109 }, { "avg_step_time": 5.6772001873363145, "epoch": 0.11829333333333333, "eta_time": 13.035482430144992, "step": 1109 }, { "epoch": 0.1184, "grad_norm": 1.8004352332746238, "learning_rate": 9.796800671609436e-06, "loss": 0.5089, "step": 1110 }, { "avg_step_time": 5.676131366479276, "epoch": 0.1184, "eta_time": 13.031451595542006, "step": 1110 }, { "epoch": 0.11850666666666666, "grad_norm": 0.6547765914516338, "learning_rate": 9.796312917508078e-06, "loss": 0.4348, "step": 1111 }, { "avg_step_time": 5.645792065244732, "epoch": 0.11850666666666666, "eta_time": 12.96022934088402, "step": 1111 }, { "epoch": 0.11861333333333333, "grad_norm": 2.01152730470709, "learning_rate": 9.795824590883812e-06, "loss": 0.5142, "step": 1112 }, { "avg_step_time": 5.646065962435019, "epoch": 0.11861333333333333, "eta_time": 12.9592897354446, "step": 1112 }, { "epoch": 0.11872, "grad_norm": 1.6034433706310194, "learning_rate": 9.795335691794929e-06, "loss": 0.4527, "step": 1113 }, { "avg_step_time": 5.62856849516281, "epoch": 0.11872, "eta_time": 12.917564696398648, "step": 1113 }, { "epoch": 0.11882666666666666, "grad_norm": 1.7023576326869636, "learning_rate": 9.794846220299787e-06, "loss": 0.5283, "step": 1114 }, { "avg_step_time": 5.628899778982605, "epoch": 0.11882666666666666, "eta_time": 12.91676140949314, "step": 1114 }, { "epoch": 0.11893333333333334, "grad_norm": 1.711713885927092, "learning_rate": 9.794356176456813e-06, "loss": 0.5163, "step": 1115 }, { "avg_step_time": 5.632624919968422, "epoch": 0.11893333333333334, "eta_time": 12.92374495526088, "step": 1115 }, { "epoch": 0.11904, "grad_norm": 1.5139312612825553, "learning_rate": 9.793865560324503e-06, "loss": 0.4614, "step": 1116 }, { "avg_step_time": 5.648999650068958, "epoch": 0.11904, "eta_time": 12.959746697199868, "step": 1116 }, { "epoch": 0.11914666666666666, "grad_norm": 1.782770076987529, "learning_rate": 9.793374371961418e-06, "loss": 0.4718, "step": 1117 }, { "avg_step_time": 5.649273621915567, "epoch": 0.11914666666666666, "eta_time": 12.958805991605209, "step": 1117 }, { "epoch": 0.11925333333333334, "grad_norm": 1.6158477982884683, "learning_rate": 9.792882611426193e-06, "loss": 0.5414, "step": 1118 }, { "avg_step_time": 5.687845550402247, "epoch": 0.11925333333333334, "eta_time": 13.045705752686487, "step": 1118 }, { "epoch": 0.11936, "grad_norm": 1.7809734793198198, "learning_rate": 9.792390278777527e-06, "loss": 0.4824, "step": 1119 }, { "avg_step_time": 5.688734362823794, "epoch": 0.11936, "eta_time": 13.046164138742569, "step": 1119 }, { "epoch": 0.11946666666666667, "grad_norm": 1.6949140453871423, "learning_rate": 9.791897374074188e-06, "loss": 0.5838, "step": 1120 }, { "avg_step_time": 5.688211318218347, "epoch": 0.11946666666666667, "eta_time": 13.04338456441457, "step": 1120 }, { "epoch": 0.11957333333333334, "grad_norm": 1.7215824385701641, "learning_rate": 9.791403897375013e-06, "loss": 0.539, "step": 1121 }, { "avg_step_time": 5.6829075138978284, "epoch": 0.11957333333333334, "eta_time": 13.0296440610313, "step": 1121 }, { "epoch": 0.11968, "grad_norm": 1.8072843121624869, "learning_rate": 9.790909848738907e-06, "loss": 0.4566, "step": 1122 }, { "avg_step_time": 5.714787377251519, "epoch": 0.11968, "eta_time": 13.101150062349108, "step": 1122 }, { "epoch": 0.11978666666666667, "grad_norm": 1.542117495589797, "learning_rate": 9.790415228224843e-06, "loss": 0.427, "step": 1123 }, { "avg_step_time": 5.7156262205104635, "epoch": 0.11978666666666667, "eta_time": 13.101485436570096, "step": 1123 }, { "epoch": 0.11989333333333334, "grad_norm": 1.364311392848873, "learning_rate": 9.789920035891863e-06, "loss": 0.5108, "step": 1124 }, { "avg_step_time": 5.717193297665529, "epoch": 0.11989333333333334, "eta_time": 13.103489416399523, "step": 1124 }, { "epoch": 0.12, "grad_norm": 1.3491300538600228, "learning_rate": 9.789424271799075e-06, "loss": 0.468, "step": 1125 }, { "avg_step_time": 5.7143991956807145, "epoch": 0.12, "eta_time": 13.095498156768304, "step": 1125 }, { "epoch": 0.12010666666666667, "grad_norm": 1.7786230533581866, "learning_rate": 9.78892793600566e-06, "loss": 0.4972, "step": 1126 }, { "avg_step_time": 5.709086981686679, "epoch": 0.12010666666666667, "eta_time": 13.081738475537058, "step": 1126 }, { "epoch": 0.12021333333333334, "grad_norm": 1.9735213334926565, "learning_rate": 9.788431028570861e-06, "loss": 0.4774, "step": 1127 }, { "avg_step_time": 5.7065637063498444, "epoch": 0.12021333333333334, "eta_time": 13.074371513881532, "step": 1127 }, { "epoch": 0.12032, "grad_norm": 1.5454584010933385, "learning_rate": 9.787933549553996e-06, "loss": 0.455, "step": 1128 }, { "avg_step_time": 5.705796872726594, "epoch": 0.12032, "eta_time": 13.071029669271173, "step": 1128 }, { "epoch": 0.12042666666666667, "grad_norm": 1.5441099443677357, "learning_rate": 9.787435499014446e-06, "loss": 0.5053, "step": 1129 }, { "avg_step_time": 5.70418320039306, "epoch": 0.12042666666666667, "eta_time": 13.065748519566993, "step": 1129 }, { "epoch": 0.12053333333333334, "grad_norm": 0.662464865859712, "learning_rate": 9.786936877011662e-06, "loss": 0.4479, "step": 1130 }, { "avg_step_time": 5.667500481461033, "epoch": 0.12053333333333334, "eta_time": 12.98015040823506, "step": 1130 }, { "epoch": 0.12064, "grad_norm": 0.6494768620933932, "learning_rate": 9.786437683605161e-06, "loss": 0.4498, "step": 1131 }, { "avg_step_time": 5.635587408085062, "epoch": 0.12064, "eta_time": 12.905495164514791, "step": 1131 }, { "epoch": 0.12074666666666667, "grad_norm": 1.4840714888130275, "learning_rate": 9.785937918854536e-06, "loss": 0.4811, "step": 1132 }, { "avg_step_time": 5.626656243295381, "epoch": 0.12074666666666667, "eta_time": 12.883479837078841, "step": 1132 }, { "epoch": 0.12085333333333333, "grad_norm": 1.8340601724901322, "learning_rate": 9.785437582819436e-06, "loss": 0.5513, "step": 1133 }, { "avg_step_time": 5.6281501114970505, "epoch": 0.12085333333333333, "eta_time": 12.885337005266303, "step": 1133 }, { "epoch": 0.12096, "grad_norm": 1.6440949069384159, "learning_rate": 9.78493667555959e-06, "loss": 0.4565, "step": 1134 }, { "avg_step_time": 5.624867949822937, "epoch": 0.12096, "eta_time": 12.87626021513634, "step": 1134 }, { "epoch": 0.12106666666666667, "grad_norm": 1.7642280879745733, "learning_rate": 9.784435197134785e-06, "loss": 0.5171, "step": 1135 }, { "avg_step_time": 5.6248204491355205, "epoch": 0.12106666666666667, "eta_time": 12.874589028021301, "step": 1135 }, { "epoch": 0.12117333333333333, "grad_norm": 1.6966853703422389, "learning_rate": 9.783933147604885e-06, "loss": 0.5022, "step": 1136 }, { "avg_step_time": 5.61994481086731, "epoch": 0.12117333333333333, "eta_time": 12.861868137982157, "step": 1136 }, { "epoch": 0.12128, "grad_norm": 1.8575032311829265, "learning_rate": 9.783430527029818e-06, "loss": 0.5555, "step": 1137 }, { "avg_step_time": 5.617159429222647, "epoch": 0.12128, "eta_time": 12.853933160537823, "step": 1137 }, { "epoch": 0.12138666666666667, "grad_norm": 1.6085437338261959, "learning_rate": 9.782927335469579e-06, "loss": 0.4188, "step": 1138 }, { "avg_step_time": 5.621398220158587, "epoch": 0.12138666666666667, "eta_time": 12.862071427623965, "step": 1138 }, { "epoch": 0.12149333333333333, "grad_norm": 1.627059703496123, "learning_rate": 9.782423572984234e-06, "loss": 0.5077, "step": 1139 }, { "avg_step_time": 5.622138466497864, "epoch": 0.12149333333333333, "eta_time": 12.862203447243447, "step": 1139 }, { "epoch": 0.1216, "grad_norm": 1.6333412885684235, "learning_rate": 9.781919239633912e-06, "loss": 0.4753, "step": 1140 }, { "avg_step_time": 5.620106123914622, "epoch": 0.1216, "eta_time": 12.855992758454699, "step": 1140 }, { "epoch": 0.12170666666666667, "grad_norm": 1.8136528065327087, "learning_rate": 9.781414335478821e-06, "loss": 0.528, "step": 1141 }, { "avg_step_time": 5.62427961705911, "epoch": 0.12170666666666667, "eta_time": 12.863977324129086, "step": 1141 }, { "epoch": 0.12181333333333333, "grad_norm": 1.7197688539363474, "learning_rate": 9.780908860579223e-06, "loss": 0.5619, "step": 1142 }, { "avg_step_time": 5.625702684575861, "epoch": 0.12181333333333333, "eta_time": 12.865669500586963, "step": 1142 }, { "epoch": 0.12192, "grad_norm": 1.6613473523480389, "learning_rate": 9.780402814995458e-06, "loss": 0.4199, "step": 1143 }, { "avg_step_time": 5.615329024767635, "epoch": 0.12192, "eta_time": 12.840385703301992, "step": 1143 }, { "epoch": 0.12202666666666667, "grad_norm": 1.5955378006541459, "learning_rate": 9.779896198787933e-06, "loss": 0.4807, "step": 1144 }, { "avg_step_time": 5.611696038583313, "epoch": 0.12202666666666667, "eta_time": 12.830519470438679, "step": 1144 }, { "epoch": 0.12213333333333333, "grad_norm": 1.6015454637475537, "learning_rate": 9.77938901201712e-06, "loss": 0.5828, "step": 1145 }, { "avg_step_time": 5.605455263696536, "epoch": 0.12213333333333333, "eta_time": 12.814693561172913, "step": 1145 }, { "epoch": 0.12224, "grad_norm": 1.8822645185032174, "learning_rate": 9.77888125474356e-06, "loss": 0.5325, "step": 1146 }, { "avg_step_time": 5.610079319790156, "epoch": 0.12224, "eta_time": 12.823706311820331, "step": 1146 }, { "epoch": 0.12234666666666667, "grad_norm": 1.8587356002370088, "learning_rate": 9.778372927027861e-06, "loss": 0.5401, "step": 1147 }, { "avg_step_time": 5.6100958092044095, "epoch": 0.12234666666666667, "eta_time": 12.822185643926078, "step": 1147 }, { "epoch": 0.12245333333333333, "grad_norm": 1.818670318915816, "learning_rate": 9.777864028930705e-06, "loss": 0.5632, "step": 1148 }, { "avg_step_time": 5.6090941669965035, "epoch": 0.12245333333333333, "eta_time": 12.818338253300064, "step": 1148 }, { "epoch": 0.12256, "grad_norm": 0.6861963191267081, "learning_rate": 9.777354560512835e-06, "loss": 0.4596, "step": 1149 }, { "avg_step_time": 5.550898101594713, "epoch": 0.12256, "eta_time": 12.68380216214392, "step": 1149 }, { "epoch": 0.12266666666666666, "grad_norm": 1.6727586054828563, "learning_rate": 9.776844521835064e-06, "loss": 0.4646, "step": 1150 }, { "avg_step_time": 5.548070481329253, "epoch": 0.12266666666666666, "eta_time": 12.675799919148085, "step": 1150 }, { "epoch": 0.12277333333333333, "grad_norm": 1.776910358903093, "learning_rate": 9.776333912958276e-06, "loss": 0.5302, "step": 1151 }, { "avg_step_time": 5.5404754624222265, "epoch": 0.12277333333333333, "eta_time": 12.65690838971122, "step": 1151 }, { "epoch": 0.12288, "grad_norm": 1.5839825436775725, "learning_rate": 9.77582273394342e-06, "loss": 0.5091, "step": 1152 }, { "avg_step_time": 5.518672762495099, "epoch": 0.12288, "eta_time": 12.605568368332554, "step": 1152 }, { "epoch": 0.12298666666666666, "grad_norm": 0.6592880595090445, "learning_rate": 9.775310984851513e-06, "loss": 0.4306, "step": 1153 }, { "avg_step_time": 5.483288254400696, "epoch": 0.12298666666666666, "eta_time": 12.5232211188007, "step": 1153 }, { "epoch": 0.12309333333333333, "grad_norm": 1.4074195675926475, "learning_rate": 9.774798665743646e-06, "loss": 0.4389, "step": 1154 }, { "avg_step_time": 5.483396681872281, "epoch": 0.12309333333333333, "eta_time": 12.521945589353342, "step": 1154 }, { "epoch": 0.1232, "grad_norm": 1.8475828297616588, "learning_rate": 9.774285776680967e-06, "loss": 0.5454, "step": 1155 }, { "avg_step_time": 5.516972695938264, "epoch": 0.1232, "eta_time": 12.597087655725703, "step": 1155 }, { "epoch": 0.12330666666666666, "grad_norm": 1.496817537357747, "learning_rate": 9.7737723177247e-06, "loss": 0.4931, "step": 1156 }, { "avg_step_time": 5.545281581204347, "epoch": 0.12330666666666666, "eta_time": 12.66018592108848, "step": 1156 }, { "epoch": 0.12341333333333333, "grad_norm": 0.6526790032034165, "learning_rate": 9.773258288936139e-06, "loss": 0.4426, "step": 1157 }, { "avg_step_time": 5.5063028287405915, "epoch": 0.12341333333333333, "eta_time": 12.569665735163941, "step": 1157 }, { "epoch": 0.12352, "grad_norm": 1.543041108539479, "learning_rate": 9.772743690376636e-06, "loss": 0.4908, "step": 1158 }, { "avg_step_time": 5.511371133303402, "epoch": 0.12352, "eta_time": 12.579704611765013, "step": 1158 }, { "epoch": 0.12362666666666666, "grad_norm": 1.4739595374035033, "learning_rate": 9.77222852210762e-06, "loss": 0.5133, "step": 1159 }, { "avg_step_time": 5.520873508068046, "epoch": 0.12362666666666666, "eta_time": 12.599860206190852, "step": 1159 }, { "epoch": 0.12373333333333333, "grad_norm": 1.6278931152773426, "learning_rate": 9.771712784190588e-06, "loss": 0.4501, "step": 1160 }, { "avg_step_time": 5.518360417298596, "epoch": 0.12373333333333333, "eta_time": 12.592591896696657, "step": 1160 }, { "epoch": 0.12384, "grad_norm": 1.9113862580076046, "learning_rate": 9.7711964766871e-06, "loss": 0.5273, "step": 1161 }, { "avg_step_time": 5.516036758519182, "epoch": 0.12384, "eta_time": 12.585757204021267, "step": 1161 }, { "epoch": 0.12394666666666666, "grad_norm": 1.6971719779679049, "learning_rate": 9.770679599658786e-06, "loss": 0.4585, "step": 1162 }, { "avg_step_time": 5.514847562770651, "epoch": 0.12394666666666666, "eta_time": 12.581511953620932, "step": 1162 }, { "epoch": 0.12405333333333333, "grad_norm": 1.6671761546664223, "learning_rate": 9.770162153167343e-06, "loss": 0.5718, "step": 1163 }, { "avg_step_time": 5.5296300709849655, "epoch": 0.12405333333333333, "eta_time": 12.613700595257926, "step": 1163 }, { "epoch": 0.12416, "grad_norm": 1.6625211558364925, "learning_rate": 9.76964413727454e-06, "loss": 0.4395, "step": 1164 }, { "avg_step_time": 5.553350812256938, "epoch": 0.12416, "eta_time": 12.666267644289366, "step": 1164 }, { "epoch": 0.12426666666666666, "grad_norm": 1.4764361253370417, "learning_rate": 9.769125552042207e-06, "loss": 0.4985, "step": 1165 }, { "avg_step_time": 5.552039201813515, "epoch": 0.12426666666666666, "eta_time": 12.661733846358045, "step": 1165 }, { "epoch": 0.12437333333333334, "grad_norm": 1.6558881736694502, "learning_rate": 9.76860639753225e-06, "loss": 0.5012, "step": 1166 }, { "avg_step_time": 5.522766363741171, "epoch": 0.12437333333333334, "eta_time": 12.593441411097576, "step": 1166 }, { "epoch": 0.12448, "grad_norm": 1.7215022176639645, "learning_rate": 9.768086673806638e-06, "loss": 0.4938, "step": 1167 }, { "avg_step_time": 5.526534769270155, "epoch": 0.12448, "eta_time": 12.600499273935954, "step": 1167 }, { "epoch": 0.12458666666666667, "grad_norm": 1.831472294368178, "learning_rate": 9.76756638092741e-06, "loss": 0.5174, "step": 1168 }, { "avg_step_time": 5.523467379386979, "epoch": 0.12458666666666667, "eta_time": 12.591971328508038, "step": 1168 }, { "epoch": 0.12469333333333334, "grad_norm": 1.5966433482696865, "learning_rate": 9.767045518956671e-06, "loss": 0.5634, "step": 1169 }, { "avg_step_time": 5.522382986665976, "epoch": 0.12469333333333334, "eta_time": 12.587965219050277, "step": 1169 }, { "epoch": 0.1248, "grad_norm": 1.387203007440844, "learning_rate": 9.766524087956592e-06, "loss": 0.45, "step": 1170 }, { "avg_step_time": 5.507841293257896, "epoch": 0.1248, "eta_time": 12.553288280883622, "step": 1170 }, { "epoch": 0.12490666666666667, "grad_norm": 1.5060734176843438, "learning_rate": 9.76600208798942e-06, "loss": 0.5368, "step": 1171 }, { "avg_step_time": 5.510304477479723, "epoch": 0.12490666666666667, "eta_time": 12.557371648123237, "step": 1171 }, { "epoch": 0.12501333333333334, "grad_norm": 1.7079113630271012, "learning_rate": 9.765479519117461e-06, "loss": 0.5343, "step": 1172 }, { "avg_step_time": 5.50895802661626, "epoch": 0.12501333333333334, "eta_time": 12.55277297009255, "step": 1172 }, { "epoch": 0.12512, "grad_norm": 1.6089952985125477, "learning_rate": 9.764956381403095e-06, "loss": 0.4815, "step": 1173 }, { "avg_step_time": 5.50553475004254, "epoch": 0.12512, "eta_time": 12.54344333884692, "step": 1173 }, { "epoch": 0.12522666666666665, "grad_norm": 1.5575360577269977, "learning_rate": 9.764432674908766e-06, "loss": 0.4934, "step": 1174 }, { "avg_step_time": 5.550612353315257, "epoch": 0.12522666666666665, "eta_time": 12.644603308205118, "step": 1174 }, { "epoch": 0.12533333333333332, "grad_norm": 1.494738415760422, "learning_rate": 9.763908399696986e-06, "loss": 0.4982, "step": 1175 }, { "avg_step_time": 5.5506431767434785, "epoch": 0.12533333333333332, "eta_time": 12.643131680360145, "step": 1175 }, { "epoch": 0.12544, "grad_norm": 1.502401101250434, "learning_rate": 9.76338355583034e-06, "loss": 0.5127, "step": 1176 }, { "avg_step_time": 5.549680391947429, "epoch": 0.12544, "eta_time": 12.639397092660268, "step": 1176 }, { "epoch": 0.12554666666666667, "grad_norm": 0.6984311942693409, "learning_rate": 9.762858143371476e-06, "loss": 0.4661, "step": 1177 }, { "avg_step_time": 5.512227292012686, "epoch": 0.12554666666666667, "eta_time": 12.55256648331111, "step": 1177 }, { "epoch": 0.12565333333333334, "grad_norm": 1.6557172980674546, "learning_rate": 9.76233216238311e-06, "loss": 0.5761, "step": 1178 }, { "avg_step_time": 5.546423815717601, "epoch": 0.12565333333333334, "eta_time": 12.628898893732549, "step": 1178 }, { "epoch": 0.12576, "grad_norm": 1.3920877934094875, "learning_rate": 9.761805612928025e-06, "loss": 0.4513, "step": 1179 }, { "avg_step_time": 5.562927749421862, "epoch": 0.12576, "eta_time": 12.664932176183772, "step": 1179 }, { "epoch": 0.12586666666666665, "grad_norm": 1.397369693959446, "learning_rate": 9.76127849506908e-06, "loss": 0.4464, "step": 1180 }, { "avg_step_time": 5.571950019007981, "epoch": 0.12586666666666665, "eta_time": 12.683925112714, "step": 1180 }, { "epoch": 0.12597333333333333, "grad_norm": 1.5240427124740907, "learning_rate": 9.760750808869188e-06, "loss": 0.5369, "step": 1181 }, { "avg_step_time": 5.583431017519247, "epoch": 0.12597333333333333, "eta_time": 12.708509377097975, "step": 1181 }, { "epoch": 0.12608, "grad_norm": 1.592596210055865, "learning_rate": 9.760222554391343e-06, "loss": 0.4808, "step": 1182 }, { "avg_step_time": 5.57877581528943, "epoch": 0.12608, "eta_time": 12.696363959629528, "step": 1182 }, { "epoch": 0.12618666666666667, "grad_norm": 1.61919994972328, "learning_rate": 9.7596937316986e-06, "loss": 0.466, "step": 1183 }, { "avg_step_time": 5.577597622919565, "epoch": 0.12618666666666667, "eta_time": 12.692133257488075, "step": 1183 }, { "epoch": 0.12629333333333334, "grad_norm": 1.6068138885423129, "learning_rate": 9.759164340854082e-06, "loss": 0.5021, "step": 1184 }, { "avg_step_time": 5.614916909824718, "epoch": 0.12629333333333334, "eta_time": 12.77549566899285, "step": 1184 }, { "epoch": 0.1264, "grad_norm": 1.7301067111944501, "learning_rate": 9.758634381920982e-06, "loss": 0.5223, "step": 1185 }, { "avg_step_time": 5.613413136414807, "epoch": 0.1264, "eta_time": 12.770514885343685, "step": 1185 }, { "epoch": 0.12650666666666666, "grad_norm": 1.6100779061617456, "learning_rate": 9.75810385496256e-06, "loss": 0.4844, "step": 1186 }, { "avg_step_time": 5.6139332357079095, "epoch": 0.12650666666666666, "eta_time": 12.770138685336686, "step": 1186 }, { "epoch": 0.12661333333333333, "grad_norm": 1.5530798773575276, "learning_rate": 9.757572760042141e-06, "loss": 0.4721, "step": 1187 }, { "avg_step_time": 5.610926228340226, "epoch": 0.12661333333333333, "eta_time": 12.761739988236046, "step": 1187 }, { "epoch": 0.12672, "grad_norm": 1.6056870413109248, "learning_rate": 9.757041097223123e-06, "loss": 0.5541, "step": 1188 }, { "avg_step_time": 5.597366072914817, "epoch": 0.12672, "eta_time": 12.729343344153781, "step": 1188 }, { "epoch": 0.12682666666666667, "grad_norm": 1.7484531187370318, "learning_rate": 9.75650886656897e-06, "loss": 0.5623, "step": 1189 }, { "avg_step_time": 5.597618110252149, "epoch": 0.12682666666666667, "eta_time": 12.728361625145581, "step": 1189 }, { "epoch": 0.12693333333333334, "grad_norm": 1.6791483312087225, "learning_rate": 9.75597606814321e-06, "loss": 0.4209, "step": 1190 }, { "avg_step_time": 5.621403593005556, "epoch": 0.12693333333333334, "eta_time": 12.780885669097353, "step": 1190 }, { "epoch": 0.12704, "grad_norm": 1.6563322052244507, "learning_rate": 9.755442702009443e-06, "loss": 0.5028, "step": 1191 }, { "avg_step_time": 5.660704824659559, "epoch": 0.12704, "eta_time": 12.868668968059398, "step": 1191 }, { "epoch": 0.12714666666666666, "grad_norm": 1.5798385733693618, "learning_rate": 9.754908768231337e-06, "loss": 0.5612, "step": 1192 }, { "avg_step_time": 5.696282579441263, "epoch": 0.12714666666666666, "eta_time": 12.947966763213293, "step": 1192 }, { "epoch": 0.12725333333333333, "grad_norm": 1.766663986063016, "learning_rate": 9.754374266872624e-06, "loss": 0.507, "step": 1193 }, { "avg_step_time": 5.6932648287879095, "epoch": 0.12725333333333333, "eta_time": 12.939525785872965, "step": 1193 }, { "epoch": 0.12736, "grad_norm": 1.6822910582337174, "learning_rate": 9.753839197997105e-06, "loss": 0.4392, "step": 1194 }, { "avg_step_time": 5.688596446104724, "epoch": 0.12736, "eta_time": 12.927335423772986, "step": 1194 }, { "epoch": 0.12746666666666667, "grad_norm": 1.796019933415855, "learning_rate": 9.753303561668654e-06, "loss": 0.5932, "step": 1195 }, { "avg_step_time": 5.685641544033783, "epoch": 0.12746666666666667, "eta_time": 12.919041063943428, "step": 1195 }, { "epoch": 0.12757333333333334, "grad_norm": 1.9461852337525434, "learning_rate": 9.752767357951206e-06, "loss": 0.5733, "step": 1196 }, { "avg_step_time": 5.689273550052835, "epoch": 0.12757333333333334, "eta_time": 12.925713434967262, "step": 1196 }, { "epoch": 0.12768, "grad_norm": 1.6961855577069342, "learning_rate": 9.752230586908767e-06, "loss": 0.5291, "step": 1197 }, { "avg_step_time": 5.684500643701265, "epoch": 0.12768, "eta_time": 12.913290628941374, "step": 1197 }, { "epoch": 0.12778666666666666, "grad_norm": 1.8123553719553882, "learning_rate": 9.751693248605406e-06, "loss": 0.4891, "step": 1198 }, { "avg_step_time": 5.746897545727816, "epoch": 0.12778666666666666, "eta_time": 13.053439230948987, "step": 1198 }, { "epoch": 0.12789333333333333, "grad_norm": 1.4662482186993855, "learning_rate": 9.751155343105269e-06, "loss": 0.468, "step": 1199 }, { "avg_step_time": 5.7474515991981585, "epoch": 0.12789333333333333, "eta_time": 13.053101187512263, "step": 1199 }, { "epoch": 0.128, "grad_norm": 1.9109822641733842, "learning_rate": 9.75061687047256e-06, "loss": 0.6018, "step": 1200 }, { "avg_step_time": 5.746716518594761, "epoch": 0.128, "eta_time": 13.04983542764227, "step": 1200 }, { "epoch": 0.12810666666666667, "grad_norm": 2.2715242701752305, "learning_rate": 9.75007783077156e-06, "loss": 0.493, "step": 1201 }, { "avg_step_time": 5.758377677262431, "epoch": 0.12810666666666667, "eta_time": 13.074716426095309, "step": 1201 }, { "epoch": 0.12821333333333335, "grad_norm": 1.765631206902759, "learning_rate": 9.749538224066607e-06, "loss": 0.5594, "step": 1202 }, { "avg_step_time": 5.760358222807296, "epoch": 0.12821333333333335, "eta_time": 13.077613265278897, "step": 1202 }, { "epoch": 0.12832, "grad_norm": 1.4949602819168237, "learning_rate": 9.748998050422117e-06, "loss": 0.5658, "step": 1203 }, { "avg_step_time": 5.781032636912182, "epoch": 0.12832, "eta_time": 13.122944085790653, "step": 1203 }, { "epoch": 0.12842666666666666, "grad_norm": 0.6140554035655409, "learning_rate": 9.748457309902566e-06, "loss": 0.4551, "step": 1204 }, { "avg_step_time": 5.742194633291225, "epoch": 0.12842666666666666, "eta_time": 13.033186763506277, "step": 1204 }, { "epoch": 0.12853333333333333, "grad_norm": 1.6496783068738152, "learning_rate": 9.747916002572502e-06, "loss": 0.5997, "step": 1205 }, { "avg_step_time": 5.747893759698579, "epoch": 0.12853333333333333, "eta_time": 13.04452556020483, "step": 1205 }, { "epoch": 0.12864, "grad_norm": 1.6952497830231756, "learning_rate": 9.747374128496541e-06, "loss": 0.5921, "step": 1206 }, { "avg_step_time": 5.752992750418307, "epoch": 0.12864, "eta_time": 13.05449938282421, "step": 1206 }, { "epoch": 0.12874666666666668, "grad_norm": 0.6553778849715646, "learning_rate": 9.746831687739361e-06, "loss": 0.4461, "step": 1207 }, { "avg_step_time": 5.718260632620917, "epoch": 0.12874666666666668, "eta_time": 12.97409801312435, "step": 1207 }, { "epoch": 0.12885333333333332, "grad_norm": 0.6268931152441947, "learning_rate": 9.746288680365716e-06, "loss": 0.4132, "step": 1208 }, { "avg_step_time": 5.6875692714344375, "epoch": 0.12885333333333332, "eta_time": 12.902882844390293, "step": 1208 }, { "epoch": 0.12896, "grad_norm": 1.5720458527777998, "learning_rate": 9.745745106440422e-06, "loss": 0.4802, "step": 1209 }, { "avg_step_time": 5.6855974847620185, "epoch": 0.12896, "eta_time": 12.896830294601845, "step": 1209 }, { "epoch": 0.12906666666666666, "grad_norm": 1.6421255700560176, "learning_rate": 9.745200966028362e-06, "loss": 0.4991, "step": 1210 }, { "avg_step_time": 5.734714267229793, "epoch": 0.12906666666666666, "eta_time": 13.00665055331424, "step": 1210 }, { "epoch": 0.12917333333333333, "grad_norm": 1.6144816731887124, "learning_rate": 9.74465625919449e-06, "loss": 0.4541, "step": 1211 }, { "avg_step_time": 5.748479797382547, "epoch": 0.12917333333333333, "eta_time": 13.036274740508643, "step": 1211 }, { "epoch": 0.12928, "grad_norm": 2.070483286461966, "learning_rate": 9.744110986003826e-06, "loss": 0.5047, "step": 1212 }, { "avg_step_time": 5.747301881963557, "epoch": 0.12928, "eta_time": 13.032007017352365, "step": 1212 }, { "epoch": 0.12938666666666668, "grad_norm": 1.701541498292213, "learning_rate": 9.743565146521459e-06, "loss": 0.4188, "step": 1213 }, { "avg_step_time": 5.745067858936811, "epoch": 0.12938666666666668, "eta_time": 13.02534551795618, "step": 1213 }, { "epoch": 0.12949333333333332, "grad_norm": 1.6796039399331353, "learning_rate": 9.743018740812541e-06, "loss": 0.5386, "step": 1214 }, { "avg_step_time": 5.739493931182707, "epoch": 0.12949333333333332, "eta_time": 13.011113881217243, "step": 1214 }, { "epoch": 0.1296, "grad_norm": 1.5420203108685928, "learning_rate": 9.742471768942299e-06, "loss": 0.5523, "step": 1215 }, { "avg_step_time": 5.766062266898878, "epoch": 0.1296, "eta_time": 13.069741138304124, "step": 1215 }, { "epoch": 0.12970666666666666, "grad_norm": 1.6119123355208695, "learning_rate": 9.741924230976023e-06, "loss": 0.5508, "step": 1216 }, { "avg_step_time": 5.767933676941226, "epoch": 0.12970666666666666, "eta_time": 13.072380797267629, "step": 1216 }, { "epoch": 0.12981333333333334, "grad_norm": 1.5801622982727268, "learning_rate": 9.741376126979069e-06, "loss": 0.4737, "step": 1217 }, { "avg_step_time": 5.76346590783861, "epoch": 0.12981333333333334, "eta_time": 13.060654132263162, "step": 1217 }, { "epoch": 0.12992, "grad_norm": 1.6607179806563799, "learning_rate": 9.740827457016863e-06, "loss": 0.4477, "step": 1218 }, { "avg_step_time": 5.763110001881917, "epoch": 0.12992, "eta_time": 13.058246745930777, "step": 1218 }, { "epoch": 0.13002666666666668, "grad_norm": 1.8165558957750763, "learning_rate": 9.740278221154899e-06, "loss": 0.4444, "step": 1219 }, { "avg_step_time": 5.7654594195009485, "epoch": 0.13002666666666668, "eta_time": 13.061968618180481, "step": 1219 }, { "epoch": 0.13013333333333332, "grad_norm": 1.4053906233561806, "learning_rate": 9.739728419458738e-06, "loss": 0.553, "step": 1220 }, { "avg_step_time": 5.764851025860719, "epoch": 0.13013333333333332, "eta_time": 13.058988921081713, "step": 1220 }, { "epoch": 0.13024, "grad_norm": 1.5908842818824023, "learning_rate": 9.739178051994008e-06, "loss": 0.5358, "step": 1221 }, { "avg_step_time": 5.795624566800667, "epoch": 0.13024, "eta_time": 13.127089643803512, "step": 1221 }, { "epoch": 0.13034666666666667, "grad_norm": 1.8195702760357952, "learning_rate": 9.738627118826404e-06, "loss": 0.524, "step": 1222 }, { "avg_step_time": 5.794035018092454, "epoch": 0.13034666666666667, "eta_time": 13.121879861807717, "step": 1222 }, { "epoch": 0.13045333333333334, "grad_norm": 1.4949314220677719, "learning_rate": 9.738075620021691e-06, "loss": 0.4485, "step": 1223 }, { "avg_step_time": 5.816848598345362, "epoch": 0.13045333333333334, "eta_time": 13.171930492697609, "step": 1223 }, { "epoch": 0.13056, "grad_norm": 1.4577505522097767, "learning_rate": 9.7375235556457e-06, "loss": 0.4598, "step": 1224 }, { "avg_step_time": 5.816945523926706, "epoch": 0.13056, "eta_time": 13.170534157090717, "step": 1224 }, { "epoch": 0.13066666666666665, "grad_norm": 1.8495567839591112, "learning_rate": 9.736970925764326e-06, "loss": 0.4771, "step": 1225 }, { "avg_step_time": 5.816289056431163, "epoch": 0.13066666666666665, "eta_time": 13.16743216942055, "step": 1225 }, { "epoch": 0.13077333333333332, "grad_norm": 1.527396239763545, "learning_rate": 9.73641773044354e-06, "loss": 0.398, "step": 1226 }, { "avg_step_time": 5.814747388916786, "epoch": 0.13077333333333332, "eta_time": 13.162326797856359, "step": 1226 }, { "epoch": 0.13088, "grad_norm": 1.8719802678190212, "learning_rate": 9.735863969749373e-06, "loss": 0.5091, "step": 1227 }, { "avg_step_time": 5.816053823991255, "epoch": 0.13088, "eta_time": 13.163668488300207, "step": 1227 }, { "epoch": 0.13098666666666667, "grad_norm": 1.96410758926065, "learning_rate": 9.735309643747926e-06, "loss": 0.5376, "step": 1228 }, { "avg_step_time": 5.824993251550077, "epoch": 0.13098666666666667, "eta_time": 13.18228333899402, "step": 1228 }, { "epoch": 0.13109333333333334, "grad_norm": 1.3904137325331933, "learning_rate": 9.734754752505366e-06, "loss": 0.4973, "step": 1229 }, { "avg_step_time": 5.862210333949387, "epoch": 0.13109333333333334, "eta_time": 13.26487927231992, "step": 1229 }, { "epoch": 0.1312, "grad_norm": 2.5737201057328307, "learning_rate": 9.734199296087932e-06, "loss": 0.423, "step": 1230 }, { "avg_step_time": 5.893453200658162, "epoch": 0.1312, "eta_time": 13.333937866489093, "step": 1230 }, { "epoch": 0.13130666666666665, "grad_norm": 0.6610359931508257, "learning_rate": 9.733643274561924e-06, "loss": 0.4363, "step": 1231 }, { "avg_step_time": 5.862312637194239, "epoch": 0.13130666666666665, "eta_time": 13.261853921474966, "step": 1231 }, { "epoch": 0.13141333333333333, "grad_norm": 1.739333873314091, "learning_rate": 9.733086687993714e-06, "loss": 0.5277, "step": 1232 }, { "avg_step_time": 5.865890281368988, "epoch": 0.13141333333333333, "eta_time": 13.26831793366324, "step": 1232 }, { "epoch": 0.13152, "grad_norm": 1.8549016021671978, "learning_rate": 9.732529536449741e-06, "loss": 0.6014, "step": 1233 }, { "avg_step_time": 5.868747879760434, "epoch": 0.13152, "eta_time": 13.273151454724848, "step": 1233 }, { "epoch": 0.13162666666666667, "grad_norm": 1.4315787094229997, "learning_rate": 9.731971819996513e-06, "loss": 0.4778, "step": 1234 }, { "avg_step_time": 5.875544644365407, "epoch": 0.13162666666666667, "eta_time": 13.28689137493855, "step": 1234 }, { "epoch": 0.13173333333333334, "grad_norm": 1.7460218574358004, "learning_rate": 9.731413538700597e-06, "loss": 0.4675, "step": 1235 }, { "avg_step_time": 5.87791534144469, "epoch": 0.13173333333333334, "eta_time": 13.290619688711049, "step": 1235 }, { "epoch": 0.13184, "grad_norm": 1.808243047382617, "learning_rate": 9.730854692628637e-06, "loss": 0.5597, "step": 1236 }, { "avg_step_time": 5.883317220090616, "epoch": 0.13184, "eta_time": 13.301199681754866, "step": 1236 }, { "epoch": 0.13194666666666666, "grad_norm": 1.6394489859936612, "learning_rate": 9.730295281847342e-06, "loss": 0.4965, "step": 1237 }, { "avg_step_time": 5.878268290047694, "epoch": 0.13194666666666666, "eta_time": 13.28815204011337, "step": 1237 }, { "epoch": 0.13205333333333333, "grad_norm": 1.901846249126985, "learning_rate": 9.729735306423486e-06, "loss": 0.494, "step": 1238 }, { "avg_step_time": 5.8758275171723024, "epoch": 0.13205333333333333, "eta_time": 13.281002363119729, "step": 1238 }, { "epoch": 0.13216, "grad_norm": 1.5090401481942712, "learning_rate": 9.729174766423912e-06, "loss": 0.5217, "step": 1239 }, { "avg_step_time": 5.873029022505789, "epoch": 0.13216, "eta_time": 13.273045590863084, "step": 1239 }, { "epoch": 0.13226666666666667, "grad_norm": 1.5284914113639476, "learning_rate": 9.72861366191553e-06, "loss": 0.5015, "step": 1240 }, { "avg_step_time": 5.909819431979247, "epoch": 0.13226666666666667, "eta_time": 13.354550299764215, "step": 1240 }, { "epoch": 0.13237333333333334, "grad_norm": 0.6755177913113076, "learning_rate": 9.728051992965316e-06, "loss": 0.4478, "step": 1241 }, { "avg_step_time": 5.878236760996809, "epoch": 0.13237333333333334, "eta_time": 13.281549392763345, "step": 1241 }, { "epoch": 0.13248, "grad_norm": 1.5020708879408078, "learning_rate": 9.72748975964032e-06, "loss": 0.517, "step": 1242 }, { "avg_step_time": 5.879329170843567, "epoch": 0.13248, "eta_time": 13.282384485130759, "step": 1242 }, { "epoch": 0.13258666666666666, "grad_norm": 1.7079714321175707, "learning_rate": 9.726926962007647e-06, "loss": 0.4512, "step": 1243 }, { "avg_step_time": 5.873377002850927, "epoch": 0.13258666666666666, "eta_time": 13.267306051995483, "step": 1243 }, { "epoch": 0.13269333333333333, "grad_norm": 1.6504730761676674, "learning_rate": 9.726363600134482e-06, "loss": 0.5235, "step": 1244 }, { "avg_step_time": 5.872675864383428, "epoch": 0.13269333333333333, "eta_time": 13.26409095925046, "step": 1244 }, { "epoch": 0.1328, "grad_norm": 0.6279543829055179, "learning_rate": 9.725799674088072e-06, "loss": 0.4384, "step": 1245 }, { "avg_step_time": 5.83429746675973, "epoch": 0.1328, "eta_time": 13.175788445765724, "step": 1245 }, { "epoch": 0.13290666666666667, "grad_norm": 1.527862746877716, "learning_rate": 9.725235183935729e-06, "loss": 0.4975, "step": 1246 }, { "avg_step_time": 5.8311259987378365, "epoch": 0.13290666666666667, "eta_time": 13.16700645659441, "step": 1246 }, { "epoch": 0.13301333333333334, "grad_norm": 1.842418061302128, "learning_rate": 9.724670129744834e-06, "loss": 0.513, "step": 1247 }, { "avg_step_time": 5.831268493575279, "epoch": 0.13301333333333334, "eta_time": 13.165708421049963, "step": 1247 }, { "epoch": 0.13312, "grad_norm": 1.4364460752938657, "learning_rate": 9.724104511582838e-06, "loss": 0.5566, "step": 1248 }, { "avg_step_time": 5.865423797356962, "epoch": 0.13312, "eta_time": 13.241194222533341, "step": 1248 }, { "epoch": 0.13322666666666666, "grad_norm": 1.6252782121337548, "learning_rate": 9.723538329517257e-06, "loss": 0.5358, "step": 1249 }, { "avg_step_time": 5.866503898543541, "epoch": 0.13322666666666666, "eta_time": 13.242002966545781, "step": 1249 }, { "epoch": 0.13333333333333333, "grad_norm": 1.5735654376458512, "learning_rate": 9.722971583615674e-06, "loss": 0.5314, "step": 1250 }, { "avg_step_time": 5.871867439963601, "epoch": 0.13333333333333333, "eta_time": 13.25247859714007, "step": 1250 }, { "epoch": 0.13344, "grad_norm": 1.6871353413738004, "learning_rate": 9.72240427394574e-06, "loss": 0.5591, "step": 1251 }, { "avg_step_time": 5.874796050967592, "epoch": 0.13344, "eta_time": 13.257456421683532, "step": 1251 }, { "epoch": 0.13354666666666667, "grad_norm": 1.6894131789683404, "learning_rate": 9.721836400575173e-06, "loss": 0.4924, "step": 1252 }, { "avg_step_time": 5.913344532552392, "epoch": 0.13354666666666667, "eta_time": 13.342804899423077, "step": 1252 }, { "epoch": 0.13365333333333335, "grad_norm": 1.6839650869557683, "learning_rate": 9.72126796357176e-06, "loss": 0.4838, "step": 1253 }, { "avg_step_time": 5.921252262712729, "epoch": 0.13365333333333335, "eta_time": 13.359003021597996, "step": 1253 }, { "epoch": 0.13376, "grad_norm": 1.7050198016590097, "learning_rate": 9.720698963003351e-06, "loss": 0.4442, "step": 1254 }, { "avg_step_time": 5.918940621193009, "epoch": 0.13376, "eta_time": 13.352143551307897, "step": 1254 }, { "epoch": 0.13386666666666666, "grad_norm": 1.7180563797945192, "learning_rate": 9.720129398937871e-06, "loss": 0.5353, "step": 1255 }, { "avg_step_time": 5.896394618833908, "epoch": 0.13386666666666666, "eta_time": 13.299645640258703, "step": 1255 }, { "epoch": 0.13397333333333333, "grad_norm": 1.5038828399792485, "learning_rate": 9.719559271443303e-06, "loss": 0.4659, "step": 1256 }, { "avg_step_time": 5.934005308632899, "epoch": 0.13397333333333333, "eta_time": 13.38283030577514, "step": 1256 }, { "epoch": 0.13408, "grad_norm": 1.464344137760175, "learning_rate": 9.7189885805877e-06, "loss": 0.529, "step": 1257 }, { "avg_step_time": 5.929453991880321, "epoch": 0.13408, "eta_time": 13.370918751690123, "step": 1257 }, { "epoch": 0.13418666666666668, "grad_norm": 1.5862945203156122, "learning_rate": 9.71841732643919e-06, "loss": 0.4951, "step": 1258 }, { "avg_step_time": 5.9064215578214085, "epoch": 0.13418666666666668, "eta_time": 13.317339940232324, "step": 1258 }, { "epoch": 0.13429333333333332, "grad_norm": 1.5015012736977449, "learning_rate": 9.717845509065958e-06, "loss": 0.4299, "step": 1259 }, { "avg_step_time": 5.905756061727351, "epoch": 0.13429333333333332, "eta_time": 13.314198943605328, "step": 1259 }, { "epoch": 0.1344, "grad_norm": 1.7422853004835253, "learning_rate": 9.717273128536259e-06, "loss": 0.6328, "step": 1260 }, { "avg_step_time": 5.906869507799245, "epoch": 0.1344, "eta_time": 13.315068348830797, "step": 1260 }, { "epoch": 0.13450666666666666, "grad_norm": 1.5282132196564793, "learning_rate": 9.716700184918419e-06, "loss": 0.5775, "step": 1261 }, { "avg_step_time": 5.904685369645707, "epoch": 0.13450666666666666, "eta_time": 13.30850474702924, "step": 1261 }, { "epoch": 0.13461333333333333, "grad_norm": 2.477010380613809, "learning_rate": 9.716126678280829e-06, "loss": 0.5771, "step": 1262 }, { "avg_step_time": 5.887157432960741, "epoch": 0.13461333333333333, "eta_time": 13.267363403780694, "step": 1262 }, { "epoch": 0.13472, "grad_norm": 1.7387408542754605, "learning_rate": 9.715552608691944e-06, "loss": 0.5331, "step": 1263 }, { "avg_step_time": 5.860818588372433, "epoch": 0.13472, "eta_time": 13.206377885799215, "step": 1263 }, { "epoch": 0.13482666666666668, "grad_norm": 2.022921865295834, "learning_rate": 9.714977976220295e-06, "loss": 0.5343, "step": 1264 }, { "avg_step_time": 5.861387960838549, "epoch": 0.13482666666666668, "eta_time": 13.206032708433742, "step": 1264 }, { "epoch": 0.13493333333333332, "grad_norm": 1.7152569510044715, "learning_rate": 9.714402780934467e-06, "loss": 0.4658, "step": 1265 }, { "avg_step_time": 5.865076857383805, "epoch": 0.13493333333333332, "eta_time": 13.212714809272962, "step": 1265 }, { "epoch": 0.13504, "grad_norm": 0.666559693358871, "learning_rate": 9.713827022903124e-06, "loss": 0.4346, "step": 1266 }, { "avg_step_time": 5.833093501100636, "epoch": 0.13504, "eta_time": 13.139043111229185, "step": 1266 }, { "epoch": 0.13514666666666666, "grad_norm": 1.7329004740231788, "learning_rate": 9.713250702194993e-06, "loss": 0.5403, "step": 1267 }, { "avg_step_time": 5.831206800961735, "epoch": 0.13514666666666666, "eta_time": 13.133173539499374, "step": 1267 }, { "epoch": 0.13525333333333334, "grad_norm": 1.7403372488532105, "learning_rate": 9.712673818878867e-06, "loss": 0.4986, "step": 1268 }, { "avg_step_time": 5.838140624942201, "epoch": 0.13525333333333334, "eta_time": 13.147168346224007, "step": 1268 }, { "epoch": 0.13536, "grad_norm": 1.6292010225096527, "learning_rate": 9.712096373023603e-06, "loss": 0.5231, "step": 1269 }, { "avg_step_time": 5.839409770387592, "epoch": 0.13536, "eta_time": 13.148404332989394, "step": 1269 }, { "epoch": 0.13546666666666668, "grad_norm": 1.7619449324395415, "learning_rate": 9.711518364698136e-06, "loss": 0.5175, "step": 1270 }, { "avg_step_time": 5.836215115556813, "epoch": 0.13546666666666668, "eta_time": 13.139589864329992, "step": 1270 }, { "epoch": 0.13557333333333332, "grad_norm": 1.5225831034133768, "learning_rate": 9.710939793971456e-06, "loss": 0.4654, "step": 1271 }, { "avg_step_time": 5.8364694214830495, "epoch": 0.13557333333333332, "eta_time": 13.138541164360733, "step": 1271 }, { "epoch": 0.13568, "grad_norm": 1.603222936604911, "learning_rate": 9.710360660912629e-06, "loss": 0.5119, "step": 1272 }, { "avg_step_time": 5.837749262048741, "epoch": 0.13568, "eta_time": 13.139800630661373, "step": 1272 }, { "epoch": 0.13578666666666667, "grad_norm": 1.6508753312683129, "learning_rate": 9.709780965590782e-06, "loss": 0.5722, "step": 1273 }, { "avg_step_time": 5.826322760244812, "epoch": 0.13578666666666667, "eta_time": 13.11246305652874, "step": 1273 }, { "epoch": 0.13589333333333334, "grad_norm": 1.4662932263312605, "learning_rate": 9.709200708075114e-06, "loss": 0.4588, "step": 1274 }, { "avg_step_time": 5.8307405312856035, "epoch": 0.13589333333333334, "eta_time": 13.120785845540187, "step": 1274 }, { "epoch": 0.136, "grad_norm": 1.8130298608159519, "learning_rate": 9.708619888434887e-06, "loss": 0.5951, "step": 1275 }, { "avg_step_time": 5.831858618090851, "epoch": 0.136, "eta_time": 13.121681890704414, "step": 1275 }, { "epoch": 0.13610666666666665, "grad_norm": 1.7036844619170752, "learning_rate": 9.70803850673943e-06, "loss": 0.465, "step": 1276 }, { "avg_step_time": 5.890001441493179, "epoch": 0.13610666666666665, "eta_time": 13.250867131848125, "step": 1276 }, { "epoch": 0.13621333333333333, "grad_norm": 1.7960984250840397, "learning_rate": 9.707456563058146e-06, "loss": 0.4986, "step": 1277 }, { "avg_step_time": 5.887119729109485, "epoch": 0.13621333333333333, "eta_time": 13.242748768424613, "step": 1277 }, { "epoch": 0.13632, "grad_norm": 1.8350706097564529, "learning_rate": 9.706874057460497e-06, "loss": 0.5355, "step": 1278 }, { "avg_step_time": 5.870090104112721, "epoch": 0.13632, "eta_time": 13.202810992500195, "step": 1278 }, { "epoch": 0.13642666666666667, "grad_norm": 1.775407020967931, "learning_rate": 9.706290990016013e-06, "loss": 0.5068, "step": 1279 }, { "avg_step_time": 5.8550686499085085, "epoch": 0.13642666666666667, "eta_time": 13.167398830460911, "step": 1279 }, { "epoch": 0.13653333333333334, "grad_norm": 0.6352075913390874, "learning_rate": 9.705707360794299e-06, "loss": 0.4678, "step": 1280 }, { "avg_step_time": 5.809053760586363, "epoch": 0.13653333333333334, "eta_time": 13.06230283109628, "step": 1280 }, { "epoch": 0.13664, "grad_norm": 1.6815151319398052, "learning_rate": 9.705123169865016e-06, "loss": 0.533, "step": 1281 }, { "avg_step_time": 5.810790102891247, "epoch": 0.13664, "eta_time": 13.064593081333822, "step": 1281 }, { "epoch": 0.13674666666666666, "grad_norm": 1.671781338212006, "learning_rate": 9.704538417297899e-06, "loss": 0.4896, "step": 1282 }, { "avg_step_time": 5.816309897586553, "epoch": 0.13674666666666666, "eta_time": 13.075387778102215, "step": 1282 }, { "epoch": 0.13685333333333333, "grad_norm": 1.74175034899023, "learning_rate": 9.703953103162748e-06, "loss": 0.563, "step": 1283 }, { "avg_step_time": 5.81851258663216, "epoch": 0.13685333333333333, "eta_time": 13.078723291952066, "step": 1283 }, { "epoch": 0.13696, "grad_norm": 2.0785092198038218, "learning_rate": 9.703367227529432e-06, "loss": 0.5914, "step": 1284 }, { "avg_step_time": 5.815770505654691, "epoch": 0.13696, "eta_time": 13.070944211458919, "step": 1284 }, { "epoch": 0.13706666666666667, "grad_norm": 1.5395040015162464, "learning_rate": 9.702780790467884e-06, "loss": 0.4869, "step": 1285 }, { "avg_step_time": 5.8170414934254655, "epoch": 0.13706666666666667, "eta_time": 13.072184911614448, "step": 1285 }, { "epoch": 0.13717333333333334, "grad_norm": 1.7359896519671574, "learning_rate": 9.702193792048104e-06, "loss": 0.5512, "step": 1286 }, { "avg_step_time": 5.847953158195573, "epoch": 0.13717333333333334, "eta_time": 13.140025860178884, "step": 1286 }, { "epoch": 0.13728, "grad_norm": 1.706631976500925, "learning_rate": 9.701606232340165e-06, "loss": 0.4988, "step": 1287 }, { "avg_step_time": 5.8240884000604805, "epoch": 0.13728, "eta_time": 13.084785272135878, "step": 1287 }, { "epoch": 0.13738666666666666, "grad_norm": 1.9843606168646721, "learning_rate": 9.701018111414198e-06, "loss": 0.5551, "step": 1288 }, { "avg_step_time": 5.885977109273274, "epoch": 0.13738666666666666, "eta_time": 13.222193578525825, "step": 1288 }, { "epoch": 0.13749333333333333, "grad_norm": 1.5600541800778225, "learning_rate": 9.700429429340407e-06, "loss": 0.4826, "step": 1289 }, { "avg_step_time": 5.859300856638437, "epoch": 0.13749333333333333, "eta_time": 13.160640757438443, "step": 1289 }, { "epoch": 0.1376, "grad_norm": 1.9332599710708467, "learning_rate": 9.699840186189061e-06, "loss": 0.5405, "step": 1290 }, { "avg_step_time": 5.85361879762977, "epoch": 0.1376, "eta_time": 13.146252216343527, "step": 1290 }, { "epoch": 0.13770666666666667, "grad_norm": 1.5591356523525726, "learning_rate": 9.699250382030496e-06, "loss": 0.5006, "step": 1291 }, { "avg_step_time": 5.854997343487209, "epoch": 0.13770666666666667, "eta_time": 13.147721812430722, "step": 1291 }, { "epoch": 0.13781333333333334, "grad_norm": 1.7839031778263712, "learning_rate": 9.698660016935117e-06, "loss": 0.4825, "step": 1292 }, { "avg_step_time": 5.858851700118094, "epoch": 0.13781333333333334, "eta_time": 13.154749525570708, "step": 1292 }, { "epoch": 0.13792, "grad_norm": 1.5253028768092982, "learning_rate": 9.698069090973391e-06, "loss": 0.4619, "step": 1293 }, { "avg_step_time": 5.857727806977551, "epoch": 0.13792, "eta_time": 13.150598926664603, "step": 1293 }, { "epoch": 0.13802666666666666, "grad_norm": 0.6651021947716043, "learning_rate": 9.69747760421586e-06, "loss": 0.4587, "step": 1294 }, { "avg_step_time": 5.825498520725906, "epoch": 0.13802666666666666, "eta_time": 13.076625984996124, "step": 1294 }, { "epoch": 0.13813333333333333, "grad_norm": 1.4401578967443924, "learning_rate": 9.696885556733126e-06, "loss": 0.4742, "step": 1295 }, { "avg_step_time": 5.820321075844042, "epoch": 0.13813333333333333, "eta_time": 13.063387303561074, "step": 1295 }, { "epoch": 0.13824, "grad_norm": 1.896591821947996, "learning_rate": 9.696292948595857e-06, "loss": 0.5348, "step": 1296 }, { "avg_step_time": 5.819908734523889, "epoch": 0.13824, "eta_time": 13.060845185060694, "step": 1296 }, { "epoch": 0.13834666666666667, "grad_norm": 1.5364911700460167, "learning_rate": 9.695699779874796e-06, "loss": 0.4987, "step": 1297 }, { "avg_step_time": 5.753418623799026, "epoch": 0.13834666666666667, "eta_time": 12.910032123069035, "step": 1297 }, { "epoch": 0.13845333333333334, "grad_norm": 1.612379649899484, "learning_rate": 9.695106050640745e-06, "loss": 0.4605, "step": 1298 }, { "avg_step_time": 5.7518028514553805, "epoch": 0.13845333333333334, "eta_time": 12.904808786445862, "step": 1298 }, { "epoch": 0.13856, "grad_norm": 1.5077404466596231, "learning_rate": 9.694511760964578e-06, "loss": 0.493, "step": 1299 }, { "avg_step_time": 5.757488337430087, "epoch": 0.13856, "eta_time": 12.915965503634828, "step": 1299 }, { "epoch": 0.13866666666666666, "grad_norm": 1.6513939174247718, "learning_rate": 9.69391691091723e-06, "loss": 0.4534, "step": 1300 }, { "avg_step_time": 5.746365075159555, "epoch": 0.13866666666666666, "eta_time": 12.889416106087056, "step": 1300 }, { "epoch": 0.13877333333333333, "grad_norm": 0.6326708624522039, "learning_rate": 9.69332150056971e-06, "loss": 0.4499, "step": 1301 }, { "avg_step_time": 5.71460254746254, "epoch": 0.13877333333333333, "eta_time": 12.816583602281264, "step": 1301 }, { "epoch": 0.13888, "grad_norm": 1.3478324135866375, "learning_rate": 9.69272552999309e-06, "loss": 0.4855, "step": 1302 }, { "avg_step_time": 5.69643829326437, "epoch": 0.13888, "eta_time": 12.774262872645348, "step": 1302 }, { "epoch": 0.13898666666666668, "grad_norm": 1.6010511286296913, "learning_rate": 9.692128999258508e-06, "loss": 0.577, "step": 1303 }, { "avg_step_time": 5.7305935874129785, "epoch": 0.13898666666666668, "eta_time": 12.849264288221546, "step": 1303 }, { "epoch": 0.13909333333333335, "grad_norm": 1.5400433882252464, "learning_rate": 9.691531908437171e-06, "loss": 0.4271, "step": 1304 }, { "avg_step_time": 5.740832716527612, "epoch": 0.13909333333333335, "eta_time": 12.870628015303987, "step": 1304 }, { "epoch": 0.1392, "grad_norm": 2.2360575905504114, "learning_rate": 9.690934257600353e-06, "loss": 0.4616, "step": 1305 }, { "avg_step_time": 5.734745719216087, "epoch": 0.1392, "eta_time": 12.855388320576061, "step": 1305 }, { "epoch": 0.13930666666666666, "grad_norm": 1.6382361507737724, "learning_rate": 9.690336046819393e-06, "loss": 0.5628, "step": 1306 }, { "avg_step_time": 5.772101770747792, "epoch": 0.13930666666666666, "eta_time": 12.937524774489981, "step": 1306 }, { "epoch": 0.13941333333333333, "grad_norm": 1.8724727867682833, "learning_rate": 9.689737276165698e-06, "loss": 0.5229, "step": 1307 }, { "avg_step_time": 5.803032489738079, "epoch": 0.13941333333333333, "eta_time": 13.005240590890786, "step": 1307 }, { "epoch": 0.13952, "grad_norm": 1.6575185516939381, "learning_rate": 9.689137945710742e-06, "loss": 0.4522, "step": 1308 }, { "avg_step_time": 5.870216273298167, "epoch": 0.13952, "eta_time": 13.154176299082309, "step": 1308 }, { "epoch": 0.13962666666666668, "grad_norm": 1.7441150306326856, "learning_rate": 9.688538055526065e-06, "loss": 0.5398, "step": 1309 }, { "avg_step_time": 5.854878940967598, "epoch": 0.13962666666666668, "eta_time": 13.118181538290179, "step": 1309 }, { "epoch": 0.13973333333333332, "grad_norm": 2.0263319882157496, "learning_rate": 9.687937605683274e-06, "loss": 0.4848, "step": 1310 }, { "avg_step_time": 5.838611838793514, "epoch": 0.13973333333333332, "eta_time": 13.08011235551936, "step": 1310 }, { "epoch": 0.13984, "grad_norm": 1.7944031713225477, "learning_rate": 9.687336596254045e-06, "loss": 0.5016, "step": 1311 }, { "avg_step_time": 5.857512112819787, "epoch": 0.13984, "eta_time": 13.120827132716324, "step": 1311 }, { "epoch": 0.13994666666666666, "grad_norm": 1.550588141825153, "learning_rate": 9.686735027310115e-06, "loss": 0.4746, "step": 1312 }, { "avg_step_time": 5.873811343703607, "epoch": 0.13994666666666666, "eta_time": 13.155705795633938, "step": 1312 }, { "epoch": 0.14005333333333334, "grad_norm": 1.747502748001054, "learning_rate": 9.686132898923295e-06, "loss": 0.492, "step": 1313 }, { "avg_step_time": 5.8898636475958, "epoch": 0.14005333333333334, "eta_time": 13.190022424143706, "step": 1313 }, { "epoch": 0.14016, "grad_norm": 1.5946108964433425, "learning_rate": 9.685530211165459e-06, "loss": 0.4861, "step": 1314 }, { "avg_step_time": 5.864457626535435, "epoch": 0.14016, "eta_time": 13.131498035417263, "step": 1314 }, { "epoch": 0.14026666666666668, "grad_norm": 1.6453967234578892, "learning_rate": 9.684926964108546e-06, "loss": 0.5415, "step": 1315 }, { "avg_step_time": 5.864100287658999, "epoch": 0.14026666666666668, "eta_time": 13.129068977369872, "step": 1315 }, { "epoch": 0.14037333333333332, "grad_norm": 1.6153498007529794, "learning_rate": 9.684323157824567e-06, "loss": 0.4737, "step": 1316 }, { "avg_step_time": 5.8630509111616345, "epoch": 0.14037333333333332, "eta_time": 13.125090914736559, "step": 1316 }, { "epoch": 0.14048, "grad_norm": 1.53991917938314, "learning_rate": 9.683718792385595e-06, "loss": 0.535, "step": 1317 }, { "avg_step_time": 5.865071744629831, "epoch": 0.14048, "eta_time": 13.12798558839644, "step": 1317 }, { "epoch": 0.14058666666666667, "grad_norm": 1.8575590234862398, "learning_rate": 9.683113867863772e-06, "loss": 0.5256, "step": 1318 }, { "avg_step_time": 5.86656243873365, "epoch": 0.14058666666666667, "eta_time": 13.129692658021394, "step": 1318 }, { "epoch": 0.14069333333333334, "grad_norm": 0.6593296032584649, "learning_rate": 9.682508384331306e-06, "loss": 0.4455, "step": 1319 }, { "avg_step_time": 5.836438210323603, "epoch": 0.14069333333333334, "eta_time": 13.060651728435264, "step": 1319 }, { "epoch": 0.1408, "grad_norm": 1.4608111510838968, "learning_rate": 9.681902341860471e-06, "loss": 0.4264, "step": 1320 }, { "avg_step_time": 5.830831840784863, "epoch": 0.1408, "eta_time": 13.046486243756132, "step": 1320 }, { "epoch": 0.14090666666666668, "grad_norm": 1.5061703252522876, "learning_rate": 9.68129574052361e-06, "loss": 0.4318, "step": 1321 }, { "avg_step_time": 5.838170311667702, "epoch": 0.14090666666666668, "eta_time": 13.061284358381021, "step": 1321 }, { "epoch": 0.14101333333333332, "grad_norm": 1.6610318725165207, "learning_rate": 9.680688580393133e-06, "loss": 0.4425, "step": 1322 }, { "avg_step_time": 5.814339281332614, "epoch": 0.14101333333333332, "eta_time": 13.006353953492093, "step": 1322 }, { "epoch": 0.14112, "grad_norm": 1.6418382657677186, "learning_rate": 9.680080861541511e-06, "loss": 0.4749, "step": 1323 }, { "avg_step_time": 5.8117127177691215, "epoch": 0.14112, "eta_time": 12.998864112076935, "step": 1323 }, { "epoch": 0.14122666666666667, "grad_norm": 1.7660338275518936, "learning_rate": 9.679472584041289e-06, "loss": 0.5435, "step": 1324 }, { "avg_step_time": 5.810577744185323, "epoch": 0.14122666666666667, "eta_time": 12.99471150512112, "step": 1324 }, { "epoch": 0.14133333333333334, "grad_norm": 1.6034091469916, "learning_rate": 9.678863747965073e-06, "loss": 0.5045, "step": 1325 }, { "avg_step_time": 5.809606761643381, "epoch": 0.14133333333333334, "eta_time": 12.990926230897005, "step": 1325 }, { "epoch": 0.14144, "grad_norm": 1.6539246401312047, "learning_rate": 9.678254353385538e-06, "loss": 0.533, "step": 1326 }, { "avg_step_time": 5.8113071653578015, "epoch": 0.14144, "eta_time": 12.993114270545817, "step": 1326 }, { "epoch": 0.14154666666666665, "grad_norm": 1.764892028070391, "learning_rate": 9.67764440037543e-06, "loss": 0.5133, "step": 1327 }, { "avg_step_time": 5.8079780424484095, "epoch": 0.14154666666666665, "eta_time": 12.984057579340222, "step": 1327 }, { "epoch": 0.14165333333333333, "grad_norm": 1.6798325543947825, "learning_rate": 9.677033889007554e-06, "loss": 0.5531, "step": 1328 }, { "avg_step_time": 5.804335676058375, "epoch": 0.14165333333333333, "eta_time": 12.97430255145604, "step": 1328 }, { "epoch": 0.14176, "grad_norm": 1.5414341322510516, "learning_rate": 9.676422819354785e-06, "loss": 0.5093, "step": 1329 }, { "avg_step_time": 5.837751744973539, "epoch": 0.14176, "eta_time": 13.047375150015858, "step": 1329 }, { "epoch": 0.14186666666666667, "grad_norm": 1.6482671720061224, "learning_rate": 9.675811191490065e-06, "loss": 0.5298, "step": 1330 }, { "avg_step_time": 5.8670196966691455, "epoch": 0.14186666666666667, "eta_time": 13.111159294362022, "step": 1330 }, { "epoch": 0.14197333333333334, "grad_norm": 0.6579224809816033, "learning_rate": 9.675199005486404e-06, "loss": 0.4499, "step": 1331 }, { "avg_step_time": 5.833763787240693, "epoch": 0.14197333333333334, "eta_time": 13.03522108460115, "step": 1331 }, { "epoch": 0.14208, "grad_norm": 1.6305458130041177, "learning_rate": 9.674586261416874e-06, "loss": 0.5311, "step": 1332 }, { "avg_step_time": 5.8462704624792545, "epoch": 0.14208, "eta_time": 13.061542591589067, "step": 1332 }, { "epoch": 0.14218666666666666, "grad_norm": 1.4315938350103896, "learning_rate": 9.673972959354621e-06, "loss": 0.4474, "step": 1333 }, { "avg_step_time": 5.84518934259511, "epoch": 0.14218666666666666, "eta_time": 13.057503525874965, "step": 1333 }, { "epoch": 0.14229333333333333, "grad_norm": 1.8320187383147228, "learning_rate": 9.673359099372847e-06, "loss": 0.4632, "step": 1334 }, { "avg_step_time": 5.841750113651006, "epoch": 0.14229333333333333, "eta_time": 13.048197962185483, "step": 1334 }, { "epoch": 0.1424, "grad_norm": 1.4643780628286747, "learning_rate": 9.672744681544834e-06, "loss": 0.5369, "step": 1335 }, { "avg_step_time": 5.839668454545917, "epoch": 0.1424, "eta_time": 13.041926215152548, "step": 1335 }, { "epoch": 0.14250666666666667, "grad_norm": 1.5245514368175563, "learning_rate": 9.672129705943917e-06, "loss": 0.5204, "step": 1336 }, { "avg_step_time": 5.841946194870303, "epoch": 0.14250666666666667, "eta_time": 13.04539040571177, "step": 1336 }, { "epoch": 0.14261333333333334, "grad_norm": 1.6316212797987468, "learning_rate": 9.671514172643508e-06, "loss": 0.5002, "step": 1337 }, { "avg_step_time": 5.84028322528107, "epoch": 0.14261333333333334, "eta_time": 13.0400546013359, "step": 1337 }, { "epoch": 0.14272, "grad_norm": 1.4645227196060566, "learning_rate": 9.670898081717079e-06, "loss": 0.5054, "step": 1338 }, { "avg_step_time": 5.8435251423806855, "epoch": 0.14272, "eta_time": 13.04566988036488, "step": 1338 }, { "epoch": 0.14282666666666666, "grad_norm": 0.6577164078787316, "learning_rate": 9.670281433238173e-06, "loss": 0.4546, "step": 1339 }, { "avg_step_time": 5.767080966872398, "epoch": 0.14282666666666666, "eta_time": 12.873406291607386, "step": 1339 }, { "epoch": 0.14293333333333333, "grad_norm": 1.5881194778398653, "learning_rate": 9.669664227280398e-06, "loss": 0.4908, "step": 1340 }, { "avg_step_time": 5.797781055623835, "epoch": 0.14293333333333333, "eta_time": 12.940325217204865, "step": 1340 }, { "epoch": 0.14304, "grad_norm": 1.948185233998752, "learning_rate": 9.669046463917427e-06, "loss": 0.5294, "step": 1341 }, { "avg_step_time": 5.797929783060093, "epoch": 0.14304, "eta_time": 12.939046632529108, "step": 1341 }, { "epoch": 0.14314666666666667, "grad_norm": 1.8139441786177772, "learning_rate": 9.668428143223e-06, "loss": 0.5083, "step": 1342 }, { "avg_step_time": 5.799022561371928, "epoch": 0.14314666666666667, "eta_time": 12.939874509861307, "step": 1342 }, { "epoch": 0.14325333333333334, "grad_norm": 1.634933387977091, "learning_rate": 9.667809265270926e-06, "loss": 0.5034, "step": 1343 }, { "avg_step_time": 5.797435902585887, "epoch": 0.14325333333333334, "eta_time": 12.934723658213844, "step": 1343 }, { "epoch": 0.14336, "grad_norm": 1.5954847621640853, "learning_rate": 9.667189830135078e-06, "loss": 0.5305, "step": 1344 }, { "avg_step_time": 5.830414454142253, "epoch": 0.14336, "eta_time": 13.006682911449008, "step": 1344 }, { "epoch": 0.14346666666666666, "grad_norm": 1.7280059865109823, "learning_rate": 9.666569837889396e-06, "loss": 0.5341, "step": 1345 }, { "avg_step_time": 5.8359013567067155, "epoch": 0.14346666666666666, "eta_time": 13.017302192876368, "step": 1345 }, { "epoch": 0.14357333333333333, "grad_norm": 1.6801628667114954, "learning_rate": 9.665949288607889e-06, "loss": 0.5994, "step": 1346 }, { "avg_step_time": 5.8457498285505505, "epoch": 0.14357333333333333, "eta_time": 13.037645937064548, "step": 1346 }, { "epoch": 0.14368, "grad_norm": 1.8009698046300109, "learning_rate": 9.665328182364627e-06, "loss": 0.5176, "step": 1347 }, { "avg_step_time": 5.841492696241899, "epoch": 0.14368, "eta_time": 13.026528712619436, "step": 1347 }, { "epoch": 0.14378666666666667, "grad_norm": 1.7380829330049636, "learning_rate": 9.66470651923375e-06, "loss": 0.51, "step": 1348 }, { "avg_step_time": 5.840059263537628, "epoch": 0.14378666666666667, "eta_time": 13.021709919004595, "step": 1348 }, { "epoch": 0.14389333333333335, "grad_norm": 1.3894646523279626, "learning_rate": 9.664084299289467e-06, "loss": 0.5106, "step": 1349 }, { "avg_step_time": 5.84020602582681, "epoch": 0.14389333333333335, "eta_time": 13.02041487869055, "step": 1349 }, { "epoch": 0.144, "grad_norm": 0.6960166427647495, "learning_rate": 9.663461522606049e-06, "loss": 0.4774, "step": 1350 }, { "avg_step_time": 5.807506561279297, "epoch": 0.144, "eta_time": 12.945900042851767, "step": 1350 }, { "epoch": 0.14410666666666666, "grad_norm": 0.6347664520562347, "learning_rate": 9.662838189257836e-06, "loss": 0.4419, "step": 1351 }, { "avg_step_time": 5.7697388692335645, "epoch": 0.14410666666666666, "eta_time": 12.860106857425032, "step": 1351 }, { "epoch": 0.14421333333333333, "grad_norm": 2.055241486829757, "learning_rate": 9.662214299319231e-06, "loss": 0.4125, "step": 1352 }, { "avg_step_time": 5.7618679783561015, "epoch": 0.14421333333333333, "eta_time": 12.840962997319723, "step": 1352 }, { "epoch": 0.14432, "grad_norm": 1.7892720092893135, "learning_rate": 9.66158985286471e-06, "loss": 0.5005, "step": 1353 }, { "avg_step_time": 5.763383359620065, "epoch": 0.14432, "eta_time": 12.842739253020046, "step": 1353 }, { "epoch": 0.14442666666666668, "grad_norm": 1.8234039607850117, "learning_rate": 9.660964849968809e-06, "loss": 0.4795, "step": 1354 }, { "avg_step_time": 5.81457652226843, "epoch": 0.14442666666666668, "eta_time": 12.955199523643078, "step": 1354 }, { "epoch": 0.14453333333333335, "grad_norm": 2.0398242734570626, "learning_rate": 9.660339290706132e-06, "loss": 0.5726, "step": 1355 }, { "avg_step_time": 5.86839110682709, "epoch": 0.14453333333333335, "eta_time": 13.073471299098127, "step": 1355 }, { "epoch": 0.14464, "grad_norm": 1.6187114687899513, "learning_rate": 9.659713175151352e-06, "loss": 0.4454, "step": 1356 }, { "avg_step_time": 5.8686615505603825, "epoch": 0.14464, "eta_time": 13.072443603873253, "step": 1356 }, { "epoch": 0.14474666666666666, "grad_norm": 1.7845005257055504, "learning_rate": 9.659086503379208e-06, "loss": 0.5412, "step": 1357 }, { "avg_step_time": 5.878424437359126, "epoch": 0.14474666666666666, "eta_time": 13.092557538540408, "step": 1357 }, { "epoch": 0.14485333333333333, "grad_norm": 1.5909113311683172, "learning_rate": 9.658459275464502e-06, "loss": 0.5315, "step": 1358 }, { "avg_step_time": 5.881956608608515, "epoch": 0.14485333333333333, "eta_time": 13.098790592004018, "step": 1358 }, { "epoch": 0.14496, "grad_norm": 1.5331824337036717, "learning_rate": 9.657831491482103e-06, "loss": 0.4519, "step": 1359 }, { "avg_step_time": 5.880831826816905, "epoch": 0.14496, "eta_time": 13.094652201045642, "step": 1359 }, { "epoch": 0.14506666666666668, "grad_norm": 1.6300867721456969, "learning_rate": 9.657203151506953e-06, "loss": 0.4884, "step": 1360 }, { "avg_step_time": 5.881748257261334, "epoch": 0.14506666666666668, "eta_time": 13.095058967208221, "step": 1360 }, { "epoch": 0.14517333333333332, "grad_norm": 1.4129313370354113, "learning_rate": 9.656574255614051e-06, "loss": 0.5166, "step": 1361 }, { "avg_step_time": 5.8902317297579065, "epoch": 0.14517333333333332, "eta_time": 13.112310300633295, "step": 1361 }, { "epoch": 0.14528, "grad_norm": 1.6965838967307496, "learning_rate": 9.655944803878467e-06, "loss": 0.5137, "step": 1362 }, { "avg_step_time": 5.8855802699773, "epoch": 0.14528, "eta_time": 13.100320750924473, "step": 1362 }, { "epoch": 0.14538666666666666, "grad_norm": 1.6528305676114752, "learning_rate": 9.65531479637534e-06, "loss": 0.4322, "step": 1363 }, { "avg_step_time": 5.8921590501611885, "epoch": 0.14538666666666666, "eta_time": 13.113327308303178, "step": 1363 }, { "epoch": 0.14549333333333334, "grad_norm": 1.5441054874392126, "learning_rate": 9.654684233179867e-06, "loss": 0.5399, "step": 1364 }, { "avg_step_time": 5.890611918285639, "epoch": 0.14549333333333334, "eta_time": 13.108247799273961, "step": 1364 }, { "epoch": 0.1456, "grad_norm": 1.702204910764284, "learning_rate": 9.654053114367321e-06, "loss": 0.4895, "step": 1365 }, { "avg_step_time": 5.919668520339812, "epoch": 0.1456, "eta_time": 13.17126245775608, "step": 1365 }, { "epoch": 0.14570666666666668, "grad_norm": 1.4356530737333972, "learning_rate": 9.653421440013037e-06, "loss": 0.4779, "step": 1366 }, { "avg_step_time": 5.9453448237794815, "epoch": 0.14570666666666668, "eta_time": 13.226740748236073, "step": 1366 }, { "epoch": 0.14581333333333332, "grad_norm": 1.4910817660204791, "learning_rate": 9.652789210192412e-06, "loss": 0.448, "step": 1367 }, { "avg_step_time": 5.940454620303529, "epoch": 0.14581333333333332, "eta_time": 13.214211277608518, "step": 1367 }, { "epoch": 0.14592, "grad_norm": 1.8621206704127287, "learning_rate": 9.65215642498092e-06, "loss": 0.4537, "step": 1368 }, { "avg_step_time": 5.939740585558342, "epoch": 0.14592, "eta_time": 13.210973019046012, "step": 1368 }, { "epoch": 0.14602666666666667, "grad_norm": 1.88892019890542, "learning_rate": 9.65152308445409e-06, "loss": 0.4767, "step": 1369 }, { "avg_step_time": 5.938536774028432, "epoch": 0.14602666666666667, "eta_time": 13.206645948019894, "step": 1369 }, { "epoch": 0.14613333333333334, "grad_norm": 1.657844685803626, "learning_rate": 9.650889188687522e-06, "loss": 0.4855, "step": 1370 }, { "avg_step_time": 5.941025365482677, "epoch": 0.14613333333333334, "eta_time": 13.21053001408023, "step": 1370 }, { "epoch": 0.14624, "grad_norm": 2.0718893273563084, "learning_rate": 9.650254737756883e-06, "loss": 0.4775, "step": 1371 }, { "avg_step_time": 5.942900067628032, "epoch": 0.14624, "eta_time": 13.213047817026325, "step": 1371 }, { "epoch": 0.14634666666666668, "grad_norm": 0.7132874151352795, "learning_rate": 9.64961973173791e-06, "loss": 0.4355, "step": 1372 }, { "avg_step_time": 5.917380270331797, "epoch": 0.14634666666666668, "eta_time": 13.154665084295935, "step": 1372 }, { "epoch": 0.14645333333333332, "grad_norm": 1.4745436579263027, "learning_rate": 9.648984170706395e-06, "loss": 0.5272, "step": 1373 }, { "avg_step_time": 5.916381941901313, "epoch": 0.14645333333333332, "eta_time": 13.150802305303973, "step": 1373 }, { "epoch": 0.14656, "grad_norm": 1.6954374181300478, "learning_rate": 9.648348054738208e-06, "loss": 0.4427, "step": 1374 }, { "avg_step_time": 5.917124892726089, "epoch": 0.14656, "eta_time": 13.150810074083733, "step": 1374 }, { "epoch": 0.14666666666666667, "grad_norm": 1.585123370703711, "learning_rate": 9.64771138390928e-06, "loss": 0.5373, "step": 1375 }, { "avg_step_time": 5.8922901876045, "epoch": 0.14666666666666667, "eta_time": 13.093978194676666, "step": 1375 }, { "epoch": 0.14677333333333334, "grad_norm": 2.1068526912921994, "learning_rate": 9.647074158295608e-06, "loss": 0.5586, "step": 1376 }, { "avg_step_time": 5.891220078323826, "epoch": 0.14677333333333334, "eta_time": 13.08996372403119, "step": 1376 }, { "epoch": 0.14688, "grad_norm": 1.491272080669838, "learning_rate": 9.646436377973253e-06, "loss": 0.4905, "step": 1377 }, { "avg_step_time": 5.895435904011582, "epoch": 0.14688, "eta_time": 13.097693433412397, "step": 1377 }, { "epoch": 0.14698666666666665, "grad_norm": 1.4811856660095013, "learning_rate": 9.645798043018352e-06, "loss": 0.5664, "step": 1378 }, { "avg_step_time": 5.89308958583408, "epoch": 0.14698666666666665, "eta_time": 13.090843727198648, "step": 1378 }, { "epoch": 0.14709333333333333, "grad_norm": 2.145011846811384, "learning_rate": 9.645159153507095e-06, "loss": 0.4933, "step": 1379 }, { "avg_step_time": 5.927487197548452, "epoch": 0.14709333333333333, "eta_time": 13.165607675443729, "step": 1379 }, { "epoch": 0.1472, "grad_norm": 2.1720433870781917, "learning_rate": 9.644519709515746e-06, "loss": 0.4552, "step": 1380 }, { "avg_step_time": 5.932627458765049, "epoch": 0.1472, "eta_time": 13.175376814674047, "step": 1380 }, { "epoch": 0.14730666666666667, "grad_norm": 1.5953832279055966, "learning_rate": 9.643879711120636e-06, "loss": 0.5489, "step": 1381 }, { "avg_step_time": 5.929394620837587, "epoch": 0.14730666666666667, "eta_time": 13.16655016638213, "step": 1381 }, { "epoch": 0.14741333333333334, "grad_norm": 1.8922374599452159, "learning_rate": 9.643239158398157e-06, "loss": 0.496, "step": 1382 }, { "avg_step_time": 5.925082563149808, "epoch": 0.14741333333333334, "eta_time": 13.155329146460117, "step": 1382 }, { "epoch": 0.14752, "grad_norm": 1.5584467313327226, "learning_rate": 9.642598051424772e-06, "loss": 0.5171, "step": 1383 }, { "avg_step_time": 5.928192292801057, "epoch": 0.14752, "eta_time": 13.160586890018347, "step": 1383 }, { "epoch": 0.14762666666666666, "grad_norm": 1.47113788859298, "learning_rate": 9.641956390277007e-06, "loss": 0.5721, "step": 1384 }, { "avg_step_time": 5.93204911549886, "epoch": 0.14762666666666666, "eta_time": 13.167501244986498, "step": 1384 }, { "epoch": 0.14773333333333333, "grad_norm": 1.6078508788173957, "learning_rate": 9.641314175031456e-06, "loss": 0.4799, "step": 1385 }, { "avg_step_time": 5.900490440503515, "epoch": 0.14773333333333333, "eta_time": 13.09581072767308, "step": 1385 }, { "epoch": 0.14784, "grad_norm": 1.7303294676917127, "learning_rate": 9.640671405764777e-06, "loss": 0.4576, "step": 1386 }, { "avg_step_time": 5.8981093517457595, "epoch": 0.14784, "eta_time": 13.08888766974913, "step": 1386 }, { "epoch": 0.14794666666666667, "grad_norm": 1.9056886803327873, "learning_rate": 9.640028082553699e-06, "loss": 0.5844, "step": 1387 }, { "avg_step_time": 5.842635857938516, "epoch": 0.14794666666666667, "eta_time": 12.964159787003576, "step": 1387 }, { "epoch": 0.14805333333333334, "grad_norm": 1.6212323935319433, "learning_rate": 9.639384205475012e-06, "loss": 0.4972, "step": 1388 }, { "avg_step_time": 5.845600159481318, "epoch": 0.14805333333333334, "eta_time": 12.969113464938136, "step": 1388 }, { "epoch": 0.14816, "grad_norm": 1.5209979167625178, "learning_rate": 9.638739774605572e-06, "loss": 0.4716, "step": 1389 }, { "avg_step_time": 5.844010276023788, "epoch": 0.14816, "eta_time": 12.963962795646102, "step": 1389 }, { "epoch": 0.14826666666666666, "grad_norm": 1.609911781319275, "learning_rate": 9.638094790022306e-06, "loss": 0.515, "step": 1390 }, { "avg_step_time": 5.848579064764158, "epoch": 0.14826666666666666, "eta_time": 12.972473286706055, "step": 1390 }, { "epoch": 0.14837333333333333, "grad_norm": 1.666732261938984, "learning_rate": 9.6374492518022e-06, "loss": 0.4992, "step": 1391 }, { "avg_step_time": 5.843101104100545, "epoch": 0.14837333333333333, "eta_time": 12.958699781982986, "step": 1391 }, { "epoch": 0.14848, "grad_norm": 2.0639657015669486, "learning_rate": 9.636803160022314e-06, "loss": 0.5022, "step": 1392 }, { "avg_step_time": 5.846501282971315, "epoch": 0.14848, "eta_time": 12.964616594988891, "step": 1392 }, { "epoch": 0.14858666666666667, "grad_norm": 1.7840622824917107, "learning_rate": 9.636156514759771e-06, "loss": 0.524, "step": 1393 }, { "avg_step_time": 5.879901563278352, "epoch": 0.14858666666666667, "eta_time": 13.037048410579947, "step": 1393 }, { "epoch": 0.14869333333333334, "grad_norm": 0.7074419046320818, "learning_rate": 9.635509316091756e-06, "loss": 0.4656, "step": 1394 }, { "avg_step_time": 5.855509252259226, "epoch": 0.14869333333333334, "eta_time": 12.981338706189133, "step": 1394 }, { "epoch": 0.1488, "grad_norm": 1.875410239051872, "learning_rate": 9.634861564095525e-06, "loss": 0.5168, "step": 1395 }, { "avg_step_time": 5.858531568989609, "epoch": 0.1488, "eta_time": 12.986411644593636, "step": 1395 }, { "epoch": 0.14890666666666666, "grad_norm": 0.6936107331278037, "learning_rate": 9.634213258848397e-06, "loss": 0.4611, "step": 1396 }, { "avg_step_time": 5.822218085780288, "epoch": 0.14890666666666666, "eta_time": 12.904299474011367, "step": 1396 }, { "epoch": 0.14901333333333333, "grad_norm": 1.442078617673062, "learning_rate": 9.63356440042776e-06, "loss": 0.5153, "step": 1397 }, { "avg_step_time": 5.853602801910554, "epoch": 0.14901333333333333, "eta_time": 12.97223420934511, "step": 1397 }, { "epoch": 0.14912, "grad_norm": 0.6643814082262244, "learning_rate": 9.632914988911066e-06, "loss": 0.4583, "step": 1398 }, { "avg_step_time": 5.836151168803976, "epoch": 0.14912, "eta_time": 12.931938298208143, "step": 1398 }, { "epoch": 0.14922666666666667, "grad_norm": 1.6787514339855438, "learning_rate": 9.632265024375835e-06, "loss": 0.4679, "step": 1399 }, { "avg_step_time": 5.834940645429823, "epoch": 0.14922666666666667, "eta_time": 12.927635163318964, "step": 1399 }, { "epoch": 0.14933333333333335, "grad_norm": 1.561577166679193, "learning_rate": 9.631614506899648e-06, "loss": 0.5417, "step": 1400 }, { "avg_step_time": 5.866217998543171, "epoch": 0.14933333333333335, "eta_time": 12.995302371772718, "step": 1400 }, { "epoch": 0.14944, "grad_norm": 1.860363283243015, "learning_rate": 9.63096343656016e-06, "loss": 0.5004, "step": 1401 }, { "avg_step_time": 5.860965902155096, "epoch": 0.14944, "eta_time": 12.982039473273538, "step": 1401 }, { "epoch": 0.14954666666666666, "grad_norm": 1.9924109455856502, "learning_rate": 9.630311813435082e-06, "loss": 0.5468, "step": 1402 }, { "avg_step_time": 5.8647897773318824, "epoch": 0.14954666666666666, "eta_time": 12.988880248518639, "step": 1402 }, { "epoch": 0.14965333333333333, "grad_norm": 1.7032516937215274, "learning_rate": 9.6296596376022e-06, "loss": 0.4758, "step": 1403 }, { "avg_step_time": 5.848282329963915, "epoch": 0.14965333333333333, "eta_time": 12.950696315131202, "step": 1403 }, { "epoch": 0.14976, "grad_norm": 1.7142173062277586, "learning_rate": 9.629006909139363e-06, "loss": 0.4796, "step": 1404 }, { "avg_step_time": 5.848580856515904, "epoch": 0.14976, "eta_time": 12.949732779802297, "step": 1404 }, { "epoch": 0.14986666666666668, "grad_norm": 0.6896285648709688, "learning_rate": 9.628353628124484e-06, "loss": 0.4434, "step": 1405 }, { "avg_step_time": 5.813910294060755, "epoch": 0.14986666666666668, "eta_time": 12.871351401017838, "step": 1405 }, { "epoch": 0.14997333333333332, "grad_norm": 1.8075520571846162, "learning_rate": 9.627699794635545e-06, "loss": 0.4897, "step": 1406 }, { "avg_step_time": 5.8138450757421625, "epoch": 0.14997333333333332, "eta_time": 12.86959205794147, "step": 1406 }, { "epoch": 0.15008, "grad_norm": 1.729924124936007, "learning_rate": 9.62704540875059e-06, "loss": 0.5993, "step": 1407 }, { "avg_step_time": 5.748507124004942, "epoch": 0.15008, "eta_time": 12.723362434464272, "step": 1407 }, { "epoch": 0.15018666666666666, "grad_norm": 1.6752744007596296, "learning_rate": 9.626390470547733e-06, "loss": 0.5924, "step": 1408 }, { "avg_step_time": 5.742855045530531, "epoch": 0.15018666666666666, "eta_time": 12.709257263261595, "step": 1408 }, { "epoch": 0.15029333333333333, "grad_norm": 1.8914787148226313, "learning_rate": 9.62573498010515e-06, "loss": 0.5083, "step": 1409 }, { "avg_step_time": 5.74548750694352, "epoch": 0.15029333333333333, "eta_time": 12.713487077864466, "step": 1409 }, { "epoch": 0.1504, "grad_norm": 1.500986105245184, "learning_rate": 9.625078937501089e-06, "loss": 0.5406, "step": 1410 }, { "avg_step_time": 5.728008347328263, "epoch": 0.1504, "eta_time": 12.673218468463782, "step": 1410 }, { "epoch": 0.15050666666666668, "grad_norm": 1.7036126804729221, "learning_rate": 9.624422342813857e-06, "loss": 0.5551, "step": 1411 }, { "avg_step_time": 5.741213593820129, "epoch": 0.15050666666666668, "eta_time": 12.700840294773197, "step": 1411 }, { "epoch": 0.15061333333333332, "grad_norm": 1.7237391697663513, "learning_rate": 9.62376519612183e-06, "loss": 0.523, "step": 1412 }, { "avg_step_time": 5.72575994212218, "epoch": 0.15061333333333332, "eta_time": 12.665062894199702, "step": 1412 }, { "epoch": 0.15072, "grad_norm": 0.6810344407499301, "learning_rate": 9.62310749750345e-06, "loss": 0.4375, "step": 1413 }, { "avg_step_time": 5.689367270228838, "epoch": 0.15072, "eta_time": 12.582983945989447, "step": 1413 }, { "epoch": 0.15082666666666666, "grad_norm": 1.739558041372612, "learning_rate": 9.622449247037227e-06, "loss": 0.4822, "step": 1414 }, { "avg_step_time": 5.688358400807236, "epoch": 0.15082666666666666, "eta_time": 12.57917256356289, "step": 1414 }, { "epoch": 0.15093333333333334, "grad_norm": 1.5851454819353283, "learning_rate": 9.621790444801732e-06, "loss": 0.4679, "step": 1415 }, { "avg_step_time": 5.688903259508537, "epoch": 0.15093333333333334, "eta_time": 12.578797207135544, "step": 1415 }, { "epoch": 0.15104, "grad_norm": 1.8985847327188796, "learning_rate": 9.621131090875603e-06, "loss": 0.4816, "step": 1416 }, { "avg_step_time": 5.685150030887488, "epoch": 0.15104, "eta_time": 12.568919193287089, "step": 1416 }, { "epoch": 0.15114666666666668, "grad_norm": 1.6973157241687138, "learning_rate": 9.620471185337552e-06, "loss": 0.5029, "step": 1417 }, { "avg_step_time": 5.680182546076148, "epoch": 0.15114666666666668, "eta_time": 12.556359083798329, "step": 1417 }, { "epoch": 0.15125333333333332, "grad_norm": 1.7878121009016974, "learning_rate": 9.619810728266344e-06, "loss": 0.4475, "step": 1418 }, { "avg_step_time": 5.709075313625914, "epoch": 0.15125333333333332, "eta_time": 12.618642297367055, "step": 1418 }, { "epoch": 0.15136, "grad_norm": 1.7300413329755246, "learning_rate": 9.619149719740817e-06, "loss": 0.5693, "step": 1419 }, { "avg_step_time": 5.6875836728799225, "epoch": 0.15136, "eta_time": 12.569559917064629, "step": 1419 }, { "epoch": 0.15146666666666667, "grad_norm": 2.2212731231515352, "learning_rate": 9.618488159839874e-06, "loss": 0.5852, "step": 1420 }, { "avg_step_time": 5.6809364063571195, "epoch": 0.15146666666666667, "eta_time": 12.553291420158578, "step": 1420 }, { "epoch": 0.15157333333333334, "grad_norm": 1.3968027417644264, "learning_rate": 9.617826048642484e-06, "loss": 0.3938, "step": 1421 }, { "avg_step_time": 5.683245499928792, "epoch": 0.15157333333333334, "eta_time": 12.556815196231558, "step": 1421 }, { "epoch": 0.15168, "grad_norm": 1.745269745562003, "learning_rate": 9.617163386227683e-06, "loss": 0.5232, "step": 1422 }, { "avg_step_time": 5.685807278662017, "epoch": 0.15168, "eta_time": 12.560895913110839, "step": 1422 }, { "epoch": 0.15178666666666665, "grad_norm": 1.5061395815825258, "learning_rate": 9.616500172674568e-06, "loss": 0.5587, "step": 1423 }, { "avg_step_time": 5.687181277708574, "epoch": 0.15178666666666665, "eta_time": 12.562351533427385, "step": 1423 }, { "epoch": 0.15189333333333332, "grad_norm": 1.7994198429687625, "learning_rate": 9.615836408062307e-06, "loss": 0.5283, "step": 1424 }, { "avg_step_time": 5.688670782127765, "epoch": 0.15189333333333332, "eta_time": 12.564061496860518, "step": 1424 }, { "epoch": 0.152, "grad_norm": 1.5597459300921679, "learning_rate": 9.615172092470134e-06, "loss": 0.4987, "step": 1425 }, { "avg_step_time": 5.685502562860046, "epoch": 0.152, "eta_time": 12.555484826315935, "step": 1425 }, { "epoch": 0.15210666666666667, "grad_norm": 1.521156583494122, "learning_rate": 9.614507225977342e-06, "loss": 0.4942, "step": 1426 }, { "avg_step_time": 5.6810150796716865, "epoch": 0.15210666666666667, "eta_time": 12.543996907863955, "step": 1426 }, { "epoch": 0.15221333333333334, "grad_norm": 1.6813317623063853, "learning_rate": 9.613841808663296e-06, "loss": 0.4292, "step": 1427 }, { "avg_step_time": 5.684046290137551, "epoch": 0.15221333333333334, "eta_time": 12.549111087225903, "step": 1427 }, { "epoch": 0.15232, "grad_norm": 1.5328296471315592, "learning_rate": 9.613175840607428e-06, "loss": 0.4865, "step": 1428 }, { "avg_step_time": 5.659601991826838, "epoch": 0.15232, "eta_time": 12.493571396957744, "step": 1428 }, { "epoch": 0.15242666666666665, "grad_norm": 1.9391817057966954, "learning_rate": 9.612509321889228e-06, "loss": 0.4402, "step": 1429 }, { "avg_step_time": 5.6725839219912135, "epoch": 0.15242666666666665, "eta_time": 12.520653290039496, "step": 1429 }, { "epoch": 0.15253333333333333, "grad_norm": 1.5238158193216946, "learning_rate": 9.611842252588259e-06, "loss": 0.4463, "step": 1430 }, { "avg_step_time": 5.702948196969851, "epoch": 0.15253333333333333, "eta_time": 12.586089840257074, "step": 1430 }, { "epoch": 0.15264, "grad_norm": 1.5604763459495212, "learning_rate": 9.611174632784147e-06, "loss": 0.5212, "step": 1431 }, { "avg_step_time": 5.689411401748657, "epoch": 0.15264, "eta_time": 12.554634493192037, "step": 1431 }, { "epoch": 0.15274666666666667, "grad_norm": 1.6736117479212598, "learning_rate": 9.610506462556583e-06, "loss": 0.5303, "step": 1432 }, { "avg_step_time": 5.6810914747642745, "epoch": 0.15274666666666667, "eta_time": 12.534697106681287, "step": 1432 }, { "epoch": 0.15285333333333334, "grad_norm": 1.653589575650438, "learning_rate": 9.60983774198533e-06, "loss": 0.548, "step": 1433 }, { "avg_step_time": 5.685388928712016, "epoch": 0.15285333333333334, "eta_time": 12.542599686619676, "step": 1433 }, { "epoch": 0.15296, "grad_norm": 1.6680477443315738, "learning_rate": 9.609168471150202e-06, "loss": 0.4492, "step": 1434 }, { "avg_step_time": 5.70980364866931, "epoch": 0.15296, "eta_time": 12.594875215023054, "step": 1434 }, { "epoch": 0.15306666666666666, "grad_norm": 1.6768461244663562, "learning_rate": 9.608498650131095e-06, "loss": 0.4974, "step": 1435 }, { "avg_step_time": 5.709819454135316, "epoch": 0.15306666666666666, "eta_time": 12.593324018287337, "step": 1435 }, { "epoch": 0.15317333333333333, "grad_norm": 1.7576829116570913, "learning_rate": 9.607828279007962e-06, "loss": 0.536, "step": 1436 }, { "avg_step_time": 5.711598321644947, "epoch": 0.15317333333333333, "eta_time": 12.595660854316453, "step": 1436 }, { "epoch": 0.15328, "grad_norm": 1.6863822323297635, "learning_rate": 9.607157357860823e-06, "loss": 0.5199, "step": 1437 }, { "avg_step_time": 5.711847548532968, "epoch": 0.15328, "eta_time": 12.594623844515194, "step": 1437 }, { "epoch": 0.15338666666666667, "grad_norm": 1.4814932973065185, "learning_rate": 9.606485886769766e-06, "loss": 0.4733, "step": 1438 }, { "avg_step_time": 5.746898056280734, "epoch": 0.15338666666666667, "eta_time": 12.67031385352783, "step": 1438 }, { "epoch": 0.15349333333333334, "grad_norm": 1.5704506919400594, "learning_rate": 9.60581386581494e-06, "loss": 0.5403, "step": 1439 }, { "avg_step_time": 5.7533873163088405, "epoch": 0.15349333333333334, "eta_time": 12.683022706174155, "step": 1439 }, { "epoch": 0.1536, "grad_norm": 2.1138437907419645, "learning_rate": 9.605141295076561e-06, "loss": 0.5197, "step": 1440 }, { "avg_step_time": 5.754329849975278, "epoch": 0.1536, "eta_time": 12.683502044320509, "step": 1440 }, { "epoch": 0.15370666666666666, "grad_norm": 1.4198384984353356, "learning_rate": 9.604468174634917e-06, "loss": 0.4598, "step": 1441 }, { "avg_step_time": 5.755734768780795, "epoch": 0.15370666666666666, "eta_time": 12.684999904307452, "step": 1441 }, { "epoch": 0.15381333333333333, "grad_norm": 1.6635792096965136, "learning_rate": 9.603794504570352e-06, "loss": 0.431, "step": 1442 }, { "avg_step_time": 5.758588730686843, "epoch": 0.15381333333333333, "eta_time": 12.689690111260758, "step": 1442 }, { "epoch": 0.15392, "grad_norm": 0.6686840845686407, "learning_rate": 9.603120284963284e-06, "loss": 0.4448, "step": 1443 }, { "avg_step_time": 5.735888264395974, "epoch": 0.15392, "eta_time": 12.63807380921913, "step": 1443 }, { "epoch": 0.15402666666666667, "grad_norm": 1.8488088350589416, "learning_rate": 9.60244551589419e-06, "loss": 0.4746, "step": 1444 }, { "avg_step_time": 5.732269241352274, "epoch": 0.15402666666666667, "eta_time": 12.628507598101356, "step": 1444 }, { "epoch": 0.15413333333333334, "grad_norm": 1.6223078939328524, "learning_rate": 9.601770197443615e-06, "loss": 0.5578, "step": 1445 }, { "avg_step_time": 5.726523635363338, "epoch": 0.15413333333333334, "eta_time": 12.614259007897575, "step": 1445 }, { "epoch": 0.15424, "grad_norm": 0.6454228803274054, "learning_rate": 9.601094329692173e-06, "loss": 0.4273, "step": 1446 }, { "avg_step_time": 5.692901599286783, "epoch": 0.15424, "eta_time": 12.53861577242914, "step": 1446 }, { "epoch": 0.15434666666666666, "grad_norm": 1.3093591269639253, "learning_rate": 9.600417912720537e-06, "loss": 0.4367, "step": 1447 }, { "avg_step_time": 5.695870845004766, "epoch": 0.15434666666666666, "eta_time": 12.543573349777162, "step": 1447 }, { "epoch": 0.15445333333333333, "grad_norm": 1.5374108812172396, "learning_rate": 9.599740946609451e-06, "loss": 0.6311, "step": 1448 }, { "avg_step_time": 5.696181398449522, "epoch": 0.15445333333333333, "eta_time": 12.542674984863712, "step": 1448 }, { "epoch": 0.15456, "grad_norm": 0.6545718952065502, "learning_rate": 9.599063431439721e-06, "loss": 0.4716, "step": 1449 }, { "avg_step_time": 5.690885625704371, "epoch": 0.15456, "eta_time": 12.52943318592579, "step": 1449 }, { "epoch": 0.15466666666666667, "grad_norm": 1.7232074571766511, "learning_rate": 9.598385367292224e-06, "loss": 0.5416, "step": 1450 }, { "avg_step_time": 5.726544539133708, "epoch": 0.15466666666666667, "eta_time": 12.606351520176288, "step": 1450 }, { "epoch": 0.15477333333333335, "grad_norm": 1.5847104498980087, "learning_rate": 9.597706754247895e-06, "loss": 0.5352, "step": 1451 }, { "avg_step_time": 5.736043154591262, "epoch": 0.15477333333333335, "eta_time": 12.625668321383655, "step": 1451 }, { "epoch": 0.15488, "grad_norm": 0.652034650252136, "learning_rate": 9.597027592387739e-06, "loss": 0.4618, "step": 1452 }, { "avg_step_time": 5.709461987620652, "epoch": 0.15488, "eta_time": 12.565574257755118, "step": 1452 }, { "epoch": 0.15498666666666666, "grad_norm": 1.7487397952949688, "learning_rate": 9.596347881792827e-06, "loss": 0.486, "step": 1453 }, { "avg_step_time": 5.6527891351719095, "epoch": 0.15498666666666666, "eta_time": 12.43927653578663, "step": 1453 }, { "epoch": 0.15509333333333333, "grad_norm": 1.7904596083638795, "learning_rate": 9.595667622544291e-06, "loss": 0.6087, "step": 1454 }, { "avg_step_time": 5.59861999810344, "epoch": 0.15509333333333333, "eta_time": 12.318519168049264, "step": 1454 }, { "epoch": 0.1552, "grad_norm": 1.4257506582377861, "learning_rate": 9.594986814723335e-06, "loss": 0.5313, "step": 1455 }, { "avg_step_time": 5.598639088447648, "epoch": 0.1552, "eta_time": 12.317005994584825, "step": 1455 }, { "epoch": 0.15530666666666668, "grad_norm": 1.7087491192353426, "learning_rate": 9.594305458411225e-06, "loss": 0.5671, "step": 1456 }, { "avg_step_time": 5.607693493968308, "epoch": 0.15530666666666668, "eta_time": 12.335367994093065, "step": 1456 }, { "epoch": 0.15541333333333332, "grad_norm": 1.851958284362688, "learning_rate": 9.59362355368929e-06, "loss": 0.5341, "step": 1457 }, { "avg_step_time": 5.60589386236788, "epoch": 0.15541333333333332, "eta_time": 12.329852111730244, "step": 1457 }, { "epoch": 0.15552, "grad_norm": 1.5253705735459444, "learning_rate": 9.59294110063893e-06, "loss": 0.4914, "step": 1458 }, { "avg_step_time": 5.605154391491052, "epoch": 0.15552, "eta_time": 12.326668699287405, "step": 1458 }, { "epoch": 0.15562666666666666, "grad_norm": 1.8882083180699452, "learning_rate": 9.592258099341608e-06, "loss": 0.5186, "step": 1459 }, { "avg_step_time": 5.606246599043258, "epoch": 0.15562666666666666, "eta_time": 12.327513355007342, "step": 1459 }, { "epoch": 0.15573333333333333, "grad_norm": 0.6892296426643713, "learning_rate": 9.591574549878848e-06, "loss": 0.4723, "step": 1460 }, { "avg_step_time": 5.564767613555446, "epoch": 0.15573333333333333, "eta_time": 12.234759905914267, "step": 1460 }, { "epoch": 0.15584, "grad_norm": 1.735431525222656, "learning_rate": 9.590890452332249e-06, "loss": 0.5318, "step": 1461 }, { "avg_step_time": 5.568526219840002, "epoch": 0.15584, "eta_time": 12.241476806614937, "step": 1461 }, { "epoch": 0.15594666666666668, "grad_norm": 1.894981373710271, "learning_rate": 9.590205806783463e-06, "loss": 0.5097, "step": 1462 }, { "avg_step_time": 5.575542336762553, "epoch": 0.15594666666666668, "eta_time": 12.255351808556135, "step": 1462 }, { "epoch": 0.15605333333333332, "grad_norm": 0.6577086528313499, "learning_rate": 9.58952061331422e-06, "loss": 0.4567, "step": 1463 }, { "avg_step_time": 5.539293279551496, "epoch": 0.15605333333333332, "eta_time": 12.174135674392067, "step": 1463 }, { "epoch": 0.15616, "grad_norm": 1.6981103406626583, "learning_rate": 9.588834872006308e-06, "loss": 0.5476, "step": 1464 }, { "avg_step_time": 5.53867487955575, "epoch": 0.15616, "eta_time": 12.171238047823762, "step": 1464 }, { "epoch": 0.15626666666666666, "grad_norm": 1.3133622817943897, "learning_rate": 9.588148582941583e-06, "loss": 0.4299, "step": 1465 }, { "avg_step_time": 5.518607943949073, "epoch": 0.15626666666666666, "eta_time": 12.12560801017699, "step": 1465 }, { "epoch": 0.15637333333333334, "grad_norm": 1.6904677779228279, "learning_rate": 9.587461746201963e-06, "loss": 0.4881, "step": 1466 }, { "avg_step_time": 5.518419706460201, "epoch": 0.15637333333333334, "eta_time": 12.12366151622048, "step": 1466 }, { "epoch": 0.15648, "grad_norm": 1.7573573760791552, "learning_rate": 9.586774361869436e-06, "loss": 0.504, "step": 1467 }, { "avg_step_time": 5.523618081603387, "epoch": 0.15648, "eta_time": 12.133547719255441, "step": 1467 }, { "epoch": 0.15658666666666668, "grad_norm": 2.029890479682205, "learning_rate": 9.58608643002605e-06, "loss": 0.5046, "step": 1468 }, { "avg_step_time": 5.524267940810232, "epoch": 0.15658666666666668, "eta_time": 12.133440724440698, "step": 1468 }, { "epoch": 0.15669333333333332, "grad_norm": 1.74467617999333, "learning_rate": 9.585397950753926e-06, "loss": 0.5086, "step": 1469 }, { "avg_step_time": 5.522048008562338, "epoch": 0.15669333333333332, "eta_time": 12.127030987692734, "step": 1469 }, { "epoch": 0.1568, "grad_norm": 1.640405052913084, "learning_rate": 9.584708924135245e-06, "loss": 0.5074, "step": 1470 }, { "avg_step_time": 5.5185294295802265, "epoch": 0.1568, "eta_time": 12.117770872453246, "step": 1470 }, { "epoch": 0.15690666666666667, "grad_norm": 1.8607841310394122, "learning_rate": 9.58401935025225e-06, "loss": 0.5463, "step": 1471 }, { "avg_step_time": 5.547337690989177, "epoch": 0.15690666666666667, "eta_time": 12.179488085994015, "step": 1471 }, { "epoch": 0.15701333333333334, "grad_norm": 1.6160763058313803, "learning_rate": 9.583329229187259e-06, "loss": 0.5453, "step": 1472 }, { "avg_step_time": 5.543773051464196, "epoch": 0.15701333333333334, "eta_time": 12.170121784922651, "step": 1472 }, { "epoch": 0.15712, "grad_norm": 1.3996593625779945, "learning_rate": 9.582638561022646e-06, "loss": 0.3827, "step": 1473 }, { "avg_step_time": 5.544791761070791, "epoch": 0.15712, "eta_time": 12.170817915550387, "step": 1473 }, { "epoch": 0.15722666666666665, "grad_norm": 1.5987857066305704, "learning_rate": 9.581947345840858e-06, "loss": 0.4885, "step": 1474 }, { "avg_step_time": 5.548461870713667, "epoch": 0.15722666666666665, "eta_time": 12.177332566807967, "step": 1474 }, { "epoch": 0.15733333333333333, "grad_norm": 1.6325017446470733, "learning_rate": 9.5812555837244e-06, "loss": 0.544, "step": 1475 }, { "avg_step_time": 5.571033764367152, "epoch": 0.15733333333333333, "eta_time": 12.225324094027917, "step": 1475 }, { "epoch": 0.15744, "grad_norm": 1.5543618705999653, "learning_rate": 9.580563274755848e-06, "loss": 0.5068, "step": 1476 }, { "avg_step_time": 5.5679473009976475, "epoch": 0.15744, "eta_time": 12.21700436960567, "step": 1476 }, { "epoch": 0.15754666666666667, "grad_norm": 1.5722956602484808, "learning_rate": 9.579870419017838e-06, "loss": 0.4653, "step": 1477 }, { "avg_step_time": 5.572027998741227, "epoch": 0.15754666666666667, "eta_time": 12.22441031501617, "step": 1477 }, { "epoch": 0.15765333333333334, "grad_norm": 0.6726989611220783, "learning_rate": 9.579177016593077e-06, "loss": 0.468, "step": 1478 }, { "avg_step_time": 5.539456422882851, "epoch": 0.15765333333333334, "eta_time": 12.151413158751632, "step": 1478 }, { "epoch": 0.15776, "grad_norm": 1.5701709402226312, "learning_rate": 9.578483067564335e-06, "loss": 0.5014, "step": 1479 }, { "avg_step_time": 5.535526998115309, "epoch": 0.15776, "eta_time": 12.14125588253291, "step": 1479 }, { "epoch": 0.15786666666666666, "grad_norm": 1.716497007223794, "learning_rate": 9.577788572014447e-06, "loss": 0.5112, "step": 1480 }, { "avg_step_time": 5.533125807540586, "epoch": 0.15786666666666666, "eta_time": 12.134452291814702, "step": 1480 }, { "epoch": 0.15797333333333333, "grad_norm": 1.6768135581626995, "learning_rate": 9.577093530026309e-06, "loss": 0.5734, "step": 1481 }, { "avg_step_time": 5.533836017955434, "epoch": 0.15797333333333333, "eta_time": 12.134472646038944, "step": 1481 }, { "epoch": 0.15808, "grad_norm": 1.9078983042198254, "learning_rate": 9.576397941682891e-06, "loss": 0.6002, "step": 1482 }, { "avg_step_time": 5.539512759507304, "epoch": 0.15808, "eta_time": 12.145381725219766, "step": 1482 }, { "epoch": 0.15818666666666667, "grad_norm": 1.9447998055642681, "learning_rate": 9.57570180706722e-06, "loss": 0.5539, "step": 1483 }, { "avg_step_time": 5.569109283312403, "epoch": 0.15818666666666667, "eta_time": 12.208725128861524, "step": 1483 }, { "epoch": 0.15829333333333334, "grad_norm": 1.6185221272929642, "learning_rate": 9.575005126262395e-06, "loss": 0.4519, "step": 1484 }, { "avg_step_time": 5.570081491662998, "epoch": 0.15829333333333334, "eta_time": 12.209309180753532, "step": 1484 }, { "epoch": 0.1584, "grad_norm": 1.3939396871811196, "learning_rate": 9.574307899351574e-06, "loss": 0.4851, "step": 1485 }, { "avg_step_time": 5.578681502679382, "epoch": 0.1584, "eta_time": 12.226610293372314, "step": 1485 }, { "epoch": 0.15850666666666666, "grad_norm": 1.9797829654493997, "learning_rate": 9.573610126417985e-06, "loss": 0.5819, "step": 1486 }, { "avg_step_time": 5.608631538622307, "epoch": 0.15850666666666666, "eta_time": 12.290692835608716, "step": 1486 }, { "epoch": 0.15861333333333333, "grad_norm": 1.6696515183024523, "learning_rate": 9.57291180754492e-06, "loss": 0.5058, "step": 1487 }, { "avg_step_time": 5.610422187381321, "epoch": 0.15861333333333333, "eta_time": 12.293058392795517, "step": 1487 }, { "epoch": 0.15872, "grad_norm": 1.8613360436088686, "learning_rate": 9.572212942815734e-06, "loss": 0.5257, "step": 1488 }, { "avg_step_time": 5.610430074460579, "epoch": 0.15872, "eta_time": 12.291517221464051, "step": 1488 }, { "epoch": 0.15882666666666667, "grad_norm": 1.6590633079098625, "learning_rate": 9.571513532313844e-06, "loss": 0.4976, "step": 1489 }, { "avg_step_time": 5.602425837757612, "epoch": 0.15882666666666667, "eta_time": 12.272425043487925, "step": 1489 }, { "epoch": 0.15893333333333334, "grad_norm": 1.7899376565831528, "learning_rate": 9.570813576122746e-06, "loss": 0.462, "step": 1490 }, { "avg_step_time": 5.607748431388778, "epoch": 0.15893333333333334, "eta_time": 12.282526772639033, "step": 1490 }, { "epoch": 0.15904, "grad_norm": 2.1261617663505015, "learning_rate": 9.570113074325986e-06, "loss": 0.4842, "step": 1491 }, { "avg_step_time": 5.607330406555022, "epoch": 0.15904, "eta_time": 12.280053590355498, "step": 1491 }, { "epoch": 0.15914666666666666, "grad_norm": 1.8075890947771893, "learning_rate": 9.569412027007183e-06, "loss": 0.5535, "step": 1492 }, { "avg_step_time": 5.609186369963367, "epoch": 0.15914666666666666, "eta_time": 12.282560042894783, "step": 1492 }, { "epoch": 0.15925333333333333, "grad_norm": 1.976629570752732, "learning_rate": 9.568710434250017e-06, "loss": 0.549, "step": 1493 }, { "avg_step_time": 5.634541106946541, "epoch": 0.15925333333333333, "eta_time": 12.336514723597954, "step": 1493 }, { "epoch": 0.15936, "grad_norm": 1.6458882755772286, "learning_rate": 9.568008296138238e-06, "loss": 0.4998, "step": 1494 }, { "avg_step_time": 5.643844438321663, "epoch": 0.15936, "eta_time": 12.35531611622584, "step": 1494 }, { "epoch": 0.15946666666666667, "grad_norm": 1.5752489034666124, "learning_rate": 9.567305612755654e-06, "loss": 0.4866, "step": 1495 }, { "avg_step_time": 5.679962656714699, "epoch": 0.15946666666666667, "eta_time": 12.432807148586619, "step": 1495 }, { "epoch": 0.15957333333333334, "grad_norm": 0.6715000473107569, "learning_rate": 9.56660238418615e-06, "loss": 0.4694, "step": 1496 }, { "avg_step_time": 5.6118430754151, "epoch": 0.15957333333333334, "eta_time": 12.282142108665438, "step": 1496 }, { "epoch": 0.15968, "grad_norm": 1.6603790744994493, "learning_rate": 9.565898610513661e-06, "loss": 0.5254, "step": 1497 }, { "avg_step_time": 5.636809264770662, "epoch": 0.15968, "eta_time": 12.335217607739798, "step": 1497 }, { "epoch": 0.15978666666666666, "grad_norm": 0.6425706600490675, "learning_rate": 9.565194291822198e-06, "loss": 0.4405, "step": 1498 }, { "avg_step_time": 5.601137139580467, "epoch": 0.15978666666666666, "eta_time": 12.255599235687592, "step": 1498 }, { "epoch": 0.15989333333333333, "grad_norm": 1.51706580432005, "learning_rate": 9.564489428195834e-06, "loss": 0.4746, "step": 1499 }, { "avg_step_time": 5.625067474866154, "epoch": 0.15989333333333333, "eta_time": 12.30639762001273, "step": 1499 }, { "epoch": 0.16, "grad_norm": 1.607611375007665, "learning_rate": 9.563784019718704e-06, "loss": 0.4296, "step": 1500 }, { "avg_step_time": 5.62916799265929, "epoch": 0.16, "eta_time": 12.313804983942196, "step": 1500 }, { "epoch": 0.16010666666666667, "grad_norm": 1.7784519979554632, "learning_rate": 9.563078066475012e-06, "loss": 0.5862, "step": 1501 }, { "avg_step_time": 5.626882524201364, "epoch": 0.16010666666666667, "eta_time": 12.307242498767094, "step": 1501 }, { "epoch": 0.16021333333333335, "grad_norm": 2.0705759359359357, "learning_rate": 9.562371568549027e-06, "loss": 0.4433, "step": 1502 }, { "avg_step_time": 5.628843909562236, "epoch": 0.16021333333333335, "eta_time": 12.30996891666208, "step": 1502 }, { "epoch": 0.16032, "grad_norm": 1.7128194752186388, "learning_rate": 9.561664526025082e-06, "loss": 0.5012, "step": 1503 }, { "avg_step_time": 5.629014860499989, "epoch": 0.16032, "eta_time": 12.308779161626644, "step": 1503 }, { "epoch": 0.16042666666666666, "grad_norm": 1.7525217944096854, "learning_rate": 9.560956938987573e-06, "loss": 0.5947, "step": 1504 }, { "avg_step_time": 5.669078646284161, "epoch": 0.16042666666666666, "eta_time": 12.394810562472953, "step": 1504 }, { "epoch": 0.16053333333333333, "grad_norm": 1.7215062948136604, "learning_rate": 9.560248807520963e-06, "loss": 0.5191, "step": 1505 }, { "avg_step_time": 5.66864985408205, "epoch": 0.16053333333333333, "eta_time": 12.392298431007148, "step": 1505 }, { "epoch": 0.16064, "grad_norm": 0.6391326808267467, "learning_rate": 9.55954013170978e-06, "loss": 0.4116, "step": 1506 }, { "avg_step_time": 5.643310479443483, "epoch": 0.16064, "eta_time": 12.33533615631688, "step": 1506 }, { "epoch": 0.16074666666666668, "grad_norm": 1.5333218574031466, "learning_rate": 9.558830911638616e-06, "loss": 0.4881, "step": 1507 }, { "avg_step_time": 5.648098476005323, "epoch": 0.16074666666666668, "eta_time": 12.344233002558301, "step": 1507 }, { "epoch": 0.16085333333333332, "grad_norm": 1.7040627880611228, "learning_rate": 9.558121147392132e-06, "loss": 0.5105, "step": 1508 }, { "avg_step_time": 5.649136254281709, "epoch": 0.16085333333333332, "eta_time": 12.344931920120612, "step": 1508 }, { "epoch": 0.16096, "grad_norm": 1.7284806108545125, "learning_rate": 9.557410839055047e-06, "loss": 0.5176, "step": 1509 }, { "avg_step_time": 5.646640274259779, "epoch": 0.16096, "eta_time": 12.337908999257618, "step": 1509 }, { "epoch": 0.16106666666666666, "grad_norm": 1.7489143229477773, "learning_rate": 9.55669998671215e-06, "loss": 0.4764, "step": 1510 }, { "avg_step_time": 5.617953683390762, "epoch": 0.16106666666666666, "eta_time": 12.273668255518983, "step": 1510 }, { "epoch": 0.16117333333333334, "grad_norm": 1.8152323581747003, "learning_rate": 9.555988590448292e-06, "loss": 0.5471, "step": 1511 }, { "avg_step_time": 5.619868714400012, "epoch": 0.16117333333333334, "eta_time": 12.27629099167825, "step": 1511 }, { "epoch": 0.16128, "grad_norm": 1.3629740198253413, "learning_rate": 9.555276650348393e-06, "loss": 0.4425, "step": 1512 }, { "avg_step_time": 5.652744192065614, "epoch": 0.16128, "eta_time": 12.346535439503311, "step": 1512 }, { "epoch": 0.16138666666666668, "grad_norm": 1.5867501852387127, "learning_rate": 9.554564166497434e-06, "loss": 0.4181, "step": 1513 }, { "avg_step_time": 5.65767054124312, "epoch": 0.16138666666666668, "eta_time": 12.355723832014837, "step": 1513 }, { "epoch": 0.16149333333333332, "grad_norm": 1.4842491090075867, "learning_rate": 9.553851138980462e-06, "loss": 0.4777, "step": 1514 }, { "avg_step_time": 5.684175460025518, "epoch": 0.16149333333333332, "eta_time": 12.412028692016833, "step": 1514 }, { "epoch": 0.1616, "grad_norm": 1.7380710379612738, "learning_rate": 9.55313756788259e-06, "loss": 0.5062, "step": 1515 }, { "avg_step_time": 5.685440509006231, "epoch": 0.1616, "eta_time": 12.413211777996937, "step": 1515 }, { "epoch": 0.16170666666666667, "grad_norm": 1.9119973647006765, "learning_rate": 9.552423453288995e-06, "loss": 0.5667, "step": 1516 }, { "avg_step_time": 5.68656323654483, "epoch": 0.16170666666666667, "eta_time": 12.414083465557171, "step": 1516 }, { "epoch": 0.16181333333333334, "grad_norm": 1.62238621030541, "learning_rate": 9.551708795284917e-06, "loss": 0.5682, "step": 1517 }, { "avg_step_time": 5.699759341249562, "epoch": 0.16181333333333334, "eta_time": 12.44130802876085, "step": 1517 }, { "epoch": 0.16192, "grad_norm": 1.754787153414887, "learning_rate": 9.550993593955665e-06, "loss": 0.4988, "step": 1518 }, { "avg_step_time": 5.704456006637727, "epoch": 0.16192, "eta_time": 12.44997523448684, "step": 1518 }, { "epoch": 0.16202666666666668, "grad_norm": 1.780975108665488, "learning_rate": 9.55027784938661e-06, "loss": 0.6237, "step": 1519 }, { "avg_step_time": 5.702105151282416, "epoch": 0.16202666666666668, "eta_time": 12.443260574576295, "step": 1519 }, { "epoch": 0.16213333333333332, "grad_norm": 1.5206817934897754, "learning_rate": 9.54956156166319e-06, "loss": 0.527, "step": 1520 }, { "avg_step_time": 5.73719461036451, "epoch": 0.16213333333333332, "eta_time": 12.518239906781451, "step": 1520 }, { "epoch": 0.16224, "grad_norm": 1.5066970181478614, "learning_rate": 9.548844730870903e-06, "loss": 0.5024, "step": 1521 }, { "avg_step_time": 5.737242159217295, "epoch": 0.16224, "eta_time": 12.516749977359064, "step": 1521 }, { "epoch": 0.16234666666666667, "grad_norm": 1.6801080626929172, "learning_rate": 9.548127357095316e-06, "loss": 0.5094, "step": 1522 }, { "avg_step_time": 5.737648985602639, "epoch": 0.16234666666666667, "eta_time": 12.516043745538202, "step": 1522 }, { "epoch": 0.16245333333333334, "grad_norm": 1.7931419761604976, "learning_rate": 9.547409440422061e-06, "loss": 0.5868, "step": 1523 }, { "avg_step_time": 5.738473950010357, "epoch": 0.16245333333333334, "eta_time": 12.516249293189256, "step": 1523 }, { "epoch": 0.16256, "grad_norm": 1.5073988232023041, "learning_rate": 9.546690980936836e-06, "loss": 0.5676, "step": 1524 }, { "avg_step_time": 5.738253511563696, "epoch": 0.16256, "eta_time": 12.51417453313516, "step": 1524 }, { "epoch": 0.16266666666666665, "grad_norm": 1.8200384499116447, "learning_rate": 9.545971978725399e-06, "loss": 0.5016, "step": 1525 }, { "avg_step_time": 5.738734620990175, "epoch": 0.16266666666666665, "eta_time": 12.51362965965913, "step": 1525 }, { "epoch": 0.16277333333333333, "grad_norm": 0.6180839452707633, "learning_rate": 9.545252433873574e-06, "loss": 0.437, "step": 1526 }, { "avg_step_time": 5.7048360723437685, "epoch": 0.16277333333333333, "eta_time": 12.438127314396178, "step": 1526 }, { "epoch": 0.16288, "grad_norm": 2.011034849209429, "learning_rate": 9.544532346467254e-06, "loss": 0.5478, "step": 1527 }, { "avg_step_time": 5.708019976664072, "epoch": 0.16288, "eta_time": 12.443483549127675, "step": 1527 }, { "epoch": 0.16298666666666667, "grad_norm": 1.358903103670413, "learning_rate": 9.543811716592391e-06, "loss": 0.4525, "step": 1528 }, { "avg_step_time": 5.693071001707906, "epoch": 0.16298666666666667, "eta_time": 12.40931337511165, "step": 1528 }, { "epoch": 0.16309333333333334, "grad_norm": 1.4181901807154773, "learning_rate": 9.543090544335008e-06, "loss": 0.5294, "step": 1529 }, { "avg_step_time": 5.697373368523338, "epoch": 0.16309333333333334, "eta_time": 12.41710873595392, "step": 1529 }, { "epoch": 0.1632, "grad_norm": 1.6758642167978595, "learning_rate": 9.542368829781186e-06, "loss": 0.4882, "step": 1530 }, { "avg_step_time": 5.698721235448664, "epoch": 0.1632, "eta_time": 12.418463358915215, "step": 1530 }, { "epoch": 0.16330666666666666, "grad_norm": 1.5356696574615818, "learning_rate": 9.541646573017077e-06, "loss": 0.4753, "step": 1531 }, { "avg_step_time": 5.697567202828147, "epoch": 0.16330666666666666, "eta_time": 12.414365871939996, "step": 1531 }, { "epoch": 0.16341333333333333, "grad_norm": 1.6324562126879285, "learning_rate": 9.540923774128893e-06, "loss": 0.4844, "step": 1532 }, { "avg_step_time": 5.69354639872156, "epoch": 0.16341333333333333, "eta_time": 12.404023445881444, "step": 1532 }, { "epoch": 0.16352, "grad_norm": 1.7715716830186112, "learning_rate": 9.540200433202913e-06, "loss": 0.5407, "step": 1533 }, { "avg_step_time": 5.667206166970609, "epoch": 0.16352, "eta_time": 12.34506410038431, "step": 1533 }, { "epoch": 0.16362666666666667, "grad_norm": 1.693174398822322, "learning_rate": 9.539476550325481e-06, "loss": 0.5326, "step": 1534 }, { "avg_step_time": 5.665474595445575, "epoch": 0.16362666666666667, "eta_time": 12.339718417469099, "step": 1534 }, { "epoch": 0.16373333333333334, "grad_norm": 1.437756409279967, "learning_rate": 9.538752125583003e-06, "loss": 0.5085, "step": 1535 }, { "avg_step_time": 5.665056387583415, "epoch": 0.16373333333333334, "eta_time": 12.337233910737215, "step": 1535 }, { "epoch": 0.16384, "grad_norm": 2.004514408143426, "learning_rate": 9.538027159061955e-06, "loss": 0.5609, "step": 1536 }, { "avg_step_time": 5.663880986396713, "epoch": 0.16384, "eta_time": 12.333100847878843, "step": 1536 }, { "epoch": 0.16394666666666666, "grad_norm": 0.6783326345298705, "learning_rate": 9.537301650848872e-06, "loss": 0.428, "step": 1537 }, { "avg_step_time": 5.631450038967711, "epoch": 0.16394666666666666, "eta_time": 12.2609181681747, "step": 1537 }, { "epoch": 0.16405333333333333, "grad_norm": 1.6994717479669994, "learning_rate": 9.536575601030355e-06, "loss": 0.4812, "step": 1538 }, { "avg_step_time": 5.623575523646191, "epoch": 0.16405333333333333, "eta_time": 12.242211494115333, "step": 1538 }, { "epoch": 0.16416, "grad_norm": 1.7715832149150215, "learning_rate": 9.535849009693072e-06, "loss": 0.4539, "step": 1539 }, { "avg_step_time": 5.657596368982334, "epoch": 0.16416, "eta_time": 12.314701429818214, "step": 1539 }, { "epoch": 0.16426666666666667, "grad_norm": 0.6541106409884906, "learning_rate": 9.535121876923754e-06, "loss": 0.4316, "step": 1540 }, { "avg_step_time": 5.624618720526647, "epoch": 0.16426666666666667, "eta_time": 12.241357687590634, "step": 1540 }, { "epoch": 0.16437333333333334, "grad_norm": 1.4478353921330234, "learning_rate": 9.534394202809198e-06, "loss": 0.4734, "step": 1541 }, { "avg_step_time": 5.639803806940715, "epoch": 0.16437333333333334, "eta_time": 12.272839728770434, "step": 1541 }, { "epoch": 0.16448, "grad_norm": 1.766693723309426, "learning_rate": 9.533665987436262e-06, "loss": 0.5578, "step": 1542 }, { "avg_step_time": 5.66468414874992, "epoch": 0.16448, "eta_time": 12.325408593655036, "step": 1542 }, { "epoch": 0.16458666666666666, "grad_norm": 1.6275111722141644, "learning_rate": 9.532937230891874e-06, "loss": 0.5579, "step": 1543 }, { "avg_step_time": 5.681547964462126, "epoch": 0.16458666666666666, "eta_time": 12.360523238240937, "step": 1543 }, { "epoch": 0.16469333333333333, "grad_norm": 0.6138460557041442, "learning_rate": 9.53220793326302e-06, "loss": 0.4189, "step": 1544 }, { "avg_step_time": 5.64703200080178, "epoch": 0.16469333333333333, "eta_time": 12.283863221744095, "step": 1544 }, { "epoch": 0.1648, "grad_norm": 1.8187237615530651, "learning_rate": 9.531478094636758e-06, "loss": 0.5065, "step": 1545 }, { "avg_step_time": 5.680659884154195, "epoch": 0.1648, "eta_time": 12.355435248035374, "step": 1545 }, { "epoch": 0.16490666666666667, "grad_norm": 1.3728427771485237, "learning_rate": 9.530747715100205e-06, "loss": 0.4843, "step": 1546 }, { "avg_step_time": 5.679950314338761, "epoch": 0.16490666666666667, "eta_time": 12.3523141697106, "step": 1546 }, { "epoch": 0.16501333333333335, "grad_norm": 1.6389983433794026, "learning_rate": 9.530016794740546e-06, "loss": 0.4544, "step": 1547 }, { "avg_step_time": 5.6760703794883955, "epoch": 0.16501333333333335, "eta_time": 12.342299702954211, "step": 1547 }, { "epoch": 0.16512, "grad_norm": 1.7038693853749922, "learning_rate": 9.529285333645027e-06, "loss": 0.515, "step": 1548 }, { "avg_step_time": 5.715311539293539, "epoch": 0.16512, "eta_time": 12.42603983834737, "step": 1548 }, { "epoch": 0.16522666666666666, "grad_norm": 1.416680925784662, "learning_rate": 9.52855333190096e-06, "loss": 0.4457, "step": 1549 }, { "avg_step_time": 5.71603672432177, "epoch": 0.16522666666666666, "eta_time": 12.426028723483936, "step": 1549 }, { "epoch": 0.16533333333333333, "grad_norm": 0.6895138146636107, "learning_rate": 9.527820789595725e-06, "loss": 0.4542, "step": 1550 }, { "avg_step_time": 5.694598920417555, "epoch": 0.16533333333333333, "eta_time": 12.377843486740934, "step": 1550 }, { "epoch": 0.16544, "grad_norm": 1.8608523387040121, "learning_rate": 9.527087706816762e-06, "loss": 0.5349, "step": 1551 }, { "avg_step_time": 5.719683415961988, "epoch": 0.16544, "eta_time": 12.430778624024054, "step": 1551 }, { "epoch": 0.16554666666666668, "grad_norm": 1.624505170436292, "learning_rate": 9.526354083651576e-06, "loss": 0.5287, "step": 1552 }, { "avg_step_time": 5.719195736779107, "epoch": 0.16554666666666668, "eta_time": 12.428130069117488, "step": 1552 }, { "epoch": 0.16565333333333335, "grad_norm": 0.6478994502229641, "learning_rate": 9.52561992018774e-06, "loss": 0.4605, "step": 1553 }, { "avg_step_time": 5.684129079182942, "epoch": 0.16565333333333335, "eta_time": 12.350349349269159, "step": 1553 }, { "epoch": 0.16576, "grad_norm": 0.6412518013007529, "learning_rate": 9.524885216512887e-06, "loss": 0.4563, "step": 1554 }, { "avg_step_time": 5.6728012995286425, "epoch": 0.16576, "eta_time": 12.324160823225975, "step": 1554 }, { "epoch": 0.16586666666666666, "grad_norm": 0.6595611922520842, "learning_rate": 9.524149972714717e-06, "loss": 0.4641, "step": 1555 }, { "avg_step_time": 5.617710450682977, "epoch": 0.16586666666666666, "eta_time": 12.202915478983577, "step": 1555 }, { "epoch": 0.16597333333333333, "grad_norm": 1.8543840018435822, "learning_rate": 9.523414188880994e-06, "loss": 0.5353, "step": 1556 }, { "avg_step_time": 5.619136314199428, "epoch": 0.16597333333333333, "eta_time": 12.20445190020148, "step": 1556 }, { "epoch": 0.16608, "grad_norm": 0.6104531340928148, "learning_rate": 9.522677865099548e-06, "loss": 0.4558, "step": 1557 }, { "avg_step_time": 5.583551315346149, "epoch": 0.16608, "eta_time": 12.125612273160053, "step": 1557 }, { "epoch": 0.16618666666666668, "grad_norm": 0.6361330498826222, "learning_rate": 9.521941001458272e-06, "loss": 0.4534, "step": 1558 }, { "avg_step_time": 5.547355468827065, "epoch": 0.16618666666666668, "eta_time": 12.045466027728102, "step": 1558 }, { "epoch": 0.16629333333333332, "grad_norm": 1.6669751718646661, "learning_rate": 9.521203598045122e-06, "loss": 0.4857, "step": 1559 }, { "avg_step_time": 5.582892600936119, "epoch": 0.16629333333333332, "eta_time": 12.121080158032418, "step": 1559 }, { "epoch": 0.1664, "grad_norm": 1.839385921517707, "learning_rate": 9.520465654948119e-06, "loss": 0.5313, "step": 1560 }, { "avg_step_time": 5.580505491507174, "epoch": 0.1664, "eta_time": 12.11434733781349, "step": 1560 }, { "epoch": 0.16650666666666666, "grad_norm": 0.629422571039848, "learning_rate": 9.519727172255351e-06, "loss": 0.4468, "step": 1561 }, { "avg_step_time": 5.539847128319018, "epoch": 0.16650666666666666, "eta_time": 12.024545961301335, "step": 1561 }, { "epoch": 0.16661333333333334, "grad_norm": 1.7568264748070155, "learning_rate": 9.518988150054968e-06, "loss": 0.6119, "step": 1562 }, { "avg_step_time": 5.582520186299026, "epoch": 0.16661333333333334, "eta_time": 12.115619504320636, "step": 1562 }, { "epoch": 0.16672, "grad_norm": 0.6375511857489132, "learning_rate": 9.518248588435185e-06, "loss": 0.4569, "step": 1563 }, { "avg_step_time": 5.548087849761501, "epoch": 0.16672, "eta_time": 12.039350633982457, "step": 1563 }, { "epoch": 0.16682666666666668, "grad_norm": 0.6142521314111823, "learning_rate": 9.517508487484283e-06, "loss": 0.4217, "step": 1564 }, { "avg_step_time": 5.508171194731587, "epoch": 0.16682666666666668, "eta_time": 11.951201445013453, "step": 1564 }, { "epoch": 0.16693333333333332, "grad_norm": 1.5170168359016951, "learning_rate": 9.516767847290603e-06, "loss": 0.4611, "step": 1565 }, { "avg_step_time": 5.511601891180481, "epoch": 0.16693333333333332, "eta_time": 11.957114102810989, "step": 1565 }, { "epoch": 0.16704, "grad_norm": 1.6404591974701097, "learning_rate": 9.516026667942557e-06, "loss": 0.5487, "step": 1566 }, { "avg_step_time": 5.510266884408816, "epoch": 0.16704, "eta_time": 11.952687250096789, "step": 1566 }, { "epoch": 0.16714666666666667, "grad_norm": 1.5370962510146424, "learning_rate": 9.515284949528614e-06, "loss": 0.5635, "step": 1567 }, { "avg_step_time": 5.520864693805425, "epoch": 0.16714666666666667, "eta_time": 11.974142091453546, "step": 1567 }, { "epoch": 0.16725333333333334, "grad_norm": 1.625585448155397, "learning_rate": 9.514542692137311e-06, "loss": 0.439, "step": 1568 }, { "avg_step_time": 5.524017808413265, "epoch": 0.16725333333333334, "eta_time": 11.979446397300656, "step": 1568 }, { "epoch": 0.16736, "grad_norm": 1.8380156660442917, "learning_rate": 9.513799895857252e-06, "loss": 0.4648, "step": 1569 }, { "avg_step_time": 5.522780488235782, "epoch": 0.16736, "eta_time": 11.975229025324586, "step": 1569 }, { "epoch": 0.16746666666666668, "grad_norm": 0.6449124847021702, "learning_rate": 9.513056560777102e-06, "loss": 0.455, "step": 1570 }, { "avg_step_time": 5.490275667171286, "epoch": 0.16746666666666668, "eta_time": 11.90322266174219, "step": 1570 }, { "epoch": 0.16757333333333332, "grad_norm": 1.718215821732629, "learning_rate": 9.512312686985589e-06, "loss": 0.4979, "step": 1571 }, { "avg_step_time": 5.501874169918022, "epoch": 0.16757333333333332, "eta_time": 11.926840561677844, "step": 1571 }, { "epoch": 0.16768, "grad_norm": 1.8097075364821793, "learning_rate": 9.511568274571508e-06, "loss": 0.5528, "step": 1572 }, { "avg_step_time": 5.5051578969666455, "epoch": 0.16768, "eta_time": 11.932429741675204, "step": 1572 }, { "epoch": 0.16778666666666667, "grad_norm": 1.795192553845302, "learning_rate": 9.510823323623718e-06, "loss": 0.552, "step": 1573 }, { "avg_step_time": 5.50408527827022, "epoch": 0.16778666666666667, "eta_time": 11.928575928073405, "step": 1573 }, { "epoch": 0.16789333333333334, "grad_norm": 0.6814615642359675, "learning_rate": 9.510077834231141e-06, "loss": 0.4483, "step": 1574 }, { "avg_step_time": 5.445892290635542, "epoch": 0.16789333333333334, "eta_time": 11.800946044235518, "step": 1574 }, { "epoch": 0.168, "grad_norm": 0.6908553573576217, "learning_rate": 9.509331806482767e-06, "loss": 0.4609, "step": 1575 }, { "avg_step_time": 5.407429174943403, "epoch": 0.168, "eta_time": 11.716096545710707, "step": 1575 }, { "epoch": 0.16810666666666665, "grad_norm": 1.7599297726706264, "learning_rate": 9.508585240467642e-06, "loss": 0.4693, "step": 1576 }, { "avg_step_time": 5.413125623356212, "epoch": 0.16810666666666665, "eta_time": 11.72693520459864, "step": 1576 }, { "epoch": 0.16821333333333333, "grad_norm": 1.5988340631031754, "learning_rate": 9.507838136274887e-06, "loss": 0.5195, "step": 1577 }, { "avg_step_time": 5.446959078913987, "epoch": 0.16821333333333333, "eta_time": 11.798718582603131, "step": 1577 }, { "epoch": 0.16832, "grad_norm": 2.003223753026246, "learning_rate": 9.507090493993677e-06, "loss": 0.506, "step": 1578 }, { "avg_step_time": 5.446331525089765, "epoch": 0.16832, "eta_time": 11.795846361423584, "step": 1578 }, { "epoch": 0.16842666666666667, "grad_norm": 1.6945614539103737, "learning_rate": 9.50634231371326e-06, "loss": 0.5366, "step": 1579 }, { "avg_step_time": 5.448030536825007, "epoch": 0.16842666666666667, "eta_time": 11.798012795857709, "step": 1579 }, { "epoch": 0.16853333333333334, "grad_norm": 1.9114709642019485, "learning_rate": 9.505593595522941e-06, "loss": 0.5015, "step": 1580 }, { "avg_step_time": 5.446935569397127, "epoch": 0.16853333333333334, "eta_time": 11.794128545402947, "step": 1580 }, { "epoch": 0.16864, "grad_norm": 1.6803999729555725, "learning_rate": 9.504844339512096e-06, "loss": 0.4879, "step": 1581 }, { "avg_step_time": 5.443241210898968, "epoch": 0.16864, "eta_time": 11.784617221596266, "step": 1581 }, { "epoch": 0.16874666666666666, "grad_norm": 1.5920114123244027, "learning_rate": 9.50409454577016e-06, "loss": 0.519, "step": 1582 }, { "avg_step_time": 5.407097676787713, "epoch": 0.16874666666666666, "eta_time": 11.704864498668513, "step": 1582 }, { "epoch": 0.16885333333333333, "grad_norm": 1.8443532617555227, "learning_rate": 9.503344214386632e-06, "loss": 0.4528, "step": 1583 }, { "avg_step_time": 5.407331558189007, "epoch": 0.16885333333333333, "eta_time": 11.703868750391319, "step": 1583 }, { "epoch": 0.16896, "grad_norm": 1.4835337730965559, "learning_rate": 9.502593345451078e-06, "loss": 0.5287, "step": 1584 }, { "avg_step_time": 5.398904224838874, "epoch": 0.16896, "eta_time": 11.68412855992213, "step": 1584 }, { "epoch": 0.16906666666666667, "grad_norm": 1.5985774040546261, "learning_rate": 9.50184193905313e-06, "loss": 0.4511, "step": 1585 }, { "avg_step_time": 5.362797366248237, "epoch": 0.16906666666666667, "eta_time": 11.604497634187156, "step": 1585 }, { "epoch": 0.16917333333333334, "grad_norm": 1.3613409951752347, "learning_rate": 9.501089995282478e-06, "loss": 0.4433, "step": 1586 }, { "avg_step_time": 5.364484929075145, "epoch": 0.16917333333333334, "eta_time": 11.606659197935084, "step": 1586 }, { "epoch": 0.16928, "grad_norm": 1.4522501624291912, "learning_rate": 9.500337514228878e-06, "loss": 0.4533, "step": 1587 }, { "avg_step_time": 5.3642776879397305, "epoch": 0.16928, "eta_time": 11.604720731576284, "step": 1587 }, { "epoch": 0.16938666666666666, "grad_norm": 1.6342768432729384, "learning_rate": 9.499584495982157e-06, "loss": 0.4512, "step": 1588 }, { "avg_step_time": 5.36884976396657, "epoch": 0.16938666666666666, "eta_time": 11.613120308891022, "step": 1588 }, { "epoch": 0.16949333333333333, "grad_norm": 0.6974391115811079, "learning_rate": 9.498830940632199e-06, "loss": 0.4253, "step": 1589 }, { "avg_step_time": 5.353152660408405, "epoch": 0.16949333333333333, "eta_time": 11.577679614983289, "step": 1589 }, { "epoch": 0.1696, "grad_norm": 0.7070868924894546, "learning_rate": 9.49807684826895e-06, "loss": 0.4704, "step": 1590 }, { "avg_step_time": 5.316237189553001, "epoch": 0.1696, "eta_time": 11.496362922408364, "step": 1590 }, { "epoch": 0.16970666666666667, "grad_norm": 1.8691172770933155, "learning_rate": 9.49732221898243e-06, "loss": 0.516, "step": 1591 }, { "avg_step_time": 5.312493319463248, "epoch": 0.16970666666666667, "eta_time": 11.486791110750534, "step": 1591 }, { "epoch": 0.16981333333333334, "grad_norm": 1.7235647993486796, "learning_rate": 9.496567052862713e-06, "loss": 0.5435, "step": 1592 }, { "avg_step_time": 5.310856783028805, "epoch": 0.16981333333333334, "eta_time": 11.481777317309218, "step": 1592 }, { "epoch": 0.16992, "grad_norm": 1.8313812078831202, "learning_rate": 9.495811349999941e-06, "loss": 0.5685, "step": 1593 }, { "avg_step_time": 5.3018484428675485, "epoch": 0.16992, "eta_time": 11.460829050665351, "step": 1593 }, { "epoch": 0.17002666666666666, "grad_norm": 1.7907044240549679, "learning_rate": 9.495055110484322e-06, "loss": 0.5548, "step": 1594 }, { "avg_step_time": 5.308936569425795, "epoch": 0.17002666666666666, "eta_time": 11.474676512972808, "step": 1594 }, { "epoch": 0.17013333333333333, "grad_norm": 0.6491859930602668, "learning_rate": 9.494298334406125e-06, "loss": 0.4528, "step": 1595 }, { "avg_step_time": 5.312944539869674, "epoch": 0.17013333333333333, "eta_time": 11.481863477829464, "step": 1595 }, { "epoch": 0.17024, "grad_norm": 1.8204457999301564, "learning_rate": 9.493541021855685e-06, "loss": 0.6274, "step": 1596 }, { "avg_step_time": 5.2987610330485335, "epoch": 0.17024, "eta_time": 11.44973946557904, "step": 1596 }, { "epoch": 0.17034666666666667, "grad_norm": 1.9077784052284634, "learning_rate": 9.4927831729234e-06, "loss": 0.5293, "step": 1597 }, { "avg_step_time": 5.392988347043895, "epoch": 0.17034666666666667, "eta_time": 11.65185093425206, "step": 1597 }, { "epoch": 0.17045333333333335, "grad_norm": 0.6823961919719371, "learning_rate": 9.492024787699733e-06, "loss": 0.4704, "step": 1598 }, { "avg_step_time": 5.332811444696754, "epoch": 0.17045333333333335, "eta_time": 11.520354057057403, "step": 1598 }, { "epoch": 0.17056, "grad_norm": 1.4976967653976216, "learning_rate": 9.49126586627521e-06, "loss": 0.6032, "step": 1599 }, { "avg_step_time": 5.33055539323826, "epoch": 0.17056, "eta_time": 11.513999649394641, "step": 1599 }, { "epoch": 0.17066666666666666, "grad_norm": 1.416737485414391, "learning_rate": 9.49050640874042e-06, "loss": 0.4604, "step": 1600 }, { "avg_step_time": 5.32884659911647, "epoch": 0.17066666666666666, "eta_time": 11.508828418925154, "step": 1600 }, { "epoch": 0.17077333333333333, "grad_norm": 1.5727771792409242, "learning_rate": 9.48974641518602e-06, "loss": 0.537, "step": 1601 }, { "avg_step_time": 5.335398849814829, "epoch": 0.17077333333333333, "eta_time": 11.52149740512791, "step": 1601 }, { "epoch": 0.17088, "grad_norm": 1.6480582141230948, "learning_rate": 9.488985885702728e-06, "loss": 0.4408, "step": 1602 }, { "avg_step_time": 5.3381990423106185, "epoch": 0.17088, "eta_time": 11.52606143218901, "step": 1602 }, { "epoch": 0.17098666666666668, "grad_norm": 1.6772084797120064, "learning_rate": 9.488224820381324e-06, "loss": 0.5181, "step": 1603 }, { "avg_step_time": 5.329083912300341, "epoch": 0.17098666666666668, "eta_time": 11.504900046221735, "step": 1603 }, { "epoch": 0.17109333333333332, "grad_norm": 1.78611399082792, "learning_rate": 9.487463219312657e-06, "loss": 0.6493, "step": 1604 }, { "avg_step_time": 5.329895460244381, "epoch": 0.17109333333333332, "eta_time": 11.50517156154419, "step": 1604 }, { "epoch": 0.1712, "grad_norm": 1.3143521359594095, "learning_rate": 9.486701082587635e-06, "loss": 0.4297, "step": 1605 }, { "avg_step_time": 5.355144695802168, "epoch": 0.1712, "eta_time": 11.558187301773012, "step": 1605 }, { "epoch": 0.17130666666666666, "grad_norm": 1.4738578087032441, "learning_rate": 9.485938410297233e-06, "loss": 0.4606, "step": 1606 }, { "avg_step_time": 5.353527240078859, "epoch": 0.17130666666666666, "eta_time": 11.55320920227018, "step": 1606 }, { "epoch": 0.17141333333333333, "grad_norm": 1.4817151230331194, "learning_rate": 9.48517520253249e-06, "loss": 0.4547, "step": 1607 }, { "avg_step_time": 5.350996542458582, "epoch": 0.17141333333333333, "eta_time": 11.546261428282852, "step": 1607 }, { "epoch": 0.17152, "grad_norm": 1.4492774396969912, "learning_rate": 9.484411459384508e-06, "loss": 0.5694, "step": 1608 }, { "avg_step_time": 5.35887551789332, "epoch": 0.17152, "eta_time": 11.561773929854837, "step": 1608 }, { "epoch": 0.17162666666666668, "grad_norm": 1.4322208060160821, "learning_rate": 9.48364718094445e-06, "loss": 0.4143, "step": 1609 }, { "avg_step_time": 5.359308854498044, "epoch": 0.17162666666666668, "eta_time": 11.561220156675503, "step": 1609 }, { "epoch": 0.17173333333333332, "grad_norm": 1.408356859555189, "learning_rate": 9.482882367303552e-06, "loss": 0.5302, "step": 1610 }, { "avg_step_time": 5.372828825555667, "epoch": 0.17173333333333332, "eta_time": 11.588893286233263, "step": 1610 }, { "epoch": 0.17184, "grad_norm": 1.9094552227522044, "learning_rate": 9.482117018553101e-06, "loss": 0.4655, "step": 1611 }, { "avg_step_time": 5.432115195977567, "epoch": 0.17184, "eta_time": 11.715261772658287, "step": 1611 }, { "epoch": 0.17194666666666666, "grad_norm": 1.570494995225723, "learning_rate": 9.481351134784458e-06, "loss": 0.5141, "step": 1612 }, { "avg_step_time": 5.433656781610816, "epoch": 0.17194666666666666, "eta_time": 11.717077109901323, "step": 1612 }, { "epoch": 0.17205333333333334, "grad_norm": 1.8493811875404116, "learning_rate": 9.480584716089045e-06, "loss": 0.5718, "step": 1613 }, { "avg_step_time": 5.404971763341114, "epoch": 0.17205333333333334, "eta_time": 11.65371967418159, "step": 1613 }, { "epoch": 0.17216, "grad_norm": 1.7450011250579274, "learning_rate": 9.479817762558345e-06, "loss": 0.438, "step": 1614 }, { "avg_step_time": 5.442013193862607, "epoch": 0.17216, "eta_time": 11.732073443768805, "step": 1614 }, { "epoch": 0.17226666666666668, "grad_norm": 1.669638937752463, "learning_rate": 9.47905027428391e-06, "loss": 0.5281, "step": 1615 }, { "avg_step_time": 5.44349127345615, "epoch": 0.17226666666666668, "eta_time": 11.73374785611659, "step": 1615 }, { "epoch": 0.17237333333333332, "grad_norm": 1.745659954036874, "learning_rate": 9.478282251357352e-06, "loss": 0.5123, "step": 1616 }, { "avg_step_time": 5.433706334142974, "epoch": 0.17237333333333332, "eta_time": 11.711146512948703, "step": 1616 }, { "epoch": 0.17248, "grad_norm": 1.4671604567444634, "learning_rate": 9.477513693870347e-06, "loss": 0.5124, "step": 1617 }, { "avg_step_time": 5.428289023312655, "epoch": 0.17248, "eta_time": 11.697962845238772, "step": 1617 }, { "epoch": 0.17258666666666667, "grad_norm": 1.3805557885586146, "learning_rate": 9.476744601914634e-06, "loss": 0.4578, "step": 1618 }, { "avg_step_time": 5.431161273609508, "epoch": 0.17258666666666667, "eta_time": 11.702643888719154, "step": 1618 }, { "epoch": 0.17269333333333334, "grad_norm": 1.548309698439479, "learning_rate": 9.475974975582021e-06, "loss": 0.5705, "step": 1619 }, { "avg_step_time": 5.39494566724758, "epoch": 0.17269333333333334, "eta_time": 11.623110720881176, "step": 1619 }, { "epoch": 0.1728, "grad_norm": 2.0468445822629038, "learning_rate": 9.475204814964374e-06, "loss": 0.616, "step": 1620 }, { "avg_step_time": 5.396532239335956, "epoch": 0.1728, "eta_time": 11.62502986556954, "step": 1620 }, { "epoch": 0.17290666666666665, "grad_norm": 1.6567269397818114, "learning_rate": 9.474434120153626e-06, "loss": 0.5992, "step": 1621 }, { "avg_step_time": 5.397890611128374, "epoch": 0.17290666666666665, "eta_time": 11.62645661074706, "step": 1621 }, { "epoch": 0.17301333333333332, "grad_norm": 1.7851597455559771, "learning_rate": 9.473662891241773e-06, "loss": 0.5177, "step": 1622 }, { "avg_step_time": 5.398395906795155, "epoch": 0.17301333333333332, "eta_time": 11.626045407050787, "step": 1622 }, { "epoch": 0.17312, "grad_norm": 1.9378814764367438, "learning_rate": 9.472891128320874e-06, "loss": 0.519, "step": 1623 }, { "avg_step_time": 5.400979909029874, "epoch": 0.17312, "eta_time": 11.630110070777661, "step": 1623 }, { "epoch": 0.17322666666666667, "grad_norm": 1.888037201742301, "learning_rate": 9.472118831483052e-06, "loss": 0.5515, "step": 1624 }, { "avg_step_time": 5.401188229069565, "epoch": 0.17322666666666667, "eta_time": 11.629058323199502, "step": 1624 }, { "epoch": 0.17333333333333334, "grad_norm": 1.650808277024016, "learning_rate": 9.471346000820493e-06, "loss": 0.3861, "step": 1625 }, { "avg_step_time": 5.432159640572288, "epoch": 0.17333333333333334, "eta_time": 11.694232559565343, "step": 1625 }, { "epoch": 0.17344, "grad_norm": 1.4417490720624981, "learning_rate": 9.470572636425451e-06, "loss": 0.4582, "step": 1626 }, { "avg_step_time": 5.425731933478153, "epoch": 0.17344, "eta_time": 11.678887986811725, "step": 1626 }, { "epoch": 0.17354666666666665, "grad_norm": 1.5779418630195745, "learning_rate": 9.469798738390236e-06, "loss": 0.5358, "step": 1627 }, { "avg_step_time": 5.426767421491219, "epoch": 0.17354666666666665, "eta_time": 11.67960943936499, "step": 1627 }, { "epoch": 0.17365333333333333, "grad_norm": 1.5386478820395204, "learning_rate": 9.469024306807229e-06, "loss": 0.4629, "step": 1628 }, { "avg_step_time": 5.421567854255136, "epoch": 0.17365333333333333, "eta_time": 11.666912824142928, "step": 1628 }, { "epoch": 0.17376, "grad_norm": 1.8686531119050405, "learning_rate": 9.46824934176887e-06, "loss": 0.5445, "step": 1629 }, { "avg_step_time": 5.418911310157391, "epoch": 0.17376, "eta_time": 11.659690835688652, "step": 1629 }, { "epoch": 0.17386666666666667, "grad_norm": 1.6203745523590416, "learning_rate": 9.467473843367668e-06, "loss": 0.5024, "step": 1630 }, { "avg_step_time": 5.4161594805091315, "epoch": 0.17386666666666667, "eta_time": 11.652265326817561, "step": 1630 }, { "epoch": 0.17397333333333334, "grad_norm": 1.6106058227478344, "learning_rate": 9.46669781169619e-06, "loss": 0.4501, "step": 1631 }, { "avg_step_time": 5.4166915151807995, "epoch": 0.17397333333333334, "eta_time": 11.651905303766696, "step": 1631 }, { "epoch": 0.17408, "grad_norm": 1.7575642900666375, "learning_rate": 9.465921246847067e-06, "loss": 0.6096, "step": 1632 }, { "avg_step_time": 5.420138908155037, "epoch": 0.17408, "eta_time": 11.657815434956792, "step": 1632 }, { "epoch": 0.17418666666666666, "grad_norm": 1.6838639542238307, "learning_rate": 9.465144148912997e-06, "loss": 0.5065, "step": 1633 }, { "avg_step_time": 5.418495048176158, "epoch": 0.17418666666666666, "eta_time": 11.652774628605506, "step": 1633 }, { "epoch": 0.17429333333333333, "grad_norm": 1.6236913338633128, "learning_rate": 9.46436651798674e-06, "loss": 0.5039, "step": 1634 }, { "avg_step_time": 5.41676139831543, "epoch": 0.17429333333333333, "eta_time": 11.64754166232215, "step": 1634 }, { "epoch": 0.1744, "grad_norm": 0.6766648037706999, "learning_rate": 9.463588354161122e-06, "loss": 0.4379, "step": 1635 }, { "avg_step_time": 5.382250378830264, "epoch": 0.1744, "eta_time": 11.571838314485067, "step": 1635 }, { "epoch": 0.17450666666666667, "grad_norm": 1.6972855006640606, "learning_rate": 9.462809657529025e-06, "loss": 0.475, "step": 1636 }, { "avg_step_time": 5.4534847760441325, "epoch": 0.17450666666666667, "eta_time": 11.72347741161265, "step": 1636 }, { "epoch": 0.17461333333333334, "grad_norm": 1.5657164019582361, "learning_rate": 9.462030428183406e-06, "loss": 0.4891, "step": 1637 }, { "avg_step_time": 5.46061840442696, "epoch": 0.17461333333333334, "eta_time": 11.737295892626616, "step": 1637 }, { "epoch": 0.17472, "grad_norm": 1.6401220316935827, "learning_rate": 9.461250666217277e-06, "loss": 0.5388, "step": 1638 }, { "avg_step_time": 5.424986947666515, "epoch": 0.17472, "eta_time": 11.659201115026619, "step": 1638 }, { "epoch": 0.17482666666666666, "grad_norm": 1.7508017781284966, "learning_rate": 9.460470371723714e-06, "loss": 0.5091, "step": 1639 }, { "avg_step_time": 5.458226644631588, "epoch": 0.17482666666666666, "eta_time": 11.729122589686101, "step": 1639 }, { "epoch": 0.17493333333333333, "grad_norm": 1.69626277998981, "learning_rate": 9.459689544795859e-06, "loss": 0.5312, "step": 1640 }, { "avg_step_time": 5.445315934190846, "epoch": 0.17493333333333333, "eta_time": 11.699866319712832, "step": 1640 }, { "epoch": 0.17504, "grad_norm": 1.7575690899670646, "learning_rate": 9.458908185526921e-06, "loss": 0.4214, "step": 1641 }, { "avg_step_time": 5.44710802068614, "epoch": 0.17504, "eta_time": 11.70220373110739, "step": 1641 }, { "epoch": 0.17514666666666667, "grad_norm": 1.831566557185548, "learning_rate": 9.458126294010164e-06, "loss": 0.5155, "step": 1642 }, { "avg_step_time": 5.430526384199508, "epoch": 0.17514666666666667, "eta_time": 11.665072369170778, "step": 1642 }, { "epoch": 0.17525333333333334, "grad_norm": 1.7078873772985004, "learning_rate": 9.457343870338924e-06, "loss": 0.4768, "step": 1643 }, { "avg_step_time": 5.47791004421735, "epoch": 0.17525333333333334, "eta_time": 11.76533346163571, "step": 1643 }, { "epoch": 0.17536, "grad_norm": 2.1067951188259855, "learning_rate": 9.456560914606594e-06, "loss": 0.5546, "step": 1644 }, { "avg_step_time": 5.480499204963144, "epoch": 0.17536, "eta_time": 11.769372042658352, "step": 1644 }, { "epoch": 0.17546666666666666, "grad_norm": 1.774153023814097, "learning_rate": 9.455777426906635e-06, "loss": 0.5421, "step": 1645 }, { "avg_step_time": 5.476899840615013, "epoch": 0.17546666666666666, "eta_time": 11.760121046653902, "step": 1645 }, { "epoch": 0.17557333333333333, "grad_norm": 0.6545873426269414, "learning_rate": 9.454993407332572e-06, "loss": 0.4455, "step": 1646 }, { "avg_step_time": 5.441593957669808, "epoch": 0.17557333333333333, "eta_time": 11.68279991634165, "step": 1646 }, { "epoch": 0.17568, "grad_norm": 1.6191016745312423, "learning_rate": 9.454208855977986e-06, "loss": 0.561, "step": 1647 }, { "avg_step_time": 5.467531873722269, "epoch": 0.17568, "eta_time": 11.736968422257137, "step": 1647 }, { "epoch": 0.17578666666666667, "grad_norm": 1.712570359247082, "learning_rate": 9.453423772936529e-06, "loss": 0.4476, "step": 1648 }, { "avg_step_time": 5.468183765507708, "epoch": 0.17578666666666667, "eta_time": 11.73684887668835, "step": 1648 }, { "epoch": 0.17589333333333335, "grad_norm": 1.776047829088188, "learning_rate": 9.452638158301917e-06, "loss": 0.461, "step": 1649 }, { "avg_step_time": 5.477724263162324, "epoch": 0.17589333333333335, "eta_time": 11.755804904775587, "step": 1649 }, { "epoch": 0.176, "grad_norm": 1.636947493578849, "learning_rate": 9.451852012167924e-06, "loss": 0.4546, "step": 1650 }, { "avg_step_time": 5.478900875708069, "epoch": 0.176, "eta_time": 11.756808129123565, "step": 1650 }, { "epoch": 0.17610666666666666, "grad_norm": 1.726182693400025, "learning_rate": 9.45106533462839e-06, "loss": 0.5509, "step": 1651 }, { "avg_step_time": 5.479906674587365, "epoch": 0.17610666666666666, "eta_time": 11.757444209586891, "step": 1651 }, { "epoch": 0.17621333333333333, "grad_norm": 1.7422434533729054, "learning_rate": 9.45027812577722e-06, "loss": 0.5277, "step": 1652 }, { "avg_step_time": 5.51555094574437, "epoch": 0.17621333333333333, "eta_time": 11.832388876106604, "step": 1652 }, { "epoch": 0.17632, "grad_norm": 1.608434563749906, "learning_rate": 9.449490385708378e-06, "loss": 0.5214, "step": 1653 }, { "avg_step_time": 5.557199454066729, "epoch": 0.17632, "eta_time": 11.920192828973134, "step": 1653 }, { "epoch": 0.17642666666666668, "grad_norm": 0.6568439945745779, "learning_rate": 9.448702114515897e-06, "loss": 0.4497, "step": 1654 }, { "avg_step_time": 5.557660175092293, "epoch": 0.17642666666666668, "eta_time": 11.919637281079888, "step": 1654 }, { "epoch": 0.17653333333333332, "grad_norm": 0.6409433909307524, "learning_rate": 9.447913312293872e-06, "loss": 0.4484, "step": 1655 }, { "avg_step_time": 5.523659927676422, "epoch": 0.17653333333333332, "eta_time": 11.845181844906106, "step": 1655 }, { "epoch": 0.17664, "grad_norm": 1.8202416422875531, "learning_rate": 9.447123979136457e-06, "loss": 0.5919, "step": 1656 }, { "avg_step_time": 5.5616821472090905, "epoch": 0.17664, "eta_time": 11.925173470640825, "step": 1656 }, { "epoch": 0.17674666666666666, "grad_norm": 1.6399572539107354, "learning_rate": 9.446334115137876e-06, "loss": 0.4803, "step": 1657 }, { "avg_step_time": 5.599940882788764, "epoch": 0.17674666666666666, "eta_time": 12.005651037045467, "step": 1657 }, { "epoch": 0.17685333333333333, "grad_norm": 1.6869658221101984, "learning_rate": 9.44554372039241e-06, "loss": 0.5564, "step": 1658 }, { "avg_step_time": 5.601742527701638, "epoch": 0.17685333333333333, "eta_time": 12.00795752396487, "step": 1658 }, { "epoch": 0.17696, "grad_norm": 1.6879787303354237, "learning_rate": 9.444752794994408e-06, "loss": 0.509, "step": 1659 }, { "avg_step_time": 5.603650242391259, "epoch": 0.17696, "eta_time": 12.010490352858598, "step": 1659 }, { "epoch": 0.17706666666666668, "grad_norm": 1.7098909898143801, "learning_rate": 9.443961339038278e-06, "loss": 0.5017, "step": 1660 }, { "avg_step_time": 5.647112711511477, "epoch": 0.17706666666666668, "eta_time": 12.102076269253068, "step": 1660 }, { "epoch": 0.17717333333333332, "grad_norm": 1.5545815384857429, "learning_rate": 9.443169352618498e-06, "loss": 0.4571, "step": 1661 }, { "avg_step_time": 5.638766175568706, "epoch": 0.17717333333333332, "eta_time": 12.082622855093609, "step": 1661 }, { "epoch": 0.17728, "grad_norm": 1.518285957846043, "learning_rate": 9.4423768358296e-06, "loss": 0.4802, "step": 1662 }, { "avg_step_time": 5.677012694002402, "epoch": 0.17728, "eta_time": 12.162999696900146, "step": 1662 }, { "epoch": 0.17738666666666666, "grad_norm": 1.4778447356315785, "learning_rate": 9.441583788766191e-06, "loss": 0.4926, "step": 1663 }, { "avg_step_time": 5.712255865636498, "epoch": 0.17738666666666666, "eta_time": 12.236921454385744, "step": 1663 }, { "epoch": 0.17749333333333334, "grad_norm": 1.7830625963341418, "learning_rate": 9.44079021152293e-06, "loss": 0.5187, "step": 1664 }, { "avg_step_time": 5.708538503357858, "epoch": 0.17749333333333334, "eta_time": 12.227372333164569, "step": 1664 }, { "epoch": 0.1776, "grad_norm": 1.741981525659213, "learning_rate": 9.439996104194546e-06, "loss": 0.5317, "step": 1665 }, { "avg_step_time": 5.7087316103655885, "epoch": 0.1776, "eta_time": 12.226200198866302, "step": 1665 }, { "epoch": 0.17770666666666668, "grad_norm": 1.8705173895754117, "learning_rate": 9.439201466875831e-06, "loss": 0.4414, "step": 1666 }, { "avg_step_time": 5.697001601710464, "epoch": 0.17770666666666668, "eta_time": 12.199495929884991, "step": 1666 }, { "epoch": 0.17781333333333332, "grad_norm": 1.829450129500759, "learning_rate": 9.438406299661636e-06, "loss": 0.4926, "step": 1667 }, { "avg_step_time": 5.70010604280414, "epoch": 0.17781333333333332, "eta_time": 12.204560382759531, "step": 1667 }, { "epoch": 0.17792, "grad_norm": 1.777412166855773, "learning_rate": 9.437610602646878e-06, "loss": 0.6237, "step": 1668 }, { "avg_step_time": 5.700560863571938, "epoch": 0.17792, "eta_time": 12.203950715430258, "step": 1668 }, { "epoch": 0.17802666666666667, "grad_norm": 1.7323030774277832, "learning_rate": 9.43681437592654e-06, "loss": 0.4722, "step": 1669 }, { "avg_step_time": 5.726540986937706, "epoch": 0.17802666666666667, "eta_time": 12.2579791237061, "step": 1669 }, { "epoch": 0.17813333333333334, "grad_norm": 1.490629296856326, "learning_rate": 9.43601761959566e-06, "loss": 0.4841, "step": 1670 }, { "avg_step_time": 5.7173214608972724, "epoch": 0.17813333333333334, "eta_time": 12.236656071170414, "step": 1670 }, { "epoch": 0.17824, "grad_norm": 1.8882183111978998, "learning_rate": 9.43522033374935e-06, "loss": 0.436, "step": 1671 }, { "avg_step_time": 5.714944738330263, "epoch": 0.17824, "eta_time": 12.229981740026762, "step": 1671 }, { "epoch": 0.17834666666666665, "grad_norm": 1.6267725079896604, "learning_rate": 9.43442251848278e-06, "loss": 0.513, "step": 1672 }, { "avg_step_time": 5.712202611595694, "epoch": 0.17834666666666665, "eta_time": 12.222526865867119, "step": 1672 }, { "epoch": 0.17845333333333332, "grad_norm": 1.6033961636208645, "learning_rate": 9.433624173891181e-06, "loss": 0.5956, "step": 1673 }, { "avg_step_time": 5.748108741008874, "epoch": 0.17845333333333332, "eta_time": 12.297759312013987, "step": 1673 }, { "epoch": 0.17856, "grad_norm": 1.8146789060172102, "learning_rate": 9.432825300069848e-06, "loss": 0.5593, "step": 1674 }, { "avg_step_time": 5.783249154235378, "epoch": 0.17856, "eta_time": 12.371333815768512, "step": 1674 }, { "epoch": 0.17866666666666667, "grad_norm": 0.8167047691394574, "learning_rate": 9.43202589711414e-06, "loss": 0.4614, "step": 1675 }, { "avg_step_time": 5.738968743218316, "epoch": 0.17866666666666667, "eta_time": 12.275016478550286, "step": 1675 }, { "epoch": 0.17877333333333334, "grad_norm": 1.674781886681226, "learning_rate": 9.431225965119483e-06, "loss": 0.5234, "step": 1676 }, { "avg_step_time": 5.738006285946779, "epoch": 0.17877333333333334, "eta_time": 12.27136399875118, "step": 1676 }, { "epoch": 0.17888, "grad_norm": 1.569785662697745, "learning_rate": 9.430425504181361e-06, "loss": 0.5239, "step": 1677 }, { "avg_step_time": 5.739075583640975, "epoch": 0.17888, "eta_time": 12.272056623018951, "step": 1677 }, { "epoch": 0.17898666666666666, "grad_norm": 1.6727803445847134, "learning_rate": 9.429624514395324e-06, "loss": 0.4784, "step": 1678 }, { "avg_step_time": 5.755830957431986, "epoch": 0.17898666666666666, "eta_time": 12.306286355376109, "step": 1678 }, { "epoch": 0.17909333333333333, "grad_norm": 1.7442055867688961, "learning_rate": 9.428822995856984e-06, "loss": 0.4241, "step": 1679 }, { "avg_step_time": 5.757684406608042, "epoch": 0.17909333333333333, "eta_time": 12.308649775904303, "step": 1679 }, { "epoch": 0.1792, "grad_norm": 1.5532886137178596, "learning_rate": 9.428020948662012e-06, "loss": 0.5194, "step": 1680 }, { "avg_step_time": 5.759226370339442, "epoch": 0.1792, "eta_time": 12.310346366600555, "step": 1680 }, { "epoch": 0.17930666666666667, "grad_norm": 1.7630661316264258, "learning_rate": 9.427218372906151e-06, "loss": 0.4743, "step": 1681 }, { "avg_step_time": 5.762901383216935, "epoch": 0.17930666666666667, "eta_time": 12.316600900686415, "step": 1681 }, { "epoch": 0.17941333333333334, "grad_norm": 1.7502563647265796, "learning_rate": 9.426415268685198e-06, "loss": 0.4774, "step": 1682 }, { "avg_step_time": 5.761547584726353, "epoch": 0.17941333333333334, "eta_time": 12.312107102583287, "step": 1682 }, { "epoch": 0.17952, "grad_norm": 1.5957758529039214, "learning_rate": 9.425611636095023e-06, "loss": 0.4725, "step": 1683 }, { "avg_step_time": 5.767453232196846, "epoch": 0.17952, "eta_time": 12.323125072793928, "step": 1683 }, { "epoch": 0.17962666666666666, "grad_norm": 1.3973692178110002, "learning_rate": 9.424807475231548e-06, "loss": 0.4947, "step": 1684 }, { "avg_step_time": 5.767731172869904, "epoch": 0.17962666666666666, "eta_time": 12.322116791817342, "step": 1684 }, { "epoch": 0.17973333333333333, "grad_norm": 0.6782112072338429, "learning_rate": 9.424002786190768e-06, "loss": 0.4555, "step": 1685 }, { "avg_step_time": 5.7299749297325056, "epoch": 0.17973333333333333, "eta_time": 12.239863113789712, "step": 1685 }, { "epoch": 0.17984, "grad_norm": 1.6048244158798861, "learning_rate": 9.423197569068733e-06, "loss": 0.4447, "step": 1686 }, { "avg_step_time": 5.727926418034717, "epoch": 0.17984, "eta_time": 12.23389617451915, "step": 1686 }, { "epoch": 0.17994666666666667, "grad_norm": 1.5084367478277516, "learning_rate": 9.42239182396156e-06, "loss": 0.4792, "step": 1687 }, { "avg_step_time": 5.723036265132403, "epoch": 0.17994666666666667, "eta_time": 12.22186189064942, "step": 1687 }, { "epoch": 0.18005333333333334, "grad_norm": 1.7194243073036037, "learning_rate": 9.421585550965432e-06, "loss": 0.5128, "step": 1688 }, { "avg_step_time": 5.734608958465884, "epoch": 0.18005333333333334, "eta_time": 12.24498307325757, "step": 1688 }, { "epoch": 0.18016, "grad_norm": 0.6314828990147136, "learning_rate": 9.420778750176588e-06, "loss": 0.4505, "step": 1689 }, { "avg_step_time": 5.734463515907827, "epoch": 0.18016, "eta_time": 12.243079606463212, "step": 1689 }, { "epoch": 0.18026666666666666, "grad_norm": 1.4652752500178927, "learning_rate": 9.419971421691335e-06, "loss": 0.498, "step": 1690 }, { "avg_step_time": 5.73677992339086, "epoch": 0.18026666666666666, "eta_time": 12.246431586460767, "step": 1690 }, { "epoch": 0.18037333333333333, "grad_norm": 1.9036039045736333, "learning_rate": 9.419163565606042e-06, "loss": 0.5111, "step": 1691 }, { "avg_step_time": 5.736847752272481, "epoch": 0.18037333333333333, "eta_time": 12.244982813461595, "step": 1691 }, { "epoch": 0.18048, "grad_norm": 2.10147658997637, "learning_rate": 9.418355182017138e-06, "loss": 0.5408, "step": 1692 }, { "avg_step_time": 5.733405214367491, "epoch": 0.18048, "eta_time": 12.236042294995954, "step": 1692 }, { "epoch": 0.18058666666666667, "grad_norm": 1.814329735999027, "learning_rate": 9.417546271021122e-06, "loss": 0.5131, "step": 1693 }, { "avg_step_time": 5.726905338691942, "epoch": 0.18058666666666667, "eta_time": 12.220579669953196, "step": 1693 }, { "epoch": 0.18069333333333334, "grad_norm": 1.8650224281828784, "learning_rate": 9.416736832714547e-06, "loss": 0.5406, "step": 1694 }, { "avg_step_time": 5.763358087250681, "epoch": 0.18069333333333334, "eta_time": 12.296764852270133, "step": 1694 }, { "epoch": 0.1808, "grad_norm": 1.8556832060533288, "learning_rate": 9.41592686719404e-06, "loss": 0.5568, "step": 1695 }, { "avg_step_time": 5.769139265773272, "epoch": 0.1808, "eta_time": 12.307497100316313, "step": 1695 }, { "epoch": 0.18090666666666666, "grad_norm": 0.6125483299902595, "learning_rate": 9.415116374556276e-06, "loss": 0.4362, "step": 1696 }, { "avg_step_time": 5.699631943847194, "epoch": 0.18090666666666666, "eta_time": 12.157631582445168, "step": 1696 }, { "epoch": 0.18101333333333333, "grad_norm": 0.6662575152029757, "learning_rate": 9.414305354898005e-06, "loss": 0.4747, "step": 1697 }, { "avg_step_time": 5.702097302735454, "epoch": 0.18101333333333333, "eta_time": 12.161306414000782, "step": 1697 }, { "epoch": 0.18112, "grad_norm": 1.4902752658430543, "learning_rate": 9.413493808316038e-06, "loss": 0.4605, "step": 1698 }, { "avg_step_time": 5.703790907907968, "epoch": 0.18112, "eta_time": 12.163334111113741, "step": 1698 }, { "epoch": 0.18122666666666667, "grad_norm": 1.9389818848906186, "learning_rate": 9.412681734907246e-06, "loss": 0.5781, "step": 1699 }, { "avg_step_time": 5.705312952850804, "epoch": 0.18122666666666667, "eta_time": 12.16499506280077, "step": 1699 }, { "epoch": 0.18133333333333335, "grad_norm": 1.7107878955668583, "learning_rate": 9.411869134768563e-06, "loss": 0.4616, "step": 1700 }, { "avg_step_time": 5.6958417820208, "epoch": 0.18133333333333335, "eta_time": 12.143218243613788, "step": 1700 }, { "epoch": 0.18144, "grad_norm": 1.7101971261102236, "learning_rate": 9.411056007996989e-06, "loss": 0.4875, "step": 1701 }, { "avg_step_time": 5.693997026693942, "epoch": 0.18144, "eta_time": 12.137703661902586, "step": 1701 }, { "epoch": 0.18154666666666666, "grad_norm": 1.6715400669867524, "learning_rate": 9.410242354689582e-06, "loss": 0.4327, "step": 1702 }, { "avg_step_time": 5.697023793904468, "epoch": 0.18154666666666666, "eta_time": 12.142573214063606, "step": 1702 }, { "epoch": 0.18165333333333333, "grad_norm": 1.6958914280876365, "learning_rate": 9.409428174943468e-06, "loss": 0.486, "step": 1703 }, { "avg_step_time": 5.703699044506959, "epoch": 0.18165333333333333, "eta_time": 12.155216408182609, "step": 1703 }, { "epoch": 0.18176, "grad_norm": 1.828850660465412, "learning_rate": 9.408613468855829e-06, "loss": 0.4688, "step": 1704 }, { "avg_step_time": 5.7037352817227145, "epoch": 0.18176, "eta_time": 12.15370926280415, "step": 1704 }, { "epoch": 0.18186666666666668, "grad_norm": 1.7933088928544594, "learning_rate": 9.407798236523921e-06, "loss": 0.5393, "step": 1705 }, { "avg_step_time": 5.702144959960321, "epoch": 0.18186666666666668, "eta_time": 12.148736623026572, "step": 1705 }, { "epoch": 0.18197333333333332, "grad_norm": 1.7128185457299385, "learning_rate": 9.406982478045052e-06, "loss": 0.4927, "step": 1706 }, { "avg_step_time": 5.711771671218101, "epoch": 0.18197333333333332, "eta_time": 12.167660262936561, "step": 1706 }, { "epoch": 0.18208, "grad_norm": 2.504438285860609, "learning_rate": 9.406166193516596e-06, "loss": 0.57, "step": 1707 }, { "avg_step_time": 5.734514265349417, "epoch": 0.18208, "eta_time": 12.21451538519426, "step": 1707 }, { "epoch": 0.18218666666666666, "grad_norm": 1.6802051190520824, "learning_rate": 9.405349383035995e-06, "loss": 0.4796, "step": 1708 }, { "avg_step_time": 5.737656273023046, "epoch": 0.18218666666666666, "eta_time": 12.219614068129916, "step": 1708 }, { "epoch": 0.18229333333333334, "grad_norm": 0.6858757328256209, "learning_rate": 9.404532046700745e-06, "loss": 0.4506, "step": 1709 }, { "avg_step_time": 5.690533430889399, "epoch": 0.18229333333333334, "eta_time": 12.117674800332814, "step": 1709 }, { "epoch": 0.1824, "grad_norm": 0.7072407281763738, "learning_rate": 9.403714184608411e-06, "loss": 0.4652, "step": 1710 }, { "avg_step_time": 5.623738746450405, "epoch": 0.1824, "eta_time": 11.973877080983986, "step": 1710 }, { "epoch": 0.18250666666666668, "grad_norm": 1.8251789247596792, "learning_rate": 9.402895796856619e-06, "loss": 0.5106, "step": 1711 }, { "avg_step_time": 5.623960449238016, "epoch": 0.18250666666666668, "eta_time": 11.972786911933376, "step": 1711 }, { "epoch": 0.18261333333333332, "grad_norm": 1.5747581747218846, "learning_rate": 9.40207688354306e-06, "loss": 0.5281, "step": 1712 }, { "avg_step_time": 5.62952905231052, "epoch": 0.18261333333333332, "eta_time": 11.983078091070977, "step": 1712 }, { "epoch": 0.18272, "grad_norm": 1.653231567275593, "learning_rate": 9.40125744476548e-06, "loss": 0.4288, "step": 1713 }, { "avg_step_time": 5.59128816440852, "epoch": 0.18272, "eta_time": 11.9001249765828, "step": 1713 }, { "epoch": 0.18282666666666667, "grad_norm": 1.9655963588876078, "learning_rate": 9.400437480621697e-06, "loss": 0.5273, "step": 1714 }, { "avg_step_time": 5.590011534064707, "epoch": 0.18282666666666667, "eta_time": 11.895855100686033, "step": 1714 }, { "epoch": 0.18293333333333334, "grad_norm": 1.46105771511556, "learning_rate": 9.399616991209587e-06, "loss": 0.4418, "step": 1715 }, { "avg_step_time": 5.587161056923144, "epoch": 0.18293333333333334, "eta_time": 11.888237137786467, "step": 1715 }, { "epoch": 0.18304, "grad_norm": 1.6982994906504902, "learning_rate": 9.398795976627091e-06, "loss": 0.456, "step": 1716 }, { "avg_step_time": 5.62145736964062, "epoch": 0.18304, "eta_time": 11.959650553910418, "step": 1716 }, { "epoch": 0.18314666666666668, "grad_norm": 0.6806626578972257, "learning_rate": 9.397974436972208e-06, "loss": 0.4581, "step": 1717 }, { "avg_step_time": 5.590456632652668, "epoch": 0.18314666666666668, "eta_time": 11.89214358134837, "step": 1717 }, { "epoch": 0.18325333333333332, "grad_norm": 1.7107182989430318, "learning_rate": 9.397152372343008e-06, "loss": 0.4909, "step": 1718 }, { "avg_step_time": 5.601880752679073, "epoch": 0.18325333333333332, "eta_time": 11.914889145351017, "step": 1718 }, { "epoch": 0.18336, "grad_norm": 1.6595804145695225, "learning_rate": 9.396329782837614e-06, "loss": 0.4825, "step": 1719 }, { "avg_step_time": 5.598736124809342, "epoch": 0.18336, "eta_time": 11.906645492094533, "step": 1719 }, { "epoch": 0.18346666666666667, "grad_norm": 1.8020653385859662, "learning_rate": 9.395506668554218e-06, "loss": 0.5388, "step": 1720 }, { "avg_step_time": 5.6007437079843845, "epoch": 0.18346666666666667, "eta_time": 11.909359190172351, "step": 1720 }, { "epoch": 0.18357333333333334, "grad_norm": 1.6009938133199004, "learning_rate": 9.394683029591074e-06, "loss": 0.5193, "step": 1721 }, { "avg_step_time": 5.5991337636504515, "epoch": 0.18357333333333334, "eta_time": 11.904380507494599, "step": 1721 }, { "epoch": 0.18368, "grad_norm": 1.5686871508014568, "learning_rate": 9.393858866046494e-06, "loss": 0.4739, "step": 1722 }, { "avg_step_time": 5.5971336485159515, "epoch": 0.18368, "eta_time": 11.898573281136827, "step": 1722 }, { "epoch": 0.18378666666666665, "grad_norm": 1.582712353611938, "learning_rate": 9.39303417801886e-06, "loss": 0.5419, "step": 1723 }, { "avg_step_time": 5.595411808803828, "epoch": 0.18378666666666665, "eta_time": 11.893358655824136, "step": 1723 }, { "epoch": 0.18389333333333333, "grad_norm": 1.6471624443371278, "learning_rate": 9.392208965606613e-06, "loss": 0.5218, "step": 1724 }, { "avg_step_time": 5.594825648298167, "epoch": 0.18389333333333333, "eta_time": 11.890558620869243, "step": 1724 }, { "epoch": 0.184, "grad_norm": 1.8706591680826161, "learning_rate": 9.391383228908253e-06, "loss": 0.4994, "step": 1725 }, { "avg_step_time": 5.590407335396969, "epoch": 0.184, "eta_time": 11.87961558771856, "step": 1725 }, { "epoch": 0.18410666666666667, "grad_norm": 1.5045021031460302, "learning_rate": 9.390556968022348e-06, "loss": 0.5259, "step": 1726 }, { "avg_step_time": 5.5922416340221055, "epoch": 0.18410666666666667, "eta_time": 11.88196007184308, "step": 1726 }, { "epoch": 0.18421333333333334, "grad_norm": 1.968781395667417, "learning_rate": 9.389730183047528e-06, "loss": 0.531, "step": 1727 }, { "avg_step_time": 5.59151573132987, "epoch": 0.18421333333333334, "eta_time": 11.878864531447457, "step": 1727 }, { "epoch": 0.18432, "grad_norm": 1.72755418757999, "learning_rate": 9.388902874082482e-06, "loss": 0.5082, "step": 1728 }, { "avg_step_time": 5.592656923062874, "epoch": 0.18432, "eta_time": 11.879735414072721, "step": 1728 }, { "epoch": 0.18442666666666666, "grad_norm": 1.5506894096066288, "learning_rate": 9.388075041225962e-06, "loss": 0.434, "step": 1729 }, { "avg_step_time": 5.601676456856005, "epoch": 0.18442666666666666, "eta_time": 11.897338385866947, "step": 1729 }, { "epoch": 0.18453333333333333, "grad_norm": 1.7268230229266561, "learning_rate": 9.387246684576788e-06, "loss": 0.4947, "step": 1730 }, { "avg_step_time": 5.609776405373005, "epoch": 0.18453333333333333, "eta_time": 11.912983505299062, "step": 1730 }, { "epoch": 0.18464, "grad_norm": 1.5879631890373451, "learning_rate": 9.386417804233836e-06, "loss": 0.5629, "step": 1731 }, { "avg_step_time": 5.615294138590495, "epoch": 0.18464, "eta_time": 11.923141220940485, "step": 1731 }, { "epoch": 0.18474666666666667, "grad_norm": 1.6714418922263032, "learning_rate": 9.385588400296049e-06, "loss": 0.5484, "step": 1732 }, { "avg_step_time": 5.616795739742241, "epoch": 0.18474666666666667, "eta_time": 11.924769399680539, "step": 1732 }, { "epoch": 0.18485333333333334, "grad_norm": 1.8316000217285926, "learning_rate": 9.384758472862428e-06, "loss": 0.5622, "step": 1733 }, { "avg_step_time": 5.616633003408259, "epoch": 0.18485333333333334, "eta_time": 11.922863725568309, "step": 1733 }, { "epoch": 0.18496, "grad_norm": 1.9157347385591537, "learning_rate": 9.383928022032044e-06, "loss": 0.5577, "step": 1734 }, { "avg_step_time": 5.651917394965586, "epoch": 0.18496, "eta_time": 11.996194670814456, "step": 1734 }, { "epoch": 0.18506666666666666, "grad_norm": 1.7788641183359828, "learning_rate": 9.38309704790402e-06, "loss": 0.5064, "step": 1735 }, { "avg_step_time": 5.610201951229211, "epoch": 0.18506666666666666, "eta_time": 11.906095252053104, "step": 1735 }, { "epoch": 0.18517333333333333, "grad_norm": 1.6363642821387425, "learning_rate": 9.382265550577549e-06, "loss": 0.5143, "step": 1736 }, { "avg_step_time": 5.626803118773181, "epoch": 0.18517333333333333, "eta_time": 11.939763617863425, "step": 1736 }, { "epoch": 0.18528, "grad_norm": 0.6387407864586508, "learning_rate": 9.381433530151887e-06, "loss": 0.4624, "step": 1737 }, { "avg_step_time": 5.5929796334468955, "epoch": 0.18528, "eta_time": 11.86643845562983, "step": 1737 }, { "epoch": 0.18538666666666667, "grad_norm": 1.8432815143083787, "learning_rate": 9.380600986726349e-06, "loss": 0.5826, "step": 1738 }, { "avg_step_time": 5.593017534776167, "epoch": 0.18538666666666667, "eta_time": 11.864965253634885, "step": 1738 }, { "epoch": 0.18549333333333334, "grad_norm": 0.6666549025726031, "learning_rate": 9.379767920400313e-06, "loss": 0.4639, "step": 1739 }, { "avg_step_time": 5.557103763927113, "epoch": 0.18549333333333334, "eta_time": 11.787234539263176, "step": 1739 }, { "epoch": 0.1856, "grad_norm": 1.6461318833990175, "learning_rate": 9.37893433127322e-06, "loss": 0.4436, "step": 1740 }, { "avg_step_time": 5.554632206155796, "epoch": 0.1856, "eta_time": 11.780449137222085, "step": 1740 }, { "epoch": 0.18570666666666666, "grad_norm": 0.6253710134179288, "learning_rate": 9.37810021944457e-06, "loss": 0.4519, "step": 1741 }, { "avg_step_time": 5.52479473027316, "epoch": 0.18570666666666666, "eta_time": 11.715634158584807, "step": 1741 }, { "epoch": 0.18581333333333333, "grad_norm": 1.661755779369273, "learning_rate": 9.377265585013934e-06, "loss": 0.5195, "step": 1742 }, { "avg_step_time": 5.50896017479174, "epoch": 0.18581333333333333, "eta_time": 11.68052583727371, "step": 1742 }, { "epoch": 0.18592, "grad_norm": 1.8470036121244184, "learning_rate": 9.376430428080939e-06, "loss": 0.5488, "step": 1743 }, { "avg_step_time": 5.504144047245835, "epoch": 0.18592, "eta_time": 11.668785380161172, "step": 1743 }, { "epoch": 0.18602666666666667, "grad_norm": 0.6695149925541045, "learning_rate": 9.375594748745271e-06, "loss": 0.4675, "step": 1744 }, { "avg_step_time": 5.46984910724139, "epoch": 0.18602666666666667, "eta_time": 11.594560704821957, "step": 1744 }, { "epoch": 0.18613333333333335, "grad_norm": 1.6770483793123805, "learning_rate": 9.374758547106689e-06, "loss": 0.526, "step": 1745 }, { "avg_step_time": 5.504828243544607, "epoch": 0.18613333333333335, "eta_time": 11.667177638401487, "step": 1745 }, { "epoch": 0.18624, "grad_norm": 1.6091237405499483, "learning_rate": 9.373921823265004e-06, "loss": 0.5534, "step": 1746 }, { "avg_step_time": 5.475971662636959, "epoch": 0.18624, "eta_time": 11.60449661507149, "step": 1746 }, { "epoch": 0.18634666666666666, "grad_norm": 0.6464935578373303, "learning_rate": 9.373084577320092e-06, "loss": 0.4767, "step": 1747 }, { "avg_step_time": 5.440324525640468, "epoch": 0.18634666666666666, "eta_time": 11.527443189329302, "step": 1747 }, { "epoch": 0.18645333333333333, "grad_norm": 1.5373298459106952, "learning_rate": 9.372246809371898e-06, "loss": 0.4927, "step": 1748 }, { "avg_step_time": 5.454688115553423, "epoch": 0.18645333333333333, "eta_time": 11.55636284925721, "step": 1748 }, { "epoch": 0.18656, "grad_norm": 0.63944709379287, "learning_rate": 9.371408519520421e-06, "loss": 0.4605, "step": 1749 }, { "avg_step_time": 5.418143621598832, "epoch": 0.18656, "eta_time": 11.477434238420193, "step": 1749 }, { "epoch": 0.18666666666666668, "grad_norm": 1.9150149107806491, "learning_rate": 9.370569707865727e-06, "loss": 0.5688, "step": 1750 }, { "avg_step_time": 5.42520984495529, "epoch": 0.18666666666666668, "eta_time": 11.490895852162247, "step": 1750 }, { "epoch": 0.18677333333333335, "grad_norm": 1.8456430465330609, "learning_rate": 9.369730374507942e-06, "loss": 0.572, "step": 1751 }, { "avg_step_time": 5.423345146757184, "epoch": 0.18677333333333335, "eta_time": 11.485439833021324, "step": 1751 }, { "epoch": 0.18688, "grad_norm": 1.5329763667481053, "learning_rate": 9.36889051954725e-06, "loss": 0.4762, "step": 1752 }, { "avg_step_time": 5.400338589543044, "epoch": 0.18688, "eta_time": 11.435216963357396, "step": 1752 }, { "epoch": 0.18698666666666666, "grad_norm": 1.9449581501868016, "learning_rate": 9.368050143083912e-06, "loss": 0.4508, "step": 1753 }, { "avg_step_time": 5.434676278721202, "epoch": 0.18698666666666666, "eta_time": 11.506417387892501, "step": 1753 }, { "epoch": 0.18709333333333333, "grad_norm": 0.6587272965504793, "learning_rate": 9.367209245218234e-06, "loss": 0.4644, "step": 1754 }, { "avg_step_time": 5.43646930684947, "epoch": 0.18709333333333333, "eta_time": 11.508703496527726, "step": 1754 }, { "epoch": 0.1872, "grad_norm": 1.7896807348486041, "learning_rate": 9.366367826050593e-06, "loss": 0.4767, "step": 1755 }, { "avg_step_time": 5.443767988320553, "epoch": 0.1872, "eta_time": 11.522642241945169, "step": 1755 }, { "epoch": 0.18730666666666668, "grad_norm": 2.008636602784472, "learning_rate": 9.36552588568143e-06, "loss": 0.5878, "step": 1756 }, { "avg_step_time": 5.4484067228105335, "epoch": 0.18730666666666668, "eta_time": 11.530947450303739, "step": 1756 }, { "epoch": 0.18741333333333332, "grad_norm": 1.8108256792499093, "learning_rate": 9.364683424211241e-06, "loss": 0.5865, "step": 1757 }, { "avg_step_time": 5.4445660595942025, "epoch": 0.18741333333333332, "eta_time": 11.521306733885732, "step": 1757 }, { "epoch": 0.18752, "grad_norm": 2.0650194461619065, "learning_rate": 9.36384044174059e-06, "loss": 0.5818, "step": 1758 }, { "avg_step_time": 5.44229689270559, "epoch": 0.18752, "eta_time": 11.51499317548291, "step": 1758 }, { "epoch": 0.18762666666666666, "grad_norm": 1.512693108893204, "learning_rate": 9.362996938370103e-06, "loss": 0.5299, "step": 1759 }, { "avg_step_time": 5.42982028229068, "epoch": 0.18762666666666666, "eta_time": 11.487086463868282, "step": 1759 }, { "epoch": 0.18773333333333334, "grad_norm": 1.4132462280936906, "learning_rate": 9.362152914200465e-06, "loss": 0.4886, "step": 1760 }, { "avg_step_time": 5.428229018895313, "epoch": 0.18773333333333334, "eta_time": 11.482212216357723, "step": 1760 }, { "epoch": 0.18784, "grad_norm": 1.5813614278083987, "learning_rate": 9.361308369332426e-06, "loss": 0.4981, "step": 1761 }, { "avg_step_time": 5.426003521138972, "epoch": 0.18784, "eta_time": 11.475997447208925, "step": 1761 }, { "epoch": 0.18794666666666668, "grad_norm": 1.7494599586655626, "learning_rate": 9.360463303866795e-06, "loss": 0.6053, "step": 1762 }, { "avg_step_time": 5.426570986256455, "epoch": 0.18794666666666668, "eta_time": 11.475690255102887, "step": 1762 }, { "epoch": 0.18805333333333332, "grad_norm": 1.7213659686474307, "learning_rate": 9.359617717904447e-06, "loss": 0.4883, "step": 1763 }, { "avg_step_time": 5.4323090832642835, "epoch": 0.18805333333333332, "eta_time": 11.486315761613257, "step": 1763 }, { "epoch": 0.18816, "grad_norm": 2.059591713855106, "learning_rate": 9.358771611546319e-06, "loss": 0.5553, "step": 1764 }, { "avg_step_time": 5.427333359766489, "epoch": 0.18816, "eta_time": 11.474287278106319, "step": 1764 }, { "epoch": 0.18826666666666667, "grad_norm": 1.5188561104964788, "learning_rate": 9.357924984893405e-06, "loss": 0.507, "step": 1765 }, { "avg_step_time": 5.431627752804997, "epoch": 0.18826666666666667, "eta_time": 11.481857555235008, "step": 1765 }, { "epoch": 0.18837333333333334, "grad_norm": 1.6808687190325664, "learning_rate": 9.357077838046766e-06, "loss": 0.5279, "step": 1766 }, { "avg_step_time": 5.427166883391563, "epoch": 0.18837333333333334, "eta_time": 11.47092022659067, "step": 1766 }, { "epoch": 0.18848, "grad_norm": 1.6415774478034382, "learning_rate": 9.356230171107524e-06, "loss": 0.5408, "step": 1767 }, { "avg_step_time": 5.4296503958075935, "epoch": 0.18848, "eta_time": 11.474661169806714, "step": 1767 }, { "epoch": 0.18858666666666668, "grad_norm": 0.637222327160268, "learning_rate": 9.355381984176861e-06, "loss": 0.4308, "step": 1768 }, { "avg_step_time": 5.398298396004571, "epoch": 0.18858666666666668, "eta_time": 11.406904416224103, "step": 1768 }, { "epoch": 0.18869333333333332, "grad_norm": 1.9150442228242182, "learning_rate": 9.354533277356026e-06, "loss": 0.4902, "step": 1769 }, { "avg_step_time": 5.397535201274987, "epoch": 0.18869333333333332, "eta_time": 11.403792428027097, "step": 1769 }, { "epoch": 0.1888, "grad_norm": 1.3598085425534516, "learning_rate": 9.353684050746323e-06, "loss": 0.4985, "step": 1770 }, { "avg_step_time": 5.405732407714382, "epoch": 0.1888, "eta_time": 11.419609711296632, "step": 1770 }, { "epoch": 0.18890666666666667, "grad_norm": 1.4630086469008603, "learning_rate": 9.352834304449124e-06, "loss": 0.3932, "step": 1771 }, { "avg_step_time": 5.40673766473327, "epoch": 0.18890666666666667, "eta_time": 11.420231445175496, "step": 1771 }, { "epoch": 0.18901333333333334, "grad_norm": 1.5612955957939159, "learning_rate": 9.351984038565862e-06, "loss": 0.4266, "step": 1772 }, { "avg_step_time": 5.4075791065139, "epoch": 0.18901333333333334, "eta_time": 11.420506651895884, "step": 1772 }, { "epoch": 0.18912, "grad_norm": 1.4189892786503397, "learning_rate": 9.351133253198027e-06, "loss": 0.5554, "step": 1773 }, { "avg_step_time": 5.412032572910039, "epoch": 0.18912, "eta_time": 11.428408783128367, "step": 1773 }, { "epoch": 0.18922666666666665, "grad_norm": 1.8267749863357083, "learning_rate": 9.350281948447181e-06, "loss": 0.5679, "step": 1774 }, { "avg_step_time": 5.448059094072592, "epoch": 0.18922666666666665, "eta_time": 11.502971437234937, "step": 1774 }, { "epoch": 0.18933333333333333, "grad_norm": 1.5494920291724075, "learning_rate": 9.349430124414936e-06, "loss": 0.5279, "step": 1775 }, { "avg_step_time": 5.445962443496242, "epoch": 0.18933333333333333, "eta_time": 11.497031825158734, "step": 1775 }, { "epoch": 0.18944, "grad_norm": 1.739011986315918, "learning_rate": 9.348577781202976e-06, "loss": 0.5842, "step": 1776 }, { "avg_step_time": 5.446923123465644, "epoch": 0.18944, "eta_time": 11.497546893115398, "step": 1776 }, { "epoch": 0.18954666666666667, "grad_norm": 0.6515520162233934, "learning_rate": 9.34772491891304e-06, "loss": 0.4327, "step": 1777 }, { "avg_step_time": 5.394811452037156, "epoch": 0.18954666666666667, "eta_time": 11.386049281271752, "step": 1777 }, { "epoch": 0.18965333333333334, "grad_norm": 1.380792276509723, "learning_rate": 9.346871537646934e-06, "loss": 0.4262, "step": 1778 }, { "avg_step_time": 5.391898518860942, "epoch": 0.18965333333333334, "eta_time": 11.378403624385161, "step": 1778 }, { "epoch": 0.18976, "grad_norm": 1.7023029261048817, "learning_rate": 9.346017637506523e-06, "loss": 0.4073, "step": 1779 }, { "avg_step_time": 5.388893866779829, "epoch": 0.18976, "eta_time": 11.370566058905439, "step": 1779 }, { "epoch": 0.18986666666666666, "grad_norm": 1.772131797465773, "learning_rate": 9.345163218593735e-06, "loss": 0.4735, "step": 1780 }, { "avg_step_time": 5.390485310795332, "epoch": 0.18986666666666666, "eta_time": 11.372426648747373, "step": 1780 }, { "epoch": 0.18997333333333333, "grad_norm": 1.6914699992887474, "learning_rate": 9.34430828101056e-06, "loss": 0.4665, "step": 1781 }, { "avg_step_time": 5.395217666722307, "epoch": 0.18997333333333333, "eta_time": 11.38091193363589, "step": 1781 }, { "epoch": 0.19008, "grad_norm": 1.658116409650804, "learning_rate": 9.343452824859048e-06, "loss": 0.51, "step": 1782 }, { "avg_step_time": 5.394312177041565, "epoch": 0.19008, "eta_time": 11.377503433410167, "step": 1782 }, { "epoch": 0.19018666666666667, "grad_norm": 0.6777081809772423, "learning_rate": 9.342596850241313e-06, "loss": 0.4429, "step": 1783 }, { "avg_step_time": 5.359704643788964, "epoch": 0.19018666666666667, "eta_time": 11.303021571012728, "step": 1783 }, { "epoch": 0.19029333333333334, "grad_norm": 1.7070807298243256, "learning_rate": 9.341740357259532e-06, "loss": 0.5336, "step": 1784 }, { "avg_step_time": 5.395963033040364, "epoch": 0.19029333333333334, "eta_time": 11.377987606613724, "step": 1784 }, { "epoch": 0.1904, "grad_norm": 1.568065267381406, "learning_rate": 9.340883346015941e-06, "loss": 0.4646, "step": 1785 }, { "avg_step_time": 5.401004191600915, "epoch": 0.1904, "eta_time": 11.387117170625263, "step": 1785 }, { "epoch": 0.19050666666666666, "grad_norm": 1.6731717013261242, "learning_rate": 9.340025816612838e-06, "loss": 0.5146, "step": 1786 }, { "avg_step_time": 5.402555966618086, "epoch": 0.19050666666666666, "eta_time": 11.38888811962907, "step": 1786 }, { "epoch": 0.19061333333333333, "grad_norm": 1.4150353169894732, "learning_rate": 9.339167769152588e-06, "loss": 0.5073, "step": 1787 }, { "avg_step_time": 5.406808178834241, "epoch": 0.19061333333333333, "eta_time": 11.39635012805395, "step": 1787 }, { "epoch": 0.19072, "grad_norm": 1.8707408148348883, "learning_rate": 9.338309203737609e-06, "loss": 0.4943, "step": 1788 }, { "avg_step_time": 5.443214190126669, "epoch": 0.19072, "eta_time": 11.471573905691956, "step": 1788 }, { "epoch": 0.19082666666666667, "grad_norm": 1.611126862133692, "learning_rate": 9.337450120470389e-06, "loss": 0.5255, "step": 1789 }, { "avg_step_time": 5.443324635727237, "epoch": 0.19082666666666667, "eta_time": 11.470294635174117, "step": 1789 }, { "epoch": 0.19093333333333334, "grad_norm": 1.592498128797797, "learning_rate": 9.336590519453472e-06, "loss": 0.4273, "step": 1790 }, { "avg_step_time": 5.447095724067303, "epoch": 0.19093333333333334, "eta_time": 11.476728074180693, "step": 1790 }, { "epoch": 0.19104, "grad_norm": 1.641822474260382, "learning_rate": 9.335730400789466e-06, "loss": 0.5502, "step": 1791 }, { "avg_step_time": 5.450684405336476, "epoch": 0.19104, "eta_time": 11.482775147242178, "step": 1791 }, { "epoch": 0.19114666666666666, "grad_norm": 1.5475515506272026, "learning_rate": 9.334869764581045e-06, "loss": 0.5138, "step": 1792 }, { "avg_step_time": 5.451189354212597, "epoch": 0.19114666666666666, "eta_time": 11.482324686942814, "step": 1792 }, { "epoch": 0.19125333333333333, "grad_norm": 1.8871222425546088, "learning_rate": 9.334008610930939e-06, "loss": 0.4499, "step": 1793 }, { "avg_step_time": 5.445117174977004, "epoch": 0.19125333333333333, "eta_time": 11.468021783521014, "step": 1793 }, { "epoch": 0.19136, "grad_norm": 1.6817039165808572, "learning_rate": 9.333146939941938e-06, "loss": 0.5068, "step": 1794 }, { "avg_step_time": 5.43975046427563, "epoch": 0.19136, "eta_time": 11.455207852687096, "step": 1794 }, { "epoch": 0.19146666666666667, "grad_norm": 2.011043864865451, "learning_rate": 9.3322847517169e-06, "loss": 0.5154, "step": 1795 }, { "avg_step_time": 5.450795111030039, "epoch": 0.19146666666666667, "eta_time": 11.47695192822436, "step": 1795 }, { "epoch": 0.19157333333333335, "grad_norm": 1.6293822569759224, "learning_rate": 9.331422046358745e-06, "loss": 0.4441, "step": 1796 }, { "avg_step_time": 5.48373573476618, "epoch": 0.19157333333333335, "eta_time": 11.544786981609132, "step": 1796 }, { "epoch": 0.19168, "grad_norm": 1.6015849711117243, "learning_rate": 9.330558823970448e-06, "loss": 0.4952, "step": 1797 }, { "avg_step_time": 5.4847916473041884, "epoch": 0.19168, "eta_time": 11.545486417575317, "step": 1797 }, { "epoch": 0.19178666666666666, "grad_norm": 1.510313347300262, "learning_rate": 9.32969508465505e-06, "loss": 0.4601, "step": 1798 }, { "avg_step_time": 5.485998637748487, "epoch": 0.19178666666666666, "eta_time": 11.546503243950081, "step": 1798 }, { "epoch": 0.19189333333333333, "grad_norm": 1.5670076186640949, "learning_rate": 9.328830828515653e-06, "loss": 0.4946, "step": 1799 }, { "avg_step_time": 5.487165097034339, "epoch": 0.19189333333333333, "eta_time": 11.547434104203374, "step": 1799 }, { "epoch": 0.192, "grad_norm": 1.7094864894486745, "learning_rate": 9.327966055655424e-06, "loss": 0.529, "step": 1800 }, { "avg_step_time": 5.505570016726099, "epoch": 0.192, "eta_time": 11.5846369101945, "step": 1800 }, { "epoch": 0.19210666666666668, "grad_norm": 0.6832136059137386, "learning_rate": 9.327100766177585e-06, "loss": 0.4399, "step": 1801 }, { "avg_step_time": 5.472532356628264, "epoch": 0.19210666666666668, "eta_time": 11.51360001919513, "step": 1801 }, { "epoch": 0.19221333333333335, "grad_norm": 1.5819342867104298, "learning_rate": 9.326234960185424e-06, "loss": 0.5486, "step": 1802 }, { "avg_step_time": 5.483078850640191, "epoch": 0.19221333333333335, "eta_time": 11.534265593305047, "step": 1802 }, { "epoch": 0.19232, "grad_norm": 1.6925617486410418, "learning_rate": 9.325368637782292e-06, "loss": 0.4593, "step": 1803 }, { "avg_step_time": 5.485171009795835, "epoch": 0.19232, "eta_time": 11.537143023937238, "step": 1803 }, { "epoch": 0.19242666666666666, "grad_norm": 1.652354872507567, "learning_rate": 9.324501799071597e-06, "loss": 0.4936, "step": 1804 }, { "avg_step_time": 5.488077009567107, "epoch": 0.19242666666666666, "eta_time": 11.541730844286825, "step": 1804 }, { "epoch": 0.19253333333333333, "grad_norm": 2.1344425641033746, "learning_rate": 9.323634444156813e-06, "loss": 0.4987, "step": 1805 }, { "avg_step_time": 5.479065962512084, "epoch": 0.19253333333333333, "eta_time": 11.52125814894902, "step": 1805 }, { "epoch": 0.19264, "grad_norm": 0.6741636332059694, "learning_rate": 9.322766573141473e-06, "loss": 0.4675, "step": 1806 }, { "avg_step_time": 5.418544003457734, "epoch": 0.19264, "eta_time": 11.392488767269887, "step": 1806 }, { "epoch": 0.19274666666666668, "grad_norm": 1.7300897391199679, "learning_rate": 9.321898186129172e-06, "loss": 0.5106, "step": 1807 }, { "avg_step_time": 5.417272774860113, "epoch": 0.19274666666666668, "eta_time": 11.38831121115037, "step": 1807 }, { "epoch": 0.19285333333333332, "grad_norm": 2.004846888225151, "learning_rate": 9.321029283223567e-06, "loss": 0.5863, "step": 1808 }, { "avg_step_time": 5.4509699729957966, "epoch": 0.19285333333333332, "eta_time": 11.457636051571997, "step": 1808 }, { "epoch": 0.19296, "grad_norm": 1.4360557836918921, "learning_rate": 9.320159864528378e-06, "loss": 0.408, "step": 1809 }, { "avg_step_time": 5.461749724667482, "epoch": 0.19296, "eta_time": 11.478777338009492, "step": 1809 }, { "epoch": 0.19306666666666666, "grad_norm": 0.623873160728799, "learning_rate": 9.319289930147383e-06, "loss": 0.4294, "step": 1810 }, { "avg_step_time": 5.42756541088374, "epoch": 0.19306666666666666, "eta_time": 11.405425648148746, "step": 1810 }, { "epoch": 0.19317333333333334, "grad_norm": 2.6422239112830215, "learning_rate": 9.318419480184427e-06, "loss": 0.4444, "step": 1811 }, { "avg_step_time": 5.42673875827982, "epoch": 0.19317333333333334, "eta_time": 11.402181102119044, "step": 1811 }, { "epoch": 0.19328, "grad_norm": 1.3516417021193532, "learning_rate": 9.31754851474341e-06, "loss": 0.4072, "step": 1812 }, { "avg_step_time": 5.426955312189429, "epoch": 0.19328, "eta_time": 11.401128618357959, "step": 1812 }, { "epoch": 0.19338666666666668, "grad_norm": 1.6762782961565086, "learning_rate": 9.316677033928298e-06, "loss": 0.5286, "step": 1813 }, { "avg_step_time": 5.42589873737759, "epoch": 0.19338666666666668, "eta_time": 11.397401736680372, "step": 1813 }, { "epoch": 0.19349333333333332, "grad_norm": 1.8479989804940737, "learning_rate": 9.315805037843118e-06, "loss": 0.5027, "step": 1814 }, { "avg_step_time": 5.427604362218067, "epoch": 0.19349333333333332, "eta_time": 11.399476828536333, "step": 1814 }, { "epoch": 0.1936, "grad_norm": 1.68818626369532, "learning_rate": 9.314932526591956e-06, "loss": 0.4782, "step": 1815 }, { "avg_step_time": 5.403049035505815, "epoch": 0.1936, "eta_time": 11.346402974562212, "step": 1815 }, { "epoch": 0.19370666666666667, "grad_norm": 1.7497542056274236, "learning_rate": 9.314059500278962e-06, "loss": 0.5842, "step": 1816 }, { "avg_step_time": 5.436748962209682, "epoch": 0.19370666666666667, "eta_time": 11.415662612595275, "step": 1816 }, { "epoch": 0.19381333333333334, "grad_norm": 1.5929072594963827, "learning_rate": 9.31318595900835e-06, "loss": 0.4573, "step": 1817 }, { "avg_step_time": 5.4251832769374655, "epoch": 0.19381333333333334, "eta_time": 11.38987089085927, "step": 1817 }, { "epoch": 0.19392, "grad_norm": 1.7239154337342173, "learning_rate": 9.312311902884388e-06, "loss": 0.4927, "step": 1818 }, { "avg_step_time": 5.4270758315770316, "epoch": 0.19392, "eta_time": 11.392336683118787, "step": 1818 }, { "epoch": 0.19402666666666665, "grad_norm": 1.5375284558485902, "learning_rate": 9.311437332011411e-06, "loss": 0.4702, "step": 1819 }, { "avg_step_time": 5.423548664709534, "epoch": 0.19402666666666665, "eta_time": 11.38342603070701, "step": 1819 }, { "epoch": 0.19413333333333332, "grad_norm": 1.8483828650059402, "learning_rate": 9.310562246493812e-06, "loss": 0.4767, "step": 1820 }, { "avg_step_time": 5.423468416387385, "epoch": 0.19413333333333332, "eta_time": 11.381751079390748, "step": 1820 }, { "epoch": 0.19424, "grad_norm": 1.5297281381949401, "learning_rate": 9.309686646436053e-06, "loss": 0.5686, "step": 1821 }, { "avg_step_time": 5.428644026168669, "epoch": 0.19424, "eta_time": 11.391104714910592, "step": 1821 }, { "epoch": 0.19434666666666667, "grad_norm": 1.930762488085745, "learning_rate": 9.30881053194265e-06, "loss": 0.6308, "step": 1822 }, { "avg_step_time": 5.429987290892938, "epoch": 0.19434666666666667, "eta_time": 11.392415002253989, "step": 1822 }, { "epoch": 0.19445333333333334, "grad_norm": 1.5246633647435772, "learning_rate": 9.30793390311818e-06, "loss": 0.5619, "step": 1823 }, { "avg_step_time": 5.431532426313921, "epoch": 0.19445333333333334, "eta_time": 11.394148023200758, "step": 1823 }, { "epoch": 0.19456, "grad_norm": 1.627786505273533, "learning_rate": 9.307056760067284e-06, "loss": 0.4122, "step": 1824 }, { "avg_step_time": 5.431997145065154, "epoch": 0.19456, "eta_time": 11.39361401177416, "step": 1824 }, { "epoch": 0.19466666666666665, "grad_norm": 1.6901058529253372, "learning_rate": 9.306179102894667e-06, "loss": 0.545, "step": 1825 }, { "avg_step_time": 5.432023770881422, "epoch": 0.19466666666666665, "eta_time": 11.39216096393187, "step": 1825 }, { "epoch": 0.19477333333333333, "grad_norm": 0.6748069870065865, "learning_rate": 9.30530093170509e-06, "loss": 0.4418, "step": 1826 }, { "avg_step_time": 5.3980420286005195, "epoch": 0.19477333333333333, "eta_time": 11.319394242751478, "step": 1826 }, { "epoch": 0.19488, "grad_norm": 1.8123867294805414, "learning_rate": 9.30442224660338e-06, "loss": 0.4084, "step": 1827 }, { "avg_step_time": 5.402620520254578, "epoch": 0.19488, "eta_time": 11.327494357467097, "step": 1827 }, { "epoch": 0.19498666666666667, "grad_norm": 1.852557188309346, "learning_rate": 9.30354304769442e-06, "loss": 0.534, "step": 1828 }, { "avg_step_time": 5.41966736918748, "epoch": 0.19498666666666667, "eta_time": 11.361730454238309, "step": 1828 }, { "epoch": 0.19509333333333334, "grad_norm": 1.6319080936808694, "learning_rate": 9.302663335083161e-06, "loss": 0.4816, "step": 1829 }, { "avg_step_time": 5.463218997223208, "epoch": 0.19509333333333334, "eta_time": 11.45151404251287, "step": 1829 }, { "epoch": 0.1952, "grad_norm": 1.7450534783480516, "learning_rate": 9.301783108874611e-06, "loss": 0.5356, "step": 1830 }, { "avg_step_time": 5.454653564125601, "epoch": 0.1952, "eta_time": 11.432044761479906, "step": 1830 }, { "epoch": 0.19530666666666666, "grad_norm": 1.4501418408416065, "learning_rate": 9.300902369173841e-06, "loss": 0.4426, "step": 1831 }, { "avg_step_time": 5.456786601230352, "epoch": 0.19530666666666666, "eta_time": 11.434999477689383, "step": 1831 }, { "epoch": 0.19541333333333333, "grad_norm": 1.5262505821988517, "learning_rate": 9.30002111608598e-06, "loss": 0.5366, "step": 1832 }, { "avg_step_time": 5.470282966440374, "epoch": 0.19541333333333333, "eta_time": 11.461762337738817, "step": 1832 }, { "epoch": 0.19552, "grad_norm": 1.5310326826682108, "learning_rate": 9.299139349716221e-06, "loss": 0.4705, "step": 1833 }, { "avg_step_time": 5.504074441062079, "epoch": 0.19552, "eta_time": 11.531035954025057, "step": 1833 }, { "epoch": 0.19562666666666667, "grad_norm": 0.6793750167643411, "learning_rate": 9.298257070169822e-06, "loss": 0.4378, "step": 1834 }, { "avg_step_time": 5.470452612096613, "epoch": 0.19562666666666667, "eta_time": 11.459078652172378, "step": 1834 }, { "epoch": 0.19573333333333334, "grad_norm": 1.6747446043186887, "learning_rate": 9.297374277552094e-06, "loss": 0.4177, "step": 1835 }, { "avg_step_time": 5.458627797136403, "epoch": 0.19573333333333334, "eta_time": 11.432792664002354, "step": 1835 }, { "epoch": 0.19584, "grad_norm": 0.6828599571988471, "learning_rate": 9.296490971968416e-06, "loss": 0.4632, "step": 1836 }, { "avg_step_time": 5.462122965340662, "epoch": 0.19584, "eta_time": 11.438595843250905, "step": 1836 }, { "epoch": 0.19594666666666666, "grad_norm": 1.658451463299835, "learning_rate": 9.295607153524224e-06, "loss": 0.5103, "step": 1837 }, { "avg_step_time": 5.466253425135757, "epoch": 0.19594666666666666, "eta_time": 11.445727310742592, "step": 1837 }, { "epoch": 0.19605333333333333, "grad_norm": 1.7855540668338925, "learning_rate": 9.29472282232502e-06, "loss": 0.5652, "step": 1838 }, { "avg_step_time": 5.5000384407814105, "epoch": 0.19605333333333333, "eta_time": 11.514941591158191, "step": 1838 }, { "epoch": 0.19616, "grad_norm": 1.8770003676219127, "learning_rate": 9.293837978476359e-06, "loss": 0.4343, "step": 1839 }, { "avg_step_time": 5.498417832634666, "epoch": 0.19616, "eta_time": 11.510021329648566, "step": 1839 }, { "epoch": 0.19626666666666667, "grad_norm": 1.720036618519739, "learning_rate": 9.292952622083867e-06, "loss": 0.5084, "step": 1840 }, { "avg_step_time": 5.528706153233846, "epoch": 0.19626666666666667, "eta_time": 11.571889129060285, "step": 1840 }, { "epoch": 0.19637333333333334, "grad_norm": 1.8021084076944174, "learning_rate": 9.292066753253226e-06, "loss": 0.5148, "step": 1841 }, { "avg_step_time": 5.527370977883387, "epoch": 0.19637333333333334, "eta_time": 11.567559152048178, "step": 1841 }, { "epoch": 0.19648, "grad_norm": 1.8599618549968677, "learning_rate": 9.291180372090178e-06, "loss": 0.4678, "step": 1842 }, { "avg_step_time": 5.526904734698209, "epoch": 0.19648, "eta_time": 11.565048157356001, "step": 1842 }, { "epoch": 0.19658666666666666, "grad_norm": 1.8092754969191764, "learning_rate": 9.29029347870053e-06, "loss": 0.4814, "step": 1843 }, { "avg_step_time": 5.5629452334509955, "epoch": 0.19658666666666666, "eta_time": 11.63891763843136, "step": 1843 }, { "epoch": 0.19669333333333333, "grad_norm": 1.6954278028968317, "learning_rate": 9.289406073190146e-06, "loss": 0.5004, "step": 1844 }, { "avg_step_time": 5.568635622660319, "epoch": 0.19669333333333333, "eta_time": 11.649276353959685, "step": 1844 }, { "epoch": 0.1968, "grad_norm": 0.6464583973496936, "learning_rate": 9.288518155664956e-06, "loss": 0.4394, "step": 1845 }, { "avg_step_time": 5.532104879918725, "epoch": 0.1968, "eta_time": 11.57131937383, "step": 1845 }, { "epoch": 0.19690666666666667, "grad_norm": 1.4727114637507004, "learning_rate": 9.287629726230945e-06, "loss": 0.419, "step": 1846 }, { "avg_step_time": 5.56822398455456, "epoch": 0.19690666666666667, "eta_time": 11.645321772142022, "step": 1846 }, { "epoch": 0.19701333333333335, "grad_norm": 1.6982008601616605, "learning_rate": 9.286740784994164e-06, "loss": 0.4701, "step": 1847 }, { "avg_step_time": 5.555738345541135, "epoch": 0.19701333333333335, "eta_time": 11.61766618478713, "step": 1847 }, { "epoch": 0.19712, "grad_norm": 0.6563707042483987, "learning_rate": 9.285851332060722e-06, "loss": 0.4456, "step": 1848 }, { "avg_step_time": 5.557602273093329, "epoch": 0.19712, "eta_time": 11.620020085992637, "step": 1848 }, { "epoch": 0.19722666666666666, "grad_norm": 1.6042315203110649, "learning_rate": 9.284961367536795e-06, "loss": 0.4772, "step": 1849 }, { "avg_step_time": 5.552192095554236, "epoch": 0.19722666666666666, "eta_time": 11.60716603087255, "step": 1849 }, { "epoch": 0.19733333333333333, "grad_norm": 1.806227386052491, "learning_rate": 9.28407089152861e-06, "loss": 0.5283, "step": 1850 }, { "avg_step_time": 5.551309556672067, "epoch": 0.19733333333333333, "eta_time": 11.60377900387703, "step": 1850 }, { "epoch": 0.19744, "grad_norm": 1.6846817337314763, "learning_rate": 9.283179904142465e-06, "loss": 0.528, "step": 1851 }, { "avg_step_time": 5.5473688636163265, "epoch": 0.19744, "eta_time": 11.594000924958124, "step": 1851 }, { "epoch": 0.19754666666666668, "grad_norm": 0.6289070953734699, "learning_rate": 9.282288405484712e-06, "loss": 0.4325, "step": 1852 }, { "avg_step_time": 5.538107599874939, "epoch": 0.19754666666666668, "eta_time": 11.573106520516435, "step": 1852 }, { "epoch": 0.19765333333333332, "grad_norm": 0.6597454273924861, "learning_rate": 9.281396395661771e-06, "loss": 0.4297, "step": 1853 }, { "avg_step_time": 5.535631314672605, "epoch": 0.19765333333333332, "eta_time": 11.56639409693537, "step": 1853 }, { "epoch": 0.19776, "grad_norm": 1.581474696116847, "learning_rate": 9.280503874780112e-06, "loss": 0.4575, "step": 1854 }, { "avg_step_time": 5.526183133173471, "epoch": 0.19776, "eta_time": 11.545117595721578, "step": 1854 }, { "epoch": 0.19786666666666666, "grad_norm": 1.4313389610257443, "learning_rate": 9.279610842946278e-06, "loss": 0.4967, "step": 1855 }, { "avg_step_time": 5.5250301818655, "epoch": 0.19786666666666666, "eta_time": 11.541174157674599, "step": 1855 }, { "epoch": 0.19797333333333333, "grad_norm": 1.2652909999632898, "learning_rate": 9.278717300266866e-06, "loss": 0.4989, "step": 1856 }, { "avg_step_time": 5.524350770796188, "epoch": 0.19797333333333333, "eta_time": 11.538220401560148, "step": 1856 }, { "epoch": 0.19808, "grad_norm": 1.618632090982573, "learning_rate": 9.277823246848537e-06, "loss": 0.5351, "step": 1857 }, { "avg_step_time": 5.524451190775091, "epoch": 0.19808, "eta_time": 11.536895570068648, "step": 1857 }, { "epoch": 0.19818666666666668, "grad_norm": 1.7551135603251842, "learning_rate": 9.27692868279801e-06, "loss": 0.562, "step": 1858 }, { "avg_step_time": 5.58462245536573, "epoch": 0.19818666666666668, "eta_time": 11.661001943606722, "step": 1858 }, { "epoch": 0.19829333333333332, "grad_norm": 1.5669806147053045, "learning_rate": 9.276033608222068e-06, "loss": 0.4782, "step": 1859 }, { "avg_step_time": 5.602169744896166, "epoch": 0.19829333333333332, "eta_time": 11.696085500733219, "step": 1859 }, { "epoch": 0.1984, "grad_norm": 1.8824983549908962, "learning_rate": 9.275138023227555e-06, "loss": 0.4937, "step": 1860 }, { "avg_step_time": 5.60188788356203, "epoch": 0.1984, "eta_time": 11.693940956935739, "step": 1860 }, { "epoch": 0.19850666666666666, "grad_norm": 1.4730660543547667, "learning_rate": 9.27424192792137e-06, "loss": 0.5133, "step": 1861 }, { "avg_step_time": 5.604876164234046, "epoch": 0.19850666666666666, "eta_time": 11.69862208279295, "step": 1861 }, { "epoch": 0.19861333333333334, "grad_norm": 1.8356610727099079, "learning_rate": 9.27334532241048e-06, "loss": 0.553, "step": 1862 }, { "avg_step_time": 5.6036286402230315, "epoch": 0.19861333333333334, "eta_time": 11.694461659443233, "step": 1862 }, { "epoch": 0.19872, "grad_norm": 1.69595975938791, "learning_rate": 9.272448206801912e-06, "loss": 0.4791, "step": 1863 }, { "avg_step_time": 5.607362795357752, "epoch": 0.19872, "eta_time": 11.700697032979843, "step": 1863 }, { "epoch": 0.19882666666666668, "grad_norm": 1.55043464360269, "learning_rate": 9.27155058120275e-06, "loss": 0.5474, "step": 1864 }, { "avg_step_time": 5.637528470068267, "epoch": 0.19882666666666668, "eta_time": 11.762076760745208, "step": 1864 }, { "epoch": 0.19893333333333332, "grad_norm": 1.8807057591124736, "learning_rate": 9.270652445720143e-06, "loss": 0.5571, "step": 1865 }, { "avg_step_time": 5.673327002862488, "epoch": 0.19893333333333332, "eta_time": 11.835190497638132, "step": 1865 }, { "epoch": 0.19904, "grad_norm": 0.6218489073861319, "learning_rate": 9.269753800461299e-06, "loss": 0.4199, "step": 1866 }, { "avg_step_time": 5.636046650433781, "epoch": 0.19904, "eta_time": 11.755853971696462, "step": 1866 }, { "epoch": 0.19914666666666667, "grad_norm": 1.6648633947096125, "learning_rate": 9.268854645533483e-06, "loss": 0.4623, "step": 1867 }, { "avg_step_time": 5.668882796258638, "epoch": 0.19914666666666667, "eta_time": 11.822770009530515, "step": 1867 }, { "epoch": 0.19925333333333334, "grad_norm": 1.547226228564603, "learning_rate": 9.26795498104403e-06, "loss": 0.4391, "step": 1868 }, { "avg_step_time": 5.666685386137529, "epoch": 0.19925333333333334, "eta_time": 11.816613109370676, "step": 1868 }, { "epoch": 0.19936, "grad_norm": 1.513814047667426, "learning_rate": 9.267054807100327e-06, "loss": 0.5088, "step": 1869 }, { "avg_step_time": 5.781545508991588, "epoch": 0.19936, "eta_time": 12.054522386247461, "step": 1869 }, { "epoch": 0.19946666666666665, "grad_norm": 1.5130239175871052, "learning_rate": 9.266154123809825e-06, "loss": 0.4478, "step": 1870 }, { "avg_step_time": 5.781966611592456, "epoch": 0.19946666666666665, "eta_time": 12.053794283333719, "step": 1870 }, { "epoch": 0.19957333333333332, "grad_norm": 1.6766176866537974, "learning_rate": 9.26525293128004e-06, "loss": 0.4402, "step": 1871 }, { "avg_step_time": 5.782174363280788, "epoch": 0.19957333333333332, "eta_time": 12.052621228349732, "step": 1871 }, { "epoch": 0.19968, "grad_norm": 1.7357756393419546, "learning_rate": 9.264351229618541e-06, "loss": 0.5515, "step": 1872 }, { "avg_step_time": 5.777953976332539, "epoch": 0.19968, "eta_time": 12.0422190790064, "step": 1872 }, { "epoch": 0.19978666666666667, "grad_norm": 1.5584100855671146, "learning_rate": 9.263449018932964e-06, "loss": 0.5223, "step": 1873 }, { "avg_step_time": 5.779883074037956, "epoch": 0.19978666666666667, "eta_time": 12.044634117064652, "step": 1873 }, { "epoch": 0.19989333333333334, "grad_norm": 1.934560970454741, "learning_rate": 9.262546299331e-06, "loss": 0.5222, "step": 1874 }, { "avg_step_time": 5.782081095859258, "epoch": 0.19989333333333334, "eta_time": 12.047608416677859, "step": 1874 }, { "epoch": 0.2, "grad_norm": 1.4534415621393095, "learning_rate": 9.261643070920409e-06, "loss": 0.4647, "step": 1875 }, { "avg_step_time": 5.783817377957431, "epoch": 0.2, "eta_time": 12.049619537411315, "step": 1875 }, { "epoch": 0.20010666666666665, "grad_norm": 1.957686895310863, "learning_rate": 9.260739333809006e-06, "loss": 0.6059, "step": 1876 }, { "avg_step_time": 5.816936423080136, "epoch": 0.20010666666666665, "eta_time": 12.11700173241054, "step": 1876 }, { "epoch": 0.20021333333333333, "grad_norm": 1.8587737725571027, "learning_rate": 9.259835088104665e-06, "loss": 0.468, "step": 1877 }, { "avg_step_time": 5.817563724036169, "epoch": 0.20021333333333333, "eta_time": 12.116692445228665, "step": 1877 }, { "epoch": 0.20032, "grad_norm": 1.7803318684289566, "learning_rate": 9.258930333915325e-06, "loss": 0.5196, "step": 1878 }, { "avg_step_time": 5.815143370869184, "epoch": 0.20032, "eta_time": 12.110036069835076, "step": 1878 }, { "epoch": 0.20042666666666667, "grad_norm": 1.368883112153189, "learning_rate": 9.258025071348984e-06, "loss": 0.4869, "step": 1879 }, { "avg_step_time": 5.825928112473151, "epoch": 0.20042666666666667, "eta_time": 12.130876980860762, "step": 1879 }, { "epoch": 0.20053333333333334, "grad_norm": 0.7085030713603383, "learning_rate": 9.2571193005137e-06, "loss": 0.4612, "step": 1880 }, { "avg_step_time": 5.789533949861623, "epoch": 0.20053333333333334, "eta_time": 12.053488042836907, "step": 1880 }, { "epoch": 0.20064, "grad_norm": 1.605730574692145, "learning_rate": 9.256213021517593e-06, "loss": 0.5171, "step": 1881 }, { "avg_step_time": 5.790559103994658, "epoch": 0.20064, "eta_time": 12.05401386814888, "step": 1881 }, { "epoch": 0.20074666666666666, "grad_norm": 1.6015981853257124, "learning_rate": 9.255306234468844e-06, "loss": 0.5293, "step": 1882 }, { "avg_step_time": 5.824868777785638, "epoch": 0.20074666666666666, "eta_time": 12.12381715331883, "step": 1882 }, { "epoch": 0.20085333333333333, "grad_norm": 1.65744199917586, "learning_rate": 9.25439893947569e-06, "loss": 0.5743, "step": 1883 }, { "avg_step_time": 5.8218803357596345, "epoch": 0.20085333333333333, "eta_time": 12.115979854308662, "step": 1883 }, { "epoch": 0.20096, "grad_norm": 1.682717609262706, "learning_rate": 9.253491136646437e-06, "loss": 0.5653, "step": 1884 }, { "avg_step_time": 5.817513781364518, "epoch": 0.20096, "eta_time": 12.105276593389336, "step": 1884 }, { "epoch": 0.20106666666666667, "grad_norm": 1.5479370957698138, "learning_rate": 9.252582826089447e-06, "loss": 0.4804, "step": 1885 }, { "avg_step_time": 5.816165305147267, "epoch": 0.20106666666666667, "eta_time": 12.10085503765362, "step": 1885 }, { "epoch": 0.20117333333333334, "grad_norm": 1.8104527044515406, "learning_rate": 9.251674007913138e-06, "loss": 0.5357, "step": 1886 }, { "avg_step_time": 5.8129010706236866, "epoch": 0.20117333333333334, "eta_time": 12.092448921639107, "step": 1886 }, { "epoch": 0.20128, "grad_norm": 1.8017748667676163, "learning_rate": 9.250764682225997e-06, "loss": 0.4822, "step": 1887 }, { "avg_step_time": 5.813061930916526, "epoch": 0.20128, "eta_time": 12.091168816306375, "step": 1887 }, { "epoch": 0.20138666666666666, "grad_norm": 1.6457717142034198, "learning_rate": 9.249854849136566e-06, "loss": 0.4785, "step": 1888 }, { "avg_step_time": 5.81452439770554, "epoch": 0.20138666666666666, "eta_time": 12.092595601561493, "step": 1888 }, { "epoch": 0.20149333333333333, "grad_norm": 1.7888370040116381, "learning_rate": 9.24894450875345e-06, "loss": 0.5356, "step": 1889 }, { "avg_step_time": 5.823249371364863, "epoch": 0.20149333333333333, "eta_time": 12.109123553899268, "step": 1889 }, { "epoch": 0.2016, "grad_norm": 1.3916812944119017, "learning_rate": 9.248033661185313e-06, "loss": 0.5333, "step": 1890 }, { "avg_step_time": 5.8243398883126, "epoch": 0.2016, "eta_time": 12.109773351116614, "step": 1890 }, { "epoch": 0.20170666666666667, "grad_norm": 1.8137981711958924, "learning_rate": 9.247122306540882e-06, "loss": 0.5937, "step": 1891 }, { "avg_step_time": 5.826196330966371, "epoch": 0.20170666666666667, "eta_time": 12.1120148169312, "step": 1891 }, { "epoch": 0.20181333333333334, "grad_norm": 1.5149999140262567, "learning_rate": 9.246210444928942e-06, "loss": 0.5163, "step": 1892 }, { "avg_step_time": 5.828020312569358, "epoch": 0.20181333333333334, "eta_time": 12.11418777748792, "step": 1892 }, { "epoch": 0.20192, "grad_norm": 1.6728952609844159, "learning_rate": 9.24529807645834e-06, "loss": 0.4812, "step": 1893 }, { "avg_step_time": 5.839316226015187, "epoch": 0.20192, "eta_time": 12.136045556401564, "step": 1893 }, { "epoch": 0.20202666666666666, "grad_norm": 1.4556161945555945, "learning_rate": 9.244385201237982e-06, "loss": 0.4321, "step": 1894 }, { "avg_step_time": 5.8407977831484095, "epoch": 0.20202666666666666, "eta_time": 12.137502282148125, "step": 1894 }, { "epoch": 0.20213333333333333, "grad_norm": 1.757656131827182, "learning_rate": 9.243471819376837e-06, "loss": 0.5556, "step": 1895 }, { "avg_step_time": 5.842596562221797, "epoch": 0.20213333333333333, "eta_time": 12.13961730150529, "step": 1895 }, { "epoch": 0.20224, "grad_norm": 0.6970388993048611, "learning_rate": 9.24255793098393e-06, "loss": 0.4632, "step": 1896 }, { "avg_step_time": 5.80978557076117, "epoch": 0.20224, "eta_time": 12.06982952325633, "step": 1896 }, { "epoch": 0.20234666666666667, "grad_norm": 1.666410802393332, "learning_rate": 9.241643536168351e-06, "loss": 0.559, "step": 1897 }, { "avg_step_time": 5.816485773433339, "epoch": 0.20234666666666667, "eta_time": 12.08213350381514, "step": 1897 }, { "epoch": 0.20245333333333335, "grad_norm": 1.6138505232821245, "learning_rate": 9.240728635039252e-06, "loss": 0.5357, "step": 1898 }, { "avg_step_time": 5.815841046246615, "epoch": 0.20245333333333335, "eta_time": 12.079178750773872, "step": 1898 }, { "epoch": 0.20256, "grad_norm": 1.5295433470873951, "learning_rate": 9.23981322770584e-06, "loss": 0.5108, "step": 1899 }, { "avg_step_time": 5.7977222481159245, "epoch": 0.20256, "eta_time": 12.03993653525407, "step": 1899 }, { "epoch": 0.20266666666666666, "grad_norm": 0.6597418970181511, "learning_rate": 9.23889731427738e-06, "loss": 0.4344, "step": 1900 }, { "avg_step_time": 5.791926097388219, "epoch": 0.20266666666666666, "eta_time": 12.026290993882483, "step": 1900 }, { "epoch": 0.20277333333333333, "grad_norm": 1.7231525040206386, "learning_rate": 9.237980894863208e-06, "loss": 0.5397, "step": 1901 }, { "avg_step_time": 5.777450154526065, "epoch": 0.20277333333333333, "eta_time": 11.994628459702168, "step": 1901 }, { "epoch": 0.20288, "grad_norm": 1.6556934178722669, "learning_rate": 9.237063969572713e-06, "loss": 0.5211, "step": 1902 }, { "avg_step_time": 5.773215944116766, "epoch": 0.20288, "eta_time": 11.984234097329052, "step": 1902 }, { "epoch": 0.20298666666666668, "grad_norm": 1.62245344963208, "learning_rate": 9.236146538515345e-06, "loss": 0.5625, "step": 1903 }, { "avg_step_time": 5.76984383602335, "epoch": 0.20298666666666668, "eta_time": 11.975631428546242, "step": 1903 }, { "epoch": 0.20309333333333332, "grad_norm": 1.7532689919263276, "learning_rate": 9.235228601800616e-06, "loss": 0.4694, "step": 1904 }, { "avg_step_time": 5.7683761071677155, "epoch": 0.20309333333333332, "eta_time": 11.970982749069444, "step": 1904 }, { "epoch": 0.2032, "grad_norm": 1.5434813381443915, "learning_rate": 9.2343101595381e-06, "loss": 0.4303, "step": 1905 }, { "avg_step_time": 5.8370688997133815, "epoch": 0.2032, "eta_time": 12.111917966905267, "step": 1905 }, { "epoch": 0.20330666666666666, "grad_norm": 1.8756701512253833, "learning_rate": 9.233391211837423e-06, "loss": 0.53, "step": 1906 }, { "avg_step_time": 5.837818234857886, "epoch": 0.20330666666666666, "eta_time": 12.111851221153765, "step": 1906 }, { "epoch": 0.20341333333333333, "grad_norm": 1.755093934399518, "learning_rate": 9.232471758808282e-06, "loss": 0.5366, "step": 1907 }, { "avg_step_time": 5.894977827264805, "epoch": 0.20341333333333333, "eta_time": 12.228804003892657, "step": 1907 }, { "epoch": 0.20352, "grad_norm": 1.5339934190816726, "learning_rate": 9.23155180056043e-06, "loss": 0.5091, "step": 1908 }, { "avg_step_time": 5.902657282472861, "epoch": 0.20352, "eta_time": 12.243094980062459, "step": 1908 }, { "epoch": 0.20362666666666668, "grad_norm": 1.7403694093172253, "learning_rate": 9.230631337203675e-06, "loss": 0.5074, "step": 1909 }, { "avg_step_time": 5.962985546901972, "epoch": 0.20362666666666668, "eta_time": 12.366569470325034, "step": 1909 }, { "epoch": 0.20373333333333332, "grad_norm": 1.6447321631106198, "learning_rate": 9.229710368847896e-06, "loss": 0.5516, "step": 1910 }, { "avg_step_time": 5.958630084991455, "epoch": 0.20373333333333332, "eta_time": 12.355881551239225, "step": 1910 }, { "epoch": 0.20384, "grad_norm": 0.7361582493830566, "learning_rate": 9.228788895603024e-06, "loss": 0.464, "step": 1911 }, { "avg_step_time": 5.926519557683155, "epoch": 0.20384, "eta_time": 12.287650549596407, "step": 1911 }, { "epoch": 0.20394666666666666, "grad_norm": 1.7730403540634079, "learning_rate": 9.22786691757905e-06, "loss": 0.5142, "step": 1912 }, { "avg_step_time": 5.923493226369222, "epoch": 0.20394666666666666, "eta_time": 12.279730541220417, "step": 1912 }, { "epoch": 0.20405333333333334, "grad_norm": 0.7105981988799318, "learning_rate": 9.226944434886034e-06, "loss": 0.4603, "step": 1913 }, { "avg_step_time": 5.913644224706323, "epoch": 0.20405333333333334, "eta_time": 12.25767033465516, "step": 1913 }, { "epoch": 0.20416, "grad_norm": 1.6049601779022256, "learning_rate": 9.226021447634085e-06, "loss": 0.5236, "step": 1914 }, { "avg_step_time": 5.9224470191531715, "epoch": 0.20416, "eta_time": 12.274271447194947, "step": 1914 }, { "epoch": 0.20426666666666668, "grad_norm": 2.0696170218841647, "learning_rate": 9.225097955933382e-06, "loss": 0.5683, "step": 1915 }, { "avg_step_time": 5.921320900772557, "epoch": 0.20426666666666668, "eta_time": 12.270292755489798, "step": 1915 }, { "epoch": 0.20437333333333332, "grad_norm": 1.7287867873735452, "learning_rate": 9.224173959894157e-06, "loss": 0.4834, "step": 1916 }, { "avg_step_time": 5.919907516903347, "epoch": 0.20437333333333332, "eta_time": 12.265719491272796, "step": 1916 }, { "epoch": 0.20448, "grad_norm": 1.869299284297627, "learning_rate": 9.223249459626704e-06, "loss": 0.4327, "step": 1917 }, { "avg_step_time": 5.918903023305566, "epoch": 0.20448, "eta_time": 12.261994096614698, "step": 1917 }, { "epoch": 0.20458666666666667, "grad_norm": 1.7777717303709775, "learning_rate": 9.22232445524138e-06, "loss": 0.522, "step": 1918 }, { "avg_step_time": 5.919339382287228, "epoch": 0.20458666666666667, "eta_time": 12.261253826032183, "step": 1918 }, { "epoch": 0.20469333333333334, "grad_norm": 1.7320664735407656, "learning_rate": 9.221398946848598e-06, "loss": 0.4922, "step": 1919 }, { "avg_step_time": 5.920646200276384, "epoch": 0.20469333333333334, "eta_time": 12.262316130350202, "step": 1919 }, { "epoch": 0.2048, "grad_norm": 1.8133948532380602, "learning_rate": 9.220472934558838e-06, "loss": 0.4986, "step": 1920 }, { "avg_step_time": 5.937151022631713, "epoch": 0.2048, "eta_time": 12.294850242699837, "step": 1920 }, { "epoch": 0.20490666666666665, "grad_norm": 1.7765399536431037, "learning_rate": 9.21954641848263e-06, "loss": 0.5023, "step": 1921 }, { "avg_step_time": 5.954002994479555, "epoch": 0.20490666666666665, "eta_time": 12.328093978014056, "step": 1921 }, { "epoch": 0.20501333333333333, "grad_norm": 1.5802777967088792, "learning_rate": 9.218619398730572e-06, "loss": 0.4553, "step": 1922 }, { "avg_step_time": 5.956328081362175, "epoch": 0.20501333333333333, "eta_time": 12.331253663997858, "step": 1922 }, { "epoch": 0.20512, "grad_norm": 1.8669565697731065, "learning_rate": 9.217691875413323e-06, "loss": 0.5121, "step": 1923 }, { "avg_step_time": 5.963395742454914, "epoch": 0.20512, "eta_time": 12.344229186881671, "step": 1923 }, { "epoch": 0.20522666666666667, "grad_norm": 1.7082981353613578, "learning_rate": 9.216763848641595e-06, "loss": 0.5371, "step": 1924 }, { "avg_step_time": 5.969634752080898, "epoch": 0.20522666666666667, "eta_time": 12.355485704931882, "step": 1924 }, { "epoch": 0.20533333333333334, "grad_norm": 1.4983197279757752, "learning_rate": 9.215835318526164e-06, "loss": 0.4699, "step": 1925 }, { "avg_step_time": 6.003107116679953, "epoch": 0.20533333333333334, "eta_time": 12.423096672018234, "step": 1925 }, { "epoch": 0.20544, "grad_norm": 1.7476285479437073, "learning_rate": 9.214906285177867e-06, "loss": 0.5167, "step": 1926 }, { "avg_step_time": 5.9970114616432575, "epoch": 0.20544, "eta_time": 12.408816216050173, "step": 1926 }, { "epoch": 0.20554666666666666, "grad_norm": 1.587444088165647, "learning_rate": 9.213976748707602e-06, "loss": 0.457, "step": 1927 }, { "avg_step_time": 5.9749510601313425, "epoch": 0.20554666666666666, "eta_time": 12.361509859960622, "step": 1927 }, { "epoch": 0.20565333333333333, "grad_norm": 1.4633689031402415, "learning_rate": 9.213046709226323e-06, "loss": 0.4886, "step": 1928 }, { "avg_step_time": 5.927125569545861, "epoch": 0.20565333333333333, "eta_time": 12.260917810113341, "step": 1928 }, { "epoch": 0.20576, "grad_norm": 1.6879312295644733, "learning_rate": 9.212116166845048e-06, "loss": 0.4914, "step": 1929 }, { "avg_step_time": 5.92781005724512, "epoch": 0.20576, "eta_time": 12.260687135068656, "step": 1929 }, { "epoch": 0.20586666666666667, "grad_norm": 1.6568332180148735, "learning_rate": 9.211185121674851e-06, "loss": 0.4784, "step": 1930 }, { "avg_step_time": 5.926273232758647, "epoch": 0.20586666666666667, "eta_time": 12.255862282746701, "step": 1930 }, { "epoch": 0.20597333333333334, "grad_norm": 1.6508388194045651, "learning_rate": 9.21025357382687e-06, "loss": 0.5161, "step": 1931 }, { "avg_step_time": 5.913237641556094, "epoch": 0.20597333333333334, "eta_time": 12.227261389928767, "step": 1931 }, { "epoch": 0.20608, "grad_norm": 1.6000326831418341, "learning_rate": 9.209321523412303e-06, "loss": 0.4309, "step": 1932 }, { "avg_step_time": 5.8823254541917285, "epoch": 0.20608, "eta_time": 12.161707876541398, "step": 1932 }, { "epoch": 0.20618666666666666, "grad_norm": 1.8758553800133702, "learning_rate": 9.208388970542401e-06, "loss": 0.4816, "step": 1933 }, { "avg_step_time": 5.921594126055939, "epoch": 0.20618666666666666, "eta_time": 12.241250968363415, "step": 1933 }, { "epoch": 0.20629333333333333, "grad_norm": 1.65724678561098, "learning_rate": 9.207455915328487e-06, "loss": 0.5508, "step": 1934 }, { "avg_step_time": 5.916020720896094, "epoch": 0.20629333333333333, "eta_time": 12.2280861622744, "step": 1934 }, { "epoch": 0.2064, "grad_norm": 2.1187347432621824, "learning_rate": 9.206522357881931e-06, "loss": 0.51, "step": 1935 }, { "avg_step_time": 5.946831214307535, "epoch": 0.2064, "eta_time": 12.290117842902239, "step": 1935 }, { "epoch": 0.20650666666666667, "grad_norm": 0.6759518226533114, "learning_rate": 9.205588298314175e-06, "loss": 0.4207, "step": 1936 }, { "avg_step_time": 5.908812453048398, "epoch": 0.20650666666666667, "eta_time": 12.209904399507508, "step": 1936 }, { "epoch": 0.20661333333333334, "grad_norm": 1.5986494967719977, "learning_rate": 9.204653736736711e-06, "loss": 0.501, "step": 1937 }, { "avg_step_time": 5.928372291603473, "epoch": 0.20661333333333334, "eta_time": 12.248675862485177, "step": 1937 }, { "epoch": 0.20672, "grad_norm": 1.7577253421471717, "learning_rate": 9.203718673261098e-06, "loss": 0.4793, "step": 1938 }, { "avg_step_time": 5.929455930536443, "epoch": 0.20672, "eta_time": 12.249267709833202, "step": 1938 }, { "epoch": 0.20682666666666666, "grad_norm": 0.6777744104648117, "learning_rate": 9.202783107998947e-06, "loss": 0.4433, "step": 1939 }, { "avg_step_time": 5.8943315804606735, "epoch": 0.20682666666666666, "eta_time": 12.175069342307102, "step": 1939 }, { "epoch": 0.20693333333333333, "grad_norm": 1.6961394620056682, "learning_rate": 9.20184704106194e-06, "loss": 0.5002, "step": 1940 }, { "avg_step_time": 5.89821694836472, "epoch": 0.20693333333333333, "eta_time": 12.181456391969913, "step": 1940 }, { "epoch": 0.20704, "grad_norm": 1.900527404850585, "learning_rate": 9.20091047256181e-06, "loss": 0.5632, "step": 1941 }, { "avg_step_time": 5.904310503391304, "epoch": 0.20704, "eta_time": 12.192401189503045, "step": 1941 }, { "epoch": 0.20714666666666667, "grad_norm": 1.693748926008177, "learning_rate": 9.199973402610351e-06, "loss": 0.4486, "step": 1942 }, { "avg_step_time": 5.903873787985908, "epoch": 0.20714666666666667, "eta_time": 12.189859407249791, "step": 1942 }, { "epoch": 0.20725333333333334, "grad_norm": 1.7606290869889794, "learning_rate": 9.199035831319422e-06, "loss": 0.5384, "step": 1943 }, { "avg_step_time": 5.899036795201928, "epoch": 0.20725333333333334, "eta_time": 12.17823373942798, "step": 1943 }, { "epoch": 0.20736, "grad_norm": 1.8394469225104044, "learning_rate": 9.198097758800938e-06, "loss": 0.6633, "step": 1944 }, { "avg_step_time": 5.936927530500624, "epoch": 0.20736, "eta_time": 12.254807910875037, "step": 1944 }, { "epoch": 0.20746666666666666, "grad_norm": 1.6077412158179925, "learning_rate": 9.197159185166871e-06, "loss": 0.4586, "step": 1945 }, { "avg_step_time": 5.932611776120735, "epoch": 0.20746666666666666, "eta_time": 12.244251526826963, "step": 1945 }, { "epoch": 0.20757333333333333, "grad_norm": 1.6760764767306264, "learning_rate": 9.19622011052926e-06, "loss": 0.5524, "step": 1946 }, { "avg_step_time": 5.947869763229832, "epoch": 0.20757333333333333, "eta_time": 12.274090130842895, "step": 1946 }, { "epoch": 0.20768, "grad_norm": 2.0995631576874265, "learning_rate": 9.195280535000196e-06, "loss": 0.6193, "step": 1947 }, { "avg_step_time": 5.984696612213597, "epoch": 0.20768, "eta_time": 12.348424009867388, "step": 1947 }, { "epoch": 0.20778666666666668, "grad_norm": 1.8708686901369813, "learning_rate": 9.194340458691833e-06, "loss": 0.4717, "step": 1948 }, { "avg_step_time": 5.984218224130496, "epoch": 0.20778666666666668, "eta_time": 12.345774652949219, "step": 1948 }, { "epoch": 0.20789333333333335, "grad_norm": 1.7657821569341248, "learning_rate": 9.19339988171639e-06, "loss": 0.5084, "step": 1949 }, { "avg_step_time": 5.9862368901570635, "epoch": 0.20789333333333335, "eta_time": 12.348276429529541, "step": 1949 }, { "epoch": 0.208, "grad_norm": 1.445386645427351, "learning_rate": 9.19245880418614e-06, "loss": 0.4848, "step": 1950 }, { "avg_step_time": 5.982303588077276, "epoch": 0.208, "eta_time": 12.33850115040938, "step": 1950 }, { "epoch": 0.20810666666666666, "grad_norm": 1.9778001879783063, "learning_rate": 9.191517226213413e-06, "loss": 0.4402, "step": 1951 }, { "avg_step_time": 5.993017073833581, "epoch": 0.20810666666666666, "eta_time": 12.358932987816807, "step": 1951 }, { "epoch": 0.20821333333333333, "grad_norm": 1.5226494046493768, "learning_rate": 9.190575147910606e-06, "loss": 0.5312, "step": 1952 }, { "avg_step_time": 6.030223899417454, "epoch": 0.20821333333333333, "eta_time": 12.433986668159934, "step": 1952 }, { "epoch": 0.20832, "grad_norm": 1.8721046291457555, "learning_rate": 9.189632569390172e-06, "loss": 0.5624, "step": 1953 }, { "avg_step_time": 6.029567930433485, "epoch": 0.20832, "eta_time": 12.430959216577033, "step": 1953 }, { "epoch": 0.20842666666666668, "grad_norm": 1.6366068184712856, "learning_rate": 9.188689490764624e-06, "loss": 0.5555, "step": 1954 }, { "avg_step_time": 6.026817984051174, "epoch": 0.20842666666666668, "eta_time": 12.423615627678824, "step": 1954 }, { "epoch": 0.20853333333333332, "grad_norm": 1.706632768523544, "learning_rate": 9.187745912146535e-06, "loss": 0.5403, "step": 1955 }, { "avg_step_time": 6.03138832853298, "epoch": 0.20853333333333332, "eta_time": 12.431361499365197, "step": 1955 }, { "epoch": 0.20864, "grad_norm": 1.9050083747579323, "learning_rate": 9.186801833648535e-06, "loss": 0.5578, "step": 1956 }, { "avg_step_time": 6.0336583262742165, "epoch": 0.20864, "eta_time": 12.434364200730114, "step": 1956 }, { "epoch": 0.20874666666666666, "grad_norm": 1.37185140424486, "learning_rate": 9.185857255383319e-06, "loss": 0.4384, "step": 1957 }, { "avg_step_time": 5.97183872955014, "epoch": 0.20874666666666666, "eta_time": 12.305305471056373, "step": 1957 }, { "epoch": 0.20885333333333334, "grad_norm": 1.505095743012182, "learning_rate": 9.184912177463637e-06, "loss": 0.5231, "step": 1958 }, { "avg_step_time": 5.969096020014599, "epoch": 0.20885333333333334, "eta_time": 12.297995883457856, "step": 1958 }, { "epoch": 0.20896, "grad_norm": 1.4967069096693622, "learning_rate": 9.183966600002301e-06, "loss": 0.4828, "step": 1959 }, { "avg_step_time": 5.969235754976369, "epoch": 0.20896, "eta_time": 12.29662565525132, "step": 1959 }, { "epoch": 0.20906666666666668, "grad_norm": 1.892023763527489, "learning_rate": 9.183020523112183e-06, "loss": 0.4945, "step": 1960 }, { "avg_step_time": 5.966195046299636, "epoch": 0.20906666666666668, "eta_time": 12.2887045189755, "step": 1960 }, { "epoch": 0.20917333333333332, "grad_norm": 1.707474898844525, "learning_rate": 9.182073946906212e-06, "loss": 0.4984, "step": 1961 }, { "avg_step_time": 5.963437545179117, "epoch": 0.20917333333333332, "eta_time": 12.281368322210549, "step": 1961 }, { "epoch": 0.20928, "grad_norm": 1.5986912283215076, "learning_rate": 9.181126871497378e-06, "loss": 0.465, "step": 1962 }, { "avg_step_time": 5.964255294414482, "epoch": 0.20928, "eta_time": 12.281395693748486, "step": 1962 }, { "epoch": 0.20938666666666667, "grad_norm": 1.6738737208231407, "learning_rate": 9.180179296998733e-06, "loss": 0.5676, "step": 1963 }, { "avg_step_time": 5.936074603687633, "epoch": 0.20938666666666667, "eta_time": 12.221718045147982, "step": 1963 }, { "epoch": 0.20949333333333334, "grad_norm": 1.7243804045062483, "learning_rate": 9.179231223523385e-06, "loss": 0.5383, "step": 1964 }, { "avg_step_time": 5.913481791814168, "epoch": 0.20949333333333334, "eta_time": 12.173559321981887, "step": 1964 }, { "epoch": 0.2096, "grad_norm": 1.6978217242761056, "learning_rate": 9.178282651184506e-06, "loss": 0.5328, "step": 1965 }, { "avg_step_time": 5.959818664223257, "epoch": 0.2096, "eta_time": 12.267293417192871, "step": 1965 }, { "epoch": 0.20970666666666668, "grad_norm": 1.7021524132808963, "learning_rate": 9.177333580095318e-06, "loss": 0.524, "step": 1966 }, { "avg_step_time": 5.982724685861607, "epoch": 0.20970666666666668, "eta_time": 12.312779777096845, "step": 1966 }, { "epoch": 0.20981333333333332, "grad_norm": 1.5402754134562342, "learning_rate": 9.176384010369113e-06, "loss": 0.4244, "step": 1967 }, { "avg_step_time": 5.983714867119837, "epoch": 0.20981333333333332, "eta_time": 12.31315548211771, "step": 1967 }, { "epoch": 0.20992, "grad_norm": 1.642950550225405, "learning_rate": 9.175433942119238e-06, "loss": 0.5017, "step": 1968 }, { "avg_step_time": 5.860170186168015, "epoch": 0.20992, "eta_time": 12.057300158040691, "step": 1968 }, { "epoch": 0.21002666666666667, "grad_norm": 0.7562380019385617, "learning_rate": 9.174483375459102e-06, "loss": 0.4561, "step": 1969 }, { "avg_step_time": 5.826248602433638, "epoch": 0.21002666666666667, "eta_time": 11.985888097117645, "step": 1969 }, { "epoch": 0.21013333333333334, "grad_norm": 1.8416789350835059, "learning_rate": 9.173532310502169e-06, "loss": 0.4306, "step": 1970 }, { "avg_step_time": 5.826563230668656, "epoch": 0.21013333333333334, "eta_time": 11.984916867528167, "step": 1970 }, { "epoch": 0.21024, "grad_norm": 1.5953572703949148, "learning_rate": 9.172580747361968e-06, "loss": 0.4424, "step": 1971 }, { "avg_step_time": 5.828256554073757, "epoch": 0.21024, "eta_time": 11.986780979545028, "step": 1971 }, { "epoch": 0.21034666666666665, "grad_norm": 1.8247116786929534, "learning_rate": 9.17162868615208e-06, "loss": 0.5403, "step": 1972 }, { "avg_step_time": 5.877224763234456, "epoch": 0.21034666666666665, "eta_time": 12.085859700617966, "step": 1972 }, { "epoch": 0.21045333333333333, "grad_norm": 1.399058195998045, "learning_rate": 9.170676126986154e-06, "loss": 0.4199, "step": 1973 }, { "avg_step_time": 5.8742701621970745, "epoch": 0.21045333333333333, "eta_time": 12.078152150161873, "step": 1973 }, { "epoch": 0.21056, "grad_norm": 2.552631807208083, "learning_rate": 9.169723069977892e-06, "loss": 0.6271, "step": 1974 }, { "avg_step_time": 5.886930981067696, "epoch": 0.21056, "eta_time": 12.102548941911673, "step": 1974 }, { "epoch": 0.21066666666666667, "grad_norm": 1.7607554188216838, "learning_rate": 9.16876951524106e-06, "loss": 0.4211, "step": 1975 }, { "avg_step_time": 5.966026024384932, "epoch": 0.21066666666666667, "eta_time": 12.26349793901347, "step": 1975 }, { "epoch": 0.21077333333333334, "grad_norm": 1.7670667687866681, "learning_rate": 9.167815462889477e-06, "loss": 0.4737, "step": 1976 }, { "avg_step_time": 5.967054316491792, "epoch": 0.21077333333333334, "eta_time": 12.263954135478548, "step": 1976 }, { "epoch": 0.21088, "grad_norm": 1.649616820193586, "learning_rate": 9.166860913037032e-06, "loss": 0.4304, "step": 1977 }, { "avg_step_time": 5.973893456988865, "epoch": 0.21088, "eta_time": 12.276351054112116, "step": 1977 }, { "epoch": 0.21098666666666666, "grad_norm": 1.8736503950434094, "learning_rate": 9.165905865797661e-06, "loss": 0.6421, "step": 1978 }, { "avg_step_time": 5.959079308943315, "epoch": 0.21098666666666666, "eta_time": 12.244252680070474, "step": 1978 }, { "epoch": 0.21109333333333333, "grad_norm": 2.6689519674050817, "learning_rate": 9.164950321285371e-06, "loss": 0.5147, "step": 1979 }, { "avg_step_time": 5.994457464025478, "epoch": 0.21109333333333333, "eta_time": 12.315279834425677, "step": 1979 }, { "epoch": 0.2112, "grad_norm": 1.5745162872937026, "learning_rate": 9.163994279614218e-06, "loss": 0.4912, "step": 1980 }, { "avg_step_time": 5.995336898649581, "epoch": 0.2112, "eta_time": 12.315421212642683, "step": 1980 }, { "epoch": 0.21130666666666667, "grad_norm": 1.7170579324660065, "learning_rate": 9.163037740898324e-06, "loss": 0.4792, "step": 1981 }, { "avg_step_time": 5.997467368540137, "epoch": 0.21130666666666667, "eta_time": 12.31813158971827, "step": 1981 }, { "epoch": 0.21141333333333334, "grad_norm": 1.5231272780552476, "learning_rate": 9.16208070525187e-06, "loss": 0.442, "step": 1982 }, { "avg_step_time": 5.999480989244249, "epoch": 0.21141333333333334, "eta_time": 12.32060082041187, "step": 1982 }, { "epoch": 0.21152, "grad_norm": 1.8995480392930575, "learning_rate": 9.161123172789091e-06, "loss": 0.5987, "step": 1983 }, { "avg_step_time": 5.999965886877041, "epoch": 0.21152, "eta_time": 12.319929954387522, "step": 1983 }, { "epoch": 0.21162666666666666, "grad_norm": 1.6962522077344788, "learning_rate": 9.160165143624289e-06, "loss": 0.4712, "step": 1984 }, { "avg_step_time": 6.001429569841635, "epoch": 0.21162666666666666, "eta_time": 12.321268319638756, "step": 1984 }, { "epoch": 0.21173333333333333, "grad_norm": 2.1160342641169194, "learning_rate": 9.159206617871819e-06, "loss": 0.6215, "step": 1985 }, { "avg_step_time": 6.002303325768673, "epoch": 0.21173333333333333, "eta_time": 12.321394882619582, "step": 1985 }, { "epoch": 0.21184, "grad_norm": 1.8957017267139724, "learning_rate": 9.158247595646098e-06, "loss": 0.5694, "step": 1986 }, { "avg_step_time": 5.999850976346719, "epoch": 0.21184, "eta_time": 12.31469412895164, "step": 1986 }, { "epoch": 0.21194666666666667, "grad_norm": 1.6793577437945657, "learning_rate": 9.1572880770616e-06, "loss": 0.4849, "step": 1987 }, { "avg_step_time": 5.997860737521239, "epoch": 0.21194666666666667, "eta_time": 12.308943091335253, "step": 1987 }, { "epoch": 0.21205333333333334, "grad_norm": 1.4355630497158802, "learning_rate": 9.156328062232867e-06, "loss": 0.4846, "step": 1988 }, { "avg_step_time": 5.9860707750224105, "epoch": 0.21205333333333334, "eta_time": 12.283084670858486, "step": 1988 }, { "epoch": 0.21216, "grad_norm": 1.5032657166416972, "learning_rate": 9.155367551274485e-06, "loss": 0.5388, "step": 1989 }, { "avg_step_time": 6.011738839775625, "epoch": 0.21216, "eta_time": 12.334084186272992, "step": 1989 }, { "epoch": 0.21226666666666666, "grad_norm": 1.8433136567239825, "learning_rate": 9.154406544301113e-06, "loss": 0.5718, "step": 1990 }, { "avg_step_time": 6.00836940004368, "epoch": 0.21226666666666666, "eta_time": 12.325502227589604, "step": 1990 }, { "epoch": 0.21237333333333333, "grad_norm": 1.6839285131077832, "learning_rate": 9.15344504142746e-06, "loss": 0.5393, "step": 1991 }, { "avg_step_time": 6.009209512460111, "epoch": 0.21237333333333333, "eta_time": 12.325556400001517, "step": 1991 }, { "epoch": 0.21248, "grad_norm": 1.6420422469018356, "learning_rate": 9.152483042768302e-06, "loss": 0.509, "step": 1992 }, { "avg_step_time": 6.008531192336419, "epoch": 0.21248, "eta_time": 12.322496053616607, "step": 1992 }, { "epoch": 0.21258666666666667, "grad_norm": 0.7177670205110647, "learning_rate": 9.151520548438468e-06, "loss": 0.4428, "step": 1993 }, { "avg_step_time": 5.971764208090426, "epoch": 0.21258666666666667, "eta_time": 12.245434273367646, "step": 1993 }, { "epoch": 0.21269333333333335, "grad_norm": 1.4654474472509489, "learning_rate": 9.150557558552847e-06, "loss": 0.5369, "step": 1994 }, { "avg_step_time": 5.970139474579782, "epoch": 0.21269333333333335, "eta_time": 12.240444294964826, "step": 1994 }, { "epoch": 0.2128, "grad_norm": 1.8791750097871518, "learning_rate": 9.149594073226391e-06, "loss": 0.5169, "step": 1995 }, { "avg_step_time": 6.0054066108934805, "epoch": 0.2128, "eta_time": 12.311083552331635, "step": 1995 }, { "epoch": 0.21290666666666666, "grad_norm": 1.575467695138022, "learning_rate": 9.148630092574109e-06, "loss": 0.4845, "step": 1996 }, { "avg_step_time": 6.0006840132703685, "epoch": 0.21290666666666666, "eta_time": 12.299735370533902, "step": 1996 }, { "epoch": 0.21301333333333333, "grad_norm": 1.6738500239056675, "learning_rate": 9.147665616711065e-06, "loss": 0.3943, "step": 1997 }, { "avg_step_time": 6.0368580986755065, "epoch": 0.21301333333333333, "eta_time": 12.37220529222997, "step": 1997 }, { "epoch": 0.21312, "grad_norm": 1.622987834845972, "learning_rate": 9.14670064575239e-06, "loss": 0.5002, "step": 1998 }, { "avg_step_time": 6.036518990391433, "epoch": 0.21312, "eta_time": 12.369833497810445, "step": 1998 }, { "epoch": 0.21322666666666668, "grad_norm": 0.6764498869855284, "learning_rate": 9.145735179813269e-06, "loss": 0.4691, "step": 1999 }, { "avg_step_time": 6.038552806834982, "epoch": 0.21322666666666668, "eta_time": 12.372323750893008, "step": 1999 }, { "epoch": 0.21333333333333335, "grad_norm": 1.682197532468752, "learning_rate": 9.144769219008945e-06, "loss": 0.5391, "step": 2000 }, { "avg_step_time": 6.035588466759884, "epoch": 0.21333333333333335, "eta_time": 12.364573595098372, "step": 2000 }, { "epoch": 0.21344, "grad_norm": 1.8318643479533296, "learning_rate": 9.143802763454723e-06, "loss": 0.575, "step": 2001 }, { "avg_step_time": 6.0362846730935455, "epoch": 0.21344, "eta_time": 12.364323105386614, "step": 2001 }, { "epoch": 0.21354666666666666, "grad_norm": 1.900414072467604, "learning_rate": 9.142835813265966e-06, "loss": 0.5223, "step": 2002 }, { "avg_step_time": 6.036721412581627, "epoch": 0.21354666666666666, "eta_time": 12.363540826378982, "step": 2002 }, { "epoch": 0.21365333333333333, "grad_norm": 1.692530655467896, "learning_rate": 9.1418683685581e-06, "loss": 0.4681, "step": 2003 }, { "avg_step_time": 6.0610833384773946, "epoch": 0.21365333333333333, "eta_time": 12.411751769793154, "step": 2003 }, { "epoch": 0.21376, "grad_norm": 1.8499403268671326, "learning_rate": 9.140900429446601e-06, "loss": 0.5098, "step": 2004 }, { "avg_step_time": 6.022407979676218, "epoch": 0.21376, "eta_time": 12.330880338387056, "step": 2004 }, { "epoch": 0.21386666666666668, "grad_norm": 1.8936345625612045, "learning_rate": 9.139931996047012e-06, "loss": 0.5866, "step": 2005 }, { "avg_step_time": 6.020431887019765, "epoch": 0.21386666666666668, "eta_time": 12.325161946482128, "step": 2005 }, { "epoch": 0.21397333333333332, "grad_norm": 1.753962518474219, "learning_rate": 9.13896306847493e-06, "loss": 0.5364, "step": 2006 }, { "avg_step_time": 5.964684149231574, "epoch": 0.21397333333333332, "eta_time": 12.209377082135408, "step": 2006 }, { "epoch": 0.21408, "grad_norm": 1.733861655312065, "learning_rate": 9.137993646846018e-06, "loss": 0.4668, "step": 2007 }, { "avg_step_time": 5.957408230714123, "epoch": 0.21408, "eta_time": 12.19282884552824, "step": 2007 }, { "epoch": 0.21418666666666666, "grad_norm": 2.363428743452497, "learning_rate": 9.137023731275988e-06, "loss": 0.5366, "step": 2008 }, { "avg_step_time": 5.9263286951816445, "epoch": 0.21418666666666666, "eta_time": 12.127573193723105, "step": 2008 }, { "epoch": 0.21429333333333334, "grad_norm": 1.4614727182203546, "learning_rate": 9.13605332188062e-06, "loss": 0.5354, "step": 2009 }, { "avg_step_time": 5.930400121091592, "epoch": 0.21429333333333334, "eta_time": 12.134257581100185, "step": 2009 }, { "epoch": 0.2144, "grad_norm": 0.6828138478053322, "learning_rate": 9.135082418775746e-06, "loss": 0.4599, "step": 2010 }, { "avg_step_time": 5.928536470490273, "epoch": 0.2144, "eta_time": 12.128797529211349, "step": 2010 }, { "epoch": 0.21450666666666668, "grad_norm": 0.6784946116784881, "learning_rate": 9.134111022077263e-06, "loss": 0.4457, "step": 2011 }, { "avg_step_time": 5.896864009625984, "epoch": 0.21450666666666668, "eta_time": 12.06236293524604, "step": 2011 }, { "epoch": 0.21461333333333332, "grad_norm": 1.5949100338215598, "learning_rate": 9.133139131901123e-06, "loss": 0.531, "step": 2012 }, { "avg_step_time": 5.912694126668603, "epoch": 0.21461333333333332, "eta_time": 12.093101904072478, "step": 2012 }, { "epoch": 0.21472, "grad_norm": 2.157273376854679, "learning_rate": 9.132166748363335e-06, "loss": 0.5682, "step": 2013 }, { "avg_step_time": 5.89091537215493, "epoch": 0.21472, "eta_time": 12.046921936056831, "step": 2013 }, { "epoch": 0.21482666666666667, "grad_norm": 0.6357106714941462, "learning_rate": 9.131193871579975e-06, "loss": 0.449, "step": 2014 }, { "avg_step_time": 5.85467463069492, "epoch": 0.21482666666666667, "eta_time": 11.971183321262584, "step": 2014 }, { "epoch": 0.21493333333333334, "grad_norm": 1.810031893289308, "learning_rate": 9.130220501667168e-06, "loss": 0.5033, "step": 2015 }, { "avg_step_time": 5.852982102018414, "epoch": 0.21493333333333334, "eta_time": 11.966096741904314, "step": 2015 }, { "epoch": 0.21504, "grad_norm": 1.5447608827901467, "learning_rate": 9.129246638741108e-06, "loss": 0.5083, "step": 2016 }, { "avg_step_time": 5.855719650634612, "epoch": 0.21504, "eta_time": 11.97006691917225, "step": 2016 }, { "epoch": 0.21514666666666668, "grad_norm": 0.6897816846378885, "learning_rate": 9.128272282918036e-06, "loss": 0.4419, "step": 2017 }, { "avg_step_time": 5.824600894041736, "epoch": 0.21514666666666668, "eta_time": 11.904837049544193, "step": 2017 }, { "epoch": 0.21525333333333332, "grad_norm": 0.644775374702716, "learning_rate": 9.127297434314262e-06, "loss": 0.4373, "step": 2018 }, { "avg_step_time": 5.810611840450402, "epoch": 0.21525333333333332, "eta_time": 11.874630919498225, "step": 2018 }, { "epoch": 0.21536, "grad_norm": 1.7698575587372096, "learning_rate": 9.126322093046149e-06, "loss": 0.4531, "step": 2019 }, { "avg_step_time": 5.791792443304351, "epoch": 0.21536, "eta_time": 11.83456255915189, "step": 2019 }, { "epoch": 0.21546666666666667, "grad_norm": 1.8071950189845811, "learning_rate": 9.125346259230123e-06, "loss": 0.5624, "step": 2020 }, { "avg_step_time": 5.776025206151635, "epoch": 0.21546666666666667, "eta_time": 11.80074038645702, "step": 2020 }, { "epoch": 0.21557333333333334, "grad_norm": 1.6424201110236971, "learning_rate": 9.124369932982667e-06, "loss": 0.4666, "step": 2021 }, { "avg_step_time": 5.775211131933964, "epoch": 0.21557333333333334, "eta_time": 11.797472962289547, "step": 2021 }, { "epoch": 0.21568, "grad_norm": 1.9177464288251866, "learning_rate": 9.123393114420318e-06, "loss": 0.4692, "step": 2022 }, { "avg_step_time": 5.817763774081914, "epoch": 0.21568, "eta_time": 11.882782508562311, "step": 2022 }, { "epoch": 0.21578666666666665, "grad_norm": 1.7368900302374064, "learning_rate": 9.12241580365968e-06, "loss": 0.6187, "step": 2023 }, { "avg_step_time": 5.814309264674331, "epoch": 0.21578666666666665, "eta_time": 11.874111587190468, "step": 2023 }, { "epoch": 0.21589333333333333, "grad_norm": 1.7519907134414408, "learning_rate": 9.121438000817413e-06, "loss": 0.5191, "step": 2024 }, { "avg_step_time": 5.818723196935172, "epoch": 0.21589333333333333, "eta_time": 11.881509505741791, "step": 2024 }, { "epoch": 0.216, "grad_norm": 1.5114322407216434, "learning_rate": 9.120459706010233e-06, "loss": 0.4888, "step": 2025 }, { "avg_step_time": 5.818917125162452, "epoch": 0.216, "eta_time": 11.880289130540007, "step": 2025 }, { "epoch": 0.21610666666666667, "grad_norm": 1.8254848256679284, "learning_rate": 9.119480919354916e-06, "loss": 0.5165, "step": 2026 }, { "avg_step_time": 5.817230954314724, "epoch": 0.21610666666666667, "eta_time": 11.875230634238584, "step": 2026 }, { "epoch": 0.21621333333333334, "grad_norm": 1.3800367364041974, "learning_rate": 9.118501640968295e-06, "loss": 0.4917, "step": 2027 }, { "avg_step_time": 5.830195725566209, "epoch": 0.21621333333333334, "eta_time": 11.900077275405694, "step": 2027 }, { "epoch": 0.21632, "grad_norm": 1.6647796978034164, "learning_rate": 9.11752187096727e-06, "loss": 0.5147, "step": 2028 }, { "avg_step_time": 5.831765341036247, "epoch": 0.21632, "eta_time": 11.901661100164807, "step": 2028 }, { "epoch": 0.21642666666666666, "grad_norm": 2.150887081209757, "learning_rate": 9.116541609468788e-06, "loss": 0.5014, "step": 2029 }, { "avg_step_time": 5.831477230245417, "epoch": 0.21642666666666666, "eta_time": 11.89945325927301, "step": 2029 }, { "epoch": 0.21653333333333333, "grad_norm": 1.8335518959827013, "learning_rate": 9.115560856589863e-06, "loss": 0.5309, "step": 2030 }, { "avg_step_time": 5.8399230542809075, "epoch": 0.21653333333333333, "eta_time": 11.915065231581462, "step": 2030 }, { "epoch": 0.21664, "grad_norm": 0.7757986627312515, "learning_rate": 9.114579612447562e-06, "loss": 0.4803, "step": 2031 }, { "avg_step_time": 5.802250223930436, "epoch": 0.21664, "eta_time": 11.836590456818088, "step": 2031 }, { "epoch": 0.21674666666666667, "grad_norm": 1.8991650251545484, "learning_rate": 9.113597877159014e-06, "loss": 0.6044, "step": 2032 }, { "avg_step_time": 5.803601009677155, "epoch": 0.21674666666666667, "eta_time": 11.837733948349818, "step": 2032 }, { "epoch": 0.21685333333333334, "grad_norm": 1.647988743797409, "learning_rate": 9.112615650841412e-06, "loss": 0.5393, "step": 2033 }, { "avg_step_time": 5.801559925079346, "epoch": 0.21685333333333334, "eta_time": 11.831959158314598, "step": 2033 }, { "epoch": 0.21696, "grad_norm": 1.6125324471700253, "learning_rate": 9.111632933611993e-06, "loss": 0.4272, "step": 2034 }, { "avg_step_time": 5.804755230142613, "epoch": 0.21696, "eta_time": 11.836863373465812, "step": 2034 }, { "epoch": 0.21706666666666666, "grad_norm": 0.6956607774743191, "learning_rate": 9.110649725588067e-06, "loss": 0.4443, "step": 2035 }, { "avg_step_time": 5.801683683588047, "epoch": 0.21706666666666666, "eta_time": 11.82898839931563, "step": 2035 }, { "epoch": 0.21717333333333333, "grad_norm": 1.6948657291714493, "learning_rate": 9.109666026886995e-06, "loss": 0.5495, "step": 2036 }, { "avg_step_time": 5.7843648809375185, "epoch": 0.21717333333333333, "eta_time": 11.792070517000123, "step": 2036 }, { "epoch": 0.21728, "grad_norm": 1.7606340998907408, "learning_rate": 9.108681837626199e-06, "loss": 0.5128, "step": 2037 }, { "avg_step_time": 5.790133851947206, "epoch": 0.21728, "eta_time": 11.802222834885722, "step": 2037 }, { "epoch": 0.21738666666666667, "grad_norm": 1.4826551780052482, "learning_rate": 9.107697157923156e-06, "loss": 0.5518, "step": 2038 }, { "avg_step_time": 5.829590014737062, "epoch": 0.21738666666666667, "eta_time": 11.881028316146061, "step": 2038 }, { "epoch": 0.21749333333333334, "grad_norm": 2.0797573382154924, "learning_rate": 9.106711987895411e-06, "loss": 0.5952, "step": 2039 }, { "avg_step_time": 5.841683919983681, "epoch": 0.21749333333333334, "eta_time": 11.904053676944523, "step": 2039 }, { "epoch": 0.2176, "grad_norm": 1.5650402836136723, "learning_rate": 9.105726327660556e-06, "loss": 0.4066, "step": 2040 }, { "avg_step_time": 5.840175014553648, "epoch": 0.2176, "eta_time": 11.89935659215306, "step": 2040 }, { "epoch": 0.21770666666666666, "grad_norm": 1.6268986193084005, "learning_rate": 9.104740177336246e-06, "loss": 0.492, "step": 2041 }, { "avg_step_time": 5.845718000874375, "epoch": 0.21770666666666666, "eta_time": 11.909026616225741, "step": 2041 }, { "epoch": 0.21781333333333333, "grad_norm": 1.5055862178822663, "learning_rate": 9.103753537040199e-06, "loss": 0.4798, "step": 2042 }, { "avg_step_time": 5.845835507518113, "epoch": 0.21781333333333333, "eta_time": 11.90764216017509, "step": 2042 }, { "epoch": 0.21792, "grad_norm": 1.5431239606687952, "learning_rate": 9.102766406890185e-06, "loss": 0.528, "step": 2043 }, { "avg_step_time": 5.847410168310608, "epoch": 0.21792, "eta_time": 11.909225376125937, "step": 2043 }, { "epoch": 0.21802666666666667, "grad_norm": 1.8625970945941934, "learning_rate": 9.101778787004037e-06, "loss": 0.5399, "step": 2044 }, { "avg_step_time": 5.860827318345658, "epoch": 0.21802666666666667, "eta_time": 11.934923630775561, "step": 2044 }, { "epoch": 0.21813333333333335, "grad_norm": 1.7502375476898648, "learning_rate": 9.10079067749964e-06, "loss": 0.5736, "step": 2045 }, { "avg_step_time": 5.850449653586956, "epoch": 0.21813333333333335, "eta_time": 11.912165544664553, "step": 2045 }, { "epoch": 0.21824, "grad_norm": 1.555278827592456, "learning_rate": 9.099802078494947e-06, "loss": 0.4609, "step": 2046 }, { "avg_step_time": 5.84836525628061, "epoch": 0.21824, "eta_time": 11.90629693424461, "step": 2046 }, { "epoch": 0.21834666666666666, "grad_norm": 1.746143484484672, "learning_rate": 9.098812990107964e-06, "loss": 0.5268, "step": 2047 }, { "avg_step_time": 5.845320179004862, "epoch": 0.21834666666666666, "eta_time": 11.89847396437434, "step": 2047 }, { "epoch": 0.21845333333333333, "grad_norm": 1.6133151425653611, "learning_rate": 9.097823412456752e-06, "loss": 0.4242, "step": 2048 }, { "avg_step_time": 5.859019790032898, "epoch": 0.21845333333333333, "eta_time": 11.924732778214178, "step": 2048 }, { "epoch": 0.21856, "grad_norm": 1.6694985160568685, "learning_rate": 9.096833345659437e-06, "loss": 0.4902, "step": 2049 }, { "avg_step_time": 5.857644331575644, "epoch": 0.21856, "eta_time": 11.920306214756437, "step": 2049 }, { "epoch": 0.21866666666666668, "grad_norm": 2.1184386980038505, "learning_rate": 9.0958427898342e-06, "loss": 0.5622, "step": 2050 }, { "avg_step_time": 5.85765056417446, "epoch": 0.21866666666666668, "eta_time": 11.91869177293831, "step": 2050 }, { "epoch": 0.21877333333333332, "grad_norm": 1.648187017338303, "learning_rate": 9.094851745099282e-06, "loss": 0.449, "step": 2051 }, { "avg_step_time": 5.85741536545031, "epoch": 0.21877333333333332, "eta_time": 11.916586149043908, "step": 2051 }, { "epoch": 0.21888, "grad_norm": 1.8499921164336126, "learning_rate": 9.09386021157298e-06, "loss": 0.5197, "step": 2052 }, { "avg_step_time": 5.860960115085948, "epoch": 0.21888, "eta_time": 11.922169700770667, "step": 2052 }, { "epoch": 0.21898666666666666, "grad_norm": 1.563054014386272, "learning_rate": 9.092868189373651e-06, "loss": 0.4687, "step": 2053 }, { "avg_step_time": 5.868385170445298, "epoch": 0.21898666666666666, "eta_time": 11.93564339388902, "step": 2053 }, { "epoch": 0.21909333333333333, "grad_norm": 1.7238181514431554, "learning_rate": 9.09187567861971e-06, "loss": 0.4689, "step": 2054 }, { "avg_step_time": 5.866814656691118, "epoch": 0.21909333333333333, "eta_time": 11.930819472676577, "step": 2054 }, { "epoch": 0.2192, "grad_norm": 1.7413178678463226, "learning_rate": 9.09088267942963e-06, "loss": 0.5233, "step": 2055 }, { "avg_step_time": 5.874105386059694, "epoch": 0.2192, "eta_time": 11.944014284988043, "step": 2055 }, { "epoch": 0.21930666666666668, "grad_norm": 1.548101046268346, "learning_rate": 9.089889191921944e-06, "loss": 0.5639, "step": 2056 }, { "avg_step_time": 5.872373277490789, "epoch": 0.21930666666666668, "eta_time": 11.938861116098636, "step": 2056 }, { "epoch": 0.21941333333333332, "grad_norm": 0.6932822749004441, "learning_rate": 9.088895216215241e-06, "loss": 0.4644, "step": 2057 }, { "avg_step_time": 5.826568013489848, "epoch": 0.21941333333333332, "eta_time": 11.844117978532974, "step": 2057 }, { "epoch": 0.21952, "grad_norm": 1.53914474823498, "learning_rate": 9.087900752428168e-06, "loss": 0.5179, "step": 2058 }, { "avg_step_time": 5.82503837045997, "epoch": 0.21952, "eta_time": 11.83939048795989, "step": 2058 }, { "epoch": 0.21962666666666666, "grad_norm": 1.6999785931621496, "learning_rate": 9.086905800679433e-06, "loss": 0.4785, "step": 2059 }, { "avg_step_time": 5.836530719140564, "epoch": 0.21962666666666666, "eta_time": 11.861127428120101, "step": 2059 }, { "epoch": 0.21973333333333334, "grad_norm": 0.6295196513046918, "learning_rate": 9.085910361087802e-06, "loss": 0.4426, "step": 2060 }, { "avg_step_time": 5.804451364459413, "epoch": 0.21973333333333334, "eta_time": 11.79432270306128, "step": 2060 }, { "epoch": 0.21984, "grad_norm": 0.6488824389174389, "learning_rate": 9.084914433772094e-06, "loss": 0.4321, "step": 2061 }, { "avg_step_time": 5.7668967439670755, "epoch": 0.21984, "eta_time": 11.716411884826442, "step": 2061 }, { "epoch": 0.21994666666666668, "grad_norm": 2.209729295095938, "learning_rate": 9.083918018851193e-06, "loss": 0.5692, "step": 2062 }, { "avg_step_time": 5.762363804711236, "epoch": 0.21994666666666668, "eta_time": 11.705601806625907, "step": 2062 }, { "epoch": 0.22005333333333332, "grad_norm": 1.370984409722371, "learning_rate": 9.082921116444038e-06, "loss": 0.4202, "step": 2063 }, { "avg_step_time": 5.791468873168483, "epoch": 0.22005333333333332, "eta_time": 11.763116777946653, "step": 2063 }, { "epoch": 0.22016, "grad_norm": 1.9375582764570873, "learning_rate": 9.081923726669626e-06, "loss": 0.4496, "step": 2064 }, { "avg_step_time": 5.779808415306939, "epoch": 0.22016, "eta_time": 11.73782759008584, "step": 2064 }, { "epoch": 0.22026666666666667, "grad_norm": 1.4918740685596483, "learning_rate": 9.080925849647014e-06, "loss": 0.4778, "step": 2065 }, { "avg_step_time": 5.7582775823997725, "epoch": 0.22026666666666667, "eta_time": 11.692502535372872, "step": 2065 }, { "epoch": 0.22037333333333334, "grad_norm": 1.8083295829757982, "learning_rate": 9.079927485495314e-06, "loss": 0.5298, "step": 2066 }, { "avg_step_time": 5.767531717666472, "epoch": 0.22037333333333334, "eta_time": 11.709691479006734, "step": 2066 }, { "epoch": 0.22048, "grad_norm": 1.6568988775102307, "learning_rate": 9.0789286343337e-06, "loss": 0.5511, "step": 2067 }, { "avg_step_time": 5.769693644359858, "epoch": 0.22048, "eta_time": 11.712478098050513, "step": 2067 }, { "epoch": 0.22058666666666665, "grad_norm": 1.7126870253748223, "learning_rate": 9.0779292962814e-06, "loss": 0.4992, "step": 2068 }, { "avg_step_time": 5.803276204099559, "epoch": 0.22058666666666665, "eta_time": 11.779038673154298, "step": 2068 }, { "epoch": 0.22069333333333332, "grad_norm": 1.9395269235541996, "learning_rate": 9.076929471457704e-06, "loss": 0.5446, "step": 2069 }, { "avg_step_time": 5.800972122134584, "epoch": 0.22069333333333332, "eta_time": 11.77275064564313, "step": 2069 }, { "epoch": 0.2208, "grad_norm": 1.6826413642241396, "learning_rate": 9.075929159981957e-06, "loss": 0.5036, "step": 2070 }, { "avg_step_time": 5.802128129535252, "epoch": 0.2208, "eta_time": 11.773484996181947, "step": 2070 }, { "epoch": 0.22090666666666667, "grad_norm": 1.6176368122482543, "learning_rate": 9.074928361973565e-06, "loss": 0.4875, "step": 2071 }, { "avg_step_time": 5.752668351838083, "epoch": 0.22090666666666667, "eta_time": 11.671524900507043, "step": 2071 }, { "epoch": 0.22101333333333334, "grad_norm": 2.2611030399423817, "learning_rate": 9.073927077551989e-06, "loss": 0.5003, "step": 2072 }, { "avg_step_time": 5.755476677056515, "epoch": 0.22101333333333334, "eta_time": 11.6756239368177, "step": 2072 }, { "epoch": 0.22112, "grad_norm": 1.549832253546552, "learning_rate": 9.072925306836751e-06, "loss": 0.459, "step": 2073 }, { "avg_step_time": 5.740744357157236, "epoch": 0.22112, "eta_time": 11.64414313776726, "step": 2073 }, { "epoch": 0.22122666666666665, "grad_norm": 1.8112049052221588, "learning_rate": 9.071923049947429e-06, "loss": 0.4513, "step": 2074 }, { "avg_step_time": 5.664500891560256, "epoch": 0.22122666666666665, "eta_time": 11.487922502578176, "step": 2074 }, { "epoch": 0.22133333333333333, "grad_norm": 1.6335255103550752, "learning_rate": 9.07092030700366e-06, "loss": 0.4376, "step": 2075 }, { "avg_step_time": 5.665549136171437, "epoch": 0.22133333333333333, "eta_time": 11.488474637236525, "step": 2075 }, { "epoch": 0.22144, "grad_norm": 1.66783202074015, "learning_rate": 9.06991707812514e-06, "loss": 0.515, "step": 2076 }, { "avg_step_time": 5.683244165748056, "epoch": 0.22144, "eta_time": 11.522777546054185, "step": 2076 }, { "epoch": 0.22154666666666667, "grad_norm": 1.607816013433979, "learning_rate": 9.068913363431617e-06, "loss": 0.5346, "step": 2077 }, { "avg_step_time": 5.684821441920117, "epoch": 0.22154666666666667, "eta_time": 11.524396356425838, "step": 2077 }, { "epoch": 0.22165333333333334, "grad_norm": 1.8427892570452018, "learning_rate": 9.067909163042907e-06, "loss": 0.4478, "step": 2078 }, { "avg_step_time": 5.685439979187166, "epoch": 0.22165333333333334, "eta_time": 11.524070980035765, "step": 2078 }, { "epoch": 0.22176, "grad_norm": 1.79824363243085, "learning_rate": 9.066904477078875e-06, "loss": 0.5231, "step": 2079 }, { "avg_step_time": 5.715911133120758, "epoch": 0.22176, "eta_time": 11.584246563124736, "step": 2079 }, { "epoch": 0.22186666666666666, "grad_norm": 1.9254787344288196, "learning_rate": 9.065899305659452e-06, "loss": 0.469, "step": 2080 }, { "avg_step_time": 5.7133621591510195, "epoch": 0.22186666666666666, "eta_time": 11.577493597501858, "step": 2080 }, { "epoch": 0.22197333333333333, "grad_norm": 1.4808389436370206, "learning_rate": 9.064893648904617e-06, "loss": 0.4508, "step": 2081 }, { "avg_step_time": 5.712328077566744, "epoch": 0.22197333333333333, "eta_time": 11.573811388269952, "step": 2081 }, { "epoch": 0.22208, "grad_norm": 1.7623396751038816, "learning_rate": 9.063887506934417e-06, "loss": 0.483, "step": 2082 }, { "avg_step_time": 5.771052281061809, "epoch": 0.22208, "eta_time": 11.69119007938438, "step": 2082 }, { "epoch": 0.22218666666666667, "grad_norm": 1.9673300052120963, "learning_rate": 9.06288087986895e-06, "loss": 0.5435, "step": 2083 }, { "avg_step_time": 5.769169378762293, "epoch": 0.22218666666666667, "eta_time": 11.685773086092956, "step": 2083 }, { "epoch": 0.22229333333333334, "grad_norm": 1.8881920943768147, "learning_rate": 9.061873767828375e-06, "loss": 0.5731, "step": 2084 }, { "avg_step_time": 5.767802650278265, "epoch": 0.22229333333333334, "eta_time": 11.68140253421634, "step": 2084 }, { "epoch": 0.2224, "grad_norm": 1.7169855195498025, "learning_rate": 9.06086617093291e-06, "loss": 0.5591, "step": 2085 }, { "avg_step_time": 5.769314277051675, "epoch": 0.2224, "eta_time": 11.682861411029641, "step": 2085 }, { "epoch": 0.22250666666666666, "grad_norm": 0.6703776950572321, "learning_rate": 9.059858089302825e-06, "loss": 0.4785, "step": 2086 }, { "avg_step_time": 5.734238198309233, "epoch": 0.22250666666666666, "eta_time": 11.610239507632224, "step": 2086 }, { "epoch": 0.22261333333333333, "grad_norm": 2.00158724020762, "learning_rate": 9.058849523058457e-06, "loss": 0.4788, "step": 2087 }, { "avg_step_time": 5.73515562818508, "epoch": 0.22261333333333333, "eta_time": 11.610503949503572, "step": 2087 }, { "epoch": 0.22272, "grad_norm": 1.9006601300872508, "learning_rate": 9.057840472320192e-06, "loss": 0.4947, "step": 2088 }, { "avg_step_time": 5.705967741783219, "epoch": 0.22272, "eta_time": 11.549829703992867, "step": 2088 }, { "epoch": 0.22282666666666667, "grad_norm": 1.7590470485275278, "learning_rate": 9.056830937208478e-06, "loss": 0.4727, "step": 2089 }, { "avg_step_time": 5.7059095700581866, "epoch": 0.22282666666666667, "eta_time": 11.548126979845541, "step": 2089 }, { "epoch": 0.22293333333333334, "grad_norm": 1.5696369344566181, "learning_rate": 9.055820917843825e-06, "loss": 0.4096, "step": 2090 }, { "avg_step_time": 5.703212923473782, "epoch": 0.22293333333333334, "eta_time": 11.541085040974027, "step": 2090 }, { "epoch": 0.22304, "grad_norm": 0.6397911886229141, "learning_rate": 9.054810414346789e-06, "loss": 0.457, "step": 2091 }, { "avg_step_time": 5.6610518802296035, "epoch": 0.22304, "eta_time": 11.454194970997897, "step": 2091 }, { "epoch": 0.22314666666666666, "grad_norm": 0.6284336061023345, "learning_rate": 9.053799426837997e-06, "loss": 0.4572, "step": 2092 }, { "avg_step_time": 5.662476154288861, "epoch": 0.22314666666666666, "eta_time": 11.455503842134936, "step": 2092 }, { "epoch": 0.22325333333333333, "grad_norm": 1.8056660103521676, "learning_rate": 9.052787955438125e-06, "loss": 0.5404, "step": 2093 }, { "avg_step_time": 5.662326167328189, "epoch": 0.22325333333333333, "eta_time": 11.453627541801076, "step": 2093 }, { "epoch": 0.22336, "grad_norm": 1.6472006756027286, "learning_rate": 9.05177600026791e-06, "loss": 0.5398, "step": 2094 }, { "avg_step_time": 5.6565476836580215, "epoch": 0.22336, "eta_time": 11.44036769019835, "step": 2094 }, { "epoch": 0.22346666666666667, "grad_norm": 1.6490704585326954, "learning_rate": 9.050763561448147e-06, "loss": 0.5113, "step": 2095 }, { "avg_step_time": 5.654211759567261, "epoch": 0.22346666666666667, "eta_time": 11.434072669347128, "step": 2095 }, { "epoch": 0.22357333333333335, "grad_norm": 1.7711269323865044, "learning_rate": 9.049750639099689e-06, "loss": 0.5152, "step": 2096 }, { "avg_step_time": 5.619327798034206, "epoch": 0.22357333333333335, "eta_time": 11.361968622747495, "step": 2096 }, { "epoch": 0.22368, "grad_norm": 1.4531544986115197, "learning_rate": 9.048737233343442e-06, "loss": 0.4417, "step": 2097 }, { "avg_step_time": 5.621654621278397, "epoch": 0.22368, "eta_time": 11.36511175935116, "step": 2097 }, { "epoch": 0.22378666666666666, "grad_norm": 0.6489776044387164, "learning_rate": 9.047723344300376e-06, "loss": 0.4357, "step": 2098 }, { "avg_step_time": 5.621892890544853, "epoch": 0.22378666666666666, "eta_time": 11.364031823470803, "step": 2098 }, { "epoch": 0.22389333333333333, "grad_norm": 1.5911107216276394, "learning_rate": 9.046708972091519e-06, "loss": 0.4863, "step": 2099 }, { "avg_step_time": 5.621612336900499, "epoch": 0.22389333333333333, "eta_time": 11.361903156468898, "step": 2099 }, { "epoch": 0.224, "grad_norm": 1.9421340886623384, "learning_rate": 9.045694116837948e-06, "loss": 0.5606, "step": 2100 }, { "avg_step_time": 5.623349864073474, "epoch": 0.224, "eta_time": 11.363852850315148, "step": 2100 }, { "epoch": 0.22410666666666668, "grad_norm": 1.5941395664287477, "learning_rate": 9.044678778660808e-06, "loss": 0.469, "step": 2101 }, { "avg_step_time": 5.623199828947433, "epoch": 0.22410666666666668, "eta_time": 11.361987654378785, "step": 2101 }, { "epoch": 0.22421333333333332, "grad_norm": 1.8399016949272855, "learning_rate": 9.043662957681297e-06, "loss": 0.5938, "step": 2102 }, { "avg_step_time": 5.6063104639149675, "epoch": 0.22421333333333332, "eta_time": 11.326304445570432, "step": 2102 }, { "epoch": 0.22432, "grad_norm": 1.5968611240979615, "learning_rate": 9.042646654020667e-06, "loss": 0.4761, "step": 2103 }, { "avg_step_time": 5.609964792174522, "epoch": 0.22432, "eta_time": 11.332128880192535, "step": 2103 }, { "epoch": 0.22442666666666666, "grad_norm": 1.8105870150345134, "learning_rate": 9.041629867800236e-06, "loss": 0.4808, "step": 2104 }, { "avg_step_time": 5.609901852077908, "epoch": 0.22442666666666666, "eta_time": 11.330443435127352, "step": 2104 }, { "epoch": 0.22453333333333333, "grad_norm": 1.7690077589188908, "learning_rate": 9.040612599141375e-06, "loss": 0.554, "step": 2105 }, { "avg_step_time": 5.618274428627708, "epoch": 0.22453333333333333, "eta_time": 11.34579308225651, "step": 2105 }, { "epoch": 0.22464, "grad_norm": 1.6842967343388988, "learning_rate": 9.039594848165507e-06, "loss": 0.5246, "step": 2106 }, { "avg_step_time": 5.6279645905350195, "epoch": 0.22464, "eta_time": 11.363798502388628, "step": 2106 }, { "epoch": 0.22474666666666668, "grad_norm": 1.6114609100934025, "learning_rate": 9.038576614994124e-06, "loss": 0.4673, "step": 2107 }, { "avg_step_time": 5.625249660376347, "epoch": 0.22474666666666668, "eta_time": 11.356754036559803, "step": 2107 }, { "epoch": 0.22485333333333332, "grad_norm": 0.6680026037560358, "learning_rate": 9.037557899748765e-06, "loss": 0.4387, "step": 2108 }, { "avg_step_time": 5.587978264298102, "epoch": 0.22485333333333332, "eta_time": 11.27995501295953, "step": 2108 }, { "epoch": 0.22496, "grad_norm": 1.901381248087472, "learning_rate": 9.036538702551037e-06, "loss": 0.5251, "step": 2109 }, { "avg_step_time": 5.6385031661601985, "epoch": 0.22496, "eta_time": 11.380378890366666, "step": 2109 }, { "epoch": 0.22506666666666666, "grad_norm": 1.5940954175585318, "learning_rate": 9.035519023522592e-06, "loss": 0.5355, "step": 2110 }, { "avg_step_time": 5.671314680215084, "epoch": 0.22506666666666666, "eta_time": 11.44502809771183, "step": 2110 }, { "epoch": 0.22517333333333334, "grad_norm": 1.5769780883342566, "learning_rate": 9.034498862785152e-06, "loss": 0.477, "step": 2111 }, { "avg_step_time": 5.665566138546876, "epoch": 0.22517333333333334, "eta_time": 11.431853452890142, "step": 2111 }, { "epoch": 0.22528, "grad_norm": 1.711821147017452, "learning_rate": 9.03347822046049e-06, "loss": 0.5115, "step": 2112 }, { "avg_step_time": 5.669355048073663, "epoch": 0.22528, "eta_time": 11.437923809488614, "step": 2112 }, { "epoch": 0.22538666666666668, "grad_norm": 1.5915627901922111, "learning_rate": 9.032457096670435e-06, "loss": 0.502, "step": 2113 }, { "avg_step_time": 5.704398603150339, "epoch": 0.22538666666666668, "eta_time": 11.507039626688266, "step": 2113 }, { "epoch": 0.22549333333333332, "grad_norm": 1.7922624093890571, "learning_rate": 9.031435491536877e-06, "loss": 0.5419, "step": 2114 }, { "avg_step_time": 5.712613459789392, "epoch": 0.22549333333333332, "eta_time": 11.52202398098077, "step": 2114 }, { "epoch": 0.2256, "grad_norm": 1.5153819684719678, "learning_rate": 9.03041340518176e-06, "loss": 0.5249, "step": 2115 }, { "avg_step_time": 5.710940695772267, "epoch": 0.2256, "eta_time": 11.517063736474073, "step": 2115 }, { "epoch": 0.22570666666666667, "grad_norm": 1.6873424623595232, "learning_rate": 9.029390837727094e-06, "loss": 0.5969, "step": 2116 }, { "avg_step_time": 5.7391703754964505, "epoch": 0.22570666666666667, "eta_time": 11.572399376591315, "step": 2116 }, { "epoch": 0.22581333333333334, "grad_norm": 0.6428244681817574, "learning_rate": 9.028367789294934e-06, "loss": 0.4485, "step": 2117 }, { "avg_step_time": 5.718350044404618, "epoch": 0.22581333333333334, "eta_time": 11.528829061746865, "step": 2117 }, { "epoch": 0.22592, "grad_norm": 1.4161621268600078, "learning_rate": 9.027344260007401e-06, "loss": 0.4501, "step": 2118 }, { "avg_step_time": 5.718545241789385, "epoch": 0.22592, "eta_time": 11.527634116573768, "step": 2118 }, { "epoch": 0.22602666666666665, "grad_norm": 1.7222843913691666, "learning_rate": 9.02632024998667e-06, "loss": 0.5186, "step": 2119 }, { "avg_step_time": 5.718286131367539, "epoch": 0.22602666666666665, "eta_time": 11.52552338033413, "step": 2119 }, { "epoch": 0.22613333333333333, "grad_norm": 1.6825768565398693, "learning_rate": 9.025295759354976e-06, "loss": 0.502, "step": 2120 }, { "avg_step_time": 5.713697866960005, "epoch": 0.22613333333333333, "eta_time": 11.514688340220788, "step": 2120 }, { "epoch": 0.22624, "grad_norm": 1.7330140515623687, "learning_rate": 9.024270788234606e-06, "loss": 0.6207, "step": 2121 }, { "avg_step_time": 5.662018725366304, "epoch": 0.22624, "eta_time": 11.408967731613101, "step": 2121 }, { "epoch": 0.22634666666666667, "grad_norm": 0.6433486290927741, "learning_rate": 9.023245336747911e-06, "loss": 0.4481, "step": 2122 }, { "avg_step_time": 5.645072281962693, "epoch": 0.22634666666666667, "eta_time": 11.373252572520947, "step": 2122 }, { "epoch": 0.22645333333333334, "grad_norm": 1.7024577204974418, "learning_rate": 9.022219405017296e-06, "loss": 0.5454, "step": 2123 }, { "avg_step_time": 5.692669907001534, "epoch": 0.22645333333333334, "eta_time": 11.467567268215312, "step": 2123 }, { "epoch": 0.22656, "grad_norm": 1.596250531133959, "learning_rate": 9.021192993165224e-06, "loss": 0.548, "step": 2124 }, { "avg_step_time": 5.692413927328707, "epoch": 0.22656, "eta_time": 11.465470385294571, "step": 2124 }, { "epoch": 0.22666666666666666, "grad_norm": 1.6345116864167053, "learning_rate": 9.020166101314215e-06, "loss": 0.4706, "step": 2125 }, { "avg_step_time": 5.693328674393471, "epoch": 0.22666666666666666, "eta_time": 11.46573135815352, "step": 2125 }, { "epoch": 0.22677333333333333, "grad_norm": 1.507879885015202, "learning_rate": 9.019138729586846e-06, "loss": 0.3795, "step": 2126 }, { "avg_step_time": 5.721827444404062, "epoch": 0.22677333333333333, "eta_time": 11.521535317912512, "step": 2126 }, { "epoch": 0.22688, "grad_norm": 1.7035249311925578, "learning_rate": 9.01811087810575e-06, "loss": 0.4624, "step": 2127 }, { "avg_step_time": 5.720142730558761, "epoch": 0.22688, "eta_time": 11.516554030858305, "step": 2127 }, { "epoch": 0.22698666666666667, "grad_norm": 1.7748360197297857, "learning_rate": 9.017082546993621e-06, "loss": 0.571, "step": 2128 }, { "avg_step_time": 5.751691199312306, "epoch": 0.22698666666666667, "eta_time": 11.578473922615634, "step": 2128 }, { "epoch": 0.22709333333333334, "grad_norm": 1.5182000043113615, "learning_rate": 9.016053736373207e-06, "loss": 0.5387, "step": 2129 }, { "avg_step_time": 5.747635316367101, "epoch": 0.22709333333333334, "eta_time": 11.568712639554448, "step": 2129 }, { "epoch": 0.2272, "grad_norm": 1.4450193749495117, "learning_rate": 9.015024446367315e-06, "loss": 0.5146, "step": 2130 }, { "avg_step_time": 5.78050059260744, "epoch": 0.2272, "eta_time": 11.633257442622472, "step": 2130 }, { "epoch": 0.22730666666666666, "grad_norm": 0.6490681290573678, "learning_rate": 9.013994677098808e-06, "loss": 0.4685, "step": 2131 }, { "avg_step_time": 5.739435287437054, "epoch": 0.22730666666666666, "eta_time": 11.549019228387229, "step": 2131 }, { "epoch": 0.22741333333333333, "grad_norm": 1.7484545258038144, "learning_rate": 9.012964428690606e-06, "loss": 0.5521, "step": 2132 }, { "avg_step_time": 5.78216506977274, "epoch": 0.22741333333333333, "eta_time": 11.633394888989988, "step": 2132 }, { "epoch": 0.22752, "grad_norm": 1.855916635485725, "learning_rate": 9.01193370126569e-06, "loss": 0.5452, "step": 2133 }, { "avg_step_time": 5.778353243163138, "epoch": 0.22752, "eta_time": 11.624120607496511, "step": 2133 }, { "epoch": 0.22762666666666667, "grad_norm": 1.676641965941905, "learning_rate": 9.010902494947093e-06, "loss": 0.4899, "step": 2134 }, { "avg_step_time": 5.811406988086122, "epoch": 0.22762666666666667, "eta_time": 11.68899944464767, "step": 2134 }, { "epoch": 0.22773333333333334, "grad_norm": 1.5597634614638618, "learning_rate": 9.009870809857907e-06, "loss": 0.461, "step": 2135 }, { "avg_step_time": 5.806893962802309, "epoch": 0.22773333333333334, "eta_time": 11.678308969635754, "step": 2135 }, { "epoch": 0.22784, "grad_norm": 0.6495734295536605, "learning_rate": 9.008838646121282e-06, "loss": 0.4681, "step": 2136 }, { "avg_step_time": 5.775537377656108, "epoch": 0.22784, "eta_time": 11.613643076903491, "step": 2136 }, { "epoch": 0.22794666666666666, "grad_norm": 1.6796966543606702, "learning_rate": 9.007806003860424e-06, "loss": 0.4954, "step": 2137 }, { "avg_step_time": 5.839687807391388, "epoch": 0.22794666666666666, "eta_time": 11.741016763860797, "step": 2137 }, { "epoch": 0.22805333333333333, "grad_norm": 1.5584222651751147, "learning_rate": 9.006772883198598e-06, "loss": 0.4652, "step": 2138 }, { "avg_step_time": 5.822137521974968, "epoch": 0.22805333333333333, "eta_time": 11.704113679592457, "step": 2138 }, { "epoch": 0.22816, "grad_norm": 0.6426767527544333, "learning_rate": 9.005739284259123e-06, "loss": 0.4396, "step": 2139 }, { "avg_step_time": 5.823466060137508, "epoch": 0.22816, "eta_time": 11.705166780876391, "step": 2139 }, { "epoch": 0.22826666666666667, "grad_norm": 1.6536883539629577, "learning_rate": 9.00470520716538e-06, "loss": 0.5409, "step": 2140 }, { "avg_step_time": 5.818508959779836, "epoch": 0.22826666666666667, "eta_time": 11.693586756668642, "step": 2140 }, { "epoch": 0.22837333333333334, "grad_norm": 1.8339939402670071, "learning_rate": 9.0036706520408e-06, "loss": 0.4877, "step": 2141 }, { "avg_step_time": 5.817585694669473, "epoch": 0.22837333333333334, "eta_time": 11.690115254233048, "step": 2141 }, { "epoch": 0.22848, "grad_norm": 1.6708544610007563, "learning_rate": 9.002635619008877e-06, "loss": 0.4755, "step": 2142 }, { "avg_step_time": 5.845408119336523, "epoch": 0.22848, "eta_time": 11.744399146433631, "step": 2142 }, { "epoch": 0.22858666666666666, "grad_norm": 1.538165703487794, "learning_rate": 9.001600108193162e-06, "loss": 0.4951, "step": 2143 }, { "avg_step_time": 5.834815148151282, "epoch": 0.22858666666666666, "eta_time": 11.721495319841688, "step": 2143 }, { "epoch": 0.22869333333333333, "grad_norm": 1.542353082906331, "learning_rate": 9.000564119717256e-06, "loss": 0.5421, "step": 2144 }, { "avg_step_time": 5.831731875737508, "epoch": 0.22869333333333333, "eta_time": 11.713681442627198, "step": 2144 }, { "epoch": 0.2288, "grad_norm": 1.9747751491033585, "learning_rate": 8.999527653704829e-06, "loss": 0.4863, "step": 2145 }, { "avg_step_time": 5.836241021300808, "epoch": 0.2288, "eta_time": 11.721117384445789, "step": 2145 }, { "epoch": 0.22890666666666667, "grad_norm": 1.7261774929059013, "learning_rate": 8.998490710279596e-06, "loss": 0.5654, "step": 2146 }, { "avg_step_time": 5.898506268106326, "epoch": 0.22890666666666667, "eta_time": 11.844528281150174, "step": 2146 }, { "epoch": 0.22901333333333335, "grad_norm": 0.6615767773818929, "learning_rate": 8.997453289565336e-06, "loss": 0.4448, "step": 2147 }, { "avg_step_time": 5.895779816791265, "epoch": 0.22901333333333335, "eta_time": 11.83741569882424, "step": 2147 }, { "epoch": 0.22912, "grad_norm": 1.7739334873054016, "learning_rate": 8.996415391685882e-06, "loss": 0.5016, "step": 2148 }, { "avg_step_time": 5.930724709925025, "epoch": 0.22912, "eta_time": 11.905929855174488, "step": 2148 }, { "epoch": 0.22922666666666666, "grad_norm": 1.7218858725954358, "learning_rate": 8.995377016765126e-06, "loss": 0.459, "step": 2149 }, { "avg_step_time": 5.930555837322967, "epoch": 0.22922666666666666, "eta_time": 11.903943466804378, "step": 2149 }, { "epoch": 0.22933333333333333, "grad_norm": 1.7366806312207923, "learning_rate": 8.994338164927015e-06, "loss": 0.5715, "step": 2150 }, { "avg_step_time": 5.959523783789741, "epoch": 0.22933333333333333, "eta_time": 11.960433149411354, "step": 2150 }, { "epoch": 0.22944, "grad_norm": 1.5918896809464413, "learning_rate": 8.993298836295556e-06, "loss": 0.5705, "step": 2151 }, { "avg_step_time": 5.95438472911565, "epoch": 0.22944, "eta_time": 11.948465356425404, "step": 2151 }, { "epoch": 0.22954666666666668, "grad_norm": 1.8134323413891937, "learning_rate": 8.99225903099481e-06, "loss": 0.5064, "step": 2152 }, { "avg_step_time": 5.944850673579206, "epoch": 0.22954666666666668, "eta_time": 11.927682337572946, "step": 2152 }, { "epoch": 0.22965333333333332, "grad_norm": 1.6577989240784436, "learning_rate": 8.991218749148894e-06, "loss": 0.6636, "step": 2153 }, { "avg_step_time": 5.973632668003892, "epoch": 0.22965333333333332, "eta_time": 11.983770868978917, "step": 2153 }, { "epoch": 0.22976, "grad_norm": 1.5172228987169132, "learning_rate": 8.990177990881986e-06, "loss": 0.5355, "step": 2154 }, { "avg_step_time": 6.027131251614503, "epoch": 0.22976, "eta_time": 12.089420768863423, "step": 2154 }, { "epoch": 0.22986666666666666, "grad_norm": 0.6929502707020252, "learning_rate": 8.989136756318317e-06, "loss": 0.482, "step": 2155 }, { "avg_step_time": 6.000105722986087, "epoch": 0.22986666666666666, "eta_time": 12.03354536665543, "step": 2155 }, { "epoch": 0.22997333333333334, "grad_norm": 0.666020242624264, "learning_rate": 8.988095045582178e-06, "loss": 0.4047, "step": 2156 }, { "avg_step_time": 6.022627122474439, "epoch": 0.22997333333333334, "eta_time": 12.077040332539715, "step": 2156 }, { "epoch": 0.23008, "grad_norm": 1.5891147114691353, "learning_rate": 8.987052858797914e-06, "loss": 0.5937, "step": 2157 }, { "avg_step_time": 6.02816352940569, "epoch": 0.23008, "eta_time": 12.086467876458409, "step": 2157 }, { "epoch": 0.23018666666666668, "grad_norm": 1.7678506769891644, "learning_rate": 8.986010196089925e-06, "loss": 0.5157, "step": 2158 }, { "avg_step_time": 6.047262808289191, "epoch": 0.23018666666666668, "eta_time": 12.123082135395302, "step": 2158 }, { "epoch": 0.23029333333333332, "grad_norm": 1.723265510746122, "learning_rate": 8.984967057582676e-06, "loss": 0.5458, "step": 2159 }, { "avg_step_time": 6.124404767546991, "epoch": 0.23029333333333332, "eta_time": 12.276029111838634, "step": 2159 }, { "epoch": 0.2304, "grad_norm": 1.683474877936283, "learning_rate": 8.983923443400682e-06, "loss": 0.5724, "step": 2160 }, { "avg_step_time": 6.207862793797195, "epoch": 0.2304, "eta_time": 12.441591682568543, "step": 2160 }, { "epoch": 0.23050666666666667, "grad_norm": 1.5124418985921797, "learning_rate": 8.982879353668516e-06, "loss": 0.4615, "step": 2161 }, { "avg_step_time": 6.2607056131266585, "epoch": 0.23050666666666667, "eta_time": 12.54575841474881, "step": 2161 }, { "epoch": 0.23061333333333334, "grad_norm": 1.8211817796479737, "learning_rate": 8.981834788510808e-06, "loss": 0.4639, "step": 2162 }, { "avg_step_time": 6.2160191511867025, "epoch": 0.23061333333333334, "eta_time": 12.454485038197134, "step": 2162 }, { "epoch": 0.23072, "grad_norm": 2.104058034958497, "learning_rate": 8.980789748052245e-06, "loss": 0.6071, "step": 2163 }, { "avg_step_time": 6.245527096468993, "epoch": 0.23072, "eta_time": 12.511872616592882, "step": 2163 }, { "epoch": 0.23082666666666668, "grad_norm": 1.5796777183140656, "learning_rate": 8.97974423241757e-06, "loss": 0.4982, "step": 2164 }, { "avg_step_time": 6.244176599714491, "epoch": 0.23082666666666668, "eta_time": 12.50743262792811, "step": 2164 }, { "epoch": 0.23093333333333332, "grad_norm": 0.6398290808622097, "learning_rate": 8.978698241731586e-06, "loss": 0.4431, "step": 2165 }, { "avg_step_time": 6.200427850087483, "epoch": 0.23093333333333332, "eta_time": 12.418079110869654, "step": 2165 }, { "epoch": 0.23104, "grad_norm": 1.5118206076230876, "learning_rate": 8.977651776119145e-06, "loss": 0.4937, "step": 2166 }, { "avg_step_time": 6.197563465195473, "epoch": 0.23104, "eta_time": 12.410620839053934, "step": 2166 }, { "epoch": 0.23114666666666667, "grad_norm": 1.982337637809073, "learning_rate": 8.976604835705165e-06, "loss": 0.528, "step": 2167 }, { "avg_step_time": 6.197906287029536, "epoch": 0.23114666666666667, "eta_time": 12.40958569914136, "step": 2167 }, { "epoch": 0.23125333333333334, "grad_norm": 1.9416827660180496, "learning_rate": 8.975557420614615e-06, "loss": 0.5006, "step": 2168 }, { "avg_step_time": 6.20289631082554, "epoch": 0.23125333333333334, "eta_time": 12.41785380892213, "step": 2168 }, { "epoch": 0.23136, "grad_norm": 1.5782894374573144, "learning_rate": 8.974509530972523e-06, "loss": 0.4765, "step": 2169 }, { "avg_step_time": 6.2470432002135, "epoch": 0.23136, "eta_time": 12.504498139094022, "step": 2169 }, { "epoch": 0.23146666666666665, "grad_norm": 1.9171520092981378, "learning_rate": 8.973461166903974e-06, "loss": 0.5033, "step": 2170 }, { "avg_step_time": 6.243900563981798, "epoch": 0.23146666666666665, "eta_time": 12.496473212080238, "step": 2170 }, { "epoch": 0.23157333333333333, "grad_norm": 1.489465414288632, "learning_rate": 8.972412328534104e-06, "loss": 0.4342, "step": 2171 }, { "avg_step_time": 6.2931234258593935, "epoch": 0.23157333333333333, "eta_time": 12.593239211080853, "step": 2171 }, { "epoch": 0.23168, "grad_norm": 1.878703480528397, "learning_rate": 8.971363015988115e-06, "loss": 0.4675, "step": 2172 }, { "avg_step_time": 6.292855980420353, "epoch": 0.23168, "eta_time": 12.590956007491057, "step": 2172 }, { "epoch": 0.23178666666666667, "grad_norm": 1.7091767554844897, "learning_rate": 8.970313229391257e-06, "loss": 0.5469, "step": 2173 }, { "avg_step_time": 6.323344746021309, "epoch": 0.23178666666666667, "eta_time": 12.650202461345964, "step": 2173 }, { "epoch": 0.23189333333333334, "grad_norm": 1.5049694866741479, "learning_rate": 8.96926296886884e-06, "loss": 0.5906, "step": 2174 }, { "avg_step_time": 6.325667294588956, "epoch": 0.23189333333333334, "eta_time": 12.653091718981965, "step": 2174 }, { "epoch": 0.232, "grad_norm": 1.7284562785554187, "learning_rate": 8.968212234546235e-06, "loss": 0.4843, "step": 2175 }, { "avg_step_time": 6.303609180932093, "epoch": 0.232, "eta_time": 12.607218361864186, "step": 2175 }, { "epoch": 0.23210666666666666, "grad_norm": 1.7410267937090997, "learning_rate": 8.967161026548858e-06, "loss": 0.4099, "step": 2176 }, { "avg_step_time": 6.380956746111012, "epoch": 0.23210666666666666, "eta_time": 12.760141004236994, "step": 2176 }, { "epoch": 0.23221333333333333, "grad_norm": 1.5199533809797683, "learning_rate": 8.966109345002196e-06, "loss": 0.4592, "step": 2177 }, { "avg_step_time": 6.376554544525917, "epoch": 0.23221333333333333, "eta_time": 12.74956655874932, "step": 2177 }, { "epoch": 0.23232, "grad_norm": 1.501575607316069, "learning_rate": 8.965057190031785e-06, "loss": 0.4222, "step": 2178 }, { "avg_step_time": 6.347247761909408, "epoch": 0.23232, "eta_time": 12.68920615068389, "step": 2178 }, { "epoch": 0.23242666666666667, "grad_norm": 1.7158616551313461, "learning_rate": 8.964004561763213e-06, "loss": 0.4689, "step": 2179 }, { "avg_step_time": 6.392271374211167, "epoch": 0.23242666666666667, "eta_time": 12.77744022467321, "step": 2179 }, { "epoch": 0.23253333333333334, "grad_norm": 2.0429378157583096, "learning_rate": 8.962951460322132e-06, "loss": 0.4663, "step": 2180 }, { "avg_step_time": 6.396065507272278, "epoch": 0.23253333333333334, "eta_time": 12.7832475902289, "step": 2180 }, { "epoch": 0.23264, "grad_norm": 1.7012601330894959, "learning_rate": 8.961897885834247e-06, "loss": 0.5128, "step": 2181 }, { "avg_step_time": 6.364267657501529, "epoch": 0.23264, "eta_time": 12.717928202240554, "step": 2181 }, { "epoch": 0.23274666666666666, "grad_norm": 1.621743017034434, "learning_rate": 8.960843838425324e-06, "loss": 0.4763, "step": 2182 }, { "avg_step_time": 6.412011519827024, "epoch": 0.23274666666666666, "eta_time": 12.811555239476606, "step": 2182 }, { "epoch": 0.23285333333333333, "grad_norm": 1.5754933181091662, "learning_rate": 8.959789318221178e-06, "loss": 0.4108, "step": 2183 }, { "avg_step_time": 6.445044558457654, "epoch": 0.23285333333333333, "eta_time": 12.875766795674291, "step": 2183 }, { "epoch": 0.23296, "grad_norm": 1.757813685754049, "learning_rate": 8.958734325347684e-06, "loss": 0.5807, "step": 2184 }, { "avg_step_time": 6.490840109911832, "epoch": 0.23296, "eta_time": 12.965453119548885, "step": 2184 }, { "epoch": 0.23306666666666667, "grad_norm": 1.9543725532921667, "learning_rate": 8.957678859930774e-06, "loss": 0.4423, "step": 2185 }, { "avg_step_time": 6.525791642641781, "epoch": 0.23306666666666667, "eta_time": 13.033456086276223, "step": 2185 }, { "epoch": 0.23317333333333334, "grad_norm": 1.6317489198143063, "learning_rate": 8.956622922096438e-06, "loss": 0.4351, "step": 2186 }, { "avg_step_time": 6.555354207453101, "epoch": 0.23317333333333334, "eta_time": 13.090678165938986, "step": 2186 }, { "epoch": 0.23328, "grad_norm": 1.6977795334566332, "learning_rate": 8.955566511970721e-06, "loss": 0.5699, "step": 2187 }, { "avg_step_time": 6.583130162171643, "epoch": 0.23328, "eta_time": 13.144316557136046, "step": 2187 }, { "epoch": 0.23338666666666666, "grad_norm": 1.7750358151534606, "learning_rate": 8.95450962967972e-06, "loss": 0.6006, "step": 2188 }, { "avg_step_time": 6.64435421095954, "epoch": 0.23338666666666666, "eta_time": 13.264714920601728, "step": 2188 }, { "epoch": 0.23349333333333333, "grad_norm": 1.7402323123040957, "learning_rate": 8.953452275349596e-06, "loss": 0.5253, "step": 2189 }, { "avg_step_time": 6.673676495600229, "epoch": 0.23349333333333333, "eta_time": 13.321399804828678, "step": 2189 }, { "epoch": 0.2336, "grad_norm": 0.6341698616428154, "learning_rate": 8.95239444910656e-06, "loss": 0.4474, "step": 2190 }, { "avg_step_time": 6.671941159951566, "epoch": 0.2336, "eta_time": 13.31608256507, "step": 2190 }, { "epoch": 0.23370666666666667, "grad_norm": 1.4912965961294866, "learning_rate": 8.951336151076883e-06, "loss": 0.5036, "step": 2191 }, { "avg_step_time": 6.783776692669801, "epoch": 0.23370666666666667, "eta_time": 13.537403266705514, "step": 2191 }, { "epoch": 0.23381333333333335, "grad_norm": 1.4853742203413745, "learning_rate": 8.95027738138689e-06, "loss": 0.4788, "step": 2192 }, { "avg_step_time": 6.8418872356414795, "epoch": 0.23381333333333335, "eta_time": 13.651465559336874, "step": 2192 }, { "epoch": 0.23392, "grad_norm": 1.749202061335233, "learning_rate": 8.949218140162965e-06, "loss": 0.4973, "step": 2193 }, { "avg_step_time": 6.858334697858251, "epoch": 0.23392, "eta_time": 13.68237772222721, "step": 2193 }, { "epoch": 0.23402666666666666, "grad_norm": 2.126108072270762, "learning_rate": 8.948158427531547e-06, "loss": 0.5509, "step": 2194 }, { "avg_step_time": 6.986665065842446, "epoch": 0.23402666666666666, "eta_time": 13.936456066059613, "step": 2194 }, { "epoch": 0.23413333333333333, "grad_norm": 1.7130661951651518, "learning_rate": 8.94709824361913e-06, "loss": 0.5251, "step": 2195 }, { "avg_step_time": 7.015843283046376, "epoch": 0.23413333333333333, "eta_time": 13.992709658964717, "step": 2195 }, { "epoch": 0.23424, "grad_norm": 1.5924295208506396, "learning_rate": 8.946037588552266e-06, "loss": 0.5061, "step": 2196 }, { "avg_step_time": 7.016460199548741, "epoch": 0.23424, "eta_time": 13.991991047933448, "step": 2196 }, { "epoch": 0.23434666666666668, "grad_norm": 1.5979038891653006, "learning_rate": 8.944976462457559e-06, "loss": 0.4524, "step": 2197 }, { "avg_step_time": 7.067718356546729, "epoch": 0.23434666666666668, "eta_time": 14.092245100914562, "step": 2197 }, { "epoch": 0.23445333333333335, "grad_norm": 1.7737797596466585, "learning_rate": 8.943914865461678e-06, "loss": 0.4727, "step": 2198 }, { "avg_step_time": 7.096686642579358, "epoch": 0.23445333333333335, "eta_time": 14.148033342720014, "step": 2198 }, { "epoch": 0.23456, "grad_norm": 1.920950998043369, "learning_rate": 8.94285279769134e-06, "loss": 0.5291, "step": 2199 }, { "avg_step_time": 7.122982056453974, "epoch": 0.23456, "eta_time": 14.198477565864922, "step": 2199 }, { "epoch": 0.23466666666666666, "grad_norm": 1.557781318716475, "learning_rate": 8.941790259273325e-06, "loss": 0.5893, "step": 2200 }, { "avg_step_time": 7.154466306320344, "epoch": 0.23466666666666666, "eta_time": 14.259248818846796, "step": 2200 }, { "epoch": 0.23477333333333333, "grad_norm": 0.6593147094729642, "learning_rate": 8.940727250334458e-06, "loss": 0.4294, "step": 2201 }, { "avg_step_time": 7.117936640074759, "epoch": 0.23477333333333333, "eta_time": 14.184465959971199, "step": 2201 }, { "epoch": 0.23488, "grad_norm": 1.750992190122731, "learning_rate": 8.939663771001632e-06, "loss": 0.4662, "step": 2202 }, { "avg_step_time": 7.113141103224321, "epoch": 0.23488, "eta_time": 14.17293364817446, "step": 2202 }, { "epoch": 0.23498666666666668, "grad_norm": 1.7158095443400032, "learning_rate": 8.938599821401795e-06, "loss": 0.5111, "step": 2203 }, { "avg_step_time": 7.14590216405464, "epoch": 0.23498666666666668, "eta_time": 14.236225089055521, "step": 2203 }, { "epoch": 0.23509333333333332, "grad_norm": 1.6080519146175725, "learning_rate": 8.93753540166194e-06, "loss": 0.566, "step": 2204 }, { "avg_step_time": 7.212257113119568, "epoch": 0.23509333333333332, "eta_time": 14.366415488383451, "step": 2204 }, { "epoch": 0.2352, "grad_norm": 1.6910381937510983, "learning_rate": 8.93647051190913e-06, "loss": 0.4719, "step": 2205 }, { "avg_step_time": 7.199400359934026, "epoch": 0.2352, "eta_time": 14.338805716868603, "step": 2205 }, { "epoch": 0.23530666666666666, "grad_norm": 1.7017271600179327, "learning_rate": 8.935405152270477e-06, "loss": 0.4769, "step": 2206 }, { "avg_step_time": 7.228502735947117, "epoch": 0.23530666666666666, "eta_time": 14.394760031668023, "step": 2206 }, { "epoch": 0.23541333333333334, "grad_norm": 1.7495647568753598, "learning_rate": 8.934339322873149e-06, "loss": 0.6028, "step": 2207 }, { "avg_step_time": 7.264260573820635, "epoch": 0.23541333333333334, "eta_time": 14.46394994254064, "step": 2207 }, { "epoch": 0.23552, "grad_norm": 1.6964865360455084, "learning_rate": 8.93327302384437e-06, "loss": 0.475, "step": 2208 }, { "avg_step_time": 7.247812938208532, "epoch": 0.23552, "eta_time": 14.429187591150152, "step": 2208 }, { "epoch": 0.23562666666666668, "grad_norm": 1.4236481674547996, "learning_rate": 8.932206255311421e-06, "loss": 0.447, "step": 2209 }, { "avg_step_time": 7.296277590472289, "epoch": 0.23562666666666668, "eta_time": 14.523645892590116, "step": 2209 }, { "epoch": 0.23573333333333332, "grad_norm": 0.6451066529435295, "learning_rate": 8.931139017401645e-06, "loss": 0.4695, "step": 2210 }, { "avg_step_time": 7.2596752426841045, "epoch": 0.23573333333333332, "eta_time": 14.44877030939767, "step": 2210 }, { "epoch": 0.23584, "grad_norm": 0.6555980932288935, "learning_rate": 8.930071310242429e-06, "loss": 0.4288, "step": 2211 }, { "avg_step_time": 7.269052315239954, "epoch": 0.23584, "eta_time": 14.46541410732751, "step": 2211 }, { "epoch": 0.23594666666666667, "grad_norm": 1.8764325497861774, "learning_rate": 8.929003133961225e-06, "loss": 0.525, "step": 2212 }, { "avg_step_time": 7.320287603320497, "epoch": 0.23594666666666667, "eta_time": 14.565338917384645, "step": 2212 }, { "epoch": 0.23605333333333334, "grad_norm": 1.5774995252228623, "learning_rate": 8.927934488685536e-06, "loss": 0.4968, "step": 2213 }, { "avg_step_time": 7.316394338704119, "epoch": 0.23605333333333334, "eta_time": 14.555560070499695, "step": 2213 }, { "epoch": 0.23616, "grad_norm": 1.4798258021004103, "learning_rate": 8.926865374542928e-06, "loss": 0.4652, "step": 2214 }, { "avg_step_time": 7.315615112131292, "epoch": 0.23616, "eta_time": 14.551977727214496, "step": 2214 }, { "epoch": 0.23626666666666668, "grad_norm": 1.6529877924653076, "learning_rate": 8.925795791661014e-06, "loss": 0.5781, "step": 2215 }, { "avg_step_time": 7.317862667218603, "epoch": 0.23626666666666668, "eta_time": 14.554415749245889, "step": 2215 }, { "epoch": 0.23637333333333332, "grad_norm": 1.6186510656186495, "learning_rate": 8.924725740167469e-06, "loss": 0.5071, "step": 2216 }, { "avg_step_time": 7.382271465629038, "epoch": 0.23637333333333332, "eta_time": 14.680467061788413, "step": 2216 }, { "epoch": 0.23648, "grad_norm": 1.454849898974802, "learning_rate": 8.92365522019002e-06, "loss": 0.4749, "step": 2217 }, { "avg_step_time": 7.3847668604417285, "epoch": 0.23648, "eta_time": 14.683378107511636, "step": 2217 }, { "epoch": 0.23658666666666667, "grad_norm": 1.4528940691578498, "learning_rate": 8.922584231856454e-06, "loss": 0.4458, "step": 2218 }, { "avg_step_time": 7.429665223516599, "epoch": 0.23658666666666667, "eta_time": 14.770587223530082, "step": 2218 }, { "epoch": 0.23669333333333334, "grad_norm": 1.733636536280442, "learning_rate": 8.921512775294614e-06, "loss": 0.5146, "step": 2219 }, { "avg_step_time": 7.506862951047493, "epoch": 0.23669333333333334, "eta_time": 14.921975354915517, "step": 2219 }, { "epoch": 0.2368, "grad_norm": 1.6735961170607538, "learning_rate": 8.920440850632395e-06, "loss": 0.5168, "step": 2220 }, { "avg_step_time": 7.505219341528536, "epoch": 0.2368, "eta_time": 14.916623441287967, "step": 2220 }, { "epoch": 0.23690666666666665, "grad_norm": 1.602938934885455, "learning_rate": 8.919368457997747e-06, "loss": 0.5652, "step": 2221 }, { "avg_step_time": 7.5713919196466, "epoch": 0.23690666666666665, "eta_time": 15.046038275875494, "step": 2221 }, { "epoch": 0.23701333333333333, "grad_norm": 1.730409901254965, "learning_rate": 8.918295597518683e-06, "loss": 0.5433, "step": 2222 }, { "avg_step_time": 7.654331197642317, "epoch": 0.23701333333333333, "eta_time": 15.208730849093191, "step": 2222 }, { "epoch": 0.23712, "grad_norm": 1.8098755067744943, "learning_rate": 8.917222269323263e-06, "loss": 0.5478, "step": 2223 }, { "avg_step_time": 7.653711164840544, "epoch": 0.23712, "eta_time": 15.205372847483215, "step": 2223 }, { "epoch": 0.23722666666666667, "grad_norm": 1.6666746724860289, "learning_rate": 8.916148473539613e-06, "loss": 0.5642, "step": 2224 }, { "avg_step_time": 7.702142277149239, "epoch": 0.23722666666666667, "eta_time": 15.299449839970613, "step": 2224 }, { "epoch": 0.23733333333333334, "grad_norm": 1.5921381736177906, "learning_rate": 8.915074210295903e-06, "loss": 0.6031, "step": 2225 }, { "avg_step_time": 7.65722408198347, "epoch": 0.23733333333333334, "eta_time": 15.208097829494948, "step": 2225 }, { "epoch": 0.23744, "grad_norm": 1.6505214341588508, "learning_rate": 8.91399947972037e-06, "loss": 0.5246, "step": 2226 }, { "avg_step_time": 7.657268288159611, "epoch": 0.23744, "eta_time": 15.206058608903628, "step": 2226 }, { "epoch": 0.23754666666666666, "grad_norm": 1.9887589241132473, "learning_rate": 8.912924281941298e-06, "loss": 0.5, "step": 2227 }, { "avg_step_time": 7.626394873917705, "epoch": 0.23754666666666666, "eta_time": 15.142630710767708, "step": 2227 }, { "epoch": 0.23765333333333333, "grad_norm": 1.4543080015355467, "learning_rate": 8.91184861708703e-06, "loss": 0.4785, "step": 2228 }, { "avg_step_time": 7.627222932950414, "epoch": 0.23765333333333333, "eta_time": 15.142156194943503, "step": 2228 }, { "epoch": 0.23776, "grad_norm": 1.746040887866973, "learning_rate": 8.91077248528597e-06, "loss": 0.4809, "step": 2229 }, { "avg_step_time": 7.643366861825037, "epoch": 0.23776, "eta_time": 15.1720832207227, "step": 2229 }, { "epoch": 0.23786666666666667, "grad_norm": 1.82964377637783, "learning_rate": 8.90969588666657e-06, "loss": 0.5577, "step": 2230 }, { "avg_step_time": 7.680219975384799, "epoch": 0.23786666666666667, "eta_time": 15.24310325670122, "step": 2230 }, { "epoch": 0.23797333333333334, "grad_norm": 0.6941393082806648, "learning_rate": 8.90861882135734e-06, "loss": 0.4539, "step": 2231 }, { "avg_step_time": 7.604939716030853, "epoch": 0.23797333333333334, "eta_time": 15.091580369812338, "step": 2231 }, { "epoch": 0.23808, "grad_norm": 2.0324518409428665, "learning_rate": 8.907541289486847e-06, "loss": 0.487, "step": 2232 }, { "avg_step_time": 7.639688145030629, "epoch": 0.23808, "eta_time": 15.158414561098272, "step": 2232 }, { "epoch": 0.23818666666666666, "grad_norm": 1.6855103846959238, "learning_rate": 8.906463291183714e-06, "loss": 0.4994, "step": 2233 }, { "avg_step_time": 7.64308075230531, "epoch": 0.23818666666666666, "eta_time": 15.163022981379033, "step": 2233 }, { "epoch": 0.23829333333333333, "grad_norm": 1.790519023124937, "learning_rate": 8.905384826576618e-06, "loss": 0.4548, "step": 2234 }, { "avg_step_time": 7.675745292143389, "epoch": 0.23829333333333333, "eta_time": 15.225693647554428, "step": 2234 }, { "epoch": 0.2384, "grad_norm": 1.968044052661972, "learning_rate": 8.904305895794292e-06, "loss": 0.4687, "step": 2235 }, { "avg_step_time": 7.730958644789879, "epoch": 0.2384, "eta_time": 15.33306797883326, "step": 2235 }, { "epoch": 0.23850666666666667, "grad_norm": 1.7539365818593051, "learning_rate": 8.903226498965524e-06, "loss": 0.4801, "step": 2236 }, { "avg_step_time": 7.662923357703469, "epoch": 0.23850666666666667, "eta_time": 15.196002736290296, "step": 2236 }, { "epoch": 0.23861333333333334, "grad_norm": 1.641153017119364, "learning_rate": 8.90214663621916e-06, "loss": 0.5175, "step": 2237 }, { "avg_step_time": 7.662708487173523, "epoch": 0.23861333333333334, "eta_time": 15.193448105956836, "step": 2237 }, { "epoch": 0.23872, "grad_norm": 1.6091726666342807, "learning_rate": 8.901066307684102e-06, "loss": 0.5327, "step": 2238 }, { "avg_step_time": 7.7104218246960885, "epoch": 0.23872, "eta_time": 15.285911267459996, "step": 2238 }, { "epoch": 0.23882666666666666, "grad_norm": 1.563078572302666, "learning_rate": 8.899985513489304e-06, "loss": 0.5227, "step": 2239 }, { "avg_step_time": 7.707628486132381, "epoch": 0.23882666666666666, "eta_time": 15.278232465844631, "step": 2239 }, { "epoch": 0.23893333333333333, "grad_norm": 1.7824851022014367, "learning_rate": 8.898904253763778e-06, "loss": 0.5528, "step": 2240 }, { "avg_step_time": 7.705938045424644, "epoch": 0.23893333333333333, "eta_time": 15.272741098362454, "step": 2240 }, { "epoch": 0.23904, "grad_norm": 1.781236356061827, "learning_rate": 8.89782252863659e-06, "loss": 0.5061, "step": 2241 }, { "avg_step_time": 7.722810533311632, "epoch": 0.23904, "eta_time": 15.304036206845886, "step": 2241 }, { "epoch": 0.23914666666666667, "grad_norm": 1.6519714985147749, "learning_rate": 8.896740338236863e-06, "loss": 0.5024, "step": 2242 }, { "avg_step_time": 7.751272707274466, "epoch": 0.23914666666666667, "eta_time": 15.358285616941323, "step": 2242 }, { "epoch": 0.23925333333333335, "grad_norm": 1.4394001641040781, "learning_rate": 8.895657682693774e-06, "loss": 0.4583, "step": 2243 }, { "avg_step_time": 7.751585796625927, "epoch": 0.23925333333333335, "eta_time": 15.356752750426699, "step": 2243 }, { "epoch": 0.23936, "grad_norm": 1.573981534453111, "learning_rate": 8.894574562136561e-06, "loss": 0.4745, "step": 2244 }, { "avg_step_time": 7.744683523370762, "epoch": 0.23936, "eta_time": 15.340927279210252, "step": 2244 }, { "epoch": 0.23946666666666666, "grad_norm": 1.6585116915366815, "learning_rate": 8.89349097669451e-06, "loss": 0.5416, "step": 2245 }, { "avg_step_time": 7.6879736052619085, "epoch": 0.23946666666666666, "eta_time": 15.226458834865946, "step": 2245 }, { "epoch": 0.23957333333333333, "grad_norm": 1.555926933233581, "learning_rate": 8.892406926496967e-06, "loss": 0.484, "step": 2246 }, { "avg_step_time": 7.678299099507958, "epoch": 0.23957333333333333, "eta_time": 15.205165077886733, "step": 2246 }, { "epoch": 0.23968, "grad_norm": 2.278100430715915, "learning_rate": 8.89132241167333e-06, "loss": 0.4444, "step": 2247 }, { "avg_step_time": 7.6765494153957174, "epoch": 0.23968, "eta_time": 15.199567842483521, "step": 2247 }, { "epoch": 0.23978666666666668, "grad_norm": 1.8362914122407814, "learning_rate": 8.890237432353055e-06, "loss": 0.4808, "step": 2248 }, { "avg_step_time": 7.6774895383854105, "epoch": 0.23978666666666668, "eta_time": 15.199296650020228, "step": 2248 }, { "epoch": 0.23989333333333332, "grad_norm": 1.78998267915964, "learning_rate": 8.889151988665654e-06, "loss": 0.4296, "step": 2249 }, { "avg_step_time": 7.6458906091824925, "epoch": 0.23989333333333332, "eta_time": 15.134615689176234, "step": 2249 }, { "epoch": 0.24, "grad_norm": 1.661486415859957, "learning_rate": 8.888066080740692e-06, "loss": 0.4764, "step": 2250 }, { "avg_step_time": 7.652806946725557, "epoch": 0.24, "eta_time": 15.146180415394332, "step": 2250 }, { "epoch": 0.24010666666666666, "grad_norm": 1.7804685660211472, "learning_rate": 8.886979708707795e-06, "loss": 0.5004, "step": 2251 }, { "avg_step_time": 7.682560104312318, "epoch": 0.24010666666666666, "eta_time": 15.20293282864471, "step": 2251 }, { "epoch": 0.24021333333333333, "grad_norm": 1.6316681601312646, "learning_rate": 8.885892872696635e-06, "loss": 0.4791, "step": 2252 }, { "avg_step_time": 7.651373689824885, "epoch": 0.24021333333333333, "eta_time": 15.139092997950739, "step": 2252 }, { "epoch": 0.24032, "grad_norm": 2.072199553702898, "learning_rate": 8.88480557283695e-06, "loss": 0.5118, "step": 2253 }, { "avg_step_time": 7.617561475195066, "epoch": 0.24032, "eta_time": 15.070075785094238, "step": 2253 }, { "epoch": 0.24042666666666668, "grad_norm": 1.5071478575209825, "learning_rate": 8.883717809258523e-06, "loss": 0.5086, "step": 2254 }, { "avg_step_time": 7.6484425862630205, "epoch": 0.24042666666666668, "eta_time": 15.12904434910527, "step": 2254 }, { "epoch": 0.24053333333333332, "grad_norm": 1.9139544117343938, "learning_rate": 8.8826295820912e-06, "loss": 0.5021, "step": 2255 }, { "avg_step_time": 7.657841444015503, "epoch": 0.24053333333333332, "eta_time": 15.145508633719551, "step": 2255 }, { "epoch": 0.24064, "grad_norm": 1.537616295323428, "learning_rate": 8.88154089146488e-06, "loss": 0.5262, "step": 2256 }, { "avg_step_time": 7.6544183673280655, "epoch": 0.24064, "eta_time": 15.13661232139125, "step": 2256 }, { "epoch": 0.24074666666666666, "grad_norm": 1.6090532483466669, "learning_rate": 8.880451737509514e-06, "loss": 0.4237, "step": 2257 }, { "avg_step_time": 7.623008636513141, "epoch": 0.24074666666666666, "eta_time": 15.072382076305706, "step": 2257 }, { "epoch": 0.24085333333333334, "grad_norm": 1.7956607439584777, "learning_rate": 8.879362120355118e-06, "loss": 0.5064, "step": 2258 }, { "avg_step_time": 7.574381435760344, "epoch": 0.24085333333333334, "eta_time": 14.974131299529546, "step": 2258 }, { "epoch": 0.24096, "grad_norm": 1.6578390638098186, "learning_rate": 8.878272040131748e-06, "loss": 0.4723, "step": 2259 }, { "avg_step_time": 7.525630611361879, "epoch": 0.24096, "eta_time": 14.875663175125315, "step": 2259 }, { "epoch": 0.24106666666666668, "grad_norm": 1.4009737339317612, "learning_rate": 8.877181496969531e-06, "loss": 0.4537, "step": 2260 }, { "avg_step_time": 7.472374434422965, "epoch": 0.24106666666666668, "eta_time": 14.768317805810941, "step": 2260 }, { "epoch": 0.24117333333333332, "grad_norm": 1.6031684727264757, "learning_rate": 8.876090490998639e-06, "loss": 0.4774, "step": 2261 }, { "avg_step_time": 7.472872649780427, "epoch": 0.24117333333333332, "eta_time": 14.767226675149434, "step": 2261 }, { "epoch": 0.24128, "grad_norm": 0.6770975308760165, "learning_rate": 8.874999022349303e-06, "loss": 0.4484, "step": 2262 }, { "avg_step_time": 7.414628120383831, "epoch": 0.24128, "eta_time": 14.650069394525053, "step": 2262 }, { "epoch": 0.24138666666666667, "grad_norm": 1.6252712018512672, "learning_rate": 8.873907091151808e-06, "loss": 0.4296, "step": 2263 }, { "avg_step_time": 7.418178803992994, "epoch": 0.24138666666666667, "eta_time": 14.655024348332827, "step": 2263 }, { "epoch": 0.24149333333333334, "grad_norm": 0.6769685593839422, "learning_rate": 8.872814697536497e-06, "loss": 0.4631, "step": 2264 }, { "avg_step_time": 7.418650973926891, "epoch": 0.24149333333333334, "eta_time": 14.653896409887254, "step": 2264 }, { "epoch": 0.2416, "grad_norm": 1.9926328169526248, "learning_rate": 8.871721841633762e-06, "loss": 0.5585, "step": 2265 }, { "avg_step_time": 7.449686255117859, "epoch": 0.2416, "eta_time": 14.713130353857771, "step": 2265 }, { "epoch": 0.24170666666666665, "grad_norm": 1.4641271381667755, "learning_rate": 8.87062852357406e-06, "loss": 0.4888, "step": 2266 }, { "avg_step_time": 7.448965221944482, "epoch": 0.24170666666666665, "eta_time": 14.709637156334255, "step": 2266 }, { "epoch": 0.24181333333333332, "grad_norm": 2.0198304773169875, "learning_rate": 8.869534743487893e-06, "loss": 0.5224, "step": 2267 }, { "avg_step_time": 7.447224315970835, "epoch": 0.24181333333333332, "eta_time": 14.704130677200192, "step": 2267 }, { "epoch": 0.24192, "grad_norm": 1.510838134684674, "learning_rate": 8.868440501505822e-06, "loss": 0.5056, "step": 2268 }, { "avg_step_time": 7.423746373918322, "epoch": 0.24192, "eta_time": 14.655712633177087, "step": 2268 }, { "epoch": 0.24202666666666667, "grad_norm": 1.7383750750706197, "learning_rate": 8.867345797758468e-06, "loss": 0.538, "step": 2269 }, { "avg_step_time": 7.425873460191669, "epoch": 0.24202666666666667, "eta_time": 14.657849113367222, "step": 2269 }, { "epoch": 0.24213333333333334, "grad_norm": 1.5281313735665005, "learning_rate": 8.866250632376499e-06, "loss": 0.4981, "step": 2270 }, { "avg_step_time": 7.377475153316151, "epoch": 0.24213333333333334, "eta_time": 14.560266934530905, "step": 2270 }, { "epoch": 0.24224, "grad_norm": 1.6038765435092044, "learning_rate": 8.865155005490643e-06, "loss": 0.49, "step": 2271 }, { "avg_step_time": 7.377816099109071, "epoch": 0.24224, "eta_time": 14.558890435575233, "step": 2271 }, { "epoch": 0.24234666666666665, "grad_norm": 1.510731008620529, "learning_rate": 8.864058917231684e-06, "loss": 0.4907, "step": 2272 }, { "avg_step_time": 7.350124335048174, "epoch": 0.24234666666666665, "eta_time": 14.502203653290884, "step": 2272 }, { "epoch": 0.24245333333333333, "grad_norm": 1.9776994876167915, "learning_rate": 8.862962367730456e-06, "loss": 0.5206, "step": 2273 }, { "avg_step_time": 7.348583373156461, "epoch": 0.24245333333333333, "eta_time": 14.49712197671033, "step": 2273 }, { "epoch": 0.24256, "grad_norm": 0.6324321749860742, "learning_rate": 8.861865357117852e-06, "loss": 0.4441, "step": 2274 }, { "avg_step_time": 7.317428367306488, "epoch": 0.24256, "eta_time": 14.433627454512047, "step": 2274 }, { "epoch": 0.24266666666666667, "grad_norm": 1.7315645070809869, "learning_rate": 8.860767885524821e-06, "loss": 0.4531, "step": 2275 }, { "avg_step_time": 7.237401061587864, "epoch": 0.24266666666666667, "eta_time": 14.273763204798287, "step": 2275 }, { "epoch": 0.24277333333333334, "grad_norm": 1.6889308964953504, "learning_rate": 8.859669953082364e-06, "loss": 0.4095, "step": 2276 }, { "avg_step_time": 7.242881871233083, "epoch": 0.24277333333333334, "eta_time": 14.28256066774546, "step": 2276 }, { "epoch": 0.24288, "grad_norm": 1.8699689561667487, "learning_rate": 8.858571559921539e-06, "loss": 0.5284, "step": 2277 }, { "avg_step_time": 7.241118727308331, "epoch": 0.24288, "eta_time": 14.277072424009592, "step": 2277 }, { "epoch": 0.24298666666666666, "grad_norm": 2.1148874434043545, "learning_rate": 8.857472706173455e-06, "loss": 0.5587, "step": 2278 }, { "avg_step_time": 7.197799429748997, "epoch": 0.24298666666666666, "eta_time": 14.189661820257953, "step": 2278 }, { "epoch": 0.24309333333333333, "grad_norm": 0.6510825985777485, "learning_rate": 8.856373391969282e-06, "loss": 0.4656, "step": 2279 }, { "avg_step_time": 7.163853093831226, "epoch": 0.24309333333333333, "eta_time": 14.12075043161844, "step": 2279 }, { "epoch": 0.2432, "grad_norm": 2.152045227647579, "learning_rate": 8.855273617440243e-06, "loss": 0.5515, "step": 2280 }, { "avg_step_time": 7.135290930969546, "epoch": 0.2432, "eta_time": 14.062469209785814, "step": 2280 }, { "epoch": 0.24330666666666667, "grad_norm": 1.7876628788506075, "learning_rate": 8.854173382717612e-06, "loss": 0.54, "step": 2281 }, { "avg_step_time": 7.08969617853261, "epoch": 0.24330666666666667, "eta_time": 13.970640191808426, "step": 2281 }, { "epoch": 0.24341333333333334, "grad_norm": 1.6392546160821762, "learning_rate": 8.853072687932724e-06, "loss": 0.4812, "step": 2282 }, { "avg_step_time": 7.059124720217001, "epoch": 0.24341333333333334, "eta_time": 13.908436566805332, "step": 2282 }, { "epoch": 0.24352, "grad_norm": 1.8086736047681569, "learning_rate": 8.851971533216968e-06, "loss": 0.5466, "step": 2283 }, { "avg_step_time": 7.012071380711565, "epoch": 0.24352, "eta_time": 13.813780620001783, "step": 2283 }, { "epoch": 0.24362666666666666, "grad_norm": 1.5295342438961173, "learning_rate": 8.85086991870178e-06, "loss": 0.4586, "step": 2284 }, { "avg_step_time": 7.013002234275895, "epoch": 0.24362666666666666, "eta_time": 13.813666345347325, "step": 2284 }, { "epoch": 0.24373333333333333, "grad_norm": 1.5070100615313955, "learning_rate": 8.849767844518658e-06, "loss": 0.4712, "step": 2285 }, { "avg_step_time": 6.980873827982431, "epoch": 0.24373333333333333, "eta_time": 13.748443177887621, "step": 2285 }, { "epoch": 0.24384, "grad_norm": 1.8143932925579778, "learning_rate": 8.848665310799156e-06, "loss": 0.4697, "step": 2286 }, { "avg_step_time": 6.95382093901586, "epoch": 0.24384, "eta_time": 13.693232399078731, "step": 2286 }, { "epoch": 0.24394666666666667, "grad_norm": 0.6531177598980762, "learning_rate": 8.84756231767488e-06, "loss": 0.4425, "step": 2287 }, { "avg_step_time": 6.8597149921186045, "epoch": 0.24394666666666667, "eta_time": 13.50601662892685, "step": 2287 }, { "epoch": 0.24405333333333334, "grad_norm": 1.7065010442387067, "learning_rate": 8.846458865277492e-06, "loss": 0.5438, "step": 2288 }, { "avg_step_time": 6.82911680924772, "epoch": 0.24405333333333334, "eta_time": 13.443875229760721, "step": 2288 }, { "epoch": 0.24416, "grad_norm": 1.7356280199420608, "learning_rate": 8.845354953738706e-06, "loss": 0.5377, "step": 2289 }, { "avg_step_time": 6.8625367843743525, "epoch": 0.24416, "eta_time": 13.507759903910184, "step": 2289 }, { "epoch": 0.24426666666666666, "grad_norm": 0.67463747518725, "learning_rate": 8.844250583190295e-06, "loss": 0.4689, "step": 2290 }, { "avg_step_time": 6.753682042613174, "epoch": 0.24426666666666666, "eta_time": 13.291621464420649, "step": 2290 }, { "epoch": 0.24437333333333333, "grad_norm": 1.653163398824677, "learning_rate": 8.843145753764083e-06, "loss": 0.4753, "step": 2291 }, { "avg_step_time": 6.6988224043990625, "epoch": 0.24437333333333333, "eta_time": 13.18179386465638, "step": 2291 }, { "epoch": 0.24448, "grad_norm": 1.9519888125018023, "learning_rate": 8.84204046559195e-06, "loss": 0.5582, "step": 2292 }, { "avg_step_time": 6.683365773673009, "epoch": 0.24448, "eta_time": 13.149522159701647, "step": 2292 }, { "epoch": 0.24458666666666667, "grad_norm": 1.848704766206147, "learning_rate": 8.840934718805832e-06, "loss": 0.4857, "step": 2293 }, { "avg_step_time": 6.5765587055321895, "epoch": 0.24458666666666667, "eta_time": 12.937552431271934, "step": 2293 }, { "epoch": 0.24469333333333335, "grad_norm": 0.612249920357941, "learning_rate": 8.839828513537722e-06, "loss": 0.4377, "step": 2294 }, { "avg_step_time": 6.5123614373833245, "epoch": 0.24469333333333335, "eta_time": 12.809453149475367, "step": 2294 }, { "epoch": 0.2448, "grad_norm": 1.868261488162743, "learning_rate": 8.83872184991966e-06, "loss": 0.5336, "step": 2295 }, { "avg_step_time": 6.530777769859391, "epoch": 0.2448, "eta_time": 12.843862947390134, "step": 2295 }, { "epoch": 0.24490666666666666, "grad_norm": 1.7063495146395289, "learning_rate": 8.83761472808375e-06, "loss": 0.5261, "step": 2296 }, { "avg_step_time": 6.518096769698943, "epoch": 0.24490666666666666, "eta_time": 12.817113064638558, "step": 2296 }, { "epoch": 0.24501333333333333, "grad_norm": 1.8421083839908972, "learning_rate": 8.836507148162141e-06, "loss": 0.49, "step": 2297 }, { "avg_step_time": 6.490922133127849, "epoch": 0.24501333333333333, "eta_time": 12.761874127299699, "step": 2297 }, { "epoch": 0.24512, "grad_norm": 1.670896656309954, "learning_rate": 8.835399110287046e-06, "loss": 0.5234, "step": 2298 }, { "avg_step_time": 6.479330607134886, "epoch": 0.24512, "eta_time": 12.737284085192664, "step": 2298 }, { "epoch": 0.24522666666666668, "grad_norm": 1.762369747682529, "learning_rate": 8.834290614590729e-06, "loss": 0.5053, "step": 2299 }, { "avg_step_time": 6.4484211242560185, "epoch": 0.24522666666666668, "eta_time": 12.67472996534322, "step": 2299 }, { "epoch": 0.24533333333333332, "grad_norm": 1.5506206591657177, "learning_rate": 8.833181661205503e-06, "loss": 0.5389, "step": 2300 }, { "avg_step_time": 6.484380534200957, "epoch": 0.24533333333333332, "eta_time": 12.743608966519936, "step": 2300 }, { "epoch": 0.24544, "grad_norm": 1.7520324978924353, "learning_rate": 8.832072250263746e-06, "loss": 0.5383, "step": 2301 }, { "avg_step_time": 6.489772298119285, "epoch": 0.24544, "eta_time": 12.752402565804395, "step": 2301 }, { "epoch": 0.24554666666666666, "grad_norm": 1.7123266652410898, "learning_rate": 8.830962381897882e-06, "loss": 0.5127, "step": 2302 }, { "avg_step_time": 6.461308443185055, "epoch": 0.24554666666666666, "eta_time": 12.694676282957747, "step": 2302 }, { "epoch": 0.24565333333333333, "grad_norm": 1.5820525687252893, "learning_rate": 8.829852056240396e-06, "loss": 0.5451, "step": 2303 }, { "avg_step_time": 6.404424265177563, "epoch": 0.24565333333333333, "eta_time": 12.581135667593259, "step": 2303 }, { "epoch": 0.24576, "grad_norm": 1.9445065806586987, "learning_rate": 8.82874127342382e-06, "loss": 0.5756, "step": 2304 }, { "avg_step_time": 6.408158001273569, "epoch": 0.24576, "eta_time": 12.586690340834837, "step": 2304 }, { "epoch": 0.24586666666666668, "grad_norm": 1.8302797507106394, "learning_rate": 8.827630033580752e-06, "loss": 0.5096, "step": 2305 }, { "avg_step_time": 6.383459098411329, "epoch": 0.24586666666666668, "eta_time": 12.536404396046693, "step": 2305 }, { "epoch": 0.24597333333333332, "grad_norm": 1.5117914401770218, "learning_rate": 8.826518336843831e-06, "loss": 0.4988, "step": 2306 }, { "avg_step_time": 6.408910033678768, "epoch": 0.24597333333333332, "eta_time": 12.584606952243115, "step": 2306 }, { "epoch": 0.24608, "grad_norm": 1.3979257876669344, "learning_rate": 8.82540618334576e-06, "loss": 0.4617, "step": 2307 }, { "avg_step_time": 6.4116339900276875, "epoch": 0.24608, "eta_time": 12.588174733754359, "step": 2307 }, { "epoch": 0.24618666666666666, "grad_norm": 1.5261280450063825, "learning_rate": 8.824293573219295e-06, "loss": 0.5532, "step": 2308 }, { "avg_step_time": 6.3763867797273575, "epoch": 0.24618666666666666, "eta_time": 12.517201492314788, "step": 2308 }, { "epoch": 0.24629333333333334, "grad_norm": 1.8928239638234619, "learning_rate": 8.823180506597244e-06, "loss": 0.5144, "step": 2309 }, { "avg_step_time": 6.4103570201180196, "epoch": 0.24629333333333334, "eta_time": 12.582106306709424, "step": 2309 }, { "epoch": 0.2464, "grad_norm": 1.7854959427484605, "learning_rate": 8.82206698361247e-06, "loss": 0.5961, "step": 2310 }, { "avg_step_time": 6.400236105678057, "epoch": 0.2464, "eta_time": 12.560463357393186, "step": 2310 }, { "epoch": 0.24650666666666668, "grad_norm": 1.7172938996715115, "learning_rate": 8.820953004397892e-06, "loss": 0.5088, "step": 2311 }, { "avg_step_time": 6.357062912950612, "epoch": 0.24650666666666668, "eta_time": 12.473970115856423, "step": 2311 }, { "epoch": 0.24661333333333332, "grad_norm": 1.5166827528677043, "learning_rate": 8.819838569086482e-06, "loss": 0.4631, "step": 2312 }, { "avg_step_time": 6.370246846266467, "epoch": 0.24661333333333332, "eta_time": 12.498070409772238, "step": 2312 }, { "epoch": 0.24672, "grad_norm": 0.6546544585666898, "learning_rate": 8.818723677811269e-06, "loss": 0.4554, "step": 2313 }, { "avg_step_time": 6.339570527124887, "epoch": 0.24672, "eta_time": 12.43612418404332, "step": 2313 }, { "epoch": 0.24682666666666667, "grad_norm": 1.7467524005695434, "learning_rate": 8.817608330705334e-06, "loss": 0.4253, "step": 2314 }, { "avg_step_time": 6.338274811253403, "epoch": 0.24682666666666667, "eta_time": 12.431821789516746, "step": 2314 }, { "epoch": 0.24693333333333334, "grad_norm": 1.5519923737451005, "learning_rate": 8.816492527901811e-06, "loss": 0.4555, "step": 2315 }, { "avg_step_time": 6.344193908903334, "epoch": 0.24693333333333334, "eta_time": 12.44166916579376, "step": 2315 }, { "epoch": 0.24704, "grad_norm": 1.5958148129931622, "learning_rate": 8.815376269533893e-06, "loss": 0.5127, "step": 2316 }, { "avg_step_time": 6.3382225157034515, "epoch": 0.24704, "eta_time": 12.428197982875185, "step": 2316 }, { "epoch": 0.24714666666666665, "grad_norm": 1.7400047422038791, "learning_rate": 8.814259555734823e-06, "loss": 0.5489, "step": 2317 }, { "avg_step_time": 6.289759710581616, "epoch": 0.24714666666666665, "eta_time": 12.33142334369029, "step": 2317 }, { "epoch": 0.24725333333333332, "grad_norm": 1.5831049767801728, "learning_rate": 8.8131423866379e-06, "loss": 0.5279, "step": 2318 }, { "avg_step_time": 6.216167315088137, "epoch": 0.24725333333333332, "eta_time": 12.18541465071583, "step": 2318 }, { "epoch": 0.24736, "grad_norm": 1.5588146428596152, "learning_rate": 8.812024762376477e-06, "loss": 0.4941, "step": 2319 }, { "avg_step_time": 6.2237994189214225, "epoch": 0.24736, "eta_time": 12.198646861085987, "step": 2319 }, { "epoch": 0.24746666666666667, "grad_norm": 1.362215723790332, "learning_rate": 8.810906683083964e-06, "loss": 0.4739, "step": 2320 }, { "avg_step_time": 6.166511884843461, "epoch": 0.24746666666666667, "eta_time": 12.08465037432517, "step": 2320 }, { "epoch": 0.24757333333333334, "grad_norm": 1.703683345686848, "learning_rate": 8.809788148893824e-06, "loss": 0.4835, "step": 2321 }, { "avg_step_time": 6.031655386240796, "epoch": 0.24757333333333334, "eta_time": 11.818693637372936, "step": 2321 }, { "epoch": 0.24768, "grad_norm": 1.73941690641187, "learning_rate": 8.808669159939568e-06, "loss": 0.5745, "step": 2322 }, { "avg_step_time": 6.049198242148968, "epoch": 0.24768, "eta_time": 11.851387556076853, "step": 2322 }, { "epoch": 0.24778666666666666, "grad_norm": 1.6024313990635533, "learning_rate": 8.807549716354772e-06, "loss": 0.4168, "step": 2323 }, { "avg_step_time": 6.009354632310193, "epoch": 0.24778666666666666, "eta_time": 11.771658018625411, "step": 2323 }, { "epoch": 0.24789333333333333, "grad_norm": 1.4337077926374557, "learning_rate": 8.806429818273057e-06, "loss": 0.4595, "step": 2324 }, { "avg_step_time": 6.009976868677621, "epoch": 0.24789333333333333, "eta_time": 11.771207472512753, "step": 2324 }, { "epoch": 0.248, "grad_norm": 1.6947264973293408, "learning_rate": 8.805309465828105e-06, "loss": 0.4944, "step": 2325 }, { "avg_step_time": 6.013707801549121, "epoch": 0.248, "eta_time": 11.776844444700362, "step": 2325 }, { "epoch": 0.24810666666666667, "grad_norm": 1.5635433359990298, "learning_rate": 8.80418865915365e-06, "loss": 0.5106, "step": 2326 }, { "avg_step_time": 6.029468733854968, "epoch": 0.24810666666666667, "eta_time": 11.806034751373243, "step": 2326 }, { "epoch": 0.24821333333333334, "grad_norm": 1.6654103768294757, "learning_rate": 8.803067398383477e-06, "loss": 0.4671, "step": 2327 }, { "avg_step_time": 6.026002905585549, "epoch": 0.24821333333333334, "eta_time": 11.797574577379708, "step": 2327 }, { "epoch": 0.24832, "grad_norm": 0.6671115090357621, "learning_rate": 8.80194568365143e-06, "loss": 0.4483, "step": 2328 }, { "avg_step_time": 5.978462423941101, "epoch": 0.24832, "eta_time": 11.702840194864706, "step": 2328 }, { "epoch": 0.24842666666666666, "grad_norm": 1.640097322361259, "learning_rate": 8.800823515091403e-06, "loss": 0.4875, "step": 2329 }, { "avg_step_time": 5.974841194923478, "epoch": 0.24842666666666666, "eta_time": 11.694091960953006, "step": 2329 }, { "epoch": 0.24853333333333333, "grad_norm": 0.6492489533190534, "learning_rate": 8.799700892837348e-06, "loss": 0.4361, "step": 2330 }, { "avg_step_time": 5.974479668068163, "epoch": 0.24853333333333333, "eta_time": 11.691724794872279, "step": 2330 }, { "epoch": 0.24864, "grad_norm": 1.8067530430509233, "learning_rate": 8.798577817023269e-06, "loss": 0.5156, "step": 2331 }, { "avg_step_time": 5.942536736979629, "epoch": 0.24864, "eta_time": 11.62756354869014, "step": 2331 }, { "epoch": 0.24874666666666667, "grad_norm": 0.6527944444770057, "learning_rate": 8.797454287783224e-06, "loss": 0.4377, "step": 2332 }, { "avg_step_time": 5.905699992420698, "epoch": 0.24874666666666667, "eta_time": 11.553845846283048, "step": 2332 }, { "epoch": 0.24885333333333334, "grad_norm": 1.7708744605105422, "learning_rate": 8.796330305251326e-06, "loss": 0.5717, "step": 2333 }, { "avg_step_time": 5.8701251974009505, "epoch": 0.24885333333333334, "eta_time": 11.482617122249303, "step": 2333 }, { "epoch": 0.24896, "grad_norm": 1.7801460394217568, "learning_rate": 8.795205869561742e-06, "loss": 0.4683, "step": 2334 }, { "avg_step_time": 5.842158327198992, "epoch": 0.24896, "eta_time": 11.426287994946696, "step": 2334 }, { "epoch": 0.24906666666666666, "grad_norm": 1.6576024184252436, "learning_rate": 8.79408098084869e-06, "loss": 0.4561, "step": 2335 }, { "avg_step_time": 5.86806603874823, "epoch": 0.24906666666666666, "eta_time": 11.475329142440984, "step": 2335 }, { "epoch": 0.24917333333333333, "grad_norm": 1.4814939539782546, "learning_rate": 8.792955639246452e-06, "loss": 0.4919, "step": 2336 }, { "avg_step_time": 5.875891721609867, "epoch": 0.24917333333333333, "eta_time": 11.489000507892182, "step": 2336 }, { "epoch": 0.24928, "grad_norm": 1.5181290471177342, "learning_rate": 8.79182984488935e-06, "loss": 0.4175, "step": 2337 }, { "avg_step_time": 5.826956267308707, "epoch": 0.24928, "eta_time": 11.391699502588523, "step": 2337 }, { "epoch": 0.24938666666666667, "grad_norm": 1.598370657232364, "learning_rate": 8.790703597911769e-06, "loss": 0.5522, "step": 2338 }, { "avg_step_time": 5.827882496997564, "epoch": 0.24938666666666667, "eta_time": 11.39189142538107, "step": 2338 }, { "epoch": 0.24949333333333334, "grad_norm": 1.6632013406603774, "learning_rate": 8.78957689844815e-06, "loss": 0.5165, "step": 2339 }, { "avg_step_time": 5.854829496807522, "epoch": 0.24949333333333334, "eta_time": 11.442938983204924, "step": 2339 }, { "epoch": 0.2496, "grad_norm": 1.67530833919844, "learning_rate": 8.788449746632976e-06, "loss": 0.4381, "step": 2340 }, { "avg_step_time": 5.8036362185622705, "epoch": 0.2496, "eta_time": 11.34127244377377, "step": 2340 }, { "epoch": 0.24970666666666666, "grad_norm": 0.6423264789211091, "learning_rate": 8.787322142600799e-06, "loss": 0.4311, "step": 2341 }, { "avg_step_time": 5.762838091513123, "epoch": 0.24970666666666666, "eta_time": 11.25994531547314, "step": 2341 }, { "epoch": 0.24981333333333333, "grad_norm": 0.656548521774565, "learning_rate": 8.786194086486215e-06, "loss": 0.4371, "step": 2342 }, { "avg_step_time": 5.724477897990834, "epoch": 0.24981333333333333, "eta_time": 11.183403626824871, "step": 2342 }, { "epoch": 0.24992, "grad_norm": 1.9688373077784596, "learning_rate": 8.78506557842388e-06, "loss": 0.5645, "step": 2343 }, { "avg_step_time": 5.726367473602295, "epoch": 0.24992, "eta_time": 11.185504465103149, "step": 2343 }, { "epoch": 0.2500266666666667, "grad_norm": 1.5806258818817776, "learning_rate": 8.783936618548496e-06, "loss": 0.4807, "step": 2344 }, { "avg_step_time": 5.721978609008018, "epoch": 0.2500266666666667, "eta_time": 11.17534211109316, "step": 2344 }, { "epoch": 0.2501333333333333, "grad_norm": 1.698459274364831, "learning_rate": 8.782807206994826e-06, "loss": 0.5783, "step": 2345 }, { "avg_step_time": 5.722836292151249, "epoch": 0.2501333333333333, "eta_time": 11.175427537173134, "step": 2345 }, { "epoch": 0.25024, "grad_norm": 0.647110306780265, "learning_rate": 8.781677343897687e-06, "loss": 0.4314, "step": 2346 }, { "avg_step_time": 5.661426447858714, "epoch": 0.25024, "eta_time": 11.053935139444139, "step": 2346 }, { "epoch": 0.25034666666666666, "grad_norm": 0.6435580861461934, "learning_rate": 8.780547029391947e-06, "loss": 0.4432, "step": 2347 }, { "avg_step_time": 5.628814102423312, "epoch": 0.25034666666666666, "eta_time": 10.988695975508621, "step": 2347 }, { "epoch": 0.2504533333333333, "grad_norm": 0.6484698413037073, "learning_rate": 8.779416263612526e-06, "loss": 0.4452, "step": 2348 }, { "avg_step_time": 5.597726850798636, "epoch": 0.2504533333333333, "eta_time": 10.926451827933892, "step": 2348 }, { "epoch": 0.25056, "grad_norm": 1.7403573166105353, "learning_rate": 8.778285046694403e-06, "loss": 0.4945, "step": 2349 }, { "avg_step_time": 5.61835644221065, "epoch": 0.25056, "eta_time": 10.965158989714451, "step": 2349 }, { "epoch": 0.25066666666666665, "grad_norm": 1.3887953446881263, "learning_rate": 8.777153378772608e-06, "loss": 0.3982, "step": 2350 }, { "avg_step_time": 5.5838644889870075, "epoch": 0.25066666666666665, "eta_time": 10.896291120870481, "step": 2350 }, { "epoch": 0.25077333333333335, "grad_norm": 1.6495621004507752, "learning_rate": 8.776021259982224e-06, "loss": 0.508, "step": 2351 }, { "avg_step_time": 5.594205186824606, "epoch": 0.25077333333333335, "eta_time": 10.914915897848898, "step": 2351 }, { "epoch": 0.25088, "grad_norm": 1.6140805150940523, "learning_rate": 8.77488869045839e-06, "loss": 0.467, "step": 2352 }, { "avg_step_time": 5.565815130869548, "epoch": 0.25088, "eta_time": 10.857977684471342, "step": 2352 }, { "epoch": 0.2509866666666667, "grad_norm": 1.7173240316680276, "learning_rate": 8.773755670336297e-06, "loss": 0.4427, "step": 2353 }, { "avg_step_time": 5.560177538130018, "epoch": 0.2509866666666667, "eta_time": 10.845435186874719, "step": 2353 }, { "epoch": 0.25109333333333334, "grad_norm": 1.571922215110125, "learning_rate": 8.77262219975119e-06, "loss": 0.455, "step": 2354 }, { "avg_step_time": 5.561936754168886, "epoch": 0.25109333333333334, "eta_time": 10.84732165306104, "step": 2354 }, { "epoch": 0.2512, "grad_norm": 1.6579082261096076, "learning_rate": 8.771488278838368e-06, "loss": 0.4363, "step": 2355 }, { "avg_step_time": 5.562301339525165, "epoch": 0.2512, "eta_time": 10.846487612074071, "step": 2355 }, { "epoch": 0.2513066666666667, "grad_norm": 1.6866753994850574, "learning_rate": 8.77035390773319e-06, "loss": 0.544, "step": 2356 }, { "avg_step_time": 5.566783033236109, "epoch": 0.2513066666666667, "eta_time": 10.85368058619007, "step": 2356 }, { "epoch": 0.2514133333333333, "grad_norm": 1.9169589707379002, "learning_rate": 8.769219086571054e-06, "loss": 0.5369, "step": 2357 }, { "avg_step_time": 5.570780648125543, "epoch": 0.2514133333333333, "eta_time": 10.85992738570696, "step": 2357 }, { "epoch": 0.25152, "grad_norm": 0.6640195710738163, "learning_rate": 8.768083815487428e-06, "loss": 0.431, "step": 2358 }, { "avg_step_time": 5.5404900252216995, "epoch": 0.25152, "eta_time": 10.799338474161296, "step": 2358 }, { "epoch": 0.25162666666666667, "grad_norm": 1.5308572650364738, "learning_rate": 8.766948094617819e-06, "loss": 0.5177, "step": 2359 }, { "avg_step_time": 5.544048913801559, "epoch": 0.25162666666666667, "eta_time": 10.804735327564373, "step": 2359 }, { "epoch": 0.2517333333333333, "grad_norm": 0.6640086656237136, "learning_rate": 8.7658119240978e-06, "loss": 0.4317, "step": 2360 }, { "avg_step_time": 5.510555069855969, "epoch": 0.2517333333333333, "eta_time": 10.737928837511006, "step": 2360 }, { "epoch": 0.25184, "grad_norm": 1.735900455255024, "learning_rate": 8.764675304062992e-06, "loss": 0.5631, "step": 2361 }, { "avg_step_time": 5.542112588882446, "epoch": 0.25184, "eta_time": 10.797882694005967, "step": 2361 }, { "epoch": 0.25194666666666665, "grad_norm": 1.882811244974308, "learning_rate": 8.763538234649069e-06, "loss": 0.4843, "step": 2362 }, { "avg_step_time": 5.539149043535946, "epoch": 0.25194666666666665, "eta_time": 10.79057006731044, "step": 2362 }, { "epoch": 0.25205333333333335, "grad_norm": 0.6301305645129117, "learning_rate": 8.76240071599176e-06, "loss": 0.4477, "step": 2363 }, { "avg_step_time": 5.562431691872953, "epoch": 0.25205333333333335, "eta_time": 10.834380839836985, "step": 2363 }, { "epoch": 0.25216, "grad_norm": 1.7373658077049343, "learning_rate": 8.76126274822685e-06, "loss": 0.4739, "step": 2364 }, { "avg_step_time": 5.5318437345100175, "epoch": 0.25216, "eta_time": 10.77326567295826, "step": 2364 }, { "epoch": 0.25226666666666664, "grad_norm": 1.876762833178888, "learning_rate": 8.760124331490174e-06, "loss": 0.5771, "step": 2365 }, { "avg_step_time": 5.531521958534164, "epoch": 0.25226666666666664, "eta_time": 10.771102480367913, "step": 2365 }, { "epoch": 0.25237333333333334, "grad_norm": 2.169880348515638, "learning_rate": 8.75898546591762e-06, "loss": 0.5753, "step": 2366 }, { "avg_step_time": 5.529559222134677, "epoch": 0.25237333333333334, "eta_time": 10.765744607761652, "step": 2366 }, { "epoch": 0.25248, "grad_norm": 1.7593838837161546, "learning_rate": 8.75784615164513e-06, "loss": 0.5632, "step": 2367 }, { "avg_step_time": 5.504841924917819, "epoch": 0.25248, "eta_time": 10.716092280506688, "step": 2367 }, { "epoch": 0.2525866666666667, "grad_norm": 1.596898755475275, "learning_rate": 8.756706388808704e-06, "loss": 0.4076, "step": 2368 }, { "avg_step_time": 5.5049504872524375, "epoch": 0.2525866666666667, "eta_time": 10.714774462271619, "step": 2368 }, { "epoch": 0.2526933333333333, "grad_norm": 1.692911209291967, "learning_rate": 8.755566177544392e-06, "loss": 0.5828, "step": 2369 }, { "avg_step_time": 5.5114434825049505, "epoch": 0.2526933333333333, "eta_time": 10.7258813995638, "step": 2369 }, { "epoch": 0.2528, "grad_norm": 1.560780012905166, "learning_rate": 8.754425517988298e-06, "loss": 0.5371, "step": 2370 }, { "avg_step_time": 5.540625338602548, "epoch": 0.2528, "eta_time": 10.781133471364125, "step": 2370 }, { "epoch": 0.25290666666666667, "grad_norm": 1.8185536498859742, "learning_rate": 8.753284410276579e-06, "loss": 0.5634, "step": 2371 }, { "avg_step_time": 5.53926502333747, "epoch": 0.25290666666666667, "eta_time": 10.77694783984879, "step": 2371 }, { "epoch": 0.2530133333333333, "grad_norm": 1.7556583869342886, "learning_rate": 8.752142854545447e-06, "loss": 0.429, "step": 2372 }, { "avg_step_time": 5.5371453352648805, "epoch": 0.2530133333333333, "eta_time": 10.771285773016656, "step": 2372 }, { "epoch": 0.25312, "grad_norm": 1.6436284358019233, "learning_rate": 8.751000850931162e-06, "loss": 0.5955, "step": 2373 }, { "avg_step_time": 5.5696221433504665, "epoch": 0.25312, "eta_time": 10.832915068816657, "step": 2373 }, { "epoch": 0.25322666666666666, "grad_norm": 1.7508211706248196, "learning_rate": 8.749858399570047e-06, "loss": 0.4996, "step": 2374 }, { "avg_step_time": 5.571406978549379, "epoch": 0.25322666666666666, "eta_time": 10.834838960228945, "step": 2374 }, { "epoch": 0.25333333333333335, "grad_norm": 1.7142394975676973, "learning_rate": 8.748715500598472e-06, "loss": 0.5019, "step": 2375 }, { "avg_step_time": 5.565772465985231, "epoch": 0.25333333333333335, "eta_time": 10.822335350526838, "step": 2375 }, { "epoch": 0.25344, "grad_norm": 1.552515432273606, "learning_rate": 8.74757215415286e-06, "loss": 0.4776, "step": 2376 }, { "avg_step_time": 5.5682867271731595, "epoch": 0.25344, "eta_time": 10.825677445412484, "step": 2376 }, { "epoch": 0.25354666666666664, "grad_norm": 1.802429549900352, "learning_rate": 8.746428360369691e-06, "loss": 0.4614, "step": 2377 }, { "avg_step_time": 5.567268051282324, "epoch": 0.25354666666666664, "eta_time": 10.822150506353806, "step": 2377 }, { "epoch": 0.25365333333333334, "grad_norm": 1.5369738374497888, "learning_rate": 8.745284119385496e-06, "loss": 0.4967, "step": 2378 }, { "avg_step_time": 5.596999016675082, "epoch": 0.25365333333333334, "eta_time": 10.878389477687653, "step": 2378 }, { "epoch": 0.25376, "grad_norm": 1.8315398423614302, "learning_rate": 8.74413943133686e-06, "loss": 0.5422, "step": 2379 }, { "avg_step_time": 5.598150604903096, "epoch": 0.25376, "eta_time": 10.87907267552835, "step": 2379 }, { "epoch": 0.2538666666666667, "grad_norm": 1.461523957387588, "learning_rate": 8.74299429636042e-06, "loss": 0.4108, "step": 2380 }, { "avg_step_time": 5.5991527817466045, "epoch": 0.2538666666666667, "eta_time": 10.879464918977083, "step": 2380 }, { "epoch": 0.25397333333333333, "grad_norm": 1.7086247473739544, "learning_rate": 8.74184871459287e-06, "loss": 0.5283, "step": 2381 }, { "avg_step_time": 5.599968464687617, "epoch": 0.25397333333333333, "eta_time": 10.879494289451442, "step": 2381 }, { "epoch": 0.25408, "grad_norm": 2.201604743090288, "learning_rate": 8.740702686170955e-06, "loss": 0.5036, "step": 2382 }, { "avg_step_time": 5.602362440089987, "epoch": 0.25408, "eta_time": 10.8825890398748, "step": 2382 }, { "epoch": 0.25418666666666667, "grad_norm": 0.6789792883773929, "learning_rate": 8.739556211231472e-06, "loss": 0.4752, "step": 2383 }, { "avg_step_time": 5.572391416087295, "epoch": 0.25418666666666667, "eta_time": 10.822822439245101, "step": 2383 }, { "epoch": 0.2542933333333333, "grad_norm": 1.9714311355591443, "learning_rate": 8.738409289911272e-06, "loss": 0.5352, "step": 2384 }, { "avg_step_time": 5.571045637130737, "epoch": 0.2542933333333333, "eta_time": 10.818661124772495, "step": 2384 }, { "epoch": 0.2544, "grad_norm": 1.736883132549303, "learning_rate": 8.73726192234726e-06, "loss": 0.5741, "step": 2385 }, { "avg_step_time": 5.580286782197278, "epoch": 0.2544, "eta_time": 10.835056835433047, "step": 2385 }, { "epoch": 0.25450666666666666, "grad_norm": 1.9657125784042324, "learning_rate": 8.736114108676396e-06, "loss": 0.4948, "step": 2386 }, { "avg_step_time": 5.614068594845858, "epoch": 0.25450666666666666, "eta_time": 10.899090391493806, "step": 2386 }, { "epoch": 0.25461333333333336, "grad_norm": 1.6620054721474207, "learning_rate": 8.73496584903569e-06, "loss": 0.5276, "step": 2387 }, { "avg_step_time": 5.615035854204737, "epoch": 0.25461333333333336, "eta_time": 10.899408485884083, "step": 2387 }, { "epoch": 0.25472, "grad_norm": 1.7294685691718565, "learning_rate": 8.733817143562207e-06, "loss": 0.4691, "step": 2388 }, { "avg_step_time": 5.625921141017567, "epoch": 0.25472, "eta_time": 10.918975281191594, "step": 2388 }, { "epoch": 0.25482666666666665, "grad_norm": 1.7397562861892488, "learning_rate": 8.732667992393064e-06, "loss": 0.5271, "step": 2389 }, { "avg_step_time": 5.673358254962498, "epoch": 0.25482666666666665, "eta_time": 11.009466880324448, "step": 2389 }, { "epoch": 0.25493333333333335, "grad_norm": 1.618300016781083, "learning_rate": 8.731518395665434e-06, "loss": 0.4471, "step": 2390 }, { "avg_step_time": 5.671171657966845, "epoch": 0.25493333333333335, "eta_time": 11.003648341916223, "step": 2390 }, { "epoch": 0.25504, "grad_norm": 1.74609548189776, "learning_rate": 8.73036835351654e-06, "loss": 0.5269, "step": 2391 }, { "avg_step_time": 5.6661496644068245, "epoch": 0.25504, "eta_time": 10.99233034894924, "step": 2391 }, { "epoch": 0.2551466666666667, "grad_norm": 1.7011901506950886, "learning_rate": 8.729217866083661e-06, "loss": 0.4911, "step": 2392 }, { "avg_step_time": 5.644003766955751, "epoch": 0.2551466666666667, "eta_time": 10.947799529070002, "step": 2392 }, { "epoch": 0.25525333333333333, "grad_norm": 1.6132577461244249, "learning_rate": 8.728066933504124e-06, "loss": 0.5754, "step": 2393 }, { "avg_step_time": 5.69254136567164, "epoch": 0.25525333333333333, "eta_time": 11.040367726422051, "step": 2393 }, { "epoch": 0.25536, "grad_norm": 0.6557249808064672, "learning_rate": 8.726915555915317e-06, "loss": 0.4572, "step": 2394 }, { "avg_step_time": 5.6366219062997835, "epoch": 0.25536, "eta_time": 10.930349313299665, "step": 2394 }, { "epoch": 0.2554666666666667, "grad_norm": 1.7500702512176818, "learning_rate": 8.725763733454673e-06, "loss": 0.6045, "step": 2395 }, { "avg_step_time": 5.635180600965866, "epoch": 0.2554666666666667, "eta_time": 10.925989054094929, "step": 2395 }, { "epoch": 0.2555733333333333, "grad_norm": 1.548459628398276, "learning_rate": 8.724611466259682e-06, "loss": 0.4082, "step": 2396 }, { "avg_step_time": 5.635533019749805, "epoch": 0.2555733333333333, "eta_time": 10.925106929120524, "step": 2396 }, { "epoch": 0.25568, "grad_norm": 1.6553400435100567, "learning_rate": 8.723458754467893e-06, "loss": 0.538, "step": 2397 }, { "avg_step_time": 5.622251968191128, "epoch": 0.25568, "eta_time": 10.897798398343802, "step": 2397 }, { "epoch": 0.25578666666666666, "grad_norm": 1.6862765843694214, "learning_rate": 8.722305598216895e-06, "loss": 0.5076, "step": 2398 }, { "avg_step_time": 5.621709797117445, "epoch": 0.25578666666666666, "eta_time": 10.89518590402456, "step": 2398 }, { "epoch": 0.2558933333333333, "grad_norm": 1.6814013262713945, "learning_rate": 8.72115199764434e-06, "loss": 0.4733, "step": 2399 }, { "avg_step_time": 5.61574103133847, "epoch": 0.2558933333333333, "eta_time": 10.882058176282547, "step": 2399 }, { "epoch": 0.256, "grad_norm": 1.5246675068416093, "learning_rate": 8.719997952887932e-06, "loss": 0.4619, "step": 2400 }, { "avg_step_time": 5.625609732637502, "epoch": 0.256, "eta_time": 10.89961885698516, "step": 2400 }, { "epoch": 0.25610666666666665, "grad_norm": 1.7465054836257607, "learning_rate": 8.71884346408542e-06, "loss": 0.4808, "step": 2401 }, { "avg_step_time": 5.620995227736656, "epoch": 0.25610666666666665, "eta_time": 10.889116866176511, "step": 2401 }, { "epoch": 0.25621333333333335, "grad_norm": 1.6498369685101164, "learning_rate": 8.71768853137462e-06, "loss": 0.4295, "step": 2402 }, { "avg_step_time": 5.5992820792728, "epoch": 0.25621333333333335, "eta_time": 10.845498316324788, "step": 2402 }, { "epoch": 0.25632, "grad_norm": 1.7649369733172948, "learning_rate": 8.71653315489339e-06, "loss": 0.5062, "step": 2403 }, { "avg_step_time": 5.596738836982033, "epoch": 0.25632, "eta_time": 10.839017547621872, "step": 2403 }, { "epoch": 0.2564266666666667, "grad_norm": 1.7521419463037045, "learning_rate": 8.715377334779642e-06, "loss": 0.4275, "step": 2404 }, { "avg_step_time": 5.592561659186777, "epoch": 0.2564266666666667, "eta_time": 10.829374257275283, "step": 2404 }, { "epoch": 0.25653333333333334, "grad_norm": 1.4531429336235502, "learning_rate": 8.714221071171345e-06, "loss": 0.4049, "step": 2405 }, { "avg_step_time": 5.566720011258366, "epoch": 0.25653333333333334, "eta_time": 10.77778846624189, "step": 2405 }, { "epoch": 0.25664, "grad_norm": 1.782623119375414, "learning_rate": 8.71306436420652e-06, "loss": 0.5214, "step": 2406 }, { "avg_step_time": 5.5645310252603855, "epoch": 0.25664, "eta_time": 10.772004643066563, "step": 2406 }, { "epoch": 0.2567466666666667, "grad_norm": 1.5906154625269555, "learning_rate": 8.711907214023238e-06, "loss": 0.4879, "step": 2407 }, { "avg_step_time": 5.5520293592202545, "epoch": 0.2567466666666667, "eta_time": 10.746261270846315, "step": 2407 }, { "epoch": 0.2568533333333333, "grad_norm": 1.8245356336924212, "learning_rate": 8.710749620759627e-06, "loss": 0.5335, "step": 2408 }, { "avg_step_time": 5.558515664302941, "epoch": 0.2568533333333333, "eta_time": 10.757271842555165, "step": 2408 }, { "epoch": 0.25696, "grad_norm": 2.076515621735142, "learning_rate": 8.709591584553865e-06, "loss": 0.5128, "step": 2409 }, { "avg_step_time": 5.576774589943163, "epoch": 0.25696, "eta_time": 10.79105883154002, "step": 2409 }, { "epoch": 0.25706666666666667, "grad_norm": 1.6063481552736592, "learning_rate": 8.708433105544183e-06, "loss": 0.4841, "step": 2410 }, { "avg_step_time": 5.572820148082695, "epoch": 0.25706666666666667, "eta_time": 10.781858980943325, "step": 2410 }, { "epoch": 0.2571733333333333, "grad_norm": 2.0417057110155556, "learning_rate": 8.707274183868865e-06, "loss": 0.5182, "step": 2411 }, { "avg_step_time": 5.560112575087884, "epoch": 0.2571733333333333, "eta_time": 10.755728881364453, "step": 2411 }, { "epoch": 0.25728, "grad_norm": 1.8180478641523674, "learning_rate": 8.706114819666249e-06, "loss": 0.4924, "step": 2412 }, { "avg_step_time": 5.623755120267772, "epoch": 0.25728, "eta_time": 10.877279695117915, "step": 2412 }, { "epoch": 0.25738666666666665, "grad_norm": 1.6590131185962687, "learning_rate": 8.704955013074727e-06, "loss": 0.5605, "step": 2413 }, { "avg_step_time": 5.628834760550297, "epoch": 0.25738666666666665, "eta_time": 10.885541000819767, "step": 2413 }, { "epoch": 0.25749333333333335, "grad_norm": 1.9079105461464436, "learning_rate": 8.703794764232739e-06, "loss": 0.527, "step": 2414 }, { "avg_step_time": 5.591974265647657, "epoch": 0.25749333333333335, "eta_time": 10.812703573103706, "step": 2414 }, { "epoch": 0.2576, "grad_norm": 1.5526192886185064, "learning_rate": 8.702634073278784e-06, "loss": 0.5321, "step": 2415 }, { "avg_step_time": 5.592250845649025, "epoch": 0.2576, "eta_time": 10.811684968254783, "step": 2415 }, { "epoch": 0.25770666666666664, "grad_norm": 0.6815801002038526, "learning_rate": 8.701472940351407e-06, "loss": 0.4556, "step": 2416 }, { "avg_step_time": 5.561819637664641, "epoch": 0.25770666666666664, "eta_time": 10.751306349585622, "step": 2416 }, { "epoch": 0.25781333333333334, "grad_norm": 1.8187347440231492, "learning_rate": 8.70031136558921e-06, "loss": 0.4715, "step": 2417 }, { "avg_step_time": 5.560423528305208, "epoch": 0.25781333333333334, "eta_time": 10.74706303054101, "step": 2417 }, { "epoch": 0.25792, "grad_norm": 1.5465462591374382, "learning_rate": 8.699149349130848e-06, "loss": 0.4892, "step": 2418 }, { "avg_step_time": 5.566723385242501, "epoch": 0.25792, "eta_time": 10.757692941981134, "step": 2418 }, { "epoch": 0.2580266666666667, "grad_norm": 1.5701713106944204, "learning_rate": 8.697986891115031e-06, "loss": 0.5051, "step": 2419 }, { "avg_step_time": 5.599778933958574, "epoch": 0.2580266666666667, "eta_time": 10.820017295726624, "step": 2419 }, { "epoch": 0.2581333333333333, "grad_norm": 1.8713898637473418, "learning_rate": 8.696823991680514e-06, "loss": 0.5899, "step": 2420 }, { "avg_step_time": 5.609622290640166, "epoch": 0.2581333333333333, "eta_time": 10.837478619833986, "step": 2420 }, { "epoch": 0.25824, "grad_norm": 1.8233619586664376, "learning_rate": 8.695660650966109e-06, "loss": 0.4652, "step": 2421 }, { "avg_step_time": 5.601479869900328, "epoch": 0.25824, "eta_time": 10.8201919486908, "step": 2421 }, { "epoch": 0.25834666666666667, "grad_norm": 1.7098145582411624, "learning_rate": 8.694496869110682e-06, "loss": 0.5009, "step": 2422 }, { "avg_step_time": 5.596277713775635, "epoch": 0.25834666666666667, "eta_time": 10.808588595522775, "step": 2422 }, { "epoch": 0.2584533333333333, "grad_norm": 1.8037218691570227, "learning_rate": 8.693332646253151e-06, "loss": 0.5124, "step": 2423 }, { "avg_step_time": 5.597955554422706, "epoch": 0.2584533333333333, "eta_time": 10.810274170651846, "step": 2423 }, { "epoch": 0.25856, "grad_norm": 0.6493489097193936, "learning_rate": 8.692167982532487e-06, "loss": 0.4445, "step": 2424 }, { "avg_step_time": 5.560465456259371, "epoch": 0.25856, "eta_time": 10.736332051794136, "step": 2424 }, { "epoch": 0.25866666666666666, "grad_norm": 1.6666562771183815, "learning_rate": 8.69100287808771e-06, "loss": 0.4989, "step": 2425 }, { "avg_step_time": 5.543564261812152, "epoch": 0.25866666666666666, "eta_time": 10.702158783220684, "step": 2425 }, { "epoch": 0.25877333333333336, "grad_norm": 1.8845294489657989, "learning_rate": 8.689837333057899e-06, "loss": 0.5247, "step": 2426 }, { "avg_step_time": 5.544273424630213, "epoch": 0.25877333333333336, "eta_time": 10.701987785487598, "step": 2426 }, { "epoch": 0.25888, "grad_norm": 1.7116531630764205, "learning_rate": 8.688671347582178e-06, "loss": 0.5396, "step": 2427 }, { "avg_step_time": 5.5774658617347175, "epoch": 0.25888, "eta_time": 10.764509113148005, "step": 2427 }, { "epoch": 0.25898666666666664, "grad_norm": 1.610711667868967, "learning_rate": 8.687504921799731e-06, "loss": 0.5524, "step": 2428 }, { "avg_step_time": 5.576100872020529, "epoch": 0.25898666666666664, "eta_time": 10.760325766090727, "step": 2428 }, { "epoch": 0.25909333333333334, "grad_norm": 1.7605301309502739, "learning_rate": 8.686338055849789e-06, "loss": 0.5406, "step": 2429 }, { "avg_step_time": 5.606667477675159, "epoch": 0.25909333333333334, "eta_time": 10.817753416647681, "step": 2429 }, { "epoch": 0.2592, "grad_norm": 1.5239659071349534, "learning_rate": 8.685170749871638e-06, "loss": 0.4718, "step": 2430 }, { "avg_step_time": 5.60594556066725, "epoch": 0.2592, "eta_time": 10.814803310787235, "step": 2430 }, { "epoch": 0.2593066666666667, "grad_norm": 1.7492207357609033, "learning_rate": 8.684003004004618e-06, "loss": 0.5258, "step": 2431 }, { "avg_step_time": 5.644407433692855, "epoch": 0.2593066666666667, "eta_time": 10.887434783211997, "step": 2431 }, { "epoch": 0.25941333333333333, "grad_norm": 1.800649641510267, "learning_rate": 8.682834818388115e-06, "loss": 0.5511, "step": 2432 }, { "avg_step_time": 5.648577384274415, "epoch": 0.25941333333333333, "eta_time": 10.893909105282575, "step": 2432 }, { "epoch": 0.25952, "grad_norm": 1.8147340716179658, "learning_rate": 8.681666193161578e-06, "loss": 0.4288, "step": 2433 }, { "avg_step_time": 5.646985408031579, "epoch": 0.25952, "eta_time": 10.889270195154229, "step": 2433 }, { "epoch": 0.2596266666666667, "grad_norm": 1.9661603417560447, "learning_rate": 8.680497128464498e-06, "loss": 0.5824, "step": 2434 }, { "avg_step_time": 5.61841938953207, "epoch": 0.2596266666666667, "eta_time": 10.832624717428361, "step": 2434 }, { "epoch": 0.2597333333333333, "grad_norm": 1.5796749932091714, "learning_rate": 8.679327624436425e-06, "loss": 0.4643, "step": 2435 }, { "avg_step_time": 5.6135520597901, "epoch": 0.2597333333333333, "eta_time": 10.821680915262027, "step": 2435 }, { "epoch": 0.25984, "grad_norm": 1.4929362926379406, "learning_rate": 8.67815768121696e-06, "loss": 0.5142, "step": 2436 }, { "avg_step_time": 5.611918543324326, "epoch": 0.25984, "eta_time": 10.81697299225764, "step": 2436 }, { "epoch": 0.25994666666666666, "grad_norm": 1.7470789068595591, "learning_rate": 8.676987298945757e-06, "loss": 0.5151, "step": 2437 }, { "avg_step_time": 5.616064957898073, "epoch": 0.25994666666666666, "eta_time": 10.823405188304674, "step": 2437 }, { "epoch": 0.26005333333333336, "grad_norm": 1.758229372929525, "learning_rate": 8.675816477762516e-06, "loss": 0.4713, "step": 2438 }, { "avg_step_time": 5.590169282874676, "epoch": 0.26005333333333336, "eta_time": 10.771945643139341, "step": 2438 }, { "epoch": 0.26016, "grad_norm": 1.7046572227610688, "learning_rate": 8.674645217807e-06, "loss": 0.5503, "step": 2439 }, { "avg_step_time": 5.593617171952219, "epoch": 0.26016, "eta_time": 10.777035751294608, "step": 2439 }, { "epoch": 0.26026666666666665, "grad_norm": 1.4247922818432797, "learning_rate": 8.673473519219018e-06, "loss": 0.4796, "step": 2440 }, { "avg_step_time": 5.606228635768698, "epoch": 0.26026666666666665, "eta_time": 10.799776552515533, "step": 2440 }, { "epoch": 0.26037333333333335, "grad_norm": 1.733252602826102, "learning_rate": 8.672301382138432e-06, "loss": 0.468, "step": 2441 }, { "avg_step_time": 5.643015863919499, "epoch": 0.26037333333333335, "eta_time": 10.869075555671612, "step": 2441 }, { "epoch": 0.26048, "grad_norm": 1.6120652108076006, "learning_rate": 8.671128806705159e-06, "loss": 0.4683, "step": 2442 }, { "avg_step_time": 5.643547838384455, "epoch": 0.26048, "eta_time": 10.868532545422063, "step": 2442 }, { "epoch": 0.2605866666666667, "grad_norm": 0.6762439795577794, "learning_rate": 8.669955793059163e-06, "loss": 0.4687, "step": 2443 }, { "avg_step_time": 5.610221747196082, "epoch": 0.2605866666666667, "eta_time": 10.802793653212012, "step": 2443 }, { "epoch": 0.26069333333333333, "grad_norm": 1.6488708402201238, "learning_rate": 8.668782341340464e-06, "loss": 0.479, "step": 2444 }, { "avg_step_time": 5.606226054104892, "epoch": 0.26069333333333333, "eta_time": 10.793542439166947, "step": 2444 }, { "epoch": 0.2608, "grad_norm": 1.7230883198682323, "learning_rate": 8.667608451689135e-06, "loss": 0.5294, "step": 2445 }, { "avg_step_time": 5.638088431021179, "epoch": 0.2608, "eta_time": 10.853320229715772, "step": 2445 }, { "epoch": 0.2609066666666667, "grad_norm": 1.91910249349705, "learning_rate": 8.666434124245298e-06, "loss": 0.5514, "step": 2446 }, { "avg_step_time": 5.672692137535172, "epoch": 0.2609066666666667, "eta_time": 10.918356616939224, "step": 2446 }, { "epoch": 0.2610133333333333, "grad_norm": 1.5808977074538497, "learning_rate": 8.665259359149132e-06, "loss": 0.5427, "step": 2447 }, { "avg_step_time": 5.705289241039392, "epoch": 0.2610133333333333, "eta_time": 10.979512183866918, "step": 2447 }, { "epoch": 0.26112, "grad_norm": 1.9418504022145664, "learning_rate": 8.664084156540864e-06, "loss": 0.4927, "step": 2448 }, { "avg_step_time": 5.70290291670597, "epoch": 0.26112, "eta_time": 10.973335695561737, "step": 2448 }, { "epoch": 0.26122666666666666, "grad_norm": 1.826060955830288, "learning_rate": 8.662908516560774e-06, "loss": 0.5345, "step": 2449 }, { "avg_step_time": 5.710530565242575, "epoch": 0.26122666666666666, "eta_time": 10.986426304130577, "step": 2449 }, { "epoch": 0.2613333333333333, "grad_norm": 1.8210228901293193, "learning_rate": 8.661732439349198e-06, "loss": 0.5724, "step": 2450 }, { "avg_step_time": 5.699239039661909, "epoch": 0.2613333333333333, "eta_time": 10.963119541571867, "step": 2450 }, { "epoch": 0.26144, "grad_norm": 1.9167924585932297, "learning_rate": 8.660555925046518e-06, "loss": 0.4632, "step": 2451 }, { "avg_step_time": 5.73617666658729, "epoch": 0.26144, "eta_time": 11.032579788736221, "step": 2451 }, { "epoch": 0.26154666666666665, "grad_norm": 0.6375390366613515, "learning_rate": 8.659378973793173e-06, "loss": 0.4187, "step": 2452 }, { "avg_step_time": 5.709988548298075, "epoch": 0.26154666666666665, "eta_time": 10.980625199963214, "step": 2452 }, { "epoch": 0.26165333333333335, "grad_norm": 1.55132444640491, "learning_rate": 8.658201585729652e-06, "loss": 0.4806, "step": 2453 }, { "avg_step_time": 5.708484801379117, "epoch": 0.26165333333333335, "eta_time": 10.976147720873957, "step": 2453 }, { "epoch": 0.26176, "grad_norm": 1.4927926696979317, "learning_rate": 8.657023760996497e-06, "loss": 0.5095, "step": 2454 }, { "avg_step_time": 5.712225186704385, "epoch": 0.26176, "eta_time": 10.981752921439181, "step": 2454 }, { "epoch": 0.2618666666666667, "grad_norm": 1.6620500149110606, "learning_rate": 8.655845499734298e-06, "loss": 0.4667, "step": 2455 }, { "avg_step_time": 5.708602262265755, "epoch": 0.2618666666666667, "eta_time": 10.973202126355284, "step": 2455 }, { "epoch": 0.26197333333333334, "grad_norm": 1.6654553636203069, "learning_rate": 8.654666802083708e-06, "loss": 0.5715, "step": 2456 }, { "avg_step_time": 5.708111543848057, "epoch": 0.26197333333333334, "eta_time": 10.970673269967975, "step": 2456 }, { "epoch": 0.26208, "grad_norm": 1.6346022769849082, "learning_rate": 8.653487668185419e-06, "loss": 0.5677, "step": 2457 }, { "avg_step_time": 5.736239852327289, "epoch": 0.26208, "eta_time": 11.023140916222273, "step": 2457 }, { "epoch": 0.2621866666666667, "grad_norm": 1.7597373955450013, "learning_rate": 8.652308098180186e-06, "loss": 0.5122, "step": 2458 }, { "avg_step_time": 5.7317077969059795, "epoch": 0.2621866666666667, "eta_time": 11.012839675332962, "step": 2458 }, { "epoch": 0.2622933333333333, "grad_norm": 1.5457712658463452, "learning_rate": 8.651128092208805e-06, "loss": 0.4481, "step": 2459 }, { "avg_step_time": 5.768714230469983, "epoch": 0.2622933333333333, "eta_time": 11.082341004980666, "step": 2459 }, { "epoch": 0.2624, "grad_norm": 1.918497865439734, "learning_rate": 8.649947650412135e-06, "loss": 0.5232, "step": 2460 }, { "avg_step_time": 5.767598137711033, "epoch": 0.2624, "eta_time": 11.078594756186611, "step": 2460 }, { "epoch": 0.26250666666666667, "grad_norm": 1.736655797326481, "learning_rate": 8.648766772931081e-06, "loss": 0.5975, "step": 2461 }, { "avg_step_time": 5.772701513887656, "epoch": 0.26250666666666667, "eta_time": 11.086793963060904, "step": 2461 }, { "epoch": 0.2626133333333333, "grad_norm": 0.6488829692883035, "learning_rate": 8.647585459906599e-06, "loss": 0.4431, "step": 2462 }, { "avg_step_time": 5.7494684445737585, "epoch": 0.2626133333333333, "eta_time": 11.040576488149553, "step": 2462 }, { "epoch": 0.26272, "grad_norm": 1.697372236966009, "learning_rate": 8.646403711479702e-06, "loss": 0.62, "step": 2463 }, { "avg_step_time": 5.768748808388758, "epoch": 0.26272, "eta_time": 11.075997712106416, "step": 2463 }, { "epoch": 0.26282666666666665, "grad_norm": 1.7057015619024163, "learning_rate": 8.64522152779145e-06, "loss": 0.4485, "step": 2464 }, { "avg_step_time": 5.770116252128524, "epoch": 0.26282666666666665, "eta_time": 11.077020394016731, "step": 2464 }, { "epoch": 0.26293333333333335, "grad_norm": 2.0786755317258647, "learning_rate": 8.64403890898296e-06, "loss": 0.6178, "step": 2465 }, { "avg_step_time": 5.768665140325373, "epoch": 0.26293333333333335, "eta_time": 11.07263225545787, "step": 2465 }, { "epoch": 0.26304, "grad_norm": 1.6737712399532576, "learning_rate": 8.642855855195394e-06, "loss": 0.5174, "step": 2466 }, { "avg_step_time": 5.783978505568071, "epoch": 0.26304, "eta_time": 11.100418748602722, "step": 2466 }, { "epoch": 0.26314666666666664, "grad_norm": 0.6647300016658751, "learning_rate": 8.641672366569972e-06, "loss": 0.4588, "step": 2467 }, { "avg_step_time": 5.749996310532695, "epoch": 0.26314666666666664, "eta_time": 11.033604031433292, "step": 2467 }, { "epoch": 0.26325333333333334, "grad_norm": 1.7166326351428063, "learning_rate": 8.640488443247966e-06, "loss": 0.488, "step": 2468 }, { "avg_step_time": 5.745274156030982, "epoch": 0.26325333333333334, "eta_time": 11.022946832140553, "step": 2468 }, { "epoch": 0.26336, "grad_norm": 1.5792354651287845, "learning_rate": 8.639304085370692e-06, "loss": 0.5968, "step": 2469 }, { "avg_step_time": 5.71485348181291, "epoch": 0.26336, "eta_time": 10.962993929277765, "step": 2469 }, { "epoch": 0.2634666666666667, "grad_norm": 2.0563418102703244, "learning_rate": 8.63811929307953e-06, "loss": 0.5046, "step": 2470 }, { "avg_step_time": 5.7086070258207995, "epoch": 0.2634666666666667, "eta_time": 10.949425420359061, "step": 2470 }, { "epoch": 0.2635733333333333, "grad_norm": 1.8017247049226188, "learning_rate": 8.636934066515901e-06, "loss": 0.4937, "step": 2471 }, { "avg_step_time": 5.709685311172947, "epoch": 0.2635733333333333, "eta_time": 10.949907607871674, "step": 2471 }, { "epoch": 0.26368, "grad_norm": 1.4756781678258957, "learning_rate": 8.635748405821285e-06, "loss": 0.5114, "step": 2472 }, { "avg_step_time": 5.712661928600735, "epoch": 0.26368, "eta_time": 10.95402924809191, "step": 2472 }, { "epoch": 0.26378666666666667, "grad_norm": 2.190140135313253, "learning_rate": 8.634562311137209e-06, "loss": 0.5876, "step": 2473 }, { "avg_step_time": 5.712465481324629, "epoch": 0.26378666666666667, "eta_time": 10.952065764472943, "step": 2473 }, { "epoch": 0.2638933333333333, "grad_norm": 1.7899778299009828, "learning_rate": 8.633375782605256e-06, "loss": 0.5599, "step": 2474 }, { "avg_step_time": 5.714257907385778, "epoch": 0.2638933333333333, "eta_time": 10.953914949685904, "step": 2474 }, { "epoch": 0.264, "grad_norm": 1.3350388433011064, "learning_rate": 8.632188820367056e-06, "loss": 0.3873, "step": 2475 }, { "avg_step_time": 5.712461724425808, "epoch": 0.264, "eta_time": 10.948884971816131, "step": 2475 }, { "epoch": 0.26410666666666666, "grad_norm": 0.6525604838562128, "learning_rate": 8.631001424564298e-06, "loss": 0.4448, "step": 2476 }, { "avg_step_time": 5.678081471510608, "epoch": 0.26410666666666666, "eta_time": 10.881412242208802, "step": 2476 }, { "epoch": 0.26421333333333336, "grad_norm": 1.6439736834495553, "learning_rate": 8.629813595338712e-06, "loss": 0.5886, "step": 2477 }, { "avg_step_time": 5.79897490655533, "epoch": 0.26421333333333336, "eta_time": 11.111480251505185, "step": 2477 }, { "epoch": 0.26432, "grad_norm": 1.7042212011050342, "learning_rate": 8.62862533283209e-06, "loss": 0.4393, "step": 2478 }, { "avg_step_time": 5.799313985940182, "epoch": 0.26432, "eta_time": 11.110519044730399, "step": 2478 }, { "epoch": 0.26442666666666664, "grad_norm": 1.7534316747492995, "learning_rate": 8.627436637186272e-06, "loss": 0.4782, "step": 2479 }, { "avg_step_time": 5.799889270705406, "epoch": 0.26442666666666664, "eta_time": 11.1100101141068, "step": 2479 }, { "epoch": 0.26453333333333334, "grad_norm": 1.7116816573328806, "learning_rate": 8.62624750854315e-06, "loss": 0.4741, "step": 2480 }, { "avg_step_time": 5.795107369471078, "epoch": 0.26453333333333334, "eta_time": 11.09924036458419, "step": 2480 }, { "epoch": 0.26464, "grad_norm": 1.6153146292957363, "learning_rate": 8.625057947044662e-06, "loss": 0.5636, "step": 2481 }, { "avg_step_time": 5.7911912600199384, "epoch": 0.26464, "eta_time": 11.090131262938181, "step": 2481 }, { "epoch": 0.2647466666666667, "grad_norm": 1.7657903200292182, "learning_rate": 8.623867952832806e-06, "loss": 0.5006, "step": 2482 }, { "avg_step_time": 5.820305583452938, "epoch": 0.2647466666666667, "eta_time": 11.144268440761417, "step": 2482 }, { "epoch": 0.26485333333333333, "grad_norm": 1.6924705025796722, "learning_rate": 8.622677526049629e-06, "loss": 0.4894, "step": 2483 }, { "avg_step_time": 5.819154072289515, "epoch": 0.26485333333333333, "eta_time": 11.140447185060928, "step": 2483 }, { "epoch": 0.26496, "grad_norm": 1.8423208382829446, "learning_rate": 8.62148666683723e-06, "loss": 0.5468, "step": 2484 }, { "avg_step_time": 5.8091270947697184, "epoch": 0.26496, "eta_time": 11.11963744723837, "step": 2484 }, { "epoch": 0.2650666666666667, "grad_norm": 1.6473943314913913, "learning_rate": 8.620295375337757e-06, "loss": 0.5438, "step": 2485 }, { "avg_step_time": 5.812505524567883, "epoch": 0.2650666666666667, "eta_time": 11.124489740075754, "step": 2485 }, { "epoch": 0.2651733333333333, "grad_norm": 0.6484815987694301, "learning_rate": 8.619103651693413e-06, "loss": 0.4345, "step": 2486 }, { "avg_step_time": 5.778794067074554, "epoch": 0.2651733333333333, "eta_time": 11.058364535576834, "step": 2486 }, { "epoch": 0.26528, "grad_norm": 0.652621250023297, "learning_rate": 8.617911496046446e-06, "loss": 0.4224, "step": 2487 }, { "avg_step_time": 5.73171999478581, "epoch": 0.26528, "eta_time": 10.96669092335685, "step": 2487 }, { "epoch": 0.26538666666666666, "grad_norm": 1.7965930859553119, "learning_rate": 8.616718908539165e-06, "loss": 0.6498, "step": 2488 }, { "avg_step_time": 5.719922388442839, "epoch": 0.26538666666666666, "eta_time": 10.942529302557176, "step": 2488 }, { "epoch": 0.26549333333333336, "grad_norm": 1.5740460669128276, "learning_rate": 8.615525889313924e-06, "loss": 0.499, "step": 2489 }, { "avg_step_time": 5.717680752879441, "epoch": 0.26549333333333336, "eta_time": 10.93665268453551, "step": 2489 }, { "epoch": 0.2656, "grad_norm": 1.8093532654298028, "learning_rate": 8.614332438513132e-06, "loss": 0.5891, "step": 2490 }, { "avg_step_time": 5.719292390226114, "epoch": 0.2656, "eta_time": 10.938146696307443, "step": 2490 }, { "epoch": 0.26570666666666665, "grad_norm": 0.6567197766797493, "learning_rate": 8.613138556279248e-06, "loss": 0.4293, "step": 2491 }, { "avg_step_time": 5.690027155057348, "epoch": 0.26570666666666665, "eta_time": 10.88059637094855, "step": 2491 }, { "epoch": 0.26581333333333335, "grad_norm": 1.5073100088094187, "learning_rate": 8.611944242754779e-06, "loss": 0.4775, "step": 2492 }, { "avg_step_time": 5.677908032831519, "epoch": 0.26581333333333335, "eta_time": 10.855844719438707, "step": 2492 }, { "epoch": 0.26592, "grad_norm": 1.6552144320928284, "learning_rate": 8.610749498082291e-06, "loss": 0.5085, "step": 2493 }, { "avg_step_time": 5.712417626621748, "epoch": 0.26592, "eta_time": 10.920238362891908, "step": 2493 }, { "epoch": 0.2660266666666667, "grad_norm": 1.7435860613445162, "learning_rate": 8.609554322404396e-06, "loss": 0.5813, "step": 2494 }, { "avg_step_time": 5.709023832070707, "epoch": 0.2660266666666667, "eta_time": 10.912164719021815, "step": 2494 }, { "epoch": 0.26613333333333333, "grad_norm": 0.6564431562399935, "learning_rate": 8.60835871586376e-06, "loss": 0.4564, "step": 2495 }, { "avg_step_time": 5.672512150774098, "epoch": 0.26613333333333333, "eta_time": 10.840800999257166, "step": 2495 }, { "epoch": 0.26624, "grad_norm": 1.410269401295808, "learning_rate": 8.607162678603097e-06, "loss": 0.5, "step": 2496 }, { "avg_step_time": 5.676532516575823, "epoch": 0.26624, "eta_time": 10.846907550423635, "step": 2496 }, { "epoch": 0.2663466666666667, "grad_norm": 1.7930166452668823, "learning_rate": 8.605966210765176e-06, "loss": 0.5725, "step": 2497 }, { "avg_step_time": 5.678888267940945, "epoch": 0.2663466666666667, "eta_time": 10.849831529693837, "step": 2497 }, { "epoch": 0.2664533333333333, "grad_norm": 1.7551363734965224, "learning_rate": 8.604769312492817e-06, "loss": 0.5472, "step": 2498 }, { "avg_step_time": 5.68283712261855, "epoch": 0.2664533333333333, "eta_time": 10.855797470068824, "step": 2498 }, { "epoch": 0.26656, "grad_norm": 1.6185825220065755, "learning_rate": 8.603571983928888e-06, "loss": 0.4065, "step": 2499 }, { "avg_step_time": 5.6722859734236595, "epoch": 0.26656, "eta_time": 10.83406620923919, "step": 2499 }, { "epoch": 0.26666666666666666, "grad_norm": 1.4961406605896455, "learning_rate": 8.602374225216313e-06, "loss": 0.5025, "step": 2500 }, { "avg_step_time": 5.671729911457408, "epoch": 0.26666666666666666, "eta_time": 10.83142865035269, "step": 2500 }, { "epoch": 0.2667733333333333, "grad_norm": 1.729147387437584, "learning_rate": 8.601176036498066e-06, "loss": 0.5602, "step": 2501 }, { "avg_step_time": 5.673324240578546, "epoch": 0.2667733333333333, "eta_time": 10.8328974527047, "step": 2501 }, { "epoch": 0.26688, "grad_norm": 1.9630867571510366, "learning_rate": 8.599977417917169e-06, "loss": 0.5463, "step": 2502 }, { "avg_step_time": 5.675069828226109, "epoch": 0.26688, "eta_time": 10.834654147055014, "step": 2502 }, { "epoch": 0.26698666666666665, "grad_norm": 1.5701243912693215, "learning_rate": 8.598778369616699e-06, "loss": 0.5145, "step": 2503 }, { "avg_step_time": 5.726293563842773, "epoch": 0.26698666666666665, "eta_time": 10.930858158535427, "step": 2503 }, { "epoch": 0.26709333333333335, "grad_norm": 1.510528902442253, "learning_rate": 8.597578891739784e-06, "loss": 0.5575, "step": 2504 }, { "avg_step_time": 5.742788370209511, "epoch": 0.26709333333333335, "eta_time": 10.960749692141542, "step": 2504 }, { "epoch": 0.2672, "grad_norm": 1.7839691393862902, "learning_rate": 8.5963789844296e-06, "loss": 0.5387, "step": 2505 }, { "avg_step_time": 5.742459501882996, "epoch": 0.2672, "eta_time": 10.95852688276005, "step": 2505 }, { "epoch": 0.2673066666666667, "grad_norm": 1.5804190907570392, "learning_rate": 8.59517864782938e-06, "loss": 0.5354, "step": 2506 }, { "avg_step_time": 5.741973424198652, "epoch": 0.2673066666666667, "eta_time": 10.956004291894596, "step": 2506 }, { "epoch": 0.26741333333333334, "grad_norm": 1.7368285939900123, "learning_rate": 8.593977882082403e-06, "loss": 0.5096, "step": 2507 }, { "avg_step_time": 5.736710143811775, "epoch": 0.26741333333333334, "eta_time": 10.944368129916464, "step": 2507 }, { "epoch": 0.26752, "grad_norm": 1.672428080327333, "learning_rate": 8.592776687332003e-06, "loss": 0.4638, "step": 2508 }, { "avg_step_time": 5.726032789307411, "epoch": 0.26752, "eta_time": 10.922407545603887, "step": 2508 }, { "epoch": 0.2676266666666667, "grad_norm": 0.7193422654022836, "learning_rate": 8.59157506372156e-06, "loss": 0.4461, "step": 2509 }, { "avg_step_time": 5.692103217346499, "epoch": 0.2676266666666667, "eta_time": 10.85610574730585, "step": 2509 }, { "epoch": 0.2677333333333333, "grad_norm": 1.7038598381568486, "learning_rate": 8.59037301139451e-06, "loss": 0.5855, "step": 2510 }, { "avg_step_time": 5.692286503435385, "epoch": 0.2677333333333333, "eta_time": 10.8548741239122, "step": 2510 }, { "epoch": 0.26784, "grad_norm": 1.6973354085585677, "learning_rate": 8.58917053049434e-06, "loss": 0.5485, "step": 2511 }, { "avg_step_time": 5.6601379929166855, "epoch": 0.26784, "eta_time": 10.791996439827813, "step": 2511 }, { "epoch": 0.26794666666666667, "grad_norm": 0.6524054562844567, "learning_rate": 8.587967621164586e-06, "loss": 0.4644, "step": 2512 }, { "avg_step_time": 5.623706323931915, "epoch": 0.26794666666666667, "eta_time": 10.720971250317982, "step": 2512 }, { "epoch": 0.2680533333333333, "grad_norm": 1.4512188123729617, "learning_rate": 8.586764283548837e-06, "loss": 0.4617, "step": 2513 }, { "avg_step_time": 5.6228529443644515, "epoch": 0.2680533333333333, "eta_time": 10.717782473396909, "step": 2513 }, { "epoch": 0.26816, "grad_norm": 1.6666410804865228, "learning_rate": 8.58556051779073e-06, "loss": 0.4728, "step": 2514 }, { "avg_step_time": 5.625586909477157, "epoch": 0.26816, "eta_time": 10.721431051645215, "step": 2514 }, { "epoch": 0.26826666666666665, "grad_norm": 0.6344517996801007, "learning_rate": 8.584356324033955e-06, "loss": 0.4571, "step": 2515 }, { "avg_step_time": 5.625414665299233, "epoch": 0.26826666666666665, "eta_time": 10.719540167764649, "step": 2515 }, { "epoch": 0.26837333333333335, "grad_norm": 1.3056962553962208, "learning_rate": 8.583151702422258e-06, "loss": 0.4639, "step": 2516 }, { "avg_step_time": 5.62391165290216, "epoch": 0.26837333333333335, "eta_time": 10.715113896459977, "step": 2516 }, { "epoch": 0.26848, "grad_norm": 1.556627212531144, "learning_rate": 8.581946653099427e-06, "loss": 0.4499, "step": 2517 }, { "avg_step_time": 5.620895954093548, "epoch": 0.26848, "eta_time": 10.70780679254821, "step": 2517 }, { "epoch": 0.26858666666666664, "grad_norm": 1.8092111833200104, "learning_rate": 8.580741176209307e-06, "loss": 0.5408, "step": 2518 }, { "avg_step_time": 5.62765181425846, "epoch": 0.26858666666666664, "eta_time": 10.719113469547295, "step": 2518 }, { "epoch": 0.26869333333333334, "grad_norm": 1.6088091835312983, "learning_rate": 8.579535271895791e-06, "loss": 0.4587, "step": 2519 }, { "avg_step_time": 5.63307653292261, "epoch": 0.26869333333333334, "eta_time": 10.727881308254837, "step": 2519 }, { "epoch": 0.2688, "grad_norm": 1.8836992362395388, "learning_rate": 8.578328940302827e-06, "loss": 0.4889, "step": 2520 }, { "avg_step_time": 5.625076775599008, "epoch": 0.2688, "eta_time": 10.711083693536445, "step": 2520 }, { "epoch": 0.2689066666666667, "grad_norm": 1.6464920759116677, "learning_rate": 8.57712218157441e-06, "loss": 0.484, "step": 2521 }, { "avg_step_time": 5.632312119609177, "epoch": 0.2689066666666667, "eta_time": 10.723296463278139, "step": 2521 }, { "epoch": 0.2690133333333333, "grad_norm": 1.7407185729024566, "learning_rate": 8.575914995854588e-06, "loss": 0.5044, "step": 2522 }, { "avg_step_time": 5.641053830734407, "epoch": 0.2690133333333333, "eta_time": 10.738372750561915, "step": 2522 }, { "epoch": 0.26912, "grad_norm": 0.6941906280704461, "learning_rate": 8.574707383287459e-06, "loss": 0.4504, "step": 2523 }, { "avg_step_time": 5.662961032655504, "epoch": 0.26912, "eta_time": 10.778502498820977, "step": 2523 }, { "epoch": 0.26922666666666667, "grad_norm": 1.4022771032186647, "learning_rate": 8.573499344017174e-06, "loss": 0.5288, "step": 2524 }, { "avg_step_time": 5.66017862281414, "epoch": 0.26922666666666667, "eta_time": 10.771634373583241, "step": 2524 }, { "epoch": 0.2693333333333333, "grad_norm": 1.7454921162553856, "learning_rate": 8.57229087818793e-06, "loss": 0.5358, "step": 2525 }, { "avg_step_time": 5.658905060604365, "epoch": 0.2693333333333333, "eta_time": 10.767638795872195, "step": 2525 }, { "epoch": 0.26944, "grad_norm": 1.6267933404248514, "learning_rate": 8.571081985943984e-06, "loss": 0.4404, "step": 2526 }, { "avg_step_time": 5.656831700392444, "epoch": 0.26944, "eta_time": 10.762122309996624, "step": 2526 }, { "epoch": 0.26954666666666666, "grad_norm": 1.8680762623539846, "learning_rate": 8.56987266742963e-06, "loss": 0.5623, "step": 2527 }, { "avg_step_time": 5.665221443079939, "epoch": 0.26954666666666666, "eta_time": 10.776510122836507, "step": 2527 }, { "epoch": 0.26965333333333336, "grad_norm": 1.7010481014496737, "learning_rate": 8.568662922789229e-06, "loss": 0.4232, "step": 2528 }, { "avg_step_time": 5.691947313270184, "epoch": 0.26965333333333336, "eta_time": 10.825767570544707, "step": 2528 }, { "epoch": 0.26976, "grad_norm": 1.536846619464315, "learning_rate": 8.567452752167183e-06, "loss": 0.4983, "step": 2529 }, { "avg_step_time": 5.692410457013834, "epoch": 0.26976, "eta_time": 10.825067219087973, "step": 2529 }, { "epoch": 0.26986666666666664, "grad_norm": 1.42620943167843, "learning_rate": 8.566242155707942e-06, "loss": 0.4317, "step": 2530 }, { "avg_step_time": 5.696025328202681, "epoch": 0.26986666666666664, "eta_time": 10.830359269874263, "step": 2530 }, { "epoch": 0.26997333333333334, "grad_norm": 1.8135909847854699, "learning_rate": 8.565031133556016e-06, "loss": 0.5278, "step": 2531 }, { "avg_step_time": 5.694948309599751, "epoch": 0.26997333333333334, "eta_time": 10.826729508583528, "step": 2531 }, { "epoch": 0.27008, "grad_norm": 1.4353281669213784, "learning_rate": 8.563819685855963e-06, "loss": 0.4384, "step": 2532 }, { "avg_step_time": 5.700645302281235, "epoch": 0.27008, "eta_time": 10.835976612086247, "step": 2532 }, { "epoch": 0.2701866666666667, "grad_norm": 1.7193233334224494, "learning_rate": 8.562607812752386e-06, "loss": 0.5847, "step": 2533 }, { "avg_step_time": 5.700491223672424, "epoch": 0.2701866666666667, "eta_time": 10.834100264546313, "step": 2533 }, { "epoch": 0.27029333333333333, "grad_norm": 1.7056621055643744, "learning_rate": 8.561395514389945e-06, "loss": 0.5697, "step": 2534 }, { "avg_step_time": 5.699088125517874, "epoch": 0.27029333333333333, "eta_time": 10.829850518518827, "step": 2534 }, { "epoch": 0.2704, "grad_norm": 1.9261703560339227, "learning_rate": 8.560182790913349e-06, "loss": 0.49, "step": 2535 }, { "avg_step_time": 5.703469276428223, "epoch": 0.2704, "eta_time": 10.836591625213623, "step": 2535 }, { "epoch": 0.2705066666666667, "grad_norm": 1.6319965369913907, "learning_rate": 8.558969642467356e-06, "loss": 0.5085, "step": 2536 }, { "avg_step_time": 5.69954958588186, "epoch": 0.2705066666666667, "eta_time": 10.827561004957232, "step": 2536 }, { "epoch": 0.2706133333333333, "grad_norm": 1.5338450994534853, "learning_rate": 8.557756069196779e-06, "loss": 0.5321, "step": 2537 }, { "avg_step_time": 5.700048733239222, "epoch": 0.2706133333333333, "eta_time": 10.826925899413835, "step": 2537 }, { "epoch": 0.27072, "grad_norm": 1.8242466933083463, "learning_rate": 8.556542071246476e-06, "loss": 0.4813, "step": 2538 }, { "avg_step_time": 5.6991407847163655, "epoch": 0.27072, "eta_time": 10.82361820697383, "step": 2538 }, { "epoch": 0.27082666666666666, "grad_norm": 0.6293308759110464, "learning_rate": 8.555327648761362e-06, "loss": 0.4506, "step": 2539 }, { "avg_step_time": 5.666773475781835, "epoch": 0.27082666666666666, "eta_time": 10.760573189012396, "step": 2539 }, { "epoch": 0.27093333333333336, "grad_norm": 1.7580072534753188, "learning_rate": 8.554112801886396e-06, "loss": 0.5139, "step": 2540 }, { "avg_step_time": 5.666604449050595, "epoch": 0.27093333333333336, "eta_time": 10.758678169239115, "step": 2540 }, { "epoch": 0.27104, "grad_norm": 1.5441633360230664, "learning_rate": 8.552897530766592e-06, "loss": 0.4586, "step": 2541 }, { "avg_step_time": 5.665800925457116, "epoch": 0.27104, "eta_time": 10.755578756826091, "step": 2541 }, { "epoch": 0.27114666666666665, "grad_norm": 1.6305921128108336, "learning_rate": 8.551681835547014e-06, "loss": 0.405, "step": 2542 }, { "avg_step_time": 5.722887094574745, "epoch": 0.27114666666666665, "eta_time": 10.862357643674788, "step": 2542 }, { "epoch": 0.27125333333333335, "grad_norm": 1.5483895675768666, "learning_rate": 8.550465716372777e-06, "loss": 0.4375, "step": 2543 }, { "avg_step_time": 5.723120723107849, "epoch": 0.27125333333333335, "eta_time": 10.861211327853562, "step": 2543 }, { "epoch": 0.27136, "grad_norm": 0.6563897743244412, "learning_rate": 8.549249173389045e-06, "loss": 0.4654, "step": 2544 }, { "avg_step_time": 5.710602196780118, "epoch": 0.27136, "eta_time": 10.835867668390273, "step": 2544 }, { "epoch": 0.2714666666666667, "grad_norm": 1.6310308323725973, "learning_rate": 8.548032206741033e-06, "loss": 0.5075, "step": 2545 }, { "avg_step_time": 5.707958019140995, "epoch": 0.2714666666666667, "eta_time": 10.829264797425832, "step": 2545 }, { "epoch": 0.27157333333333333, "grad_norm": 1.791180579187794, "learning_rate": 8.546814816574008e-06, "loss": 0.57, "step": 2546 }, { "avg_step_time": 5.70596156216631, "epoch": 0.27157333333333333, "eta_time": 10.823892085564927, "step": 2546 }, { "epoch": 0.27168, "grad_norm": 1.7515180055641622, "learning_rate": 8.545597003033286e-06, "loss": 0.5233, "step": 2547 }, { "avg_step_time": 5.681465979778405, "epoch": 0.27168, "eta_time": 10.775847141646375, "step": 2547 }, { "epoch": 0.2717866666666667, "grad_norm": 1.666779426182161, "learning_rate": 8.544378766264231e-06, "loss": 0.5466, "step": 2548 }, { "avg_step_time": 5.683127261171437, "epoch": 0.2717866666666667, "eta_time": 10.777419392227056, "step": 2548 }, { "epoch": 0.2718933333333333, "grad_norm": 1.984679000320635, "learning_rate": 8.54316010641227e-06, "loss": 0.5215, "step": 2549 }, { "avg_step_time": 5.68581406757085, "epoch": 0.2718933333333333, "eta_time": 10.78093522923295, "step": 2549 }, { "epoch": 0.272, "grad_norm": 1.9077436997717299, "learning_rate": 8.54194102362286e-06, "loss": 0.557, "step": 2550 }, { "avg_step_time": 5.655452518752127, "epoch": 0.272, "eta_time": 10.72179540013424, "step": 2550 }, { "epoch": 0.27210666666666666, "grad_norm": 1.5359664718319324, "learning_rate": 8.540721518041527e-06, "loss": 0.4952, "step": 2551 }, { "avg_step_time": 5.689134236538049, "epoch": 0.27210666666666666, "eta_time": 10.784070008371012, "step": 2551 }, { "epoch": 0.2722133333333333, "grad_norm": 0.660842630241782, "learning_rate": 8.539501589813837e-06, "loss": 0.4597, "step": 2552 }, { "avg_step_time": 5.656550140091867, "epoch": 0.2722133333333333, "eta_time": 10.720733779401892, "step": 2552 }, { "epoch": 0.27232, "grad_norm": 0.6736620217968828, "learning_rate": 8.538281239085411e-06, "loss": 0.4544, "step": 2553 }, { "avg_step_time": 5.617661733819981, "epoch": 0.27232, "eta_time": 10.645468985588865, "step": 2553 }, { "epoch": 0.27242666666666665, "grad_norm": 1.6243587896196394, "learning_rate": 8.537060466001917e-06, "loss": 0.4377, "step": 2554 }, { "avg_step_time": 5.6171681423379916, "epoch": 0.27242666666666665, "eta_time": 10.642973305246512, "step": 2554 }, { "epoch": 0.27253333333333335, "grad_norm": 1.6342673130800611, "learning_rate": 8.535839270709076e-06, "loss": 0.5, "step": 2555 }, { "avg_step_time": 5.618023200468584, "epoch": 0.27253333333333335, "eta_time": 10.643032840887706, "step": 2555 }, { "epoch": 0.27264, "grad_norm": 1.8338742682338114, "learning_rate": 8.534617653352661e-06, "loss": 0.4318, "step": 2556 }, { "avg_step_time": 5.61907363419581, "epoch": 0.27264, "eta_time": 10.64346197543923, "step": 2556 }, { "epoch": 0.2727466666666667, "grad_norm": 1.6655039690604414, "learning_rate": 8.533395614078492e-06, "loss": 0.5312, "step": 2557 }, { "avg_step_time": 5.622018953766486, "epoch": 0.2727466666666667, "eta_time": 10.647479229661084, "step": 2557 }, { "epoch": 0.27285333333333334, "grad_norm": 1.5629286532572508, "learning_rate": 8.532173153032439e-06, "loss": 0.4862, "step": 2558 }, { "avg_step_time": 5.622785895761817, "epoch": 0.27285333333333334, "eta_time": 10.647369847613419, "step": 2558 }, { "epoch": 0.27296, "grad_norm": 1.6414619792663376, "learning_rate": 8.530950270360425e-06, "loss": 0.4694, "step": 2559 }, { "avg_step_time": 5.621631191234396, "epoch": 0.27296, "eta_time": 10.643621722070456, "step": 2559 }, { "epoch": 0.2730666666666667, "grad_norm": 1.7476885373286075, "learning_rate": 8.529726966208423e-06, "loss": 0.5215, "step": 2560 }, { "avg_step_time": 5.61770837716382, "epoch": 0.2730666666666667, "eta_time": 10.634634052880955, "step": 2560 }, { "epoch": 0.2731733333333333, "grad_norm": 0.6463042130734051, "learning_rate": 8.528503240722452e-06, "loss": 0.4557, "step": 2561 }, { "avg_step_time": 5.621598284653943, "epoch": 0.2731733333333333, "eta_time": 10.640436308786658, "step": 2561 }, { "epoch": 0.27328, "grad_norm": 1.6629622844356455, "learning_rate": 8.52727909404859e-06, "loss": 0.502, "step": 2562 }, { "avg_step_time": 5.615023345658273, "epoch": 0.27328, "eta_time": 10.626431681658282, "step": 2562 }, { "epoch": 0.27338666666666667, "grad_norm": 2.035355487836622, "learning_rate": 8.526054526332957e-06, "loss": 0.4641, "step": 2563 }, { "avg_step_time": 5.61504062016805, "epoch": 0.27338666666666667, "eta_time": 10.624904640162432, "step": 2563 }, { "epoch": 0.2734933333333333, "grad_norm": 1.7023271371461683, "learning_rate": 8.524829537721725e-06, "loss": 0.4274, "step": 2564 }, { "avg_step_time": 5.61768153219512, "epoch": 0.2734933333333333, "eta_time": 10.62834136549471, "step": 2564 }, { "epoch": 0.2736, "grad_norm": 1.6452750102256666, "learning_rate": 8.523604128361123e-06, "loss": 0.4502, "step": 2565 }, { "avg_step_time": 5.602804875133013, "epoch": 0.2736, "eta_time": 10.598639222126616, "step": 2565 }, { "epoch": 0.27370666666666665, "grad_norm": 1.3689952139194976, "learning_rate": 8.522378298397418e-06, "loss": 0.4646, "step": 2566 }, { "avg_step_time": 5.637335969944193, "epoch": 0.27370666666666665, "eta_time": 10.662394616486115, "step": 2566 }, { "epoch": 0.27381333333333335, "grad_norm": 0.6453947619101251, "learning_rate": 8.52115204797694e-06, "loss": 0.4567, "step": 2567 }, { "avg_step_time": 5.601177555142027, "epoch": 0.27381333333333335, "eta_time": 10.592449109835256, "step": 2567 }, { "epoch": 0.27392, "grad_norm": 1.9026823439018525, "learning_rate": 8.519925377246057e-06, "loss": 0.5367, "step": 2568 }, { "avg_step_time": 5.604511393441094, "epoch": 0.27392, "eta_time": 10.597196959764869, "step": 2568 }, { "epoch": 0.27402666666666664, "grad_norm": 1.823139759078152, "learning_rate": 8.518698286351199e-06, "loss": 0.5279, "step": 2569 }, { "avg_step_time": 5.610732109859736, "epoch": 0.27402666666666664, "eta_time": 10.607400761029268, "step": 2569 }, { "epoch": 0.27413333333333334, "grad_norm": 1.5620846220817222, "learning_rate": 8.517470775438838e-06, "loss": 0.5235, "step": 2570 }, { "avg_step_time": 5.612154346523863, "epoch": 0.27413333333333334, "eta_time": 10.608530646693024, "step": 2570 }, { "epoch": 0.27424, "grad_norm": 1.8915463616396626, "learning_rate": 8.516242844655498e-06, "loss": 0.4892, "step": 2571 }, { "avg_step_time": 5.608222590552436, "epoch": 0.27424, "eta_time": 10.599540696144103, "step": 2571 }, { "epoch": 0.2743466666666667, "grad_norm": 1.6688667976364524, "learning_rate": 8.515014494147758e-06, "loss": 0.4461, "step": 2572 }, { "avg_step_time": 5.631978682797365, "epoch": 0.2743466666666667, "eta_time": 10.64287527196402, "step": 2572 }, { "epoch": 0.2744533333333333, "grad_norm": 1.9731816147574606, "learning_rate": 8.513785724062236e-06, "loss": 0.5304, "step": 2573 }, { "avg_step_time": 5.631188248143052, "epoch": 0.2744533333333333, "eta_time": 10.639817351074734, "step": 2573 }, { "epoch": 0.27456, "grad_norm": 1.4670107541323347, "learning_rate": 8.512556534545612e-06, "loss": 0.4632, "step": 2574 }, { "avg_step_time": 5.6360886963931, "epoch": 0.27456, "eta_time": 10.64751089560263, "step": 2574 }, { "epoch": 0.27466666666666667, "grad_norm": 1.4883450310724047, "learning_rate": 8.51132692574461e-06, "loss": 0.4431, "step": 2575 }, { "avg_step_time": 5.672682042073721, "epoch": 0.27466666666666667, "eta_time": 10.715066079472585, "step": 2575 }, { "epoch": 0.2747733333333333, "grad_norm": 1.560579136650904, "learning_rate": 8.510096897806004e-06, "loss": 0.5069, "step": 2576 }, { "avg_step_time": 5.561267568607523, "epoch": 0.2747733333333333, "eta_time": 10.503071721934042, "step": 2576 }, { "epoch": 0.27488, "grad_norm": 1.745682608431714, "learning_rate": 8.50886645087662e-06, "loss": 0.4295, "step": 2577 }, { "avg_step_time": 5.56013939356563, "epoch": 0.27488, "eta_time": 10.499396554849765, "step": 2577 }, { "epoch": 0.27498666666666666, "grad_norm": 0.6520610257793504, "learning_rate": 8.507635585103333e-06, "loss": 0.4598, "step": 2578 }, { "avg_step_time": 5.525484829237967, "epoch": 0.27498666666666666, "eta_time": 10.432422328980683, "step": 2578 }, { "epoch": 0.27509333333333336, "grad_norm": 1.8154075093551156, "learning_rate": 8.506404300633069e-06, "loss": 0.5481, "step": 2579 }, { "avg_step_time": 5.526772462960445, "epoch": 0.27509333333333336, "eta_time": 10.433318238410886, "step": 2579 }, { "epoch": 0.2752, "grad_norm": 1.761190039303685, "learning_rate": 8.5051725976128e-06, "loss": 0.4507, "step": 2580 }, { "avg_step_time": 5.555128552696922, "epoch": 0.2752, "eta_time": 10.48530514321544, "step": 2580 }, { "epoch": 0.27530666666666664, "grad_norm": 1.7754424996635803, "learning_rate": 8.503940476189556e-06, "loss": 0.525, "step": 2581 }, { "avg_step_time": 5.556068519149163, "epoch": 0.27530666666666664, "eta_time": 10.485535977527615, "step": 2581 }, { "epoch": 0.27541333333333334, "grad_norm": 1.7362920435238645, "learning_rate": 8.502707936510406e-06, "loss": 0.5212, "step": 2582 }, { "avg_step_time": 5.563949495855004, "epoch": 0.27541333333333334, "eta_time": 10.498863590373068, "step": 2582 }, { "epoch": 0.27552, "grad_norm": 1.7966511798007327, "learning_rate": 8.50147497872248e-06, "loss": 0.4491, "step": 2583 }, { "avg_step_time": 5.571356893789889, "epoch": 0.27552, "eta_time": 10.511293339616923, "step": 2583 }, { "epoch": 0.2756266666666667, "grad_norm": 1.7705132303351407, "learning_rate": 8.500241602972952e-06, "loss": 0.4356, "step": 2584 }, { "avg_step_time": 5.56756474995854, "epoch": 0.2756266666666667, "eta_time": 10.502592282491234, "step": 2584 }, { "epoch": 0.27573333333333333, "grad_norm": 1.7657093646251885, "learning_rate": 8.499007809409043e-06, "loss": 0.5707, "step": 2585 }, { "avg_step_time": 5.603484474047266, "epoch": 0.27573333333333333, "eta_time": 10.568794327439148, "step": 2585 }, { "epoch": 0.27584, "grad_norm": 1.730780060829078, "learning_rate": 8.497773598178033e-06, "loss": 0.5627, "step": 2586 }, { "avg_step_time": 5.644507706767381, "epoch": 0.27584, "eta_time": 10.644600783678818, "step": 2586 }, { "epoch": 0.2759466666666667, "grad_norm": 0.6615127170578292, "learning_rate": 8.496538969427243e-06, "loss": 0.4631, "step": 2587 }, { "avg_step_time": 5.606274978078977, "epoch": 0.2759466666666667, "eta_time": 10.570942930888915, "step": 2587 }, { "epoch": 0.2760533333333333, "grad_norm": 1.8976264285594027, "learning_rate": 8.495303923304047e-06, "loss": 0.5245, "step": 2588 }, { "avg_step_time": 5.612167490853204, "epoch": 0.2760533333333333, "eta_time": 10.580494655672416, "step": 2588 }, { "epoch": 0.27616, "grad_norm": 0.6425146737138588, "learning_rate": 8.494068459955871e-06, "loss": 0.4606, "step": 2589 }, { "avg_step_time": 5.583163649144799, "epoch": 0.27616, "eta_time": 10.524263478637945, "step": 2589 }, { "epoch": 0.27626666666666666, "grad_norm": 1.612331184060037, "learning_rate": 8.492832579530188e-06, "loss": 0.5043, "step": 2590 }, { "avg_step_time": 5.640902774502533, "epoch": 0.27626666666666666, "eta_time": 10.631534812499911, "step": 2590 }, { "epoch": 0.27637333333333336, "grad_norm": 0.6200525017111249, "learning_rate": 8.491596282174523e-06, "loss": 0.408, "step": 2591 }, { "avg_step_time": 5.611733771333791, "epoch": 0.27637333333333336, "eta_time": 10.575000529091232, "step": 2591 }, { "epoch": 0.27648, "grad_norm": 1.6480047743256006, "learning_rate": 8.490359568036446e-06, "loss": 0.6043, "step": 2592 }, { "avg_step_time": 5.611579774606107, "epoch": 0.27648, "eta_time": 10.573151558653672, "step": 2592 }, { "epoch": 0.27658666666666665, "grad_norm": 1.8221285324165477, "learning_rate": 8.489122437263585e-06, "loss": 0.5754, "step": 2593 }, { "avg_step_time": 5.614854730740942, "epoch": 0.27658666666666665, "eta_time": 10.577762439968074, "step": 2593 }, { "epoch": 0.27669333333333335, "grad_norm": 1.7344461634102692, "learning_rate": 8.48788489000361e-06, "loss": 0.4992, "step": 2594 }, { "avg_step_time": 5.646292823733705, "epoch": 0.27669333333333335, "eta_time": 10.635419899371737, "step": 2594 }, { "epoch": 0.2768, "grad_norm": 1.6337930502066595, "learning_rate": 8.486646926404243e-06, "loss": 0.4231, "step": 2595 }, { "avg_step_time": 5.638632285474527, "epoch": 0.2768, "eta_time": 10.619424137643692, "step": 2595 }, { "epoch": 0.2769066666666667, "grad_norm": 2.011852905485412, "learning_rate": 8.485408546613258e-06, "loss": 0.5214, "step": 2596 }, { "avg_step_time": 5.637507917905094, "epoch": 0.2769066666666667, "eta_time": 10.61574060429962, "step": 2596 }, { "epoch": 0.27701333333333333, "grad_norm": 1.563777513803353, "learning_rate": 8.484169750778476e-06, "loss": 0.5527, "step": 2597 }, { "avg_step_time": 5.6338931984371605, "epoch": 0.27701333333333333, "eta_time": 10.607368916390854, "step": 2597 }, { "epoch": 0.27712, "grad_norm": 1.5120992659010382, "learning_rate": 8.48293053904777e-06, "loss": 0.4905, "step": 2598 }, { "avg_step_time": 5.632123838771474, "epoch": 0.27712, "eta_time": 10.602473126487299, "step": 2598 }, { "epoch": 0.2772266666666667, "grad_norm": 1.7623356840609523, "learning_rate": 8.48169091156906e-06, "loss": 0.4743, "step": 2599 }, { "avg_step_time": 5.631875319914385, "epoch": 0.2772266666666667, "eta_time": 10.60044087992774, "step": 2599 }, { "epoch": 0.2773333333333333, "grad_norm": 1.6775462493268203, "learning_rate": 8.480450868490317e-06, "loss": 0.5029, "step": 2600 }, { "avg_step_time": 5.631442799712673, "epoch": 0.2773333333333333, "eta_time": 10.598062491125933, "step": 2600 }, { "epoch": 0.27744, "grad_norm": 1.8838801347778418, "learning_rate": 8.479210409959565e-06, "loss": 0.4669, "step": 2601 }, { "avg_step_time": 5.633664157655504, "epoch": 0.27744, "eta_time": 10.600678056655108, "step": 2601 }, { "epoch": 0.27754666666666666, "grad_norm": 1.8891453763649844, "learning_rate": 8.477969536124868e-06, "loss": 0.4939, "step": 2602 }, { "avg_step_time": 5.5853511781403515, "epoch": 0.27754666666666666, "eta_time": 10.508217647095723, "step": 2602 }, { "epoch": 0.2776533333333333, "grad_norm": 1.5300805772728283, "learning_rate": 8.476728247134352e-06, "loss": 0.4383, "step": 2603 }, { "avg_step_time": 5.566211837710756, "epoch": 0.2776533333333333, "eta_time": 10.4706629347159, "step": 2603 }, { "epoch": 0.27776, "grad_norm": 1.875931669275246, "learning_rate": 8.475486543136181e-06, "loss": 0.4992, "step": 2604 }, { "avg_step_time": 5.565123820545698, "epoch": 0.27776, "eta_time": 10.467070385809699, "step": 2604 }, { "epoch": 0.27786666666666665, "grad_norm": 1.2834910655732847, "learning_rate": 8.474244424278578e-06, "loss": 0.4413, "step": 2605 }, { "avg_step_time": 5.5707349078823825, "epoch": 0.27786666666666665, "eta_time": 10.47607647954548, "step": 2605 }, { "epoch": 0.27797333333333335, "grad_norm": 1.936388806879121, "learning_rate": 8.47300189070981e-06, "loss": 0.5356, "step": 2606 }, { "avg_step_time": 5.56755985154046, "epoch": 0.27797333333333335, "eta_time": 10.46855906529927, "step": 2606 }, { "epoch": 0.27808, "grad_norm": 1.5981383868961048, "learning_rate": 8.471758942578193e-06, "loss": 0.4889, "step": 2607 }, { "avg_step_time": 5.5761868423885765, "epoch": 0.27808, "eta_time": 10.483231263690525, "step": 2607 }, { "epoch": 0.2781866666666667, "grad_norm": 1.7907216221917819, "learning_rate": 8.470515580032096e-06, "loss": 0.5445, "step": 2608 }, { "avg_step_time": 5.605142429621533, "epoch": 0.2781866666666667, "eta_time": 10.536110783680254, "step": 2608 }, { "epoch": 0.27829333333333334, "grad_norm": 2.748993387157416, "learning_rate": 8.469271803219939e-06, "loss": 0.4729, "step": 2609 }, { "avg_step_time": 5.599742807523168, "epoch": 0.27829333333333334, "eta_time": 10.524405509917154, "step": 2609 }, { "epoch": 0.2784, "grad_norm": 1.951411278943566, "learning_rate": 8.46802761229018e-06, "loss": 0.5108, "step": 2610 }, { "avg_step_time": 5.599649995264381, "epoch": 0.2784, "eta_time": 10.522675616100981, "step": 2610 }, { "epoch": 0.2785066666666667, "grad_norm": 1.7707035494587036, "learning_rate": 8.466783007391342e-06, "loss": 0.4336, "step": 2611 }, { "avg_step_time": 5.631998380025228, "epoch": 0.2785066666666667, "eta_time": 10.581899178469621, "step": 2611 }, { "epoch": 0.2786133333333333, "grad_norm": 1.9266557834536495, "learning_rate": 8.465537988671987e-06, "loss": 0.5352, "step": 2612 }, { "avg_step_time": 5.65675586642641, "epoch": 0.2786133333333333, "eta_time": 10.626844423511615, "step": 2612 }, { "epoch": 0.27872, "grad_norm": 1.4720046996206955, "learning_rate": 8.464292556280734e-06, "loss": 0.4828, "step": 2613 }, { "avg_step_time": 5.66100808827564, "epoch": 0.27872, "eta_time": 10.633260192477744, "step": 2613 }, { "epoch": 0.27882666666666667, "grad_norm": 1.859426244583464, "learning_rate": 8.463046710366239e-06, "loss": 0.5471, "step": 2614 }, { "avg_step_time": 5.69664882650279, "epoch": 0.27882666666666667, "eta_time": 10.698622976662602, "step": 2614 }, { "epoch": 0.2789333333333333, "grad_norm": 1.966900479641964, "learning_rate": 8.46180045107722e-06, "loss": 0.5069, "step": 2615 }, { "avg_step_time": 5.698406402510826, "epoch": 0.2789333333333333, "eta_time": 10.700340911381439, "step": 2615 }, { "epoch": 0.27904, "grad_norm": 1.8159643004976516, "learning_rate": 8.46055377856244e-06, "loss": 0.5701, "step": 2616 }, { "avg_step_time": 5.6924329574662025, "epoch": 0.27904, "eta_time": 10.687542877642795, "step": 2616 }, { "epoch": 0.27914666666666665, "grad_norm": 1.6476655315980184, "learning_rate": 8.459306692970712e-06, "loss": 0.4659, "step": 2617 }, { "avg_step_time": 5.65372853568106, "epoch": 0.27914666666666665, "eta_time": 10.613304845592388, "step": 2617 }, { "epoch": 0.27925333333333335, "grad_norm": 1.8603675214108573, "learning_rate": 8.458059194450895e-06, "loss": 0.5233, "step": 2618 }, { "avg_step_time": 5.640793448746806, "epoch": 0.27925333333333335, "eta_time": 10.587455925883937, "step": 2618 }, { "epoch": 0.27936, "grad_norm": 0.6506184520083013, "learning_rate": 8.456811283151896e-06, "loss": 0.4436, "step": 2619 }, { "avg_step_time": 5.606813779985062, "epoch": 0.27936, "eta_time": 10.522120527105299, "step": 2619 }, { "epoch": 0.27946666666666664, "grad_norm": 1.6081926990305586, "learning_rate": 8.455562959222682e-06, "loss": 0.5253, "step": 2620 }, { "avg_step_time": 5.626136842400137, "epoch": 0.27946666666666664, "eta_time": 10.556820658448034, "step": 2620 }, { "epoch": 0.27957333333333334, "grad_norm": 1.5150298084194675, "learning_rate": 8.454314222812257e-06, "loss": 0.4462, "step": 2621 }, { "avg_step_time": 5.619732449753116, "epoch": 0.27957333333333334, "eta_time": 10.543242490453483, "step": 2621 }, { "epoch": 0.27968, "grad_norm": 1.6892549571303836, "learning_rate": 8.453065074069682e-06, "loss": 0.4951, "step": 2622 }, { "avg_step_time": 5.634118593100346, "epoch": 0.27968, "eta_time": 10.568667460890731, "step": 2622 }, { "epoch": 0.2797866666666667, "grad_norm": 0.6442602112595712, "learning_rate": 8.451815513144062e-06, "loss": 0.4414, "step": 2623 }, { "avg_step_time": 5.604995279601126, "epoch": 0.2797866666666667, "eta_time": 10.512480035518557, "step": 2623 }, { "epoch": 0.2798933333333333, "grad_norm": 1.6829183559924212, "learning_rate": 8.450565540184557e-06, "loss": 0.4738, "step": 2624 }, { "avg_step_time": 5.604070986160124, "epoch": 0.2798933333333333, "eta_time": 10.509189785435277, "step": 2624 }, { "epoch": 0.28, "grad_norm": 0.6380735878586671, "learning_rate": 8.449315155340369e-06, "loss": 0.4627, "step": 2625 }, { "avg_step_time": 5.571571740237149, "epoch": 0.28, "eta_time": 10.446697012944655, "step": 2625 }, { "epoch": 0.28010666666666667, "grad_norm": 1.6976820320232502, "learning_rate": 8.448064358760757e-06, "loss": 0.4479, "step": 2626 }, { "avg_step_time": 5.579125134631841, "epoch": 0.28010666666666667, "eta_time": 10.45930987045286, "step": 2626 }, { "epoch": 0.2802133333333333, "grad_norm": 1.8163709827536685, "learning_rate": 8.446813150595022e-06, "loss": 0.5506, "step": 2627 }, { "avg_step_time": 5.5539492043581875, "epoch": 0.2802133333333333, "eta_time": 10.410569230835847, "step": 2627 }, { "epoch": 0.28032, "grad_norm": 0.624552008340389, "learning_rate": 8.44556153099252e-06, "loss": 0.4484, "step": 2628 }, { "avg_step_time": 5.5273664696048, "epoch": 0.28032, "eta_time": 10.359205991784329, "step": 2628 }, { "epoch": 0.28042666666666666, "grad_norm": 1.5164705346791543, "learning_rate": 8.444309500102651e-06, "loss": 0.4474, "step": 2629 }, { "avg_step_time": 5.530389607554734, "epoch": 0.28042666666666666, "eta_time": 10.363335636823399, "step": 2629 }, { "epoch": 0.28053333333333336, "grad_norm": 1.9935568513458866, "learning_rate": 8.443057058074869e-06, "loss": 0.5259, "step": 2630 }, { "avg_step_time": 5.530591798551155, "epoch": 0.28053333333333336, "eta_time": 10.362178244785428, "step": 2630 }, { "epoch": 0.28064, "grad_norm": 1.58098070864578, "learning_rate": 8.441804205058672e-06, "loss": 0.4293, "step": 2631 }, { "avg_step_time": 5.5257871753037575, "epoch": 0.28064, "eta_time": 10.351641308402373, "step": 2631 }, { "epoch": 0.28074666666666664, "grad_norm": 1.6859851602826705, "learning_rate": 8.44055094120361e-06, "loss": 0.488, "step": 2632 }, { "avg_step_time": 5.531751815718834, "epoch": 0.28074666666666664, "eta_time": 10.361278470386692, "step": 2632 }, { "epoch": 0.28085333333333334, "grad_norm": 1.9543179676680604, "learning_rate": 8.439297266659285e-06, "loss": 0.5778, "step": 2633 }, { "avg_step_time": 5.538123865320225, "epoch": 0.28085333333333334, "eta_time": 10.371675305552488, "step": 2633 }, { "epoch": 0.28096, "grad_norm": 1.6034134577888646, "learning_rate": 8.43804318157534e-06, "loss": 0.4992, "step": 2634 }, { "avg_step_time": 5.533805127095694, "epoch": 0.28096, "eta_time": 10.362050100486687, "step": 2634 }, { "epoch": 0.2810666666666667, "grad_norm": 2.0488564469736406, "learning_rate": 8.436788686101475e-06, "loss": 0.5705, "step": 2635 }, { "avg_step_time": 5.534494267569648, "epoch": 0.2810666666666667, "eta_time": 10.361803156505395, "step": 2635 }, { "epoch": 0.28117333333333333, "grad_norm": 1.7346739836989902, "learning_rate": 8.435533780387436e-06, "loss": 0.5638, "step": 2636 }, { "avg_step_time": 5.5348697744234645, "epoch": 0.28117333333333333, "eta_time": 10.36096872495548, "step": 2636 }, { "epoch": 0.28128, "grad_norm": 1.4813381922877027, "learning_rate": 8.434278464583018e-06, "loss": 0.4873, "step": 2637 }, { "avg_step_time": 5.5388556995777165, "epoch": 0.28128, "eta_time": 10.366891584376292, "step": 2637 }, { "epoch": 0.2813866666666667, "grad_norm": 1.5373898944591025, "learning_rate": 8.43302273883806e-06, "loss": 0.5142, "step": 2638 }, { "avg_step_time": 5.5727318946761315, "epoch": 0.2813866666666667, "eta_time": 10.428748548453639, "step": 2638 }, { "epoch": 0.2814933333333333, "grad_norm": 1.6766341980861497, "learning_rate": 8.431766603302459e-06, "loss": 0.5041, "step": 2639 }, { "avg_step_time": 5.570757728634459, "epoch": 0.2814933333333333, "eta_time": 10.423506683356033, "step": 2639 }, { "epoch": 0.2816, "grad_norm": 1.6677424895035937, "learning_rate": 8.430510058126156e-06, "loss": 0.5111, "step": 2640 }, { "avg_step_time": 5.571285698148939, "epoch": 0.2816, "eta_time": 10.422946993620307, "step": 2640 }, { "epoch": 0.28170666666666666, "grad_norm": 1.5870024903388513, "learning_rate": 8.429253103459139e-06, "loss": 0.4298, "step": 2641 }, { "avg_step_time": 5.549595413785992, "epoch": 0.28170666666666666, "eta_time": 10.380826532343018, "step": 2641 }, { "epoch": 0.28181333333333336, "grad_norm": 1.5604309906691154, "learning_rate": 8.427995739451451e-06, "loss": 0.5244, "step": 2642 }, { "avg_step_time": 5.5507123879712035, "epoch": 0.28181333333333336, "eta_time": 10.381374030058366, "step": 2642 }, { "epoch": 0.28192, "grad_norm": 1.6125642280952264, "learning_rate": 8.426737966253176e-06, "loss": 0.4447, "step": 2643 }, { "avg_step_time": 5.565399755131114, "epoch": 0.28192, "eta_time": 10.407297542095185, "step": 2643 }, { "epoch": 0.28202666666666665, "grad_norm": 1.8680185733278942, "learning_rate": 8.425479784014455e-06, "loss": 0.4865, "step": 2644 }, { "avg_step_time": 5.56402788499389, "epoch": 0.28202666666666665, "eta_time": 10.403186581637186, "step": 2644 }, { "epoch": 0.28213333333333335, "grad_norm": 1.4427950390119515, "learning_rate": 8.42422119288547e-06, "loss": 0.488, "step": 2645 }, { "avg_step_time": 5.567673613326718, "epoch": 0.28213333333333335, "eta_time": 10.408456504913561, "step": 2645 }, { "epoch": 0.28224, "grad_norm": 0.6758727278308915, "learning_rate": 8.422962193016459e-06, "loss": 0.4492, "step": 2646 }, { "avg_step_time": 5.536676149175625, "epoch": 0.28224, "eta_time": 10.34897050216744, "step": 2646 }, { "epoch": 0.2823466666666667, "grad_norm": 1.7970022586743735, "learning_rate": 8.421702784557704e-06, "loss": 0.5093, "step": 2647 }, { "avg_step_time": 5.5294990154227825, "epoch": 0.2823466666666667, "eta_time": 10.334019271045689, "step": 2647 }, { "epoch": 0.28245333333333333, "grad_norm": 0.6740209413475703, "learning_rate": 8.42044296765954e-06, "loss": 0.445, "step": 2648 }, { "avg_step_time": 5.497071899548925, "epoch": 0.28245333333333333, "eta_time": 10.271889630073783, "step": 2648 }, { "epoch": 0.28256, "grad_norm": 1.6061102550654325, "learning_rate": 8.41918274247234e-06, "loss": 0.4792, "step": 2649 }, { "avg_step_time": 5.499987573334665, "epoch": 0.28256, "eta_time": 10.275810116180265, "step": 2649 }, { "epoch": 0.2826666666666667, "grad_norm": 1.570705312221681, "learning_rate": 8.417922109146541e-06, "loss": 0.4515, "step": 2650 }, { "avg_step_time": 5.49568340995095, "epoch": 0.2826666666666667, "eta_time": 10.266241925533373, "step": 2650 }, { "epoch": 0.2827733333333333, "grad_norm": 1.9464335599272724, "learning_rate": 8.41666106783262e-06, "loss": 0.5811, "step": 2651 }, { "avg_step_time": 5.531399762991703, "epoch": 0.2827733333333333, "eta_time": 10.33142555732117, "step": 2651 }, { "epoch": 0.28288, "grad_norm": 1.6727991976414165, "learning_rate": 8.415399618681101e-06, "loss": 0.5488, "step": 2652 }, { "avg_step_time": 5.5683003146239, "epoch": 0.28288, "eta_time": 10.398800837560133, "step": 2652 }, { "epoch": 0.28298666666666666, "grad_norm": 1.6926395014639692, "learning_rate": 8.414137761842565e-06, "loss": 0.5261, "step": 2653 }, { "avg_step_time": 5.567131488010137, "epoch": 0.28298666666666666, "eta_time": 10.395071628445596, "step": 2653 }, { "epoch": 0.2830933333333333, "grad_norm": 2.0154347778882182, "learning_rate": 8.412875497467632e-06, "loss": 0.5026, "step": 2654 }, { "avg_step_time": 5.570409943359067, "epoch": 0.2830933333333333, "eta_time": 10.399645897032302, "step": 2654 }, { "epoch": 0.2832, "grad_norm": 0.6707889467113399, "learning_rate": 8.411612825706976e-06, "loss": 0.4643, "step": 2655 }, { "avg_step_time": 5.5372882250583535, "epoch": 0.2832, "eta_time": 10.33627135344226, "step": 2655 }, { "epoch": 0.28330666666666665, "grad_norm": 1.921834630966786, "learning_rate": 8.41034974671132e-06, "loss": 0.6703, "step": 2656 }, { "avg_step_time": 5.534506891712998, "epoch": 0.28330666666666665, "eta_time": 10.32954216817212, "step": 2656 }, { "epoch": 0.28341333333333335, "grad_norm": 1.681489941162664, "learning_rate": 8.409086260631434e-06, "loss": 0.4531, "step": 2657 }, { "avg_step_time": 5.532685694068369, "epoch": 0.28341333333333335, "eta_time": 10.324606247986473, "step": 2657 }, { "epoch": 0.28352, "grad_norm": 1.7078503678318984, "learning_rate": 8.407822367618135e-06, "loss": 0.5718, "step": 2658 }, { "avg_step_time": 5.595979919337263, "epoch": 0.28352, "eta_time": 10.441165866163443, "step": 2658 }, { "epoch": 0.2836266666666667, "grad_norm": 1.6542122068640586, "learning_rate": 8.406558067822294e-06, "loss": 0.565, "step": 2659 }, { "avg_step_time": 5.595407550985163, "epoch": 0.2836266666666667, "eta_time": 10.438543642337878, "step": 2659 }, { "epoch": 0.28373333333333334, "grad_norm": 1.8798089154669766, "learning_rate": 8.405293361394825e-06, "loss": 0.484, "step": 2660 }, { "avg_step_time": 5.627274549368656, "epoch": 0.28373333333333334, "eta_time": 10.496430166391814, "step": 2660 }, { "epoch": 0.28384, "grad_norm": 0.6364076978107815, "learning_rate": 8.40402824848669e-06, "loss": 0.4291, "step": 2661 }, { "avg_step_time": 5.606807942342276, "epoch": 0.28384, "eta_time": 10.456696812468344, "step": 2661 }, { "epoch": 0.2839466666666667, "grad_norm": 1.6542320741182954, "learning_rate": 8.402762729248907e-06, "loss": 0.5804, "step": 2662 }, { "avg_step_time": 5.607195293060457, "epoch": 0.2839466666666667, "eta_time": 10.455861667309678, "step": 2662 }, { "epoch": 0.2840533333333333, "grad_norm": 1.7012798769170137, "learning_rate": 8.401496803832534e-06, "loss": 0.4779, "step": 2663 }, { "avg_step_time": 5.606626240894048, "epoch": 0.2840533333333333, "eta_time": 10.453243146911348, "step": 2663 }, { "epoch": 0.28416, "grad_norm": 2.029863638343498, "learning_rate": 8.400230472388684e-06, "loss": 0.5261, "step": 2664 }, { "avg_step_time": 5.6060845972311615, "epoch": 0.28416, "eta_time": 10.450676036671757, "step": 2664 }, { "epoch": 0.28426666666666667, "grad_norm": 1.771617086902507, "learning_rate": 8.398963735068515e-06, "loss": 0.5328, "step": 2665 }, { "avg_step_time": 5.605244590778543, "epoch": 0.28426666666666667, "eta_time": 10.447553112256674, "step": 2665 }, { "epoch": 0.2843733333333333, "grad_norm": 1.5898488846151366, "learning_rate": 8.39769659202323e-06, "loss": 0.4902, "step": 2666 }, { "avg_step_time": 5.637767522021978, "epoch": 0.2843733333333333, "eta_time": 10.506606195901513, "step": 2666 }, { "epoch": 0.28448, "grad_norm": 1.718187510490438, "learning_rate": 8.396429043404088e-06, "loss": 0.5725, "step": 2667 }, { "avg_step_time": 5.636280394563771, "epoch": 0.28448, "eta_time": 10.502269135203827, "step": 2667 }, { "epoch": 0.28458666666666665, "grad_norm": 1.5499100522807634, "learning_rate": 8.395161089362393e-06, "loss": 0.4527, "step": 2668 }, { "avg_step_time": 5.6334590478376905, "epoch": 0.28458666666666665, "eta_time": 10.49544717606872, "step": 2668 }, { "epoch": 0.28469333333333335, "grad_norm": 0.6770067444102256, "learning_rate": 8.393892730049497e-06, "loss": 0.4573, "step": 2669 }, { "avg_step_time": 5.596994286835796, "epoch": 0.28469333333333335, "eta_time": 10.425956579866902, "step": 2669 }, { "epoch": 0.2848, "grad_norm": 1.9488044545774978, "learning_rate": 8.3926239656168e-06, "loss": 0.4996, "step": 2670 }, { "avg_step_time": 5.604615093481661, "epoch": 0.2848, "eta_time": 10.438595611609594, "step": 2670 }, { "epoch": 0.28490666666666664, "grad_norm": 1.7552859262914955, "learning_rate": 8.391354796215751e-06, "loss": 0.5298, "step": 2671 }, { "avg_step_time": 5.584607244742037, "epoch": 0.28490666666666664, "eta_time": 10.399779713541838, "step": 2671 }, { "epoch": 0.28501333333333334, "grad_norm": 1.8943739573252394, "learning_rate": 8.390085221997849e-06, "loss": 0.4966, "step": 2672 }, { "avg_step_time": 5.583310946069583, "epoch": 0.28501333333333334, "eta_time": 10.395814797640115, "step": 2672 }, { "epoch": 0.28512, "grad_norm": 0.6367013040972582, "learning_rate": 8.388815243114637e-06, "loss": 0.4299, "step": 2673 }, { "avg_step_time": 5.542976540748519, "epoch": 0.28512, "eta_time": 10.319174660026826, "step": 2673 }, { "epoch": 0.2852266666666667, "grad_norm": 1.6486750648895456, "learning_rate": 8.387544859717709e-06, "loss": 0.4102, "step": 2674 }, { "avg_step_time": 5.53915140604732, "epoch": 0.2852266666666667, "eta_time": 10.310514881089746, "step": 2674 }, { "epoch": 0.2853333333333333, "grad_norm": 2.0586959893682457, "learning_rate": 8.38627407195871e-06, "loss": 0.5432, "step": 2675 }, { "avg_step_time": 5.534524238470829, "epoch": 0.2853333333333333, "eta_time": 10.300364554931821, "step": 2675 }, { "epoch": 0.28544, "grad_norm": 1.6917603865832365, "learning_rate": 8.385002879989328e-06, "loss": 0.5199, "step": 2676 }, { "avg_step_time": 5.538562796332619, "epoch": 0.28544, "eta_time": 10.306342270175616, "step": 2676 }, { "epoch": 0.28554666666666667, "grad_norm": 1.6065255356783248, "learning_rate": 8.383731283961303e-06, "loss": 0.4739, "step": 2677 }, { "avg_step_time": 5.595314047553322, "epoch": 0.28554666666666667, "eta_time": 10.410392636253375, "step": 2677 }, { "epoch": 0.2856533333333333, "grad_norm": 1.4807020719018222, "learning_rate": 8.382459284026421e-06, "loss": 0.4922, "step": 2678 }, { "avg_step_time": 5.594157616297404, "epoch": 0.2856533333333333, "eta_time": 10.406687098984367, "step": 2678 }, { "epoch": 0.28576, "grad_norm": 1.784055163924983, "learning_rate": 8.381186880336518e-06, "loss": 0.5578, "step": 2679 }, { "avg_step_time": 5.576419078942501, "epoch": 0.28576, "eta_time": 10.372139486833051, "step": 2679 }, { "epoch": 0.28586666666666666, "grad_norm": 1.8021725145787253, "learning_rate": 8.379914073043477e-06, "loss": 0.5756, "step": 2680 }, { "avg_step_time": 5.57601117365288, "epoch": 0.28586666666666666, "eta_time": 10.369831891001676, "step": 2680 }, { "epoch": 0.28597333333333336, "grad_norm": 1.6560220978595932, "learning_rate": 8.37864086229923e-06, "loss": 0.5766, "step": 2681 }, { "avg_step_time": 5.583116422999989, "epoch": 0.28597333333333336, "eta_time": 10.381494815433868, "step": 2681 }, { "epoch": 0.28608, "grad_norm": 1.8703037481073979, "learning_rate": 8.377367248255757e-06, "loss": 0.5326, "step": 2682 }, { "avg_step_time": 5.578424521166869, "epoch": 0.28608, "eta_time": 10.371220922269403, "step": 2682 }, { "epoch": 0.28618666666666664, "grad_norm": 1.7867507857451466, "learning_rate": 8.376093231065084e-06, "loss": 0.4726, "step": 2683 }, { "avg_step_time": 5.578397302916556, "epoch": 0.28618666666666664, "eta_time": 10.36962076419933, "step": 2683 }, { "epoch": 0.28629333333333334, "grad_norm": 0.6777200771905687, "learning_rate": 8.374818810879288e-06, "loss": 0.4817, "step": 2684 }, { "avg_step_time": 5.5407769150204125, "epoch": 0.28629333333333334, "eta_time": 10.298149538444884, "step": 2684 }, { "epoch": 0.2864, "grad_norm": 1.7360872015429152, "learning_rate": 8.373543987850494e-06, "loss": 0.5049, "step": 2685 }, { "avg_step_time": 5.539216357048112, "epoch": 0.2864, "eta_time": 10.293710396847741, "step": 2685 }, { "epoch": 0.2865066666666667, "grad_norm": 1.4863238298605967, "learning_rate": 8.372268762130874e-06, "loss": 0.4061, "step": 2686 }, { "avg_step_time": 5.573885356537019, "epoch": 0.2865066666666667, "eta_time": 10.356588652743367, "step": 2686 }, { "epoch": 0.28661333333333333, "grad_norm": 1.3701362400654788, "learning_rate": 8.370993133872648e-06, "loss": 0.4523, "step": 2687 }, { "avg_step_time": 5.571794473763668, "epoch": 0.28661333333333333, "eta_time": 10.35115595570317, "step": 2687 }, { "epoch": 0.28672, "grad_norm": 1.6695509701090532, "learning_rate": 8.369717103228084e-06, "loss": 0.5598, "step": 2688 }, { "avg_step_time": 5.6000263040716, "epoch": 0.28672, "eta_time": 10.402048859812997, "step": 2688 }, { "epoch": 0.2868266666666667, "grad_norm": 2.092928606798798, "learning_rate": 8.368440670349498e-06, "loss": 0.4789, "step": 2689 }, { "avg_step_time": 5.574509302775065, "epoch": 0.2868266666666667, "eta_time": 10.353102555098358, "step": 2689 }, { "epoch": 0.2869333333333333, "grad_norm": 1.575234032361591, "learning_rate": 8.367163835389253e-06, "loss": 0.4395, "step": 2690 }, { "avg_step_time": 5.601731478565871, "epoch": 0.2869333333333333, "eta_time": 10.402104148392457, "step": 2690 }, { "epoch": 0.28704, "grad_norm": 1.7325851170311761, "learning_rate": 8.365886598499766e-06, "loss": 0.5561, "step": 2691 }, { "avg_step_time": 5.600987716154619, "epoch": 0.28704, "eta_time": 10.399167192993742, "step": 2691 }, { "epoch": 0.28714666666666666, "grad_norm": 1.5493551489873751, "learning_rate": 8.364608959833495e-06, "loss": 0.5449, "step": 2692 }, { "avg_step_time": 5.61204577455617, "epoch": 0.28714666666666666, "eta_time": 10.418139419821912, "step": 2692 }, { "epoch": 0.28725333333333336, "grad_norm": 1.8506333600871152, "learning_rate": 8.363330919542944e-06, "loss": 0.6099, "step": 2693 }, { "avg_step_time": 5.676256336347021, "epoch": 0.28725333333333336, "eta_time": 10.535762455408554, "step": 2693 }, { "epoch": 0.28736, "grad_norm": 1.5113734847736342, "learning_rate": 8.362052477780677e-06, "loss": 0.5239, "step": 2694 }, { "avg_step_time": 5.68536103614653, "epoch": 0.28736, "eta_time": 10.551082522915268, "step": 2694 }, { "epoch": 0.28746666666666665, "grad_norm": 1.7696952250101718, "learning_rate": 8.360773634699291e-06, "loss": 0.4534, "step": 2695 }, { "avg_step_time": 5.702536953820123, "epoch": 0.28746666666666665, "eta_time": 10.581374125421783, "step": 2695 }, { "epoch": 0.28757333333333335, "grad_norm": 2.07131381154404, "learning_rate": 8.359494390451442e-06, "loss": 0.5505, "step": 2696 }, { "avg_step_time": 5.704159772757328, "epoch": 0.28757333333333335, "eta_time": 10.58280086729061, "step": 2696 }, { "epoch": 0.28768, "grad_norm": 1.4838315667066475, "learning_rate": 8.35821474518983e-06, "loss": 0.4623, "step": 2697 }, { "avg_step_time": 5.731700499852498, "epoch": 0.28768, "eta_time": 10.632304427226385, "step": 2697 }, { "epoch": 0.2877866666666667, "grad_norm": 1.5438181437131044, "learning_rate": 8.3569346990672e-06, "loss": 0.4751, "step": 2698 }, { "avg_step_time": 5.738201803631252, "epoch": 0.2877866666666667, "eta_time": 10.64277040079052, "step": 2698 }, { "epoch": 0.28789333333333333, "grad_norm": 1.704739029945513, "learning_rate": 8.355654252236352e-06, "loss": 0.4197, "step": 2699 }, { "avg_step_time": 5.742319853618891, "epoch": 0.28789333333333333, "eta_time": 10.648813150766587, "step": 2699 }, { "epoch": 0.288, "grad_norm": 1.6386483063305703, "learning_rate": 8.354373404850124e-06, "loss": 0.4337, "step": 2700 }, { "avg_step_time": 5.741534379997638, "epoch": 0.288, "eta_time": 10.645761662912289, "step": 2700 }, { "epoch": 0.2881066666666667, "grad_norm": 1.6291875037977408, "learning_rate": 8.353092157061412e-06, "loss": 0.48, "step": 2701 }, { "avg_step_time": 5.741419320154672, "epoch": 0.2881066666666667, "eta_time": 10.643953484086746, "step": 2701 }, { "epoch": 0.2882133333333333, "grad_norm": 0.6987201023131797, "learning_rate": 8.351810509023153e-06, "loss": 0.4501, "step": 2702 }, { "avg_step_time": 5.733131880712027, "epoch": 0.2882133333333333, "eta_time": 10.626996955553153, "step": 2702 }, { "epoch": 0.28832, "grad_norm": 1.7162100059129273, "learning_rate": 8.350528460888334e-06, "loss": 0.5524, "step": 2703 }, { "avg_step_time": 5.7383341789245605, "epoch": 0.28832, "eta_time": 10.635046011606851, "step": 2703 }, { "epoch": 0.28842666666666666, "grad_norm": 1.7835394682022485, "learning_rate": 8.349246012809991e-06, "loss": 0.5626, "step": 2704 }, { "avg_step_time": 5.7328132692009515, "epoch": 0.28842666666666666, "eta_time": 10.623221477455429, "step": 2704 }, { "epoch": 0.2885333333333333, "grad_norm": 1.7899533288506564, "learning_rate": 8.347963164941204e-06, "loss": 0.5271, "step": 2705 }, { "avg_step_time": 5.7516874255556045, "epoch": 0.2885333333333333, "eta_time": 10.6565986467933, "step": 2705 }, { "epoch": 0.28864, "grad_norm": 1.6368538155982222, "learning_rate": 8.346679917435104e-06, "loss": 0.5765, "step": 2706 }, { "avg_step_time": 5.733477130080715, "epoch": 0.28864, "eta_time": 10.621266383474524, "step": 2706 }, { "epoch": 0.28874666666666665, "grad_norm": 1.9309191966855082, "learning_rate": 8.345396270444868e-06, "loss": 0.5261, "step": 2707 }, { "avg_step_time": 5.732942819595337, "epoch": 0.28874666666666665, "eta_time": 10.618684089183807, "step": 2707 }, { "epoch": 0.28885333333333335, "grad_norm": 1.557364522723775, "learning_rate": 8.344112224123723e-06, "loss": 0.4495, "step": 2708 }, { "avg_step_time": 5.750692521682893, "epoch": 0.28885333333333335, "eta_time": 10.649963067238847, "step": 2708 }, { "epoch": 0.28896, "grad_norm": 1.2251094664362798, "learning_rate": 8.342827778624943e-06, "loss": 0.3886, "step": 2709 }, { "avg_step_time": 5.748556353829124, "epoch": 0.28896, "eta_time": 10.64441018184026, "step": 2709 }, { "epoch": 0.2890666666666667, "grad_norm": 1.666080956290081, "learning_rate": 8.341542934101847e-06, "loss": 0.5121, "step": 2710 }, { "avg_step_time": 5.775214024264403, "epoch": 0.2890666666666667, "eta_time": 10.692167075478402, "step": 2710 }, { "epoch": 0.28917333333333334, "grad_norm": 1.778754036725495, "learning_rate": 8.340257690707805e-06, "loss": 0.4944, "step": 2711 }, { "avg_step_time": 5.7500415040989115, "epoch": 0.28917333333333334, "eta_time": 10.64396571758754, "step": 2711 }, { "epoch": 0.28928, "grad_norm": 1.9547531421543018, "learning_rate": 8.33897204859623e-06, "loss": 0.5073, "step": 2712 }, { "avg_step_time": 5.742320275065874, "epoch": 0.28928, "eta_time": 10.628077775767757, "step": 2712 }, { "epoch": 0.2893866666666667, "grad_norm": 1.7093607238131587, "learning_rate": 8.337686007920586e-06, "loss": 0.4882, "step": 2713 }, { "avg_step_time": 5.741092397709085, "epoch": 0.2893866666666667, "eta_time": 10.624210431538312, "step": 2713 }, { "epoch": 0.2894933333333333, "grad_norm": 1.8286769931061755, "learning_rate": 8.33639956883439e-06, "loss": 0.5262, "step": 2714 }, { "avg_step_time": 5.7419825876602015, "epoch": 0.2894933333333333, "eta_time": 10.624262782334613, "step": 2714 }, { "epoch": 0.2896, "grad_norm": 1.599302186000924, "learning_rate": 8.335112731491192e-06, "loss": 0.4912, "step": 2715 }, { "avg_step_time": 5.738405018141775, "epoch": 0.2896, "eta_time": 10.616049283562285, "step": 2715 }, { "epoch": 0.28970666666666667, "grad_norm": 1.635759493849539, "learning_rate": 8.333825496044605e-06, "loss": 0.4792, "step": 2716 }, { "avg_step_time": 5.742475919049196, "epoch": 0.28970666666666667, "eta_time": 10.621985318041276, "step": 2716 }, { "epoch": 0.2898133333333333, "grad_norm": 0.6544987696503289, "learning_rate": 8.33253786264828e-06, "loss": 0.4545, "step": 2717 }, { "avg_step_time": 5.730858412655917, "epoch": 0.2898133333333333, "eta_time": 10.598904253184193, "step": 2717 }, { "epoch": 0.28992, "grad_norm": 1.9015906589637674, "learning_rate": 8.331249831455921e-06, "loss": 0.4568, "step": 2718 }, { "avg_step_time": 5.7660694579885465, "epoch": 0.28992, "eta_time": 10.662423439397156, "step": 2718 }, { "epoch": 0.29002666666666665, "grad_norm": 1.9096278562420261, "learning_rate": 8.329961402621274e-06, "loss": 0.4832, "step": 2719 }, { "avg_step_time": 5.752224941446324, "epoch": 0.29002666666666665, "eta_time": 10.635224780629647, "step": 2719 }, { "epoch": 0.29013333333333335, "grad_norm": 1.9069583635130185, "learning_rate": 8.328672576298133e-06, "loss": 0.4853, "step": 2720 }, { "avg_step_time": 5.752099427309903, "epoch": 0.29013333333333335, "eta_time": 10.633394913540947, "step": 2720 }, { "epoch": 0.29024, "grad_norm": 1.4948205278643099, "learning_rate": 8.327383352640347e-06, "loss": 0.4462, "step": 2721 }, { "avg_step_time": 5.750725902692236, "epoch": 0.29024, "eta_time": 10.629258376809483, "step": 2721 }, { "epoch": 0.29034666666666664, "grad_norm": 1.675315888298502, "learning_rate": 8.326093731801805e-06, "loss": 0.4751, "step": 2722 }, { "avg_step_time": 5.818342868727867, "epoch": 0.29034666666666664, "eta_time": 10.752620862679581, "step": 2722 }, { "epoch": 0.29045333333333334, "grad_norm": 0.6181437175666772, "learning_rate": 8.324803713936445e-06, "loss": 0.4233, "step": 2723 }, { "avg_step_time": 5.7881605914144805, "epoch": 0.29045333333333334, "eta_time": 10.695234515024758, "step": 2723 }, { "epoch": 0.29056, "grad_norm": 2.519628970854268, "learning_rate": 8.323513299198252e-06, "loss": 0.5216, "step": 2724 }, { "avg_step_time": 5.842307938469781, "epoch": 0.29056, "eta_time": 10.79366391632292, "step": 2724 }, { "epoch": 0.2906666666666667, "grad_norm": 1.522459390554283, "learning_rate": 8.322222487741261e-06, "loss": 0.5574, "step": 2725 }, { "avg_step_time": 5.838052470274646, "epoch": 0.2906666666666667, "eta_time": 10.784180257590666, "step": 2725 }, { "epoch": 0.29077333333333333, "grad_norm": 1.8376727799241899, "learning_rate": 8.320931279719553e-06, "loss": 0.4652, "step": 2726 }, { "avg_step_time": 5.837321377763844, "epoch": 0.29077333333333333, "eta_time": 10.781208289097721, "step": 2726 }, { "epoch": 0.29088, "grad_norm": 1.4152829134335234, "learning_rate": 8.319639675287255e-06, "loss": 0.4511, "step": 2727 }, { "avg_step_time": 5.888133215181755, "epoch": 0.29088, "eta_time": 10.873419337368974, "step": 2727 }, { "epoch": 0.29098666666666667, "grad_norm": 1.7175559581801816, "learning_rate": 8.318347674598544e-06, "loss": 0.4482, "step": 2728 }, { "avg_step_time": 5.87824165700662, "epoch": 0.29098666666666667, "eta_time": 10.853520081700834, "step": 2728 }, { "epoch": 0.2910933333333333, "grad_norm": 1.9960323210946813, "learning_rate": 8.317055277807639e-06, "loss": 0.5784, "step": 2729 }, { "avg_step_time": 5.875579005540019, "epoch": 0.2910933333333333, "eta_time": 10.846971686338602, "step": 2729 }, { "epoch": 0.2912, "grad_norm": 1.582869331180867, "learning_rate": 8.315762485068815e-06, "loss": 0.5097, "step": 2730 }, { "avg_step_time": 5.872673988342285, "epoch": 0.2912, "eta_time": 10.839977403481802, "step": 2730 }, { "epoch": 0.29130666666666666, "grad_norm": 2.285232199115943, "learning_rate": 8.314469296536384e-06, "loss": 0.5245, "step": 2731 }, { "avg_step_time": 5.879650469982263, "epoch": 0.29130666666666666, "eta_time": 10.851221589600598, "step": 2731 }, { "epoch": 0.29141333333333336, "grad_norm": 1.6465099131302643, "learning_rate": 8.313175712364712e-06, "loss": 0.4546, "step": 2732 }, { "avg_step_time": 5.8764659057963975, "epoch": 0.29141333333333336, "eta_time": 10.843711947834851, "step": 2732 }, { "epoch": 0.29152, "grad_norm": 1.6399825260489205, "learning_rate": 8.311881732708213e-06, "loss": 0.5136, "step": 2733 }, { "avg_step_time": 5.877384718018349, "epoch": 0.29152, "eta_time": 10.843774804743854, "step": 2733 }, { "epoch": 0.29162666666666665, "grad_norm": 0.6257130908539799, "learning_rate": 8.310587357721345e-06, "loss": 0.4667, "step": 2734 }, { "avg_step_time": 5.843548969788984, "epoch": 0.29162666666666665, "eta_time": 10.779724641213512, "step": 2734 }, { "epoch": 0.29173333333333334, "grad_norm": 2.0022801449048373, "learning_rate": 8.309292587558612e-06, "loss": 0.6108, "step": 2735 }, { "avg_step_time": 5.844635130179049, "epoch": 0.29173333333333334, "eta_time": 10.78010479566358, "step": 2735 }, { "epoch": 0.29184, "grad_norm": 1.5163666169597025, "learning_rate": 8.307997422374569e-06, "loss": 0.5324, "step": 2736 }, { "avg_step_time": 5.845004746408174, "epoch": 0.29184, "eta_time": 10.779162919834409, "step": 2736 }, { "epoch": 0.2919466666666667, "grad_norm": 0.6498163329757372, "learning_rate": 8.306701862323815e-06, "loss": 0.4398, "step": 2737 }, { "avg_step_time": 5.810227259240969, "epoch": 0.2919466666666667, "eta_time": 10.713413485233765, "step": 2737 }, { "epoch": 0.29205333333333333, "grad_norm": 1.5238130869592923, "learning_rate": 8.305405907560999e-06, "loss": 0.5369, "step": 2738 }, { "avg_step_time": 5.814514658667824, "epoch": 0.29205333333333333, "eta_time": 10.71970383043843, "step": 2738 }, { "epoch": 0.29216, "grad_norm": 1.5509850373208494, "learning_rate": 8.304109558240817e-06, "loss": 0.574, "step": 2739 }, { "avg_step_time": 5.81151171404906, "epoch": 0.29216, "eta_time": 10.712553259563768, "step": 2739 }, { "epoch": 0.2922666666666667, "grad_norm": 1.6113596497442348, "learning_rate": 8.302812814518006e-06, "loss": 0.4851, "step": 2740 }, { "avg_step_time": 5.809636990229289, "epoch": 0.2922666666666667, "eta_time": 10.707483730603148, "step": 2740 }, { "epoch": 0.2923733333333333, "grad_norm": 1.6465649819388204, "learning_rate": 8.301515676547358e-06, "loss": 0.5014, "step": 2741 }, { "avg_step_time": 5.80737649069892, "epoch": 0.2923733333333333, "eta_time": 10.701704344249064, "step": 2741 }, { "epoch": 0.29248, "grad_norm": 1.8821928677078161, "learning_rate": 8.300218144483709e-06, "loss": 0.5059, "step": 2742 }, { "avg_step_time": 5.807502898302945, "epoch": 0.29248, "eta_time": 10.700324090123177, "step": 2742 }, { "epoch": 0.29258666666666666, "grad_norm": 0.6739291728801265, "learning_rate": 8.298920218481941e-06, "loss": 0.4735, "step": 2743 }, { "avg_step_time": 5.77384401571871, "epoch": 0.29258666666666666, "eta_time": 10.636703753401802, "step": 2743 }, { "epoch": 0.29269333333333336, "grad_norm": 1.5684455273311468, "learning_rate": 8.297621898696984e-06, "loss": 0.4124, "step": 2744 }, { "avg_step_time": 5.793767235495827, "epoch": 0.29269333333333336, "eta_time": 10.671797371825786, "step": 2744 }, { "epoch": 0.2928, "grad_norm": 0.6476747838816829, "learning_rate": 8.296323185283816e-06, "loss": 0.4319, "step": 2745 }, { "avg_step_time": 5.792687476283372, "epoch": 0.2928, "eta_time": 10.668199435488544, "step": 2745 }, { "epoch": 0.29290666666666665, "grad_norm": 1.7220170148865241, "learning_rate": 8.29502407839746e-06, "loss": 0.5812, "step": 2746 }, { "avg_step_time": 5.7965256878823945, "epoch": 0.29290666666666665, "eta_time": 10.673657995825666, "step": 2746 }, { "epoch": 0.29301333333333335, "grad_norm": 1.857256108461838, "learning_rate": 8.293724578192986e-06, "loss": 0.5391, "step": 2747 }, { "avg_step_time": 5.827436733727503, "epoch": 0.29301333333333335, "eta_time": 10.728958519762747, "step": 2747 }, { "epoch": 0.29312, "grad_norm": 1.8843239734452482, "learning_rate": 8.292424684825514e-06, "loss": 0.622, "step": 2748 }, { "avg_step_time": 5.844608063649649, "epoch": 0.29312, "eta_time": 10.758949343835061, "step": 2748 }, { "epoch": 0.2932266666666667, "grad_norm": 1.7062455020981382, "learning_rate": 8.291124398450204e-06, "loss": 0.5812, "step": 2749 }, { "avg_step_time": 5.8497799719222865, "epoch": 0.2932266666666667, "eta_time": 10.766845026099185, "step": 2749 }, { "epoch": 0.29333333333333333, "grad_norm": 1.6858857136463417, "learning_rate": 8.289823719222275e-06, "loss": 0.5008, "step": 2750 }, { "avg_step_time": 5.84688860960681, "epoch": 0.29333333333333333, "eta_time": 10.75989917740142, "step": 2750 }, { "epoch": 0.29344, "grad_norm": 1.9706552601465965, "learning_rate": 8.28852264729698e-06, "loss": 0.6392, "step": 2751 }, { "avg_step_time": 5.847444108038237, "epoch": 0.29344, "eta_time": 10.759297158790357, "step": 2751 }, { "epoch": 0.2935466666666667, "grad_norm": 1.5950513503017045, "learning_rate": 8.287221182829626e-06, "loss": 0.4868, "step": 2752 }, { "avg_step_time": 5.850032688391329, "epoch": 0.2935466666666667, "eta_time": 10.762435137559937, "step": 2752 }, { "epoch": 0.2936533333333333, "grad_norm": 1.586815425949439, "learning_rate": 8.285919325975566e-06, "loss": 0.5117, "step": 2753 }, { "avg_step_time": 5.910764778503264, "epoch": 0.2936533333333333, "eta_time": 10.872523434235726, "step": 2753 }, { "epoch": 0.29376, "grad_norm": 1.876638567526576, "learning_rate": 8.284617076890199e-06, "loss": 0.5978, "step": 2754 }, { "avg_step_time": 5.9478359607735065, "epoch": 0.29376, "eta_time": 10.939061637855941, "step": 2754 }, { "epoch": 0.29386666666666666, "grad_norm": 0.7061397242704612, "learning_rate": 8.283314435728968e-06, "loss": 0.4623, "step": 2755 }, { "avg_step_time": 5.91825594564881, "epoch": 0.29386666666666666, "eta_time": 10.883015100054202, "step": 2755 }, { "epoch": 0.2939733333333333, "grad_norm": 1.6487013492661473, "learning_rate": 8.28201140264737e-06, "loss": 0.5697, "step": 2756 }, { "avg_step_time": 5.9233414139410465, "epoch": 0.2939733333333333, "eta_time": 10.890721338576606, "step": 2756 }, { "epoch": 0.29408, "grad_norm": 1.3805381022654717, "learning_rate": 8.280707977800944e-06, "loss": 0.3943, "step": 2757 }, { "avg_step_time": 5.864841280561505, "epoch": 0.29408, "eta_time": 10.781533220765567, "step": 2757 }, { "epoch": 0.29418666666666665, "grad_norm": 1.6990662249908468, "learning_rate": 8.279404161345275e-06, "loss": 0.5732, "step": 2758 }, { "avg_step_time": 5.8649296134409274, "epoch": 0.29418666666666665, "eta_time": 10.780066458927394, "step": 2758 }, { "epoch": 0.29429333333333335, "grad_norm": 1.8960183181687351, "learning_rate": 8.278099953435995e-06, "loss": 0.5147, "step": 2759 }, { "avg_step_time": 5.864367367041232, "epoch": 0.29429333333333335, "eta_time": 10.777404027873553, "step": 2759 }, { "epoch": 0.2944, "grad_norm": 1.7622349232618713, "learning_rate": 8.276795354228785e-06, "loss": 0.4912, "step": 2760 }, { "avg_step_time": 5.870169177199855, "epoch": 0.2944, "eta_time": 10.786435863104733, "step": 2760 }, { "epoch": 0.2945066666666667, "grad_norm": 1.6759030687931482, "learning_rate": 8.275490363879372e-06, "loss": 0.4547, "step": 2761 }, { "avg_step_time": 5.870818359683258, "epoch": 0.2945066666666667, "eta_time": 10.785997953040296, "step": 2761 }, { "epoch": 0.29461333333333334, "grad_norm": 1.9168363971241527, "learning_rate": 8.274184982543527e-06, "loss": 0.4408, "step": 2762 }, { "avg_step_time": 5.869482206575798, "epoch": 0.29461333333333334, "eta_time": 10.781912731134932, "step": 2762 }, { "epoch": 0.29472, "grad_norm": 1.9191956032696675, "learning_rate": 8.272879210377074e-06, "loss": 0.522, "step": 2763 }, { "avg_step_time": 5.868701443527684, "epoch": 0.29472, "eta_time": 10.778848317945846, "step": 2763 }, { "epoch": 0.2948266666666667, "grad_norm": 1.906813691876844, "learning_rate": 8.271573047535875e-06, "loss": 0.5933, "step": 2764 }, { "avg_step_time": 5.866938013018983, "epoch": 0.2948266666666667, "eta_time": 10.773979778907917, "step": 2764 }, { "epoch": 0.2949333333333333, "grad_norm": 1.5421145930004179, "learning_rate": 8.270266494175847e-06, "loss": 0.4986, "step": 2765 }, { "avg_step_time": 5.894320215841736, "epoch": 0.2949333333333333, "eta_time": 10.822626840753854, "step": 2765 }, { "epoch": 0.29504, "grad_norm": 1.6068771658121421, "learning_rate": 8.268959550452946e-06, "loss": 0.5361, "step": 2766 }, { "avg_step_time": 5.894440638898599, "epoch": 0.29504, "eta_time": 10.821210606244678, "step": 2766 }, { "epoch": 0.29514666666666667, "grad_norm": 1.9750066288536328, "learning_rate": 8.26765221652318e-06, "loss": 0.4896, "step": 2767 }, { "avg_step_time": 5.952306333214346, "epoch": 0.29514666666666667, "eta_time": 10.92578895830011, "step": 2767 }, { "epoch": 0.2952533333333333, "grad_norm": 1.9898077728732906, "learning_rate": 8.266344492542603e-06, "loss": 0.4895, "step": 2768 }, { "avg_step_time": 5.998297662445993, "epoch": 0.2952533333333333, "eta_time": 11.00854240438352, "step": 2768 }, { "epoch": 0.29536, "grad_norm": 1.637340441005352, "learning_rate": 8.265036378667312e-06, "loss": 0.4443, "step": 2769 }, { "avg_step_time": 5.99073226283295, "epoch": 0.29536, "eta_time": 10.992993702298463, "step": 2769 }, { "epoch": 0.29546666666666666, "grad_norm": 1.7486382022421647, "learning_rate": 8.263727875053457e-06, "loss": 0.4667, "step": 2770 }, { "avg_step_time": 5.997850704674769, "epoch": 0.29546666666666666, "eta_time": 11.004389973438014, "step": 2770 }, { "epoch": 0.29557333333333335, "grad_norm": 1.6371133712374442, "learning_rate": 8.262418981857226e-06, "loss": 0.5149, "step": 2771 }, { "avg_step_time": 6.004313194390499, "epoch": 0.29557333333333335, "eta_time": 11.014578982154125, "step": 2771 }, { "epoch": 0.29568, "grad_norm": 1.514811794187229, "learning_rate": 8.261109699234862e-06, "loss": 0.4332, "step": 2772 }, { "avg_step_time": 6.062521399873676, "epoch": 0.29568, "eta_time": 11.119674667601634, "step": 2772 }, { "epoch": 0.29578666666666664, "grad_norm": 0.6648065605670221, "learning_rate": 8.259800027342645e-06, "loss": 0.4682, "step": 2773 }, { "avg_step_time": 6.0320082409213285, "epoch": 0.29578666666666664, "eta_time": 11.062032890711837, "step": 2773 }, { "epoch": 0.29589333333333334, "grad_norm": 0.6822557911587089, "learning_rate": 8.258489966336915e-06, "loss": 0.4464, "step": 2774 }, { "avg_step_time": 5.991670586846092, "epoch": 0.29589333333333334, "eta_time": 10.986393762158626, "step": 2774 }, { "epoch": 0.296, "grad_norm": 1.7311006528378217, "learning_rate": 8.257179516374045e-06, "loss": 0.4315, "step": 2775 }, { "avg_step_time": 6.002459569410845, "epoch": 0.296, "eta_time": 11.004509210586548, "step": 2775 }, { "epoch": 0.2961066666666667, "grad_norm": 1.6669366169951532, "learning_rate": 8.25586867761046e-06, "loss": 0.4524, "step": 2776 }, { "avg_step_time": 5.977213365863068, "epoch": 0.2961066666666667, "eta_time": 10.956564167036216, "step": 2776 }, { "epoch": 0.29621333333333333, "grad_norm": 2.073315580619403, "learning_rate": 8.25455745020263e-06, "loss": 0.4799, "step": 2777 }, { "avg_step_time": 5.97762000440347, "epoch": 0.29621333333333333, "eta_time": 10.955649108070583, "step": 2777 }, { "epoch": 0.29632, "grad_norm": 1.772971555701296, "learning_rate": 8.253245834307079e-06, "loss": 0.4652, "step": 2778 }, { "avg_step_time": 5.971052740559434, "epoch": 0.29632, "eta_time": 10.941954147075162, "step": 2778 }, { "epoch": 0.29642666666666667, "grad_norm": 0.6564322027045539, "learning_rate": 8.251933830080365e-06, "loss": 0.4523, "step": 2779 }, { "avg_step_time": 5.940471138617005, "epoch": 0.29642666666666667, "eta_time": 10.884263230643823, "step": 2779 }, { "epoch": 0.2965333333333333, "grad_norm": 1.996763731660423, "learning_rate": 8.250621437679103e-06, "loss": 0.5563, "step": 2780 }, { "avg_step_time": 5.927401552296648, "epoch": 0.2965333333333333, "eta_time": 10.858670343721222, "step": 2780 }, { "epoch": 0.29664, "grad_norm": 1.7451678789142546, "learning_rate": 8.249308657259943e-06, "loss": 0.5561, "step": 2781 }, { "avg_step_time": 5.92938706369111, "epoch": 0.29664, "eta_time": 10.86066063832755, "step": 2781 }, { "epoch": 0.29674666666666666, "grad_norm": 1.8453577445406462, "learning_rate": 8.247995488979594e-06, "loss": 0.5397, "step": 2782 }, { "avg_step_time": 5.929301377498742, "epoch": 0.29674666666666666, "eta_time": 10.85885666162478, "step": 2782 }, { "epoch": 0.29685333333333336, "grad_norm": 0.6963054766526035, "learning_rate": 8.246681932994804e-06, "loss": 0.4841, "step": 2783 }, { "avg_step_time": 5.933035178617998, "epoch": 0.29685333333333336, "eta_time": 10.864046638180513, "step": 2783 }, { "epoch": 0.29696, "grad_norm": 1.985012283460342, "learning_rate": 8.245367989462368e-06, "loss": 0.5261, "step": 2784 }, { "avg_step_time": 5.930505957266297, "epoch": 0.29696, "eta_time": 10.857767990095045, "step": 2784 }, { "epoch": 0.29706666666666665, "grad_norm": 1.8899129296002481, "learning_rate": 8.244053658539127e-06, "loss": 0.5547, "step": 2785 }, { "avg_step_time": 5.929715387748949, "epoch": 0.29706666666666665, "eta_time": 10.854673445907105, "step": 2785 }, { "epoch": 0.29717333333333334, "grad_norm": 1.8824975786989568, "learning_rate": 8.24273894038197e-06, "loss": 0.5171, "step": 2786 }, { "avg_step_time": 5.9263048870394925, "epoch": 0.29717333333333334, "eta_time": 10.846784139084228, "step": 2786 }, { "epoch": 0.29728, "grad_norm": 1.644121872151026, "learning_rate": 8.241423835147833e-06, "loss": 0.4823, "step": 2787 }, { "avg_step_time": 5.929541756408383, "epoch": 0.29728, "eta_time": 10.851061414227342, "step": 2787 }, { "epoch": 0.2973866666666667, "grad_norm": 1.7078327499536723, "learning_rate": 8.240108342993694e-06, "loss": 0.5721, "step": 2788 }, { "avg_step_time": 5.925656441486243, "epoch": 0.2973866666666667, "eta_time": 10.842305272241635, "step": 2788 }, { "epoch": 0.29749333333333333, "grad_norm": 1.7822381597584072, "learning_rate": 8.238792464076582e-06, "loss": 0.4663, "step": 2789 }, { "avg_step_time": 5.95902467978121, "epoch": 0.29749333333333333, "eta_time": 10.901704594733069, "step": 2789 }, { "epoch": 0.2976, "grad_norm": 1.7656258800185092, "learning_rate": 8.237476198553567e-06, "loss": 0.4959, "step": 2790 }, { "avg_step_time": 5.9594652074756045, "epoch": 0.2976, "eta_time": 10.900855108674126, "step": 2790 }, { "epoch": 0.2977066666666667, "grad_norm": 1.940899898707634, "learning_rate": 8.23615954658177e-06, "loss": 0.4899, "step": 2791 }, { "avg_step_time": 5.946723160117563, "epoch": 0.2977066666666667, "eta_time": 10.875895912837233, "step": 2791 }, { "epoch": 0.2978133333333333, "grad_norm": 1.395979046185085, "learning_rate": 8.234842508318357e-06, "loss": 0.4719, "step": 2792 }, { "avg_step_time": 5.886750743846701, "epoch": 0.2978133333333333, "eta_time": 10.764577818539676, "step": 2792 }, { "epoch": 0.29792, "grad_norm": 1.652213113873854, "learning_rate": 8.233525083920536e-06, "loss": 0.5059, "step": 2793 }, { "avg_step_time": 5.884993141347712, "epoch": 0.29792, "eta_time": 10.759729126764066, "step": 2793 }, { "epoch": 0.29802666666666666, "grad_norm": 1.5218851317165902, "learning_rate": 8.23220727354557e-06, "loss": 0.5159, "step": 2794 }, { "avg_step_time": 5.8775337199972135, "epoch": 0.29802666666666666, "eta_time": 10.744458169806016, "step": 2794 }, { "epoch": 0.2981333333333333, "grad_norm": 1.7563149974826326, "learning_rate": 8.230889077350755e-06, "loss": 0.4807, "step": 2795 }, { "avg_step_time": 5.877005143599077, "epoch": 0.2981333333333333, "eta_time": 10.741859401356091, "step": 2795 }, { "epoch": 0.29824, "grad_norm": 1.42220729645063, "learning_rate": 8.229570495493447e-06, "loss": 0.4376, "step": 2796 }, { "avg_step_time": 5.849904031464548, "epoch": 0.29824, "eta_time": 10.69069961750146, "step": 2796 }, { "epoch": 0.29834666666666665, "grad_norm": 0.6463199525665982, "learning_rate": 8.22825152813104e-06, "loss": 0.4347, "step": 2797 }, { "avg_step_time": 5.823281056953199, "epoch": 0.29834666666666665, "eta_time": 10.640428553510596, "step": 2797 }, { "epoch": 0.29845333333333335, "grad_norm": 1.6137630548990822, "learning_rate": 8.226932175420972e-06, "loss": 0.5598, "step": 2798 }, { "avg_step_time": 5.819639066253045, "epoch": 0.29845333333333335, "eta_time": 10.632157260762856, "step": 2798 }, { "epoch": 0.29856, "grad_norm": 1.6604562466345976, "learning_rate": 8.225612437520736e-06, "loss": 0.4885, "step": 2799 }, { "avg_step_time": 5.8169882899582985, "epoch": 0.29856, "eta_time": 10.625698609657158, "step": 2799 }, { "epoch": 0.2986666666666667, "grad_norm": 1.8759704077235493, "learning_rate": 8.224292314587862e-06, "loss": 0.5649, "step": 2800 }, { "avg_step_time": 5.8261763567876335, "epoch": 0.2986666666666667, "eta_time": 10.64086376274408, "step": 2800 }, { "epoch": 0.29877333333333334, "grad_norm": 1.5182524858624225, "learning_rate": 8.222971806779929e-06, "loss": 0.4865, "step": 2801 }, { "avg_step_time": 5.842831382847796, "epoch": 0.29877333333333334, "eta_time": 10.669659308567057, "step": 2801 }, { "epoch": 0.29888, "grad_norm": 1.9634306391646272, "learning_rate": 8.221650914254566e-06, "loss": 0.5548, "step": 2802 }, { "avg_step_time": 5.863948036925962, "epoch": 0.29888, "eta_time": 10.706591790753986, "step": 2802 }, { "epoch": 0.2989866666666667, "grad_norm": 1.7503830246683028, "learning_rate": 8.220329637169441e-06, "loss": 0.501, "step": 2803 }, { "avg_step_time": 5.869324245838204, "epoch": 0.2989866666666667, "eta_time": 10.714777484346854, "step": 2803 }, { "epoch": 0.2990933333333333, "grad_norm": 1.6895602901415758, "learning_rate": 8.219007975682273e-06, "loss": 0.5359, "step": 2804 }, { "avg_step_time": 5.85656558142768, "epoch": 0.2990933333333333, "eta_time": 10.689859009878134, "step": 2804 }, { "epoch": 0.2992, "grad_norm": 1.9270507476731626, "learning_rate": 8.217685929950823e-06, "loss": 0.4764, "step": 2805 }, { "avg_step_time": 5.871888430431635, "epoch": 0.2992, "eta_time": 10.716196385537735, "step": 2805 }, { "epoch": 0.29930666666666667, "grad_norm": 1.462350372239947, "learning_rate": 8.216363500132903e-06, "loss": 0.5075, "step": 2806 }, { "avg_step_time": 5.882094267642859, "epoch": 0.29930666666666667, "eta_time": 10.733188123373873, "step": 2806 }, { "epoch": 0.2994133333333333, "grad_norm": 2.5425827579829656, "learning_rate": 8.215040686386367e-06, "loss": 0.5018, "step": 2807 }, { "avg_step_time": 5.8659107540593, "epoch": 0.2994133333333333, "eta_time": 10.702028286850412, "step": 2807 }, { "epoch": 0.29952, "grad_norm": 1.886423964275457, "learning_rate": 8.213717488869113e-06, "loss": 0.5859, "step": 2808 }, { "avg_step_time": 5.867563452383484, "epoch": 0.29952, "eta_time": 10.703413664389538, "step": 2808 }, { "epoch": 0.29962666666666665, "grad_norm": 1.8081639440239887, "learning_rate": 8.21239390773909e-06, "loss": 0.5479, "step": 2809 }, { "avg_step_time": 5.8411434371062, "epoch": 0.29962666666666665, "eta_time": 10.653596613344252, "step": 2809 }, { "epoch": 0.29973333333333335, "grad_norm": 1.6112968642359553, "learning_rate": 8.211069943154292e-06, "loss": 0.4158, "step": 2810 }, { "avg_step_time": 5.854625843992137, "epoch": 0.29973333333333335, "eta_time": 10.676560740502328, "step": 2810 }, { "epoch": 0.29984, "grad_norm": 0.6925498389949809, "learning_rate": 8.209745595272755e-06, "loss": 0.4945, "step": 2811 }, { "avg_step_time": 5.821389080298068, "epoch": 0.29984, "eta_time": 10.614332756410143, "step": 2811 }, { "epoch": 0.29994666666666664, "grad_norm": 1.6953791051411184, "learning_rate": 8.208420864252562e-06, "loss": 0.4665, "step": 2812 }, { "avg_step_time": 5.82537016964922, "epoch": 0.29994666666666664, "eta_time": 10.61997345094662, "step": 2812 }, { "epoch": 0.30005333333333334, "grad_norm": 1.644832404355298, "learning_rate": 8.207095750251843e-06, "loss": 0.4586, "step": 2813 }, { "avg_step_time": 5.824297941092289, "epoch": 0.30005333333333334, "eta_time": 10.616400858179889, "step": 2813 }, { "epoch": 0.30016, "grad_norm": 1.7519698654979832, "learning_rate": 8.205770253428775e-06, "loss": 0.4177, "step": 2814 }, { "avg_step_time": 5.825169888409701, "epoch": 0.30016, "eta_time": 10.61637212162668, "step": 2814 }, { "epoch": 0.3002666666666667, "grad_norm": 1.7267763932670197, "learning_rate": 8.204444373941576e-06, "loss": 0.5292, "step": 2815 }, { "avg_step_time": 5.826812320285374, "epoch": 0.3002666666666667, "eta_time": 10.617746894742238, "step": 2815 }, { "epoch": 0.3003733333333333, "grad_norm": 1.6488667822403122, "learning_rate": 8.203118111948516e-06, "loss": 0.5301, "step": 2816 }, { "avg_step_time": 5.837140454186334, "epoch": 0.3003733333333333, "eta_time": 10.634945621946711, "step": 2816 }, { "epoch": 0.30048, "grad_norm": 0.6510983033265036, "learning_rate": 8.201791467607905e-06, "loss": 0.4689, "step": 2817 }, { "avg_step_time": 5.801964745377049, "epoch": 0.30048, "eta_time": 10.569245777828524, "step": 2817 }, { "epoch": 0.30058666666666667, "grad_norm": 1.6956727372632243, "learning_rate": 8.2004644410781e-06, "loss": 0.5323, "step": 2818 }, { "avg_step_time": 5.786248091495398, "epoch": 0.30058666666666667, "eta_time": 10.539007982204257, "step": 2818 }, { "epoch": 0.3006933333333333, "grad_norm": 1.7542224116438563, "learning_rate": 8.199137032517507e-06, "loss": 0.5261, "step": 2819 }, { "avg_step_time": 5.780329952336321, "epoch": 0.3006933333333333, "eta_time": 10.526623102088033, "step": 2819 }, { "epoch": 0.3008, "grad_norm": 1.699799502399115, "learning_rate": 8.197809242084575e-06, "loss": 0.6165, "step": 2820 }, { "avg_step_time": 5.780598459821759, "epoch": 0.3008, "eta_time": 10.525506362258787, "step": 2820 }, { "epoch": 0.30090666666666666, "grad_norm": 1.5604115060620236, "learning_rate": 8.1964810699378e-06, "loss": 0.4465, "step": 2821 }, { "avg_step_time": 5.745529516778811, "epoch": 0.30090666666666666, "eta_time": 10.46005568138009, "step": 2821 }, { "epoch": 0.30101333333333335, "grad_norm": 1.876337399722697, "learning_rate": 8.195152516235718e-06, "loss": 0.4581, "step": 2822 }, { "avg_step_time": 5.781012889110681, "epoch": 0.30101333333333335, "eta_time": 10.523049295095081, "step": 2822 }, { "epoch": 0.30112, "grad_norm": 1.6215050927945158, "learning_rate": 8.193823581136919e-06, "loss": 0.5319, "step": 2823 }, { "avg_step_time": 5.759385631542013, "epoch": 0.30112, "eta_time": 10.482081849406464, "step": 2823 }, { "epoch": 0.30122666666666664, "grad_norm": 1.4271311076872002, "learning_rate": 8.19249426480003e-06, "loss": 0.4595, "step": 2824 }, { "avg_step_time": 5.751778135396013, "epoch": 0.30122666666666664, "eta_time": 10.466638490272022, "step": 2824 }, { "epoch": 0.30133333333333334, "grad_norm": 1.7539349951113559, "learning_rate": 8.191164567383733e-06, "loss": 0.5159, "step": 2825 }, { "avg_step_time": 5.754886547724406, "epoch": 0.30133333333333334, "eta_time": 10.47069635766524, "step": 2825 }, { "epoch": 0.30144, "grad_norm": 1.8884277081547896, "learning_rate": 8.189834489046746e-06, "loss": 0.4181, "step": 2826 }, { "avg_step_time": 5.728605901352083, "epoch": 0.30144, "eta_time": 10.421288902209664, "step": 2826 }, { "epoch": 0.3015466666666667, "grad_norm": 1.599522510481535, "learning_rate": 8.188504029947841e-06, "loss": 0.5184, "step": 2827 }, { "avg_step_time": 5.737496217091878, "epoch": 0.3015466666666667, "eta_time": 10.435868119310449, "step": 2827 }, { "epoch": 0.30165333333333333, "grad_norm": 1.5749756231711376, "learning_rate": 8.187173190245827e-06, "loss": 0.4695, "step": 2828 }, { "avg_step_time": 5.749029039132474, "epoch": 0.30165333333333333, "eta_time": 10.455248088666751, "step": 2828 }, { "epoch": 0.30176, "grad_norm": 1.6322575383111388, "learning_rate": 8.185841970099566e-06, "loss": 0.4899, "step": 2829 }, { "avg_step_time": 5.757912496123651, "epoch": 0.30176, "eta_time": 10.469804222118173, "step": 2829 }, { "epoch": 0.30186666666666667, "grad_norm": 1.6302717334387715, "learning_rate": 8.184510369667962e-06, "loss": 0.4639, "step": 2830 }, { "avg_step_time": 5.745768544649837, "epoch": 0.30186666666666667, "eta_time": 10.446126423536995, "step": 2830 }, { "epoch": 0.3019733333333333, "grad_norm": 2.1677718001899744, "learning_rate": 8.183178389109963e-06, "loss": 0.6174, "step": 2831 }, { "avg_step_time": 5.7452700523415, "epoch": 0.3019733333333333, "eta_time": 10.443624228478548, "step": 2831 }, { "epoch": 0.30208, "grad_norm": 1.6387062629368208, "learning_rate": 8.181846028584563e-06, "loss": 0.5459, "step": 2832 }, { "avg_step_time": 5.750776548578282, "epoch": 0.30208, "eta_time": 10.452036377041026, "step": 2832 }, { "epoch": 0.30218666666666666, "grad_norm": 2.045762972602841, "learning_rate": 8.180513288250804e-06, "loss": 0.5445, "step": 2833 }, { "avg_step_time": 5.848343006288163, "epoch": 0.30218666666666666, "eta_time": 10.627738874204768, "step": 2833 }, { "epoch": 0.30229333333333336, "grad_norm": 1.652823018436487, "learning_rate": 8.179180168267772e-06, "loss": 0.5424, "step": 2834 }, { "avg_step_time": 5.84843785594208, "epoch": 0.30229333333333336, "eta_time": 10.626286671032542, "step": 2834 }, { "epoch": 0.3024, "grad_norm": 0.6495523853155603, "learning_rate": 8.177846668794598e-06, "loss": 0.448, "step": 2835 }, { "avg_step_time": 5.83186642569725, "epoch": 0.3024, "eta_time": 10.59455734001667, "step": 2835 }, { "epoch": 0.30250666666666665, "grad_norm": 1.47674649511792, "learning_rate": 8.176512789990457e-06, "loss": 0.4738, "step": 2836 }, { "avg_step_time": 5.863473027643531, "epoch": 0.30250666666666665, "eta_time": 10.650347257711402, "step": 2836 }, { "epoch": 0.30261333333333335, "grad_norm": 1.6325021506018522, "learning_rate": 8.175178532014571e-06, "loss": 0.4787, "step": 2837 }, { "avg_step_time": 5.858430780545629, "epoch": 0.30261333333333335, "eta_time": 10.639561234224256, "step": 2837 }, { "epoch": 0.30272, "grad_norm": 0.6451890102456808, "learning_rate": 8.173843895026207e-06, "loss": 0.4388, "step": 2838 }, { "avg_step_time": 5.828528958137589, "epoch": 0.30272, "eta_time": 10.58363716648484, "step": 2838 }, { "epoch": 0.3028266666666667, "grad_norm": 1.8176126855592265, "learning_rate": 8.172508879184675e-06, "loss": 0.4812, "step": 2839 }, { "avg_step_time": 5.8323057420326005, "epoch": 0.3028266666666667, "eta_time": 10.588875091645855, "step": 2839 }, { "epoch": 0.30293333333333333, "grad_norm": 1.6513815633705813, "learning_rate": 8.171173484649337e-06, "loss": 0.5722, "step": 2840 }, { "avg_step_time": 5.8971154641623444, "epoch": 0.30293333333333333, "eta_time": 10.70490265508359, "step": 2840 }, { "epoch": 0.30304, "grad_norm": 1.7175350736044477, "learning_rate": 8.169837711579591e-06, "loss": 0.503, "step": 2841 }, { "avg_step_time": 5.889866662747933, "epoch": 0.30304, "eta_time": 10.690107992887498, "step": 2841 }, { "epoch": 0.3031466666666667, "grad_norm": 1.6531032018202956, "learning_rate": 8.168501560134886e-06, "loss": 0.5374, "step": 2842 }, { "avg_step_time": 5.942803878976841, "epoch": 0.3031466666666667, "eta_time": 10.784538261487695, "step": 2842 }, { "epoch": 0.3032533333333333, "grad_norm": 1.8079517022929463, "learning_rate": 8.167165030474715e-06, "loss": 0.4643, "step": 2843 }, { "avg_step_time": 5.925169930313572, "epoch": 0.3032533333333333, "eta_time": 10.750891662446737, "step": 2843 }, { "epoch": 0.30336, "grad_norm": 1.738159268888909, "learning_rate": 8.165828122758615e-06, "loss": 0.5187, "step": 2844 }, { "avg_step_time": 5.958783535042194, "epoch": 0.30336, "eta_time": 10.810226463155715, "step": 2844 }, { "epoch": 0.30346666666666666, "grad_norm": 2.090553672806572, "learning_rate": 8.164490837146173e-06, "loss": 0.537, "step": 2845 }, { "avg_step_time": 5.960481181289211, "epoch": 0.30346666666666666, "eta_time": 10.811650587171819, "step": 2845 }, { "epoch": 0.3035733333333333, "grad_norm": 0.6730775214429302, "learning_rate": 8.16315317379701e-06, "loss": 0.4322, "step": 2846 }, { "avg_step_time": 5.931713708723434, "epoch": 0.3035733333333333, "eta_time": 10.757821890070916, "step": 2846 }, { "epoch": 0.30368, "grad_norm": 1.6199465234804882, "learning_rate": 8.161815132870806e-06, "loss": 0.5334, "step": 2847 }, { "avg_step_time": 5.915755563312107, "epoch": 0.30368, "eta_time": 10.727236754805954, "step": 2847 }, { "epoch": 0.30378666666666665, "grad_norm": 0.6135862196894474, "learning_rate": 8.160476714527274e-06, "loss": 0.424, "step": 2848 }, { "avg_step_time": 5.876197229732167, "epoch": 0.30378666666666665, "eta_time": 10.65387203290607, "step": 2848 }, { "epoch": 0.30389333333333335, "grad_norm": 0.6406718077249389, "learning_rate": 8.159137918926182e-06, "loss": 0.433, "step": 2849 }, { "avg_step_time": 5.846734521364925, "epoch": 0.30389333333333335, "eta_time": 10.598830412896527, "step": 2849 }, { "epoch": 0.304, "grad_norm": 1.4443326401144743, "learning_rate": 8.157798746227337e-06, "loss": 0.4237, "step": 2850 }, { "avg_step_time": 5.890947782632076, "epoch": 0.304, "eta_time": 10.677342856020637, "step": 2850 }, { "epoch": 0.3041066666666667, "grad_norm": 2.0063081914118523, "learning_rate": 8.15645919659059e-06, "loss": 0.5674, "step": 2851 }, { "avg_step_time": 5.892160076083559, "epoch": 0.3041066666666667, "eta_time": 10.677903426769204, "step": 2851 }, { "epoch": 0.30421333333333334, "grad_norm": 0.6009320657240288, "learning_rate": 8.155119270175842e-06, "loss": 0.4287, "step": 2852 }, { "avg_step_time": 5.803596289470942, "epoch": 0.30421333333333334, "eta_time": 10.515794054505266, "step": 2852 }, { "epoch": 0.30432, "grad_norm": 1.7713430932653988, "learning_rate": 8.153778967143035e-06, "loss": 0.5555, "step": 2853 }, { "avg_step_time": 5.797658727626608, "epoch": 0.30432, "eta_time": 10.503425061550203, "step": 2853 }, { "epoch": 0.3044266666666667, "grad_norm": 1.6567002385035252, "learning_rate": 8.152438287652161e-06, "loss": 0.4865, "step": 2854 }, { "avg_step_time": 5.828705720227174, "epoch": 0.3044266666666667, "eta_time": 10.558052778222612, "step": 2854 }, { "epoch": 0.3045333333333333, "grad_norm": 1.925014198646253, "learning_rate": 8.151097231863247e-06, "loss": 0.5229, "step": 2855 }, { "avg_step_time": 5.82303828904123, "epoch": 0.3045333333333333, "eta_time": 10.546169345708005, "step": 2855 }, { "epoch": 0.30464, "grad_norm": 1.5803369796528846, "learning_rate": 8.149755799936377e-06, "loss": 0.5248, "step": 2856 }, { "avg_step_time": 5.824570337931315, "epoch": 0.30464, "eta_time": 10.547326120270624, "step": 2856 }, { "epoch": 0.30474666666666667, "grad_norm": 1.8817499305720868, "learning_rate": 8.14841399203167e-06, "loss": 0.4836, "step": 2857 }, { "avg_step_time": 5.827079190148248, "epoch": 0.30474666666666667, "eta_time": 10.550250600385077, "step": 2857 }, { "epoch": 0.3048533333333333, "grad_norm": 2.44474670603366, "learning_rate": 8.147071808309295e-06, "loss": 0.4693, "step": 2858 }, { "avg_step_time": 5.826491170459324, "epoch": 0.3048533333333333, "eta_time": 10.547567488300947, "step": 2858 }, { "epoch": 0.30496, "grad_norm": 0.6630895777703013, "learning_rate": 8.145729248929466e-06, "loss": 0.4452, "step": 2859 }, { "avg_step_time": 5.792262009900026, "epoch": 0.30496, "eta_time": 10.483994237919047, "step": 2859 }, { "epoch": 0.30506666666666665, "grad_norm": 1.6481801947192265, "learning_rate": 8.14438631405244e-06, "loss": 0.514, "step": 2860 }, { "avg_step_time": 5.789809988002585, "epoch": 0.30506666666666665, "eta_time": 10.477947797732456, "step": 2860 }, { "epoch": 0.30517333333333335, "grad_norm": 1.423397406496367, "learning_rate": 8.14304300383852e-06, "loss": 0.4535, "step": 2861 }, { "avg_step_time": 5.788045625493984, "epoch": 0.30517333333333335, "eta_time": 10.473147001241058, "step": 2861 }, { "epoch": 0.30528, "grad_norm": 0.6431790723745668, "learning_rate": 8.141699318448053e-06, "loss": 0.4524, "step": 2862 }, { "avg_step_time": 5.759487771024608, "epoch": 0.30528, "eta_time": 10.41987329241202, "step": 2862 }, { "epoch": 0.30538666666666664, "grad_norm": 1.5619181281630246, "learning_rate": 8.140355258041431e-06, "loss": 0.4817, "step": 2863 }, { "avg_step_time": 5.76093695380471, "epoch": 0.30538666666666664, "eta_time": 10.42089484532674, "step": 2863 }, { "epoch": 0.30549333333333334, "grad_norm": 1.7290655624504032, "learning_rate": 8.13901082277909e-06, "loss": 0.4725, "step": 2864 }, { "avg_step_time": 5.7342940556882604, "epoch": 0.30549333333333334, "eta_time": 10.371107943496185, "step": 2864 }, { "epoch": 0.3056, "grad_norm": 1.553217757012386, "learning_rate": 8.137666012821514e-06, "loss": 0.4966, "step": 2865 }, { "avg_step_time": 5.734570137178055, "epoch": 0.3056, "eta_time": 10.370014331396982, "step": 2865 }, { "epoch": 0.3057066666666667, "grad_norm": 1.716854693843763, "learning_rate": 8.136320828329227e-06, "loss": 0.5106, "step": 2866 }, { "avg_step_time": 5.696578220887617, "epoch": 0.3057066666666667, "eta_time": 10.29972989993264, "step": 2866 }, { "epoch": 0.3058133333333333, "grad_norm": 1.6854251575013035, "learning_rate": 8.134975269462801e-06, "loss": 0.5079, "step": 2867 }, { "avg_step_time": 5.685790991542315, "epoch": 0.3058133333333333, "eta_time": 10.278646603599274, "step": 2867 }, { "epoch": 0.30592, "grad_norm": 1.6721884276751087, "learning_rate": 8.13362933638285e-06, "loss": 0.4514, "step": 2868 }, { "avg_step_time": 5.6929552506918855, "epoch": 0.30592, "eta_time": 10.290016615625582, "step": 2868 }, { "epoch": 0.30602666666666667, "grad_norm": 1.7507420203960937, "learning_rate": 8.132283029250038e-06, "loss": 0.4933, "step": 2869 }, { "avg_step_time": 5.684060679541694, "epoch": 0.30602666666666667, "eta_time": 10.272360772527293, "step": 2869 }, { "epoch": 0.3061333333333333, "grad_norm": 0.6505137030682523, "learning_rate": 8.130936348225069e-06, "loss": 0.4516, "step": 2870 }, { "avg_step_time": 5.646822377888843, "epoch": 0.3061333333333333, "eta_time": 10.203494324490812, "step": 2870 }, { "epoch": 0.30624, "grad_norm": 1.8064288450438015, "learning_rate": 8.129589293468689e-06, "loss": 0.5253, "step": 2871 }, { "avg_step_time": 5.620972293795961, "epoch": 0.30624, "eta_time": 10.155223277458036, "step": 2871 }, { "epoch": 0.30634666666666666, "grad_norm": 0.6365127351208292, "learning_rate": 8.128241865141697e-06, "loss": 0.445, "step": 2872 }, { "avg_step_time": 5.66135198901398, "epoch": 0.30634666666666666, "eta_time": 10.226603329043865, "step": 2872 }, { "epoch": 0.30645333333333336, "grad_norm": 1.5639019523273177, "learning_rate": 8.12689406340493e-06, "loss": 0.4763, "step": 2873 }, { "avg_step_time": 5.695459416418364, "epoch": 0.30645333333333336, "eta_time": 10.286632534875613, "step": 2873 }, { "epoch": 0.30656, "grad_norm": 1.7024320408807647, "learning_rate": 8.125545888419269e-06, "loss": 0.4449, "step": 2874 }, { "avg_step_time": 5.682145106672037, "epoch": 0.30656, "eta_time": 10.261007038465253, "step": 2874 }, { "epoch": 0.30666666666666664, "grad_norm": 0.6223186288938242, "learning_rate": 8.124197340345646e-06, "loss": 0.4567, "step": 2875 }, { "avg_step_time": 5.67100390280136, "epoch": 0.30666666666666664, "eta_time": 10.239312602280233, "step": 2875 }, { "epoch": 0.30677333333333334, "grad_norm": 1.815984914618342, "learning_rate": 8.12284841934503e-06, "loss": 0.5187, "step": 2876 }, { "avg_step_time": 5.671433049018937, "epoch": 0.30677333333333334, "eta_time": 10.238512051548353, "step": 2876 }, { "epoch": 0.30688, "grad_norm": 1.7871323318670131, "learning_rate": 8.12149912557844e-06, "loss": 0.507, "step": 2877 }, { "avg_step_time": 5.6696295521476054, "epoch": 0.30688, "eta_time": 10.233681341626427, "step": 2877 }, { "epoch": 0.3069866666666667, "grad_norm": 1.6050337985051022, "learning_rate": 8.120149459206942e-06, "loss": 0.5085, "step": 2878 }, { "avg_step_time": 5.700061179170705, "epoch": 0.3069866666666667, "eta_time": 10.287027078075575, "step": 2878 }, { "epoch": 0.30709333333333333, "grad_norm": 1.869787873352175, "learning_rate": 8.118799420391632e-06, "loss": 0.5061, "step": 2879 }, { "avg_step_time": 5.715545545924794, "epoch": 0.30709333333333333, "eta_time": 10.313384407313183, "step": 2879 }, { "epoch": 0.3072, "grad_norm": 0.6290187742696101, "learning_rate": 8.117449009293668e-06, "loss": 0.4704, "step": 2880 }, { "avg_step_time": 5.676234009289982, "epoch": 0.3072, "eta_time": 10.240872191760676, "step": 2880 }, { "epoch": 0.3073066666666667, "grad_norm": 1.668006799842374, "learning_rate": 8.116098226074244e-06, "loss": 0.5467, "step": 2881 }, { "avg_step_time": 5.693641255600284, "epoch": 0.3073066666666667, "eta_time": 10.270696198296733, "step": 2881 }, { "epoch": 0.3074133333333333, "grad_norm": 0.6315695056444507, "learning_rate": 8.114747070894597e-06, "loss": 0.4705, "step": 2882 }, { "avg_step_time": 5.69176994911348, "epoch": 0.3074133333333333, "eta_time": 10.265739522109396, "step": 2882 }, { "epoch": 0.30752, "grad_norm": 1.5238044866635743, "learning_rate": 8.113395543916012e-06, "loss": 0.4633, "step": 2883 }, { "avg_step_time": 5.695665236675378, "epoch": 0.30752, "eta_time": 10.271182976804598, "step": 2883 }, { "epoch": 0.30762666666666666, "grad_norm": 1.5503404292024685, "learning_rate": 8.112043645299817e-06, "loss": 0.5112, "step": 2884 }, { "avg_step_time": 5.695509154387195, "epoch": 0.30762666666666666, "eta_time": 10.269319422535357, "step": 2884 }, { "epoch": 0.30773333333333336, "grad_norm": 1.6527733847501505, "learning_rate": 8.110691375207385e-06, "loss": 0.4828, "step": 2885 }, { "avg_step_time": 5.695519175192322, "epoch": 0.30773333333333336, "eta_time": 10.267755401943935, "step": 2885 }, { "epoch": 0.30784, "grad_norm": 1.7718909737745514, "learning_rate": 8.109338733800132e-06, "loss": 0.5063, "step": 2886 }, { "avg_step_time": 5.721234167465056, "epoch": 0.30784, "eta_time": 10.312524586855764, "step": 2886 }, { "epoch": 0.30794666666666665, "grad_norm": 1.923238804357719, "learning_rate": 8.10798572123952e-06, "loss": 0.5581, "step": 2887 }, { "avg_step_time": 5.720084175919041, "epoch": 0.30794666666666665, "eta_time": 10.308862814822984, "step": 2887 }, { "epoch": 0.30805333333333335, "grad_norm": 2.1662010971486, "learning_rate": 8.106632337687052e-06, "loss": 0.4536, "step": 2888 }, { "avg_step_time": 5.725274367765947, "epoch": 0.30805333333333335, "eta_time": 10.316626339916027, "step": 2888 }, { "epoch": 0.30816, "grad_norm": 1.6841142683681338, "learning_rate": 8.10527858330428e-06, "loss": 0.5902, "step": 2889 }, { "avg_step_time": 5.724212200954707, "epoch": 0.30816, "eta_time": 10.31312231538673, "step": 2889 }, { "epoch": 0.3082666666666667, "grad_norm": 1.6802507109085316, "learning_rate": 8.103924458252801e-06, "loss": 0.4892, "step": 2890 }, { "avg_step_time": 5.727754402642298, "epoch": 0.3082666666666667, "eta_time": 10.31791313920425, "step": 2890 }, { "epoch": 0.30837333333333333, "grad_norm": 1.647864840536862, "learning_rate": 8.102569962694247e-06, "loss": 0.4225, "step": 2891 }, { "avg_step_time": 5.724669798456057, "epoch": 0.30837333333333333, "eta_time": 10.310766381441411, "step": 2891 }, { "epoch": 0.30848, "grad_norm": 1.8961367382010768, "learning_rate": 8.101215096790305e-06, "loss": 0.5496, "step": 2892 }, { "avg_step_time": 5.720636678464485, "epoch": 0.30848, "eta_time": 10.301913218468128, "step": 2892 }, { "epoch": 0.3085866666666667, "grad_norm": 1.654987555281278, "learning_rate": 8.099859860702698e-06, "loss": 0.4976, "step": 2893 }, { "avg_step_time": 5.710037896127412, "epoch": 0.3085866666666667, "eta_time": 10.281240456304968, "step": 2893 }, { "epoch": 0.3086933333333333, "grad_norm": 1.6416864624302456, "learning_rate": 8.098504254593203e-06, "loss": 0.4509, "step": 2894 }, { "avg_step_time": 5.7096415384851325, "epoch": 0.3086933333333333, "eta_time": 10.278940780811707, "step": 2894 }, { "epoch": 0.3088, "grad_norm": 1.8398325068164718, "learning_rate": 8.097148278623628e-06, "loss": 0.4938, "step": 2895 }, { "avg_step_time": 5.708127009748209, "epoch": 0.3088, "eta_time": 10.274628617546774, "step": 2895 }, { "epoch": 0.30890666666666666, "grad_norm": 1.7028522049563006, "learning_rate": 8.095791932955836e-06, "loss": 0.5025, "step": 2896 }, { "avg_step_time": 5.729368185756182, "epoch": 0.30890666666666666, "eta_time": 10.311271243198417, "step": 2896 }, { "epoch": 0.3090133333333333, "grad_norm": 1.5918317931280823, "learning_rate": 8.09443521775173e-06, "loss": 0.463, "step": 2897 }, { "avg_step_time": 5.751128040178858, "epoch": 0.3090133333333333, "eta_time": 10.348835401188513, "step": 2897 }, { "epoch": 0.30912, "grad_norm": 1.8304686499847198, "learning_rate": 8.093078133173256e-06, "loss": 0.5585, "step": 2898 }, { "avg_step_time": 5.7527071129192, "epoch": 0.30912, "eta_time": 10.350078880660462, "step": 2898 }, { "epoch": 0.30922666666666665, "grad_norm": 2.0786697715659925, "learning_rate": 8.091720679382407e-06, "loss": 0.5448, "step": 2899 }, { "avg_step_time": 5.74157468237058, "epoch": 0.30922666666666665, "eta_time": 10.328454900842189, "step": 2899 }, { "epoch": 0.30933333333333335, "grad_norm": 1.5183044119527467, "learning_rate": 8.090362856541218e-06, "loss": 0.3953, "step": 2900 }, { "avg_step_time": 5.735928855761133, "epoch": 0.30933333333333335, "eta_time": 10.316705372514818, "step": 2900 }, { "epoch": 0.30944, "grad_norm": 1.4385602704785794, "learning_rate": 8.089004664811767e-06, "loss": 0.3991, "step": 2901 }, { "avg_step_time": 5.712715416243582, "epoch": 0.30944, "eta_time": 10.273366556878042, "step": 2901 }, { "epoch": 0.3095466666666667, "grad_norm": 1.8184497929933032, "learning_rate": 8.087646104356181e-06, "loss": 0.4663, "step": 2902 }, { "avg_step_time": 5.744317753146393, "epoch": 0.3095466666666667, "eta_time": 10.328602448921279, "step": 2902 }, { "epoch": 0.30965333333333334, "grad_norm": 2.1288470009357616, "learning_rate": 8.086287175336625e-06, "loss": 0.562, "step": 2903 }, { "avg_step_time": 5.766050454342004, "epoch": 0.30965333333333334, "eta_time": 10.366077372361513, "step": 2903 }, { "epoch": 0.30976, "grad_norm": 0.6766670179273926, "learning_rate": 8.084927877915314e-06, "loss": 0.4351, "step": 2904 }, { "avg_step_time": 5.716255094065811, "epoch": 0.30976, "eta_time": 10.274968531583294, "step": 2904 }, { "epoch": 0.3098666666666667, "grad_norm": 1.5198159956887611, "learning_rate": 8.0835682122545e-06, "loss": 0.4821, "step": 2905 }, { "avg_step_time": 5.716052122790404, "epoch": 0.3098666666666667, "eta_time": 10.27301589845942, "step": 2905 }, { "epoch": 0.3099733333333333, "grad_norm": 1.7233450434688686, "learning_rate": 8.082208178516484e-06, "loss": 0.5068, "step": 2906 }, { "avg_step_time": 5.715443447382763, "epoch": 0.3099733333333333, "eta_time": 10.27033435031086, "step": 2906 }, { "epoch": 0.31008, "grad_norm": 1.7163061600123182, "learning_rate": 8.080847776863609e-06, "loss": 0.5438, "step": 2907 }, { "avg_step_time": 5.717163928831466, "epoch": 0.31008, "eta_time": 10.271837858800534, "step": 2907 }, { "epoch": 0.31018666666666667, "grad_norm": 0.6501009633227598, "learning_rate": 8.079487007458265e-06, "loss": 0.425, "step": 2908 }, { "avg_step_time": 5.686682130351211, "epoch": 0.31018666666666667, "eta_time": 10.21549259360591, "step": 2908 }, { "epoch": 0.3102933333333333, "grad_norm": 1.6828619058964709, "learning_rate": 8.078125870462878e-06, "loss": 0.4515, "step": 2909 }, { "avg_step_time": 5.67427202427026, "epoch": 0.3102933333333333, "eta_time": 10.19162303025875, "step": 2909 }, { "epoch": 0.3104, "grad_norm": 1.731108978851112, "learning_rate": 8.07676436603993e-06, "loss": 0.4907, "step": 2910 }, { "avg_step_time": 5.7073041333092585, "epoch": 0.3104, "eta_time": 10.249367006067876, "step": 2910 }, { "epoch": 0.31050666666666665, "grad_norm": 1.647891951809836, "learning_rate": 8.075402494351936e-06, "loss": 0.4213, "step": 2911 }, { "avg_step_time": 5.701099152516837, "epoch": 0.31050666666666665, "eta_time": 10.236640256074676, "step": 2911 }, { "epoch": 0.31061333333333335, "grad_norm": 1.6016671967863483, "learning_rate": 8.07404025556146e-06, "loss": 0.5534, "step": 2912 }, { "avg_step_time": 5.707027102961685, "epoch": 0.31061333333333335, "eta_time": 10.245698935122602, "step": 2912 }, { "epoch": 0.31072, "grad_norm": 1.5395850560241222, "learning_rate": 8.072677649831107e-06, "loss": 0.4772, "step": 2913 }, { "avg_step_time": 5.711475032748598, "epoch": 0.31072, "eta_time": 10.252097683783733, "step": 2913 }, { "epoch": 0.31082666666666664, "grad_norm": 0.6700474862811965, "learning_rate": 8.07131467732353e-06, "loss": 0.4767, "step": 2914 }, { "avg_step_time": 5.6737382387874105, "epoch": 0.31082666666666664, "eta_time": 10.182784100223738, "step": 2914 }, { "epoch": 0.31093333333333334, "grad_norm": 1.7381967102541365, "learning_rate": 8.069951338201421e-06, "loss": 0.5445, "step": 2915 }, { "avg_step_time": 5.687992387347752, "epoch": 0.31093333333333334, "eta_time": 10.206786339518466, "step": 2915 }, { "epoch": 0.31104, "grad_norm": 1.583318353540668, "learning_rate": 8.068587632627521e-06, "loss": 0.528, "step": 2916 }, { "avg_step_time": 5.719223545055197, "epoch": 0.31104, "eta_time": 10.2612402437532, "step": 2916 }, { "epoch": 0.3111466666666667, "grad_norm": 1.6412541941297147, "learning_rate": 8.06722356076461e-06, "loss": 0.4586, "step": 2917 }, { "avg_step_time": 5.722059509970925, "epoch": 0.3111466666666667, "eta_time": 10.264738976497844, "step": 2917 }, { "epoch": 0.3112533333333333, "grad_norm": 1.5864106303047671, "learning_rate": 8.065859122775513e-06, "loss": 0.4909, "step": 2918 }, { "avg_step_time": 5.728241118517789, "epoch": 0.3112533333333333, "eta_time": 10.274236917297046, "step": 2918 }, { "epoch": 0.31136, "grad_norm": 1.8138863231582203, "learning_rate": 8.064494318823102e-06, "loss": 0.6367, "step": 2919 }, { "avg_step_time": 5.727464162942135, "epoch": 0.31136, "eta_time": 10.271252398876229, "step": 2919 }, { "epoch": 0.31146666666666667, "grad_norm": 1.5786004860985434, "learning_rate": 8.063129149070286e-06, "loss": 0.4937, "step": 2920 }, { "avg_step_time": 5.730457209577464, "epoch": 0.31146666666666667, "eta_time": 10.275028135506258, "step": 2920 }, { "epoch": 0.3115733333333333, "grad_norm": 1.5893102489250281, "learning_rate": 8.061763613680024e-06, "loss": 0.4909, "step": 2921 }, { "avg_step_time": 5.726244271403611, "epoch": 0.3115733333333333, "eta_time": 10.265883479899696, "step": 2921 }, { "epoch": 0.31168, "grad_norm": 1.7043229279033938, "learning_rate": 8.060397712815318e-06, "loss": 0.5168, "step": 2922 }, { "avg_step_time": 5.730614575472745, "epoch": 0.31168, "eta_time": 10.272126626534897, "step": 2922 }, { "epoch": 0.31178666666666666, "grad_norm": 1.7067216304373223, "learning_rate": 8.059031446639208e-06, "loss": 0.3991, "step": 2923 }, { "avg_step_time": 5.728981018066406, "epoch": 0.31178666666666666, "eta_time": 10.267607091267903, "step": 2923 }, { "epoch": 0.31189333333333336, "grad_norm": 1.9317906057299323, "learning_rate": 8.057664815314784e-06, "loss": 0.4641, "step": 2924 }, { "avg_step_time": 5.728345292987245, "epoch": 0.31189333333333336, "eta_time": 10.264876523627976, "step": 2924 }, { "epoch": 0.312, "grad_norm": 1.7922043699511976, "learning_rate": 8.056297819005177e-06, "loss": 0.5485, "step": 2925 }, { "avg_step_time": 5.731687938324129, "epoch": 0.312, "eta_time": 10.26927422283073, "step": 2925 }, { "epoch": 0.31210666666666664, "grad_norm": 1.6567929761227635, "learning_rate": 8.05493045787356e-06, "loss": 0.4949, "step": 2926 }, { "avg_step_time": 5.721535776600693, "epoch": 0.31210666666666664, "eta_time": 10.249495617582744, "step": 2926 }, { "epoch": 0.31221333333333334, "grad_norm": 1.9522822236974424, "learning_rate": 8.053562732083153e-06, "loss": 0.5387, "step": 2927 }, { "avg_step_time": 5.712932427724202, "epoch": 0.31221333333333334, "eta_time": 10.232496748323792, "step": 2927 }, { "epoch": 0.31232, "grad_norm": 1.6891434158842897, "learning_rate": 8.052194641797217e-06, "loss": 0.5563, "step": 2928 }, { "avg_step_time": 5.711276153121331, "epoch": 0.31232, "eta_time": 10.227943710881451, "step": 2928 }, { "epoch": 0.3124266666666667, "grad_norm": 1.7002254568655566, "learning_rate": 8.050826187179059e-06, "loss": 0.518, "step": 2929 }, { "avg_step_time": 5.716329603484183, "epoch": 0.3124266666666667, "eta_time": 10.23540572890529, "step": 2929 }, { "epoch": 0.31253333333333333, "grad_norm": 1.638709472336669, "learning_rate": 8.049457368392024e-06, "loss": 0.5074, "step": 2930 }, { "avg_step_time": 5.716585046113139, "epoch": 0.31253333333333333, "eta_time": 10.234275172833106, "step": 2930 }, { "epoch": 0.31264, "grad_norm": 0.629753437516832, "learning_rate": 8.048088185599507e-06, "loss": 0.4483, "step": 2931 }, { "avg_step_time": 5.698979464444247, "epoch": 0.31264, "eta_time": 10.201173241355203, "step": 2931 }, { "epoch": 0.3127466666666667, "grad_norm": 0.6473179918182048, "learning_rate": 8.046718638964943e-06, "loss": 0.4663, "step": 2932 }, { "avg_step_time": 5.604387427821304, "epoch": 0.3127466666666667, "eta_time": 10.030296721514627, "step": 2932 }, { "epoch": 0.3128533333333333, "grad_norm": 1.650753115356557, "learning_rate": 8.04534872865181e-06, "loss": 0.5315, "step": 2933 }, { "avg_step_time": 5.602159921569053, "epoch": 0.3128533333333333, "eta_time": 10.024753948541067, "step": 2933 }, { "epoch": 0.31296, "grad_norm": 1.459951679252769, "learning_rate": 8.043978454823632e-06, "loss": 0.407, "step": 2934 }, { "avg_step_time": 5.614309164008709, "epoch": 0.31296, "eta_time": 10.044934812605582, "step": 2934 }, { "epoch": 0.31306666666666666, "grad_norm": 1.97599386351049, "learning_rate": 8.042607817643974e-06, "loss": 0.5127, "step": 2935 }, { "avg_step_time": 5.615873312709307, "epoch": 0.31306666666666666, "eta_time": 10.046173370513316, "step": 2935 }, { "epoch": 0.31317333333333336, "grad_norm": 0.656099103765368, "learning_rate": 8.041236817276446e-06, "loss": 0.479, "step": 2936 }, { "avg_step_time": 5.58896935106528, "epoch": 0.31317333333333336, "eta_time": 9.996492680974814, "step": 2936 }, { "epoch": 0.31328, "grad_norm": 1.9198247630901593, "learning_rate": 8.0398654538847e-06, "loss": 0.4827, "step": 2937 }, { "avg_step_time": 5.623828659153948, "epoch": 0.31328, "eta_time": 10.05728025212031, "step": 2937 }, { "epoch": 0.31338666666666665, "grad_norm": 0.6472518388707424, "learning_rate": 8.038493727632432e-06, "loss": 0.4549, "step": 2938 }, { "avg_step_time": 5.587040559209958, "epoch": 0.31338666666666665, "eta_time": 9.989938911009585, "step": 2938 }, { "epoch": 0.31349333333333335, "grad_norm": 1.760414118177229, "learning_rate": 8.037121638683383e-06, "loss": 0.4841, "step": 2939 }, { "avg_step_time": 5.531519237190786, "epoch": 0.31349333333333335, "eta_time": 9.889127169599972, "step": 2939 }, { "epoch": 0.3136, "grad_norm": 2.222934388401751, "learning_rate": 8.035749187201333e-06, "loss": 0.5735, "step": 2940 }, { "avg_step_time": 5.531893472478847, "epoch": 0.3136, "eta_time": 9.88825958205594, "step": 2940 }, { "epoch": 0.3137066666666667, "grad_norm": 0.654667718784662, "learning_rate": 8.034376373350109e-06, "loss": 0.4507, "step": 2941 }, { "avg_step_time": 5.482355091306898, "epoch": 0.3137066666666667, "eta_time": 9.79818684929683, "step": 2941 }, { "epoch": 0.31381333333333333, "grad_norm": 1.423727448247601, "learning_rate": 8.033003197293578e-06, "loss": 0.5195, "step": 2942 }, { "avg_step_time": 5.541319688161214, "epoch": 0.31381333333333333, "eta_time": 9.902030431650301, "step": 2942 }, { "epoch": 0.31392, "grad_norm": 0.6125783755360187, "learning_rate": 8.031629659195657e-06, "loss": 0.4277, "step": 2943 }, { "avg_step_time": 5.505616780483361, "epoch": 0.31392, "eta_time": 9.836701981130272, "step": 2943 }, { "epoch": 0.3140266666666667, "grad_norm": 2.0213741013206246, "learning_rate": 8.030255759220296e-06, "loss": 0.4631, "step": 2944 }, { "avg_step_time": 5.505449634609801, "epoch": 0.3140266666666667, "eta_time": 9.834874055604342, "step": 2944 }, { "epoch": 0.3141333333333333, "grad_norm": 1.925665150973228, "learning_rate": 8.028881497531498e-06, "loss": 0.5922, "step": 2945 }, { "avg_step_time": 5.534333949137216, "epoch": 0.3141333333333333, "eta_time": 9.884935359153415, "step": 2945 }, { "epoch": 0.31424, "grad_norm": 1.8133886857169266, "learning_rate": 8.027506874293304e-06, "loss": 0.5023, "step": 2946 }, { "avg_step_time": 5.521898852454291, "epoch": 0.31424, "eta_time": 9.861191034007955, "step": 2946 }, { "epoch": 0.31434666666666666, "grad_norm": 0.6744488976556955, "learning_rate": 8.026131889669796e-06, "loss": 0.463, "step": 2947 }, { "avg_step_time": 5.524907856276541, "epoch": 0.31434666666666666, "eta_time": 9.865029916707114, "step": 2947 }, { "epoch": 0.3144533333333333, "grad_norm": 1.5763448385869427, "learning_rate": 8.024756543825108e-06, "loss": 0.4678, "step": 2948 }, { "avg_step_time": 5.554740436149366, "epoch": 0.3144533333333333, "eta_time": 9.916754661981104, "step": 2948 }, { "epoch": 0.31456, "grad_norm": 1.665981378844219, "learning_rate": 8.023380836923404e-06, "loss": 0.5046, "step": 2949 }, { "avg_step_time": 5.507035188000612, "epoch": 0.31456, "eta_time": 9.830057810581092, "step": 2949 }, { "epoch": 0.31466666666666665, "grad_norm": 1.5427894723880518, "learning_rate": 8.022004769128904e-06, "loss": 0.5073, "step": 2950 }, { "avg_step_time": 5.531969072842839, "epoch": 0.31466666666666665, "eta_time": 9.873028136948678, "step": 2950 }, { "epoch": 0.31477333333333335, "grad_norm": 1.692528741511329, "learning_rate": 8.020628340605866e-06, "loss": 0.4581, "step": 2951 }, { "avg_step_time": 5.556384151632136, "epoch": 0.31477333333333335, "eta_time": 9.915058830579122, "step": 2951 }, { "epoch": 0.31488, "grad_norm": 0.666497057860278, "learning_rate": 8.019251551518585e-06, "loss": 0.5, "step": 2952 }, { "avg_step_time": 5.524011183266688, "epoch": 0.31488, "eta_time": 9.855756619478315, "step": 2952 }, { "epoch": 0.3149866666666667, "grad_norm": 1.5021531042613352, "learning_rate": 8.017874402031409e-06, "loss": 0.4559, "step": 2953 }, { "avg_step_time": 5.524226843708694, "epoch": 0.3149866666666667, "eta_time": 9.854606886193675, "step": 2953 }, { "epoch": 0.31509333333333334, "grad_norm": 2.5302289885163267, "learning_rate": 8.016496892308724e-06, "loss": 0.505, "step": 2954 }, { "avg_step_time": 5.522794937846636, "epoch": 0.31509333333333334, "eta_time": 9.850518415531457, "step": 2954 }, { "epoch": 0.3152, "grad_norm": 1.4743262162137143, "learning_rate": 8.015119022514958e-06, "loss": 0.4372, "step": 2955 }, { "avg_step_time": 5.526721347462047, "epoch": 0.3152, "eta_time": 9.855986402973985, "step": 2955 }, { "epoch": 0.3153066666666667, "grad_norm": 1.8551677081032183, "learning_rate": 8.013740792814589e-06, "loss": 0.5499, "step": 2956 }, { "avg_step_time": 5.530342342877629, "epoch": 0.3153066666666667, "eta_time": 9.860907638592083, "step": 2956 }, { "epoch": 0.3154133333333333, "grad_norm": 1.7472140359936825, "learning_rate": 8.012362203372124e-06, "loss": 0.5198, "step": 2957 }, { "avg_step_time": 5.537265098456181, "epoch": 0.3154133333333333, "eta_time": 9.871713167192159, "step": 2957 }, { "epoch": 0.31552, "grad_norm": 1.7333579386459417, "learning_rate": 8.010983254352127e-06, "loss": 0.5881, "step": 2958 }, { "avg_step_time": 5.574275339492644, "epoch": 0.31552, "eta_time": 9.936145792645636, "step": 2958 }, { "epoch": 0.31562666666666667, "grad_norm": 1.7757561338146017, "learning_rate": 8.009603945919197e-06, "loss": 0.4712, "step": 2959 }, { "avg_step_time": 5.574453967990297, "epoch": 0.31562666666666667, "eta_time": 9.934915738507152, "step": 2959 }, { "epoch": 0.3157333333333333, "grad_norm": 1.7548108223603343, "learning_rate": 8.008224278237982e-06, "loss": 0.5502, "step": 2960 }, { "avg_step_time": 5.573927713162972, "epoch": 0.3157333333333333, "eta_time": 9.932429522205684, "step": 2960 }, { "epoch": 0.31584, "grad_norm": 1.7330783250079824, "learning_rate": 8.006844251473165e-06, "loss": 0.5677, "step": 2961 }, { "avg_step_time": 5.606237589710891, "epoch": 0.31584, "eta_time": 9.988446639001571, "step": 2961 }, { "epoch": 0.31594666666666665, "grad_norm": 1.9162946722091199, "learning_rate": 8.005463865789477e-06, "loss": 0.5909, "step": 2962 }, { "avg_step_time": 5.60613438577363, "epoch": 0.31594666666666665, "eta_time": 9.98670550443508, "step": 2962 }, { "epoch": 0.31605333333333335, "grad_norm": 1.6952956474988934, "learning_rate": 8.004083121351695e-06, "loss": 0.5559, "step": 2963 }, { "avg_step_time": 5.605510555132471, "epoch": 0.31605333333333335, "eta_time": 9.984037133197058, "step": 2963 }, { "epoch": 0.31616, "grad_norm": 1.6168292139333225, "learning_rate": 8.002702018324629e-06, "loss": 0.5281, "step": 2964 }, { "avg_step_time": 5.634283641372064, "epoch": 0.31616, "eta_time": 10.033720118010084, "step": 2964 }, { "epoch": 0.31626666666666664, "grad_norm": 1.915456797945592, "learning_rate": 8.00132055687314e-06, "loss": 0.503, "step": 2965 }, { "avg_step_time": 5.617965074500653, "epoch": 0.31626666666666664, "eta_time": 10.003098924319218, "step": 2965 }, { "epoch": 0.31637333333333334, "grad_norm": 1.6360094185858396, "learning_rate": 7.999938737162132e-06, "loss": 0.394, "step": 2966 }, { "avg_step_time": 5.618730793095598, "epoch": 0.31637333333333334, "eta_time": 10.002901570263802, "step": 2966 }, { "epoch": 0.31648, "grad_norm": 1.8776996888902902, "learning_rate": 7.998556559356543e-06, "loss": 0.3902, "step": 2967 }, { "avg_step_time": 5.609147536634195, "epoch": 0.31648, "eta_time": 9.984282615208867, "step": 2967 }, { "epoch": 0.3165866666666667, "grad_norm": 1.5827829895521945, "learning_rate": 7.997174023621364e-06, "loss": 0.5343, "step": 2968 }, { "avg_step_time": 5.6056983543164804, "epoch": 0.3165866666666667, "eta_time": 9.97658593225158, "step": 2968 }, { "epoch": 0.3166933333333333, "grad_norm": 1.3927468463464767, "learning_rate": 7.995791130121624e-06, "loss": 0.5144, "step": 2969 }, { "avg_step_time": 5.636766139907066, "epoch": 0.3166933333333333, "eta_time": 10.030312192290184, "step": 2969 }, { "epoch": 0.3168, "grad_norm": 1.5882886716598243, "learning_rate": 7.994407879022397e-06, "loss": 0.4708, "step": 2970 }, { "avg_step_time": 5.636650140839394, "epoch": 0.3168, "eta_time": 10.02854004224342, "step": 2970 }, { "epoch": 0.31690666666666667, "grad_norm": 1.6947667098955803, "learning_rate": 7.993024270488794e-06, "loss": 0.4673, "step": 2971 }, { "avg_step_time": 5.626281581743799, "epoch": 0.31690666666666667, "eta_time": 10.008529791524248, "step": 2971 }, { "epoch": 0.3170133333333333, "grad_norm": 1.5240654026678808, "learning_rate": 7.991640304685975e-06, "loss": 0.5099, "step": 2972 }, { "avg_step_time": 5.633683315431229, "epoch": 0.3170133333333333, "eta_time": 10.020131741307267, "step": 2972 }, { "epoch": 0.31712, "grad_norm": 1.8145596384375584, "learning_rate": 7.990255981779139e-06, "loss": 0.5581, "step": 2973 }, { "avg_step_time": 5.633647217895046, "epoch": 0.31712, "eta_time": 10.018502635823356, "step": 2973 }, { "epoch": 0.31722666666666666, "grad_norm": 0.6547970827999806, "learning_rate": 7.98887130193353e-06, "loss": 0.4506, "step": 2974 }, { "avg_step_time": 5.611014790005154, "epoch": 0.31722666666666666, "eta_time": 9.976696019673053, "step": 2974 }, { "epoch": 0.31733333333333336, "grad_norm": 0.6594758999899168, "learning_rate": 7.987486265314435e-06, "loss": 0.4605, "step": 2975 }, { "avg_step_time": 5.587037881215413, "epoch": 0.31733333333333336, "eta_time": 9.9325117888274, "step": 2975 }, { "epoch": 0.31744, "grad_norm": 2.154966102009597, "learning_rate": 7.986100872087177e-06, "loss": 0.5057, "step": 2976 }, { "avg_step_time": 5.586404899154046, "epoch": 0.31744, "eta_time": 9.929834708246318, "step": 2976 }, { "epoch": 0.31754666666666664, "grad_norm": 1.5891701863033016, "learning_rate": 7.984715122417133e-06, "loss": 0.5139, "step": 2977 }, { "avg_step_time": 5.58696049873275, "epoch": 0.31754666666666664, "eta_time": 9.929270353025592, "step": 2977 }, { "epoch": 0.31765333333333334, "grad_norm": 0.6149360427862217, "learning_rate": 7.983329016469712e-06, "loss": 0.4333, "step": 2978 }, { "avg_step_time": 5.542270157072279, "epoch": 0.31765333333333334, "eta_time": 9.848306165219826, "step": 2978 }, { "epoch": 0.31776, "grad_norm": 1.7772827639106399, "learning_rate": 7.981942554410371e-06, "loss": 0.6165, "step": 2979 }, { "avg_step_time": 5.580182338001753, "epoch": 0.31776, "eta_time": 9.91412395384978, "step": 2979 }, { "epoch": 0.3178666666666667, "grad_norm": 2.2541499683300477, "learning_rate": 7.980555736404608e-06, "loss": 0.5463, "step": 2980 }, { "avg_step_time": 5.590588273424091, "epoch": 0.3178666666666667, "eta_time": 9.931058891263072, "step": 2980 }, { "epoch": 0.31797333333333333, "grad_norm": 1.5881813996226577, "learning_rate": 7.979168562617965e-06, "loss": 0.4766, "step": 2981 }, { "avg_step_time": 5.625570651256677, "epoch": 0.31797333333333333, "eta_time": 9.991638540037554, "step": 2981 }, { "epoch": 0.31808, "grad_norm": 1.703310681965283, "learning_rate": 7.97778103321602e-06, "loss": 0.4247, "step": 2982 }, { "avg_step_time": 5.65067033093385, "epoch": 0.31808, "eta_time": 10.034648729350028, "step": 2982 }, { "epoch": 0.3181866666666667, "grad_norm": 1.7409309991466428, "learning_rate": 7.976393148364407e-06, "loss": 0.5831, "step": 2983 }, { "avg_step_time": 5.670382184211654, "epoch": 0.3181866666666667, "eta_time": 10.068078589300248, "step": 2983 }, { "epoch": 0.3182933333333333, "grad_norm": 1.600060270876387, "learning_rate": 7.975004908228787e-06, "loss": 0.5433, "step": 2984 }, { "avg_step_time": 5.688087810169566, "epoch": 0.3182933333333333, "eta_time": 10.097935887442695, "step": 2984 }, { "epoch": 0.3184, "grad_norm": 1.6868957171284666, "learning_rate": 7.973616312974876e-06, "loss": 0.5386, "step": 2985 }, { "avg_step_time": 5.661770878416119, "epoch": 0.3184, "eta_time": 10.049643309188612, "step": 2985 }, { "epoch": 0.31850666666666666, "grad_norm": 1.5900675606992893, "learning_rate": 7.972227362768421e-06, "loss": 0.5201, "step": 2986 }, { "avg_step_time": 5.6623174156805485, "epoch": 0.31850666666666666, "eta_time": 10.049040546884173, "step": 2986 }, { "epoch": 0.31861333333333336, "grad_norm": 1.5944843896481953, "learning_rate": 7.970838057775222e-06, "loss": 0.4997, "step": 2987 }, { "avg_step_time": 5.62194001072585, "epoch": 0.31861333333333336, "eta_time": 9.975820219032425, "step": 2987 }, { "epoch": 0.31872, "grad_norm": 1.5172077448587606, "learning_rate": 7.969448398161115e-06, "loss": 0.5208, "step": 2988 }, { "avg_step_time": 5.622681468424171, "epoch": 0.31872, "eta_time": 9.97557403856255, "step": 2988 }, { "epoch": 0.31882666666666665, "grad_norm": 1.6876152967628615, "learning_rate": 7.968058384091978e-06, "loss": 0.4955, "step": 2989 }, { "avg_step_time": 5.619166133379696, "epoch": 0.31882666666666665, "eta_time": 9.967776368822983, "step": 2989 }, { "epoch": 0.31893333333333335, "grad_norm": 1.7980714625600631, "learning_rate": 7.966668015733736e-06, "loss": 0.5446, "step": 2990 }, { "avg_step_time": 5.621326249055188, "epoch": 0.31893333333333335, "eta_time": 9.970046694504825, "step": 2990 }, { "epoch": 0.31904, "grad_norm": 1.6484374060753797, "learning_rate": 7.965277293252354e-06, "loss": 0.4876, "step": 2991 }, { "avg_step_time": 5.621166067894059, "epoch": 0.31904, "eta_time": 9.968201160398797, "step": 2991 }, { "epoch": 0.3191466666666667, "grad_norm": 1.5572567154316008, "learning_rate": 7.963886216813836e-06, "loss": 0.5342, "step": 2992 }, { "avg_step_time": 5.626063845374367, "epoch": 0.3191466666666667, "eta_time": 9.975323756951274, "step": 2992 }, { "epoch": 0.31925333333333333, "grad_norm": 1.6102643966077204, "learning_rate": 7.962494786584232e-06, "loss": 0.4923, "step": 2993 }, { "avg_step_time": 5.6264617202257865, "epoch": 0.31925333333333333, "eta_time": 9.974466305133602, "step": 2993 }, { "epoch": 0.31936, "grad_norm": 1.7496325322453323, "learning_rate": 7.961103002729634e-06, "loss": 0.4579, "step": 2994 }, { "avg_step_time": 5.627151429051101, "epoch": 0.31936, "eta_time": 9.974125907993077, "step": 2994 }, { "epoch": 0.3194666666666667, "grad_norm": 1.7972509391398204, "learning_rate": 7.959710865416173e-06, "loss": 0.5504, "step": 2995 }, { "avg_step_time": 5.632094648149279, "epoch": 0.3194666666666667, "eta_time": 9.981323293108998, "step": 2995 }, { "epoch": 0.3195733333333333, "grad_norm": 1.6553592006418205, "learning_rate": 7.958318374810028e-06, "loss": 0.5349, "step": 2996 }, { "avg_step_time": 5.611592902077569, "epoch": 0.3195733333333333, "eta_time": 9.943430867320226, "step": 2996 }, { "epoch": 0.31968, "grad_norm": 1.8706150762346783, "learning_rate": 7.956925531077417e-06, "loss": 0.5478, "step": 2997 }, { "avg_step_time": 5.611463693657306, "epoch": 0.31968, "eta_time": 9.941643177262861, "step": 2997 }, { "epoch": 0.31978666666666666, "grad_norm": 0.7068198434313298, "learning_rate": 7.955532334384597e-06, "loss": 0.4668, "step": 2998 }, { "avg_step_time": 5.579030075458565, "epoch": 0.31978666666666666, "eta_time": 9.88263188644424, "step": 2998 }, { "epoch": 0.3198933333333333, "grad_norm": 2.1389482923840952, "learning_rate": 7.954138784897873e-06, "loss": 0.563, "step": 2999 }, { "avg_step_time": 5.57907885734481, "epoch": 0.3198933333333333, "eta_time": 9.881168554008475, "step": 2999 }, { "epoch": 0.32, "grad_norm": 1.5859033395882263, "learning_rate": 7.952744882783587e-06, "loss": 0.4411, "step": 3000 }, { "avg_step_time": 5.5760043943771205, "epoch": 0.32, "eta_time": 9.87417444837615, "step": 3000 }, { "epoch": 0.32010666666666665, "grad_norm": 1.6504404227629899, "learning_rate": 7.951350628208126e-06, "loss": 0.5091, "step": 3001 }, { "avg_step_time": 5.541868024402195, "epoch": 0.32010666666666665, "eta_time": 9.812185218760998, "step": 3001 }, { "epoch": 0.32021333333333335, "grad_norm": 1.788547506684262, "learning_rate": 7.949956021337918e-06, "loss": 0.4841, "step": 3002 }, { "avg_step_time": 5.517159582388522, "epoch": 0.32021333333333335, "eta_time": 9.766905005156126, "step": 3002 }, { "epoch": 0.32032, "grad_norm": 1.7120811553668431, "learning_rate": 7.948561062339435e-06, "loss": 0.5275, "step": 3003 }, { "avg_step_time": 5.553884691662258, "epoch": 0.32032, "eta_time": 9.830375904242198, "step": 3003 }, { "epoch": 0.3204266666666667, "grad_norm": 1.6163810961710792, "learning_rate": 7.947165751379189e-06, "loss": 0.5513, "step": 3004 }, { "avg_step_time": 5.564896366812966, "epoch": 0.3204266666666667, "eta_time": 9.848320764712613, "step": 3004 }, { "epoch": 0.32053333333333334, "grad_norm": 0.6639595984216393, "learning_rate": 7.945770088623735e-06, "loss": 0.4388, "step": 3005 }, { "avg_step_time": 5.543389014523439, "epoch": 0.32053333333333334, "eta_time": 9.808718895142864, "step": 3005 }, { "epoch": 0.32064, "grad_norm": 0.6528445058330018, "learning_rate": 7.944374074239665e-06, "loss": 0.4503, "step": 3006 }, { "avg_step_time": 5.510065745825719, "epoch": 0.32064, "eta_time": 9.748224648656668, "step": 3006 }, { "epoch": 0.3207466666666667, "grad_norm": 1.5339741306294417, "learning_rate": 7.942977708393624e-06, "loss": 0.4405, "step": 3007 }, { "avg_step_time": 5.541207409868337, "epoch": 0.3207466666666667, "eta_time": 9.801780218344879, "step": 3007 }, { "epoch": 0.3208533333333333, "grad_norm": 0.6289952653979792, "learning_rate": 7.941580991252288e-06, "loss": 0.459, "step": 3008 }, { "avg_step_time": 5.506903930143877, "epoch": 0.3208533333333333, "eta_time": 9.739571478673907, "step": 3008 }, { "epoch": 0.32096, "grad_norm": 1.9098251140100098, "learning_rate": 7.940183922982381e-06, "loss": 0.526, "step": 3009 }, { "avg_step_time": 5.508894048555933, "epoch": 0.32096, "eta_time": 9.741560975863075, "step": 3009 }, { "epoch": 0.32106666666666667, "grad_norm": 1.8803406446898285, "learning_rate": 7.938786503750668e-06, "loss": 0.5057, "step": 3010 }, { "avg_step_time": 5.522502853412821, "epoch": 0.32106666666666667, "eta_time": 9.764091850547944, "step": 3010 }, { "epoch": 0.3211733333333333, "grad_norm": 0.645872869758655, "learning_rate": 7.937388733723952e-06, "loss": 0.4567, "step": 3011 }, { "avg_step_time": 5.485359663915152, "epoch": 0.3211733333333333, "eta_time": 9.696896916987786, "step": 3011 }, { "epoch": 0.32128, "grad_norm": 1.68176111187555, "learning_rate": 7.935990613069087e-06, "loss": 0.5752, "step": 3012 }, { "avg_step_time": 5.48393160646612, "epoch": 0.32128, "eta_time": 9.692849114428867, "step": 3012 }, { "epoch": 0.32138666666666665, "grad_norm": 1.6676792435460763, "learning_rate": 7.934592141952954e-06, "loss": 0.5052, "step": 3013 }, { "avg_step_time": 5.522960802521369, "epoch": 0.32138666666666665, "eta_time": 9.76029906267804, "step": 3013 }, { "epoch": 0.32149333333333335, "grad_norm": 1.4592794499682717, "learning_rate": 7.933193320542493e-06, "loss": 0.4053, "step": 3014 }, { "avg_step_time": 5.5077736594460225, "epoch": 0.32149333333333335, "eta_time": 9.731930068815599, "step": 3014 }, { "epoch": 0.3216, "grad_norm": 1.5135092693599501, "learning_rate": 7.931794149004675e-06, "loss": 0.4714, "step": 3015 }, { "avg_step_time": 5.511560160704334, "epoch": 0.3216, "eta_time": 9.737089617244322, "step": 3015 }, { "epoch": 0.32170666666666664, "grad_norm": 1.6017829415336866, "learning_rate": 7.930394627506513e-06, "loss": 0.4993, "step": 3016 }, { "avg_step_time": 5.5177848603990345, "epoch": 0.32170666666666664, "eta_time": 9.746553868688185, "step": 3016 }, { "epoch": 0.32181333333333334, "grad_norm": 1.4280586995488007, "learning_rate": 7.928994756215067e-06, "loss": 0.4189, "step": 3017 }, { "avg_step_time": 5.513910931770248, "epoch": 0.32181333333333334, "eta_time": 9.738179362276453, "step": 3017 }, { "epoch": 0.32192, "grad_norm": 1.8487328269331138, "learning_rate": 7.927594535297433e-06, "loss": 0.4993, "step": 3018 }, { "avg_step_time": 5.5129485082144685, "epoch": 0.32192, "eta_time": 9.734948240755383, "step": 3018 }, { "epoch": 0.3220266666666667, "grad_norm": 1.651824638801052, "learning_rate": 7.926193964920756e-06, "loss": 0.5186, "step": 3019 }, { "avg_step_time": 5.509289589795199, "epoch": 0.3220266666666667, "eta_time": 9.726956842427303, "step": 3019 }, { "epoch": 0.3221333333333333, "grad_norm": 1.5945700214903145, "learning_rate": 7.924793045252213e-06, "loss": 0.4852, "step": 3020 }, { "avg_step_time": 5.508950941490404, "epoch": 0.3221333333333333, "eta_time": 9.724828675880977, "step": 3020 }, { "epoch": 0.32224, "grad_norm": 1.679333846790487, "learning_rate": 7.923391776459031e-06, "loss": 0.554, "step": 3021 }, { "avg_step_time": 5.505862623754174, "epoch": 0.32224, "eta_time": 9.717847530926118, "step": 3021 }, { "epoch": 0.32234666666666667, "grad_norm": 0.6436197830269758, "learning_rate": 7.921990158708478e-06, "loss": 0.4349, "step": 3022 }, { "avg_step_time": 5.474861344905815, "epoch": 0.32234666666666667, "eta_time": 9.661609478940735, "step": 3022 }, { "epoch": 0.3224533333333333, "grad_norm": 1.8857171836607423, "learning_rate": 7.920588192167854e-06, "loss": 0.485, "step": 3023 }, { "avg_step_time": 5.472281222391611, "epoch": 0.3224533333333333, "eta_time": 9.65553620128653, "step": 3023 }, { "epoch": 0.32256, "grad_norm": 1.805038826179728, "learning_rate": 7.919185877004515e-06, "loss": 0.4616, "step": 3024 }, { "avg_step_time": 5.470107432567712, "epoch": 0.32256, "eta_time": 9.650181195621538, "step": 3024 }, { "epoch": 0.32266666666666666, "grad_norm": 2.016177849349576, "learning_rate": 7.917783213385849e-06, "loss": 0.5657, "step": 3025 }, { "avg_step_time": 5.47521756152914, "epoch": 0.32266666666666666, "eta_time": 9.657675421030566, "step": 3025 }, { "epoch": 0.32277333333333336, "grad_norm": 1.8751938020990786, "learning_rate": 7.916380201479287e-06, "loss": 0.5414, "step": 3026 }, { "avg_step_time": 5.475356294651224, "epoch": 0.32277333333333336, "eta_time": 9.656399198539061, "step": 3026 }, { "epoch": 0.32288, "grad_norm": 1.6846672277807058, "learning_rate": 7.914976841452304e-06, "loss": 0.5367, "step": 3027 }, { "avg_step_time": 5.471261267710214, "epoch": 0.32288, "eta_time": 9.64765736872901, "step": 3027 }, { "epoch": 0.32298666666666664, "grad_norm": 2.0120712253710593, "learning_rate": 7.913573133472417e-06, "loss": 0.5399, "step": 3028 }, { "avg_step_time": 5.472511590129197, "epoch": 0.32298666666666664, "eta_time": 9.648341961819447, "step": 3028 }, { "epoch": 0.32309333333333334, "grad_norm": 1.4357190939674465, "learning_rate": 7.912169077707179e-06, "loss": 0.4872, "step": 3029 }, { "avg_step_time": 5.469788187682027, "epoch": 0.32309333333333334, "eta_time": 9.64202106639726, "step": 3029 }, { "epoch": 0.3232, "grad_norm": 1.438600629239738, "learning_rate": 7.91076467432419e-06, "loss": 0.4136, "step": 3030 }, { "avg_step_time": 5.482699411083954, "epoch": 0.3232, "eta_time": 9.663257712035469, "step": 3030 }, { "epoch": 0.3233066666666667, "grad_norm": 1.5792645814202553, "learning_rate": 7.909359923491092e-06, "loss": 0.4798, "step": 3031 }, { "avg_step_time": 5.514260778523455, "epoch": 0.3233066666666667, "eta_time": 9.717352883042444, "step": 3031 }, { "epoch": 0.32341333333333333, "grad_norm": 0.6896899607786866, "learning_rate": 7.907954825375564e-06, "loss": 0.4868, "step": 3032 }, { "avg_step_time": 5.48135460506786, "epoch": 0.32341333333333333, "eta_time": 9.657842294429287, "step": 3032 }, { "epoch": 0.32352, "grad_norm": 1.9126176335331686, "learning_rate": 7.90654938014533e-06, "loss": 0.4557, "step": 3033 }, { "avg_step_time": 5.480432259916055, "epoch": 0.32352, "eta_time": 9.654694831218785, "step": 3033 }, { "epoch": 0.3236266666666667, "grad_norm": 1.6453863135345648, "learning_rate": 7.905143587968153e-06, "loss": 0.4811, "step": 3034 }, { "avg_step_time": 5.47935303774747, "epoch": 0.3236266666666667, "eta_time": 9.651271558987974, "step": 3034 }, { "epoch": 0.3237333333333333, "grad_norm": 1.640908939049908, "learning_rate": 7.903737449011838e-06, "loss": 0.4513, "step": 3035 }, { "avg_step_time": 5.5177477947389235, "epoch": 0.3237333333333333, "eta_time": 9.717366949623548, "step": 3035 }, { "epoch": 0.32384, "grad_norm": 1.7716344223802563, "learning_rate": 7.902330963444234e-06, "loss": 0.4892, "step": 3036 }, { "avg_step_time": 5.513475468664458, "epoch": 0.32384, "eta_time": 9.70831138774, "step": 3036 }, { "epoch": 0.32394666666666666, "grad_norm": 1.4431147622249165, "learning_rate": 7.90092413143323e-06, "loss": 0.4065, "step": 3037 }, { "avg_step_time": 5.547538904228595, "epoch": 0.32394666666666666, "eta_time": 9.766750437500232, "step": 3037 }, { "epoch": 0.32405333333333336, "grad_norm": 1.826469902197327, "learning_rate": 7.899516953146751e-06, "loss": 0.5533, "step": 3038 }, { "avg_step_time": 5.540871848963728, "epoch": 0.32405333333333336, "eta_time": 9.753473585245317, "step": 3038 }, { "epoch": 0.32416, "grad_norm": 1.51387785877612, "learning_rate": 7.898109428752773e-06, "loss": 0.4199, "step": 3039 }, { "avg_step_time": 5.543405833870474, "epoch": 0.32416, "eta_time": 9.756394267612034, "step": 3039 }, { "epoch": 0.32426666666666665, "grad_norm": 1.9084629289150836, "learning_rate": 7.896701558419306e-06, "loss": 0.5446, "step": 3040 }, { "avg_step_time": 5.573659884809244, "epoch": 0.32426666666666665, "eta_time": 9.808093158407377, "step": 3040 }, { "epoch": 0.32437333333333335, "grad_norm": 1.873355911854531, "learning_rate": 7.895293342314406e-06, "loss": 0.5918, "step": 3041 }, { "avg_step_time": 5.510129983979042, "epoch": 0.32437333333333335, "eta_time": 9.694767588478683, "step": 3041 }, { "epoch": 0.32448, "grad_norm": 1.7079907951334914, "learning_rate": 7.893884780606164e-06, "loss": 0.5343, "step": 3042 }, { "avg_step_time": 5.547297024967695, "epoch": 0.32448, "eta_time": 9.758620016422338, "step": 3042 }, { "epoch": 0.3245866666666667, "grad_norm": 1.5929644083524037, "learning_rate": 7.89247587346272e-06, "loss": 0.5197, "step": 3043 }, { "avg_step_time": 5.541907445348874, "epoch": 0.3245866666666667, "eta_time": 9.747599428874741, "step": 3043 }, { "epoch": 0.32469333333333333, "grad_norm": 0.6654977532322496, "learning_rate": 7.891066621052251e-06, "loss": 0.4552, "step": 3044 }, { "avg_step_time": 5.507303736426613, "epoch": 0.32469333333333333, "eta_time": 9.68520554314358, "step": 3044 }, { "epoch": 0.3248, "grad_norm": 1.6242170890920928, "learning_rate": 7.889657023542973e-06, "loss": 0.4773, "step": 3045 }, { "avg_step_time": 5.509345569995919, "epoch": 0.3248, "eta_time": 9.687265960576157, "step": 3045 }, { "epoch": 0.3249066666666667, "grad_norm": 1.794642250519188, "learning_rate": 7.88824708110315e-06, "loss": 0.471, "step": 3046 }, { "avg_step_time": 5.5692854409266, "epoch": 0.3249066666666667, "eta_time": 9.79111320989568, "step": 3046 }, { "epoch": 0.3250133333333333, "grad_norm": 1.6417116761430306, "learning_rate": 7.886836793901077e-06, "loss": 0.507, "step": 3047 }, { "avg_step_time": 5.571205500400428, "epoch": 0.3250133333333333, "eta_time": 9.792941224037197, "step": 3047 }, { "epoch": 0.32512, "grad_norm": 1.57101226346522, "learning_rate": 7.885426162105101e-06, "loss": 0.5425, "step": 3048 }, { "avg_step_time": 5.5827147671670625, "epoch": 0.32512, "eta_time": 9.811621203296113, "step": 3048 }, { "epoch": 0.32522666666666666, "grad_norm": 1.8218781575571088, "learning_rate": 7.884015185883602e-06, "loss": 0.4795, "step": 3049 }, { "avg_step_time": 5.579968452453613, "epoch": 0.32522666666666666, "eta_time": 9.805244563950433, "step": 3049 }, { "epoch": 0.3253333333333333, "grad_norm": 1.7537298047750076, "learning_rate": 7.882603865405008e-06, "loss": 0.5384, "step": 3050 }, { "avg_step_time": 5.5787787003950635, "epoch": 0.3253333333333333, "eta_time": 9.801604244444105, "step": 3050 }, { "epoch": 0.32544, "grad_norm": 1.7070657245294125, "learning_rate": 7.881192200837785e-06, "loss": 0.531, "step": 3051 }, { "avg_step_time": 5.627033180660671, "epoch": 0.32544, "eta_time": 9.884821620693913, "step": 3051 }, { "epoch": 0.32554666666666665, "grad_norm": 1.5984055704682143, "learning_rate": 7.879780192350434e-06, "loss": 0.5711, "step": 3052 }, { "avg_step_time": 5.623518907662594, "epoch": 0.32554666666666665, "eta_time": 9.877086125875161, "step": 3052 }, { "epoch": 0.32565333333333335, "grad_norm": 1.5564487784289325, "learning_rate": 7.878367840111508e-06, "loss": 0.5222, "step": 3053 }, { "avg_step_time": 5.625036567148536, "epoch": 0.32565333333333335, "eta_time": 9.878189215975846, "step": 3053 }, { "epoch": 0.32576, "grad_norm": 1.7347244298131794, "learning_rate": 7.876955144289594e-06, "loss": 0.5456, "step": 3054 }, { "avg_step_time": 5.6423762976521195, "epoch": 0.32576, "eta_time": 9.907072382627513, "step": 3054 }, { "epoch": 0.3258666666666667, "grad_norm": 1.9078758232844788, "learning_rate": 7.87554210505332e-06, "loss": 0.5567, "step": 3055 }, { "avg_step_time": 5.639069576456089, "epoch": 0.3258666666666667, "eta_time": 9.8996999231118, "step": 3055 }, { "epoch": 0.32597333333333334, "grad_norm": 1.6447237520249083, "learning_rate": 7.874128722571359e-06, "loss": 0.4644, "step": 3056 }, { "avg_step_time": 5.632907566398081, "epoch": 0.32597333333333334, "eta_time": 9.887317475574854, "step": 3056 }, { "epoch": 0.32608, "grad_norm": 1.7347578758282678, "learning_rate": 7.872714997012421e-06, "loss": 0.5495, "step": 3057 }, { "avg_step_time": 5.6372991282530505, "epoch": 0.32608, "eta_time": 9.893459970084104, "step": 3057 }, { "epoch": 0.3261866666666667, "grad_norm": 1.8561113602851942, "learning_rate": 7.87130092854526e-06, "loss": 0.5602, "step": 3058 }, { "avg_step_time": 5.637269114003037, "epoch": 0.3261866666666667, "eta_time": 9.891841386988109, "step": 3058 }, { "epoch": 0.3262933333333333, "grad_norm": 0.6516674405951679, "learning_rate": 7.86988651733867e-06, "loss": 0.4402, "step": 3059 }, { "avg_step_time": 5.607610011341596, "epoch": 0.3262933333333333, "eta_time": 9.83824023100931, "step": 3059 }, { "epoch": 0.3264, "grad_norm": 1.6435478602747684, "learning_rate": 7.868471763561482e-06, "loss": 0.4511, "step": 3060 }, { "avg_step_time": 5.612010787231753, "epoch": 0.3264, "eta_time": 9.844402255935702, "step": 3060 }, { "epoch": 0.32650666666666667, "grad_norm": 1.6031169431789623, "learning_rate": 7.867056667382576e-06, "loss": 0.4709, "step": 3061 }, { "avg_step_time": 5.612901533492888, "epoch": 0.32650666666666667, "eta_time": 9.844405634020582, "step": 3061 }, { "epoch": 0.3266133333333333, "grad_norm": 1.548669266942278, "learning_rate": 7.865641228970865e-06, "loss": 0.4357, "step": 3062 }, { "avg_step_time": 5.61384617680251, "epoch": 0.3266133333333333, "eta_time": 9.844503031709513, "step": 3062 }, { "epoch": 0.32672, "grad_norm": 1.502481581600307, "learning_rate": 7.864225448495304e-06, "loss": 0.5269, "step": 3063 }, { "avg_step_time": 5.582789192296038, "epoch": 0.32672, "eta_time": 9.78849038382572, "step": 3063 }, { "epoch": 0.32682666666666665, "grad_norm": 1.938924930770349, "learning_rate": 7.862809326124896e-06, "loss": 0.4919, "step": 3064 }, { "avg_step_time": 5.578561696139249, "epoch": 0.32682666666666665, "eta_time": 9.779528573426333, "step": 3064 }, { "epoch": 0.32693333333333335, "grad_norm": 1.7446266099296435, "learning_rate": 7.861392862028678e-06, "loss": 0.4641, "step": 3065 }, { "avg_step_time": 5.580463558736474, "epoch": 0.32693333333333335, "eta_time": 9.781312515451987, "step": 3065 }, { "epoch": 0.32704, "grad_norm": 1.8509512141864426, "learning_rate": 7.85997605637573e-06, "loss": 0.5473, "step": 3066 }, { "avg_step_time": 5.582289770396069, "epoch": 0.32704, "eta_time": 9.782962822619112, "step": 3066 }, { "epoch": 0.32714666666666664, "grad_norm": 1.7594514485196544, "learning_rate": 7.85855890933517e-06, "loss": 0.4883, "step": 3067 }, { "avg_step_time": 5.585622917522084, "epoch": 0.32714666666666664, "eta_time": 9.787252601035918, "step": 3067 }, { "epoch": 0.32725333333333334, "grad_norm": 1.6172519916271315, "learning_rate": 7.85714142107616e-06, "loss": 0.4548, "step": 3068 }, { "avg_step_time": 5.587629994960746, "epoch": 0.32725333333333334, "eta_time": 9.789217327282618, "step": 3068 }, { "epoch": 0.32736, "grad_norm": 0.6545104345261893, "learning_rate": 7.855723591767903e-06, "loss": 0.4441, "step": 3069 }, { "avg_step_time": 5.55534561475118, "epoch": 0.32736, "eta_time": 9.731113735172483, "step": 3069 }, { "epoch": 0.3274666666666667, "grad_norm": 0.6546015001325289, "learning_rate": 7.85430542157964e-06, "loss": 0.4606, "step": 3070 }, { "avg_step_time": 5.523985761584657, "epoch": 0.3274666666666667, "eta_time": 9.674647285219796, "step": 3070 }, { "epoch": 0.3275733333333333, "grad_norm": 1.798367044847639, "learning_rate": 7.852886910680654e-06, "loss": 0.5328, "step": 3071 }, { "avg_step_time": 5.520349883069896, "epoch": 0.3275733333333333, "eta_time": 9.666746017464618, "step": 3071 }, { "epoch": 0.32768, "grad_norm": 1.6114692405300928, "learning_rate": 7.85146805924027e-06, "loss": 0.4817, "step": 3072 }, { "avg_step_time": 5.519497098344745, "epoch": 0.32768, "eta_time": 9.66371950301859, "step": 3072 }, { "epoch": 0.32778666666666667, "grad_norm": 1.7527772706749063, "learning_rate": 7.850048867427851e-06, "loss": 0.4948, "step": 3073 }, { "avg_step_time": 5.551907609207461, "epoch": 0.32778666666666667, "eta_time": 9.718922709229284, "step": 3073 }, { "epoch": 0.3278933333333333, "grad_norm": 1.6688703937116542, "learning_rate": 7.848629335412803e-06, "loss": 0.5253, "step": 3074 }, { "avg_step_time": 5.57765722756434, "epoch": 0.3278933333333333, "eta_time": 9.762449497467474, "step": 3074 }, { "epoch": 0.328, "grad_norm": 1.9444299288244957, "learning_rate": 7.847209463364574e-06, "loss": 0.6118, "step": 3075 }, { "avg_step_time": 5.576167836333767, "epoch": 0.328, "eta_time": 9.758293713584093, "step": 3075 }, { "epoch": 0.32810666666666666, "grad_norm": 1.6540589327856465, "learning_rate": 7.845789251452646e-06, "loss": 0.585, "step": 3076 }, { "avg_step_time": 5.574830633221251, "epoch": 0.32810666666666666, "eta_time": 9.754405044072405, "step": 3076 }, { "epoch": 0.32821333333333336, "grad_norm": 1.7319034449788278, "learning_rate": 7.844368699846547e-06, "loss": 0.5775, "step": 3077 }, { "avg_step_time": 5.605989704228411, "epoch": 0.32821333333333336, "eta_time": 9.807367543675149, "step": 3077 }, { "epoch": 0.32832, "grad_norm": 2.234500559459662, "learning_rate": 7.842947808715848e-06, "loss": 0.5048, "step": 3078 }, { "avg_step_time": 5.60381911017678, "epoch": 0.32832, "eta_time": 9.802013593550885, "step": 3078 }, { "epoch": 0.32842666666666664, "grad_norm": 0.6601561928479667, "learning_rate": 7.84152657823015e-06, "loss": 0.4576, "step": 3079 }, { "avg_step_time": 5.541260830079667, "epoch": 0.32842666666666664, "eta_time": 9.69104949616155, "step": 3079 }, { "epoch": 0.32853333333333334, "grad_norm": 0.6093592119490934, "learning_rate": 7.840105008559109e-06, "loss": 0.463, "step": 3080 }, { "avg_step_time": 5.5125870126666445, "epoch": 0.32853333333333334, "eta_time": 9.639370901315703, "step": 3080 }, { "epoch": 0.32864, "grad_norm": 1.5821443863192755, "learning_rate": 7.83868309987241e-06, "loss": 0.4983, "step": 3081 }, { "avg_step_time": 5.4898452132639255, "epoch": 0.32864, "eta_time": 9.598079381189764, "step": 3081 }, { "epoch": 0.3287466666666667, "grad_norm": 1.6517674579145503, "learning_rate": 7.837260852339782e-06, "loss": 0.529, "step": 3082 }, { "avg_step_time": 5.46874129410946, "epoch": 0.3287466666666667, "eta_time": 9.55966360106412, "step": 3082 }, { "epoch": 0.32885333333333333, "grad_norm": 1.5525396598065064, "learning_rate": 7.835838266130997e-06, "loss": 0.4446, "step": 3083 }, { "avg_step_time": 5.451405079677851, "epoch": 0.32885333333333333, "eta_time": 9.527844655925845, "step": 3083 }, { "epoch": 0.32896, "grad_norm": 1.712371263127649, "learning_rate": 7.834415341415862e-06, "loss": 0.4831, "step": 3084 }, { "avg_step_time": 5.453148663646043, "epoch": 0.32896, "eta_time": 9.52937728972146, "step": 3084 }, { "epoch": 0.3290666666666667, "grad_norm": 1.5543979452949221, "learning_rate": 7.832992078364231e-06, "loss": 0.4365, "step": 3085 }, { "avg_step_time": 5.455874076997391, "epoch": 0.3290666666666667, "eta_time": 9.532624428975998, "step": 3085 }, { "epoch": 0.3291733333333333, "grad_norm": 1.5547419052908946, "learning_rate": 7.831568477145994e-06, "loss": 0.4678, "step": 3086 }, { "avg_step_time": 5.456159779519746, "epoch": 0.3291733333333333, "eta_time": 9.531608014833244, "step": 3086 }, { "epoch": 0.32928, "grad_norm": 1.9538063893693018, "learning_rate": 7.830144537931082e-06, "loss": 0.4509, "step": 3087 }, { "avg_step_time": 5.4590221583241165, "epoch": 0.32928, "eta_time": 9.535092036539456, "step": 3087 }, { "epoch": 0.32938666666666666, "grad_norm": 1.718212009972113, "learning_rate": 7.828720260889468e-06, "loss": 0.4987, "step": 3088 }, { "avg_step_time": 5.466487966402613, "epoch": 0.32938666666666666, "eta_time": 9.54661384577034, "step": 3088 }, { "epoch": 0.32949333333333336, "grad_norm": 0.6642390822742259, "learning_rate": 7.827295646191161e-06, "loss": 0.4556, "step": 3089 }, { "avg_step_time": 5.434663644944779, "epoch": 0.32949333333333336, "eta_time": 9.48952657558969, "step": 3089 }, { "epoch": 0.3296, "grad_norm": 1.7906733011529647, "learning_rate": 7.825870694006217e-06, "loss": 0.5209, "step": 3090 }, { "avg_step_time": 5.459874829860649, "epoch": 0.3296, "eta_time": 9.532031473798384, "step": 3090 }, { "epoch": 0.32970666666666665, "grad_norm": 1.6265795901772144, "learning_rate": 7.824445404504727e-06, "loss": 0.5567, "step": 3091 }, { "avg_step_time": 5.453876688022806, "epoch": 0.32970666666666665, "eta_time": 9.520044752093142, "step": 3091 }, { "epoch": 0.32981333333333335, "grad_norm": 0.6580116536645626, "learning_rate": 7.823019777856823e-06, "loss": 0.4455, "step": 3092 }, { "avg_step_time": 5.42261269839123, "epoch": 0.32981333333333335, "eta_time": 9.463965439997805, "step": 3092 }, { "epoch": 0.32992, "grad_norm": 1.536208585141898, "learning_rate": 7.82159381423268e-06, "loss": 0.4842, "step": 3093 }, { "avg_step_time": 5.422476236266319, "epoch": 0.32992, "eta_time": 9.462221032284726, "step": 3093 }, { "epoch": 0.3300266666666667, "grad_norm": 1.5638038062956074, "learning_rate": 7.82016751380251e-06, "loss": 0.4787, "step": 3094 }, { "avg_step_time": 5.441929489675195, "epoch": 0.3300266666666667, "eta_time": 9.49465531240275, "step": 3094 }, { "epoch": 0.33013333333333333, "grad_norm": 1.62554157579242, "learning_rate": 7.818740876736568e-06, "loss": 0.5624, "step": 3095 }, { "avg_step_time": 5.440304414190427, "epoch": 0.33013333333333333, "eta_time": 9.490308811421079, "step": 3095 }, { "epoch": 0.33024, "grad_norm": 1.5954224805939106, "learning_rate": 7.817313903205148e-06, "loss": 0.425, "step": 3096 }, { "avg_step_time": 5.438944260279338, "epoch": 0.33024, "eta_time": 9.486425280637212, "step": 3096 }, { "epoch": 0.3303466666666667, "grad_norm": 2.0308096140324463, "learning_rate": 7.815886593378583e-06, "loss": 0.5427, "step": 3097 }, { "avg_step_time": 5.4740654362572565, "epoch": 0.3303466666666667, "eta_time": 9.546161891339738, "step": 3097 }, { "epoch": 0.3304533333333333, "grad_norm": 0.6440268621668807, "learning_rate": 7.814458947427246e-06, "loss": 0.4462, "step": 3098 }, { "avg_step_time": 5.437294153252033, "epoch": 0.3304533333333333, "eta_time": 9.480526499989725, "step": 3098 }, { "epoch": 0.33056, "grad_norm": 1.7407068537774781, "learning_rate": 7.813030965521554e-06, "loss": 0.4924, "step": 3099 }, { "avg_step_time": 5.439934891883773, "epoch": 0.33056, "eta_time": 9.483619828184045, "step": 3099 }, { "epoch": 0.33066666666666666, "grad_norm": 2.180876868617941, "learning_rate": 7.811602647831959e-06, "loss": 0.4743, "step": 3100 }, { "avg_step_time": 5.437144712968306, "epoch": 0.33066666666666666, "eta_time": 9.477245298298923, "step": 3100 }, { "epoch": 0.3307733333333333, "grad_norm": 1.776570467681043, "learning_rate": 7.810173994528956e-06, "loss": 0.4917, "step": 3101 }, { "avg_step_time": 5.437821525515932, "epoch": 0.3307733333333333, "eta_time": 9.47691451419082, "step": 3101 }, { "epoch": 0.33088, "grad_norm": 1.6980340607075324, "learning_rate": 7.80874500578308e-06, "loss": 0.4303, "step": 3102 }, { "avg_step_time": 5.437842768852157, "epoch": 0.33088, "eta_time": 9.475441024724883, "step": 3102 }, { "epoch": 0.33098666666666665, "grad_norm": 1.5828592282189713, "learning_rate": 7.807315681764907e-06, "loss": 0.4355, "step": 3103 }, { "avg_step_time": 5.419005887676971, "epoch": 0.33098666666666665, "eta_time": 9.441112479863879, "step": 3103 }, { "epoch": 0.33109333333333335, "grad_norm": 1.403547211737359, "learning_rate": 7.805886022645046e-06, "loss": 0.5096, "step": 3104 }, { "avg_step_time": 5.442843509442879, "epoch": 0.33109333333333335, "eta_time": 9.481131013254526, "step": 3104 }, { "epoch": 0.3312, "grad_norm": 1.80897712413555, "learning_rate": 7.804456028594158e-06, "loss": 0.5232, "step": 3105 }, { "avg_step_time": 5.474416277625344, "epoch": 0.3312, "eta_time": 9.534608350197475, "step": 3105 }, { "epoch": 0.3313066666666667, "grad_norm": 1.715287194775132, "learning_rate": 7.803025699782935e-06, "loss": 0.4376, "step": 3106 }, { "avg_step_time": 5.477238414263485, "epoch": 0.3313066666666667, "eta_time": 9.53800211639383, "step": 3106 }, { "epoch": 0.33141333333333334, "grad_norm": 1.4788396907444503, "learning_rate": 7.80159503638211e-06, "loss": 0.4834, "step": 3107 }, { "avg_step_time": 5.509988635477393, "epoch": 0.33141333333333334, "eta_time": 9.59350243532564, "step": 3107 }, { "epoch": 0.33152, "grad_norm": 1.8263763987372925, "learning_rate": 7.80016403856246e-06, "loss": 0.5238, "step": 3108 }, { "avg_step_time": 5.5109196672535905, "epoch": 0.33152, "eta_time": 9.593592654077293, "step": 3108 }, { "epoch": 0.3316266666666667, "grad_norm": 1.4944756231868153, "learning_rate": 7.798732706494799e-06, "loss": 0.4939, "step": 3109 }, { "avg_step_time": 5.50315441025628, "epoch": 0.3316266666666667, "eta_time": 9.578545981851626, "step": 3109 }, { "epoch": 0.3317333333333333, "grad_norm": 1.6008190514479383, "learning_rate": 7.797301040349978e-06, "loss": 0.5591, "step": 3110 }, { "avg_step_time": 5.553455102323282, "epoch": 0.3317333333333333, "eta_time": 9.664554504459824, "step": 3110 }, { "epoch": 0.33184, "grad_norm": 1.7009064261769913, "learning_rate": 7.795869040298895e-06, "loss": 0.4188, "step": 3111 }, { "avg_step_time": 5.555042481181597, "epoch": 0.33184, "eta_time": 9.665773917255978, "step": 3111 }, { "epoch": 0.33194666666666667, "grad_norm": 1.80204118013855, "learning_rate": 7.794436706512483e-06, "loss": 0.4848, "step": 3112 }, { "avg_step_time": 5.549095071927465, "epoch": 0.33194666666666667, "eta_time": 9.653884009856032, "step": 3112 }, { "epoch": 0.3320533333333333, "grad_norm": 1.5799512683256802, "learning_rate": 7.793004039161714e-06, "loss": 0.5287, "step": 3113 }, { "avg_step_time": 5.5505350430806475, "epoch": 0.3320533333333333, "eta_time": 9.654847344380837, "step": 3113 }, { "epoch": 0.33216, "grad_norm": 2.0713885140942003, "learning_rate": 7.791571038417602e-06, "loss": 0.5864, "step": 3114 }, { "avg_step_time": 5.549143745441629, "epoch": 0.33216, "eta_time": 9.6508858306139, "step": 3114 }, { "epoch": 0.33226666666666665, "grad_norm": 1.7493457311015712, "learning_rate": 7.790137704451203e-06, "loss": 0.5085, "step": 3115 }, { "avg_step_time": 5.541521657596935, "epoch": 0.33226666666666665, "eta_time": 9.636090437932447, "step": 3115 }, { "epoch": 0.33237333333333335, "grad_norm": 1.9478357035147316, "learning_rate": 7.788704037433608e-06, "loss": 0.6022, "step": 3116 }, { "avg_step_time": 5.541507735396877, "epoch": 0.33237333333333335, "eta_time": 9.634526921069181, "step": 3116 }, { "epoch": 0.33248, "grad_norm": 1.754345260725063, "learning_rate": 7.78727003753595e-06, "loss": 0.5602, "step": 3117 }, { "avg_step_time": 5.541278280393041, "epoch": 0.33248, "eta_time": 9.632588744083238, "step": 3117 }, { "epoch": 0.33258666666666664, "grad_norm": 1.615478680896508, "learning_rate": 7.785835704929403e-06, "loss": 0.5428, "step": 3118 }, { "avg_step_time": 5.5444166636226155, "epoch": 0.33258666666666664, "eta_time": 9.636504184524084, "step": 3118 }, { "epoch": 0.33269333333333334, "grad_norm": 1.5410284549194364, "learning_rate": 7.784401039785179e-06, "loss": 0.4964, "step": 3119 }, { "avg_step_time": 5.5459591403152, "epoch": 0.33269333333333334, "eta_time": 9.637644550503303, "step": 3119 }, { "epoch": 0.3328, "grad_norm": 1.5734955315688026, "learning_rate": 7.782966042274529e-06, "loss": 0.4612, "step": 3120 }, { "avg_step_time": 5.556986755794949, "epoch": 0.3328, "eta_time": 9.655264488193724, "step": 3120 }, { "epoch": 0.3329066666666667, "grad_norm": 1.683555170002198, "learning_rate": 7.781530712568746e-06, "loss": 0.4596, "step": 3121 }, { "avg_step_time": 5.594689997759732, "epoch": 0.3329066666666667, "eta_time": 9.719219790552602, "step": 3121 }, { "epoch": 0.33301333333333333, "grad_norm": 1.5990024361116275, "learning_rate": 7.78009505083916e-06, "loss": 0.5189, "step": 3122 }, { "avg_step_time": 5.59483529822995, "epoch": 0.33301333333333333, "eta_time": 9.717918088842188, "step": 3122 }, { "epoch": 0.33312, "grad_norm": 1.6354695727043815, "learning_rate": 7.778659057257144e-06, "loss": 0.5288, "step": 3123 }, { "avg_step_time": 5.599902832146847, "epoch": 0.33312, "eta_time": 9.725164585161691, "step": 3123 }, { "epoch": 0.33322666666666667, "grad_norm": 1.840968272757105, "learning_rate": 7.777222731994107e-06, "loss": 0.4988, "step": 3124 }, { "avg_step_time": 5.599197982537626, "epoch": 0.33322666666666667, "eta_time": 9.722385163567417, "step": 3124 }, { "epoch": 0.3333333333333333, "grad_norm": 1.7678108068391594, "learning_rate": 7.7757860752215e-06, "loss": 0.465, "step": 3125 }, { "avg_step_time": 5.611093465727989, "epoch": 0.3333333333333333, "eta_time": 9.741481711333314, "step": 3125 }, { "epoch": 0.33344, "grad_norm": 1.5101606666242606, "learning_rate": 7.774349087110813e-06, "loss": 0.505, "step": 3126 }, { "avg_step_time": 5.609248500881773, "epoch": 0.33344, "eta_time": 9.736720522780612, "step": 3126 }, { "epoch": 0.33354666666666666, "grad_norm": 1.640118146919288, "learning_rate": 7.772911767833576e-06, "loss": 0.478, "step": 3127 }, { "avg_step_time": 5.606747152829411, "epoch": 0.33354666666666666, "eta_time": 9.730821169688378, "step": 3127 }, { "epoch": 0.33365333333333336, "grad_norm": 1.863396364833483, "learning_rate": 7.771474117561353e-06, "loss": 0.4496, "step": 3128 }, { "avg_step_time": 5.6122997096090605, "epoch": 0.33365333333333336, "eta_time": 9.73889896831328, "step": 3128 }, { "epoch": 0.33376, "grad_norm": 1.6532292640025619, "learning_rate": 7.77003613646576e-06, "loss": 0.5113, "step": 3129 }, { "avg_step_time": 5.609359567815607, "epoch": 0.33376, "eta_time": 9.73223885016008, "step": 3129 }, { "epoch": 0.33386666666666664, "grad_norm": 1.879571336219437, "learning_rate": 7.76859782471844e-06, "loss": 0.6271, "step": 3130 }, { "avg_step_time": 5.60857083099057, "epoch": 0.33386666666666664, "eta_time": 9.729312455426697, "step": 3130 }, { "epoch": 0.33397333333333334, "grad_norm": 1.6376363880549303, "learning_rate": 7.767159182491084e-06, "loss": 0.4778, "step": 3131 }, { "avg_step_time": 5.643059463211984, "epoch": 0.33397333333333334, "eta_time": 9.787573135637675, "step": 3131 }, { "epoch": 0.33408, "grad_norm": 1.6034898120475034, "learning_rate": 7.765720209955414e-06, "loss": 0.4126, "step": 3132 }, { "avg_step_time": 5.651956392057015, "epoch": 0.33408, "eta_time": 9.801434376558873, "step": 3132 }, { "epoch": 0.3341866666666667, "grad_norm": 1.629773019481816, "learning_rate": 7.764280907283198e-06, "loss": 0.6323, "step": 3133 }, { "avg_step_time": 5.65112156097335, "epoch": 0.3341866666666667, "eta_time": 9.798416884332125, "step": 3133 }, { "epoch": 0.33429333333333333, "grad_norm": 0.647645699168494, "learning_rate": 7.762841274646247e-06, "loss": 0.4647, "step": 3134 }, { "avg_step_time": 5.6065775818294945, "epoch": 0.33429333333333333, "eta_time": 9.719625191166077, "step": 3134 }, { "epoch": 0.3344, "grad_norm": 1.6967481928924413, "learning_rate": 7.761401312216398e-06, "loss": 0.4125, "step": 3135 }, { "avg_step_time": 5.606415758229265, "epoch": 0.3344, "eta_time": 9.71778731426406, "step": 3135 }, { "epoch": 0.3345066666666667, "grad_norm": 0.644273728031152, "learning_rate": 7.75996102016554e-06, "loss": 0.4344, "step": 3136 }, { "avg_step_time": 5.571741679702142, "epoch": 0.3345066666666667, "eta_time": 9.656137872128241, "step": 3136 }, { "epoch": 0.3346133333333333, "grad_norm": 1.797154796532292, "learning_rate": 7.758520398665596e-06, "loss": 0.5643, "step": 3137 }, { "avg_step_time": 5.569147952879318, "epoch": 0.3346133333333333, "eta_time": 9.650095813905883, "step": 3137 }, { "epoch": 0.33472, "grad_norm": 0.6662519379826971, "learning_rate": 7.757079447888529e-06, "loss": 0.4591, "step": 3138 }, { "avg_step_time": 5.53628809524305, "epoch": 0.33472, "eta_time": 9.591619125008583, "step": 3138 }, { "epoch": 0.33482666666666666, "grad_norm": 1.8175266560120438, "learning_rate": 7.75563816800634e-06, "loss": 0.4809, "step": 3139 }, { "avg_step_time": 5.540382691104003, "epoch": 0.33482666666666666, "eta_time": 9.597174017145711, "step": 3139 }, { "epoch": 0.33493333333333336, "grad_norm": 1.8196789819152615, "learning_rate": 7.754196559191072e-06, "loss": 0.4988, "step": 3140 }, { "avg_step_time": 5.538736068841183, "epoch": 0.33493333333333336, "eta_time": 9.592783163673548, "step": 3140 }, { "epoch": 0.33504, "grad_norm": 1.6717986346440787, "learning_rate": 7.752754621614807e-06, "loss": 0.4529, "step": 3141 }, { "avg_step_time": 5.53523490164015, "epoch": 0.33504, "eta_time": 9.585181771340192, "step": 3141 }, { "epoch": 0.33514666666666665, "grad_norm": 1.9008868716064682, "learning_rate": 7.751312355449664e-06, "loss": 0.5349, "step": 3142 }, { "avg_step_time": 5.538908736874359, "epoch": 0.33514666666666665, "eta_time": 9.590005043593855, "step": 3142 }, { "epoch": 0.33525333333333335, "grad_norm": 1.95567889024983, "learning_rate": 7.749869760867803e-06, "loss": 0.5299, "step": 3143 }, { "avg_step_time": 5.5731752569025215, "epoch": 0.33525333333333335, "eta_time": 9.647785611393477, "step": 3143 }, { "epoch": 0.33536, "grad_norm": 1.7550598949218417, "learning_rate": 7.748426838041421e-06, "loss": 0.4582, "step": 3144 }, { "avg_step_time": 5.574826727009783, "epoch": 0.33536, "eta_time": 9.6490959266661, "step": 3144 }, { "epoch": 0.3354666666666667, "grad_norm": 1.5354122561397936, "learning_rate": 7.746983587142757e-06, "loss": 0.4178, "step": 3145 }, { "avg_step_time": 5.5628653535939225, "epoch": 0.3354666666666667, "eta_time": 9.626847542469482, "step": 3145 }, { "epoch": 0.33557333333333333, "grad_norm": 1.7068687200483246, "learning_rate": 7.745540008344088e-06, "loss": 0.5677, "step": 3146 }, { "avg_step_time": 5.5624096562164, "epoch": 0.33557333333333333, "eta_time": 9.624513819047767, "step": 3146 }, { "epoch": 0.33568, "grad_norm": 1.5037443783839985, "learning_rate": 7.744096101817731e-06, "loss": 0.5281, "step": 3147 }, { "avg_step_time": 5.56816009078363, "epoch": 0.33568, "eta_time": 9.63291695705568, "step": 3147 }, { "epoch": 0.3357866666666667, "grad_norm": 1.563601154618974, "learning_rate": 7.742651867736037e-06, "loss": 0.457, "step": 3148 }, { "avg_step_time": 5.544256535443393, "epoch": 0.3357866666666667, "eta_time": 9.590023735057224, "step": 3148 }, { "epoch": 0.3358933333333333, "grad_norm": 0.68872803041703, "learning_rate": 7.741207306271409e-06, "loss": 0.4481, "step": 3149 }, { "avg_step_time": 5.513819470550075, "epoch": 0.3358933333333333, "eta_time": 9.535844451012435, "step": 3149 }, { "epoch": 0.336, "grad_norm": 1.6774231883811315, "learning_rate": 7.73976241759627e-06, "loss": 0.4612, "step": 3150 }, { "avg_step_time": 5.505231228741732, "epoch": 0.336, "eta_time": 9.519462333032578, "step": 3150 }, { "epoch": 0.33610666666666666, "grad_norm": 1.776815319079771, "learning_rate": 7.738317201883098e-06, "loss": 0.4873, "step": 3151 }, { "avg_step_time": 5.509778764512804, "epoch": 0.33610666666666666, "eta_time": 9.525795286202138, "step": 3151 }, { "epoch": 0.3362133333333333, "grad_norm": 1.6990748953259207, "learning_rate": 7.736871659304404e-06, "loss": 0.4728, "step": 3152 }, { "avg_step_time": 5.509862998519281, "epoch": 0.3362133333333333, "eta_time": 9.524410399940413, "step": 3152 }, { "epoch": 0.33632, "grad_norm": 1.825552922752026, "learning_rate": 7.73542579003274e-06, "loss": 0.5198, "step": 3153 }, { "avg_step_time": 5.486398872703012, "epoch": 0.33632, "eta_time": 9.48232605165504, "step": 3153 }, { "epoch": 0.33642666666666665, "grad_norm": 0.6670441303683727, "learning_rate": 7.733979594240694e-06, "loss": 0.4771, "step": 3154 }, { "avg_step_time": 5.454092639865297, "epoch": 0.33642666666666665, "eta_time": 9.424975086833893, "step": 3154 }, { "epoch": 0.33653333333333335, "grad_norm": 0.6390229819892529, "learning_rate": 7.732533072100892e-06, "loss": 0.4349, "step": 3155 }, { "avg_step_time": 5.441745240278919, "epoch": 0.33653333333333335, "eta_time": 9.402126498481909, "step": 3155 }, { "epoch": 0.33664, "grad_norm": 1.9473193777102336, "learning_rate": 7.731086223786006e-06, "loss": 0.5009, "step": 3156 }, { "avg_step_time": 5.438740323288272, "epoch": 0.33664, "eta_time": 9.39542390848049, "step": 3156 }, { "epoch": 0.3367466666666667, "grad_norm": 1.6728181836285478, "learning_rate": 7.72963904946874e-06, "loss": 0.4714, "step": 3157 }, { "avg_step_time": 5.462011387853911, "epoch": 0.3367466666666667, "eta_time": 9.434107447132117, "step": 3157 }, { "epoch": 0.33685333333333334, "grad_norm": 1.7437029084640083, "learning_rate": 7.728191549321837e-06, "loss": 0.5499, "step": 3158 }, { "avg_step_time": 5.495006496256048, "epoch": 0.33685333333333334, "eta_time": 9.489570940895513, "step": 3158 }, { "epoch": 0.33696, "grad_norm": 1.6674214477465858, "learning_rate": 7.726743723518087e-06, "loss": 0.4357, "step": 3159 }, { "avg_step_time": 5.491274903518985, "epoch": 0.33696, "eta_time": 9.481601333409447, "step": 3159 }, { "epoch": 0.3370666666666667, "grad_norm": 1.8777939543486937, "learning_rate": 7.725295572230307e-06, "loss": 0.5113, "step": 3160 }, { "avg_step_time": 5.491759088304308, "epoch": 0.3370666666666667, "eta_time": 9.480911870503132, "step": 3160 }, { "epoch": 0.3371733333333333, "grad_norm": 1.564148356372956, "learning_rate": 7.723847095631362e-06, "loss": 0.4003, "step": 3161 }, { "avg_step_time": 5.495242171817356, "epoch": 0.3371733333333333, "eta_time": 9.48539857102029, "step": 3161 }, { "epoch": 0.33728, "grad_norm": 1.457008802381865, "learning_rate": 7.722398293894153e-06, "loss": 0.4259, "step": 3162 }, { "avg_step_time": 5.504951260306618, "epoch": 0.33728, "eta_time": 9.500628383412506, "step": 3162 }, { "epoch": 0.33738666666666667, "grad_norm": 1.8578801772408402, "learning_rate": 7.72094916719162e-06, "loss": 0.4925, "step": 3163 }, { "avg_step_time": 5.506393471149483, "epoch": 0.33738666666666667, "eta_time": 9.50158784521683, "step": 3163 }, { "epoch": 0.3374933333333333, "grad_norm": 0.6523264086214147, "learning_rate": 7.719499715696738e-06, "loss": 0.4637, "step": 3164 }, { "avg_step_time": 5.46737401413195, "epoch": 0.3374933333333333, "eta_time": 9.43273888938154, "step": 3164 }, { "epoch": 0.3376, "grad_norm": 2.0031860590139674, "learning_rate": 7.718049939582529e-06, "loss": 0.5217, "step": 3165 }, { "avg_step_time": 5.464533649309717, "epoch": 0.3376, "eta_time": 9.426320545059264, "step": 3165 }, { "epoch": 0.33770666666666666, "grad_norm": 1.9991266152650327, "learning_rate": 7.716599839022044e-06, "loss": 0.4938, "step": 3166 }, { "avg_step_time": 5.462989424214219, "epoch": 0.33770666666666666, "eta_time": 9.422139259707246, "step": 3166 }, { "epoch": 0.33781333333333335, "grad_norm": 1.4849322991289795, "learning_rate": 7.71514941418838e-06, "loss": 0.4128, "step": 3167 }, { "avg_step_time": 5.46276770216046, "epoch": 0.33781333333333335, "eta_time": 9.420239415281149, "step": 3167 }, { "epoch": 0.33792, "grad_norm": 1.5463782122248815, "learning_rate": 7.713698665254669e-06, "loss": 0.508, "step": 3168 }, { "avg_step_time": 5.492938552239929, "epoch": 0.33792, "eta_time": 9.470741553820345, "step": 3168 }, { "epoch": 0.33802666666666664, "grad_norm": 1.7909300418109337, "learning_rate": 7.712247592394087e-06, "loss": 0.5075, "step": 3169 }, { "avg_step_time": 5.534022275847618, "epoch": 0.33802666666666664, "eta_time": 9.54003951219731, "step": 3169 }, { "epoch": 0.33813333333333334, "grad_norm": 1.9563705685827595, "learning_rate": 7.71079619577984e-06, "loss": 0.4562, "step": 3170 }, { "avg_step_time": 5.532226969497373, "epoch": 0.33813333333333334, "eta_time": 9.535407873814222, "step": 3170 }, { "epoch": 0.33824, "grad_norm": 1.6180520249316481, "learning_rate": 7.70934447558518e-06, "loss": 0.4882, "step": 3171 }, { "avg_step_time": 5.531961400099475, "epoch": 0.33824, "eta_time": 9.533413479504762, "step": 3171 }, { "epoch": 0.3383466666666667, "grad_norm": 1.9539762044375626, "learning_rate": 7.70789243198339e-06, "loss": 0.4988, "step": 3172 }, { "avg_step_time": 5.539551864970814, "epoch": 0.3383466666666667, "eta_time": 9.544955616226101, "step": 3172 }, { "epoch": 0.33845333333333333, "grad_norm": 1.7465836637126393, "learning_rate": 7.706440065147805e-06, "loss": 0.4593, "step": 3173 }, { "avg_step_time": 5.537919042086361, "epoch": 0.33845333333333333, "eta_time": 9.54060386083878, "step": 3173 }, { "epoch": 0.33856, "grad_norm": 1.6088748918218587, "learning_rate": 7.704987375251782e-06, "loss": 0.5112, "step": 3174 }, { "avg_step_time": 5.539634350574378, "epoch": 0.33856, "eta_time": 9.542020168864367, "step": 3174 }, { "epoch": 0.33866666666666667, "grad_norm": 1.6437691655925486, "learning_rate": 7.70353436246873e-06, "loss": 0.5485, "step": 3175 }, { "avg_step_time": 5.539445990263814, "epoch": 0.33866666666666667, "eta_time": 9.540156983232125, "step": 3175 }, { "epoch": 0.3387733333333333, "grad_norm": 1.5830813385628804, "learning_rate": 7.70208102697209e-06, "loss": 0.4394, "step": 3176 }, { "avg_step_time": 5.546430891210383, "epoch": 0.3387733333333333, "eta_time": 9.550645859614768, "step": 3176 }, { "epoch": 0.33888, "grad_norm": 1.8617126111558144, "learning_rate": 7.70062736893534e-06, "loss": 0.554, "step": 3177 }, { "avg_step_time": 5.5441622950813985, "epoch": 0.33888, "eta_time": 9.545199418031807, "step": 3177 }, { "epoch": 0.33898666666666666, "grad_norm": 1.7889007235398058, "learning_rate": 7.699173388532004e-06, "loss": 0.5163, "step": 3178 }, { "avg_step_time": 5.580885655952223, "epoch": 0.33898666666666666, "eta_time": 9.606874558315534, "step": 3178 }, { "epoch": 0.33909333333333336, "grad_norm": 1.734069650849926, "learning_rate": 7.697719085935634e-06, "loss": 0.5775, "step": 3179 }, { "avg_step_time": 5.612934685716725, "epoch": 0.33909333333333336, "eta_time": 9.660484253528008, "step": 3179 }, { "epoch": 0.3392, "grad_norm": 1.7065122444837548, "learning_rate": 7.696264461319831e-06, "loss": 0.5375, "step": 3180 }, { "avg_step_time": 5.615348334264273, "epoch": 0.3392, "eta_time": 9.66307859187977, "step": 3180 }, { "epoch": 0.33930666666666665, "grad_norm": 1.8097263951781681, "learning_rate": 7.694809514858227e-06, "loss": 0.5306, "step": 3181 }, { "avg_step_time": 5.616106204312257, "epoch": 0.33930666666666665, "eta_time": 9.662822730419478, "step": 3181 }, { "epoch": 0.33941333333333334, "grad_norm": 1.6834045665659163, "learning_rate": 7.693354246724496e-06, "loss": 0.4905, "step": 3182 }, { "avg_step_time": 5.617951535215282, "epoch": 0.33941333333333334, "eta_time": 9.664437182663399, "step": 3182 }, { "epoch": 0.33952, "grad_norm": 1.9403953533966978, "learning_rate": 7.69189865709235e-06, "loss": 0.431, "step": 3183 }, { "avg_step_time": 5.6177588713289515, "epoch": 0.33952, "eta_time": 9.662545258685796, "step": 3183 }, { "epoch": 0.3396266666666667, "grad_norm": 1.6578283802109557, "learning_rate": 7.690442746135538e-06, "loss": 0.4546, "step": 3184 }, { "avg_step_time": 5.6475884071504225, "epoch": 0.3396266666666667, "eta_time": 9.712283285741186, "step": 3184 }, { "epoch": 0.33973333333333333, "grad_norm": 0.6666486314754173, "learning_rate": 7.688986514027848e-06, "loss": 0.4642, "step": 3185 }, { "avg_step_time": 5.615726533562246, "epoch": 0.33973333333333333, "eta_time": 9.655929789652863, "step": 3185 }, { "epoch": 0.33984, "grad_norm": 1.824910566998469, "learning_rate": 7.687529960943107e-06, "loss": 0.506, "step": 3186 }, { "avg_step_time": 5.6128141494712445, "epoch": 0.33984, "eta_time": 9.649362991965981, "step": 3186 }, { "epoch": 0.3399466666666667, "grad_norm": 1.9815536051737788, "learning_rate": 7.686073087055179e-06, "loss": 0.4802, "step": 3187 }, { "avg_step_time": 5.606192974129108, "epoch": 0.3399466666666667, "eta_time": 9.636422812197479, "step": 3187 }, { "epoch": 0.3400533333333333, "grad_norm": 1.5249549627578631, "learning_rate": 7.684615892537968e-06, "loss": 0.4561, "step": 3188 }, { "avg_step_time": 5.638293237397165, "epoch": 0.3400533333333333, "eta_time": 9.690033405493406, "step": 3188 }, { "epoch": 0.34016, "grad_norm": 1.6368341907875823, "learning_rate": 7.683158377565415e-06, "loss": 0.4585, "step": 3189 }, { "avg_step_time": 5.610702030586474, "epoch": 0.34016, "eta_time": 9.641056322557757, "step": 3189 }, { "epoch": 0.34026666666666666, "grad_norm": 2.069623433025036, "learning_rate": 7.681700542311499e-06, "loss": 0.5407, "step": 3190 }, { "avg_step_time": 5.61920150121053, "epoch": 0.34026666666666666, "eta_time": 9.65410035694087, "step": 3190 }, { "epoch": 0.34037333333333336, "grad_norm": 0.616263434083907, "learning_rate": 7.680242386950239e-06, "loss": 0.4723, "step": 3191 }, { "avg_step_time": 5.6197089546858665, "epoch": 0.34037333333333336, "eta_time": 9.653411159938166, "step": 3191 }, { "epoch": 0.34048, "grad_norm": 1.8539342145796616, "learning_rate": 7.678783911655691e-06, "loss": 0.4519, "step": 3192 }, { "avg_step_time": 5.62043193855671, "epoch": 0.34048, "eta_time": 9.65309185447115, "step": 3192 }, { "epoch": 0.34058666666666665, "grad_norm": 0.6238329540957249, "learning_rate": 7.677325116601948e-06, "loss": 0.443, "step": 3193 }, { "avg_step_time": 5.560162657439107, "epoch": 0.34058666666666665, "eta_time": 9.5480348745246, "step": 3193 }, { "epoch": 0.34069333333333335, "grad_norm": 1.911678368549362, "learning_rate": 7.675866001963144e-06, "loss": 0.5467, "step": 3194 }, { "avg_step_time": 5.562881419152925, "epoch": 0.34069333333333335, "eta_time": 9.551158347717841, "step": 3194 }, { "epoch": 0.3408, "grad_norm": 1.9957969651450478, "learning_rate": 7.674406567913447e-06, "loss": 0.4909, "step": 3195 }, { "avg_step_time": 5.562781025664975, "epoch": 0.3408, "eta_time": 9.549440760724876, "step": 3195 }, { "epoch": 0.3409066666666667, "grad_norm": 1.7188182493194615, "learning_rate": 7.672946814627069e-06, "loss": 0.4998, "step": 3196 }, { "avg_step_time": 5.563917451434666, "epoch": 0.3409066666666667, "eta_time": 9.549846092337443, "step": 3196 }, { "epoch": 0.34101333333333333, "grad_norm": 1.7845275979964585, "learning_rate": 7.671486742278254e-06, "loss": 0.5124, "step": 3197 }, { "avg_step_time": 5.599528076672795, "epoch": 0.34101333333333333, "eta_time": 9.60941234935681, "step": 3197 }, { "epoch": 0.34112, "grad_norm": 1.6823531424877003, "learning_rate": 7.67002635104129e-06, "loss": 0.5288, "step": 3198 }, { "avg_step_time": 5.600714972524932, "epoch": 0.34112, "eta_time": 9.60989344035736, "step": 3198 }, { "epoch": 0.3412266666666667, "grad_norm": 1.7053109088194616, "learning_rate": 7.668565641090495e-06, "loss": 0.496, "step": 3199 }, { "avg_step_time": 5.615512590215664, "epoch": 0.3412266666666667, "eta_time": 9.63372382143665, "step": 3199 }, { "epoch": 0.3413333333333333, "grad_norm": 1.6146770603841873, "learning_rate": 7.667104612600236e-06, "loss": 0.4923, "step": 3200 }, { "avg_step_time": 5.6143367964812, "epoch": 0.3413333333333333, "eta_time": 9.63014714396428, "step": 3200 }, { "epoch": 0.34144, "grad_norm": 1.5925911812278708, "learning_rate": 7.66564326574491e-06, "loss": 0.4811, "step": 3201 }, { "avg_step_time": 5.624918022541085, "epoch": 0.34144, "eta_time": 9.64673440865796, "step": 3201 }, { "epoch": 0.34154666666666667, "grad_norm": 1.5491638154506493, "learning_rate": 7.66418160069895e-06, "loss": 0.4767, "step": 3202 }, { "avg_step_time": 5.625599658850468, "epoch": 0.34154666666666667, "eta_time": 9.64634074835665, "step": 3202 }, { "epoch": 0.3416533333333333, "grad_norm": 1.7401361804568667, "learning_rate": 7.662719617636836e-06, "loss": 0.573, "step": 3203 }, { "avg_step_time": 5.623996712944725, "epoch": 0.3416533333333333, "eta_time": 9.6420299200819, "step": 3203 }, { "epoch": 0.34176, "grad_norm": 1.8449637458723402, "learning_rate": 7.661257316733078e-06, "loss": 0.4933, "step": 3204 }, { "avg_step_time": 5.652243549173528, "epoch": 0.34176, "eta_time": 9.688887483874957, "step": 3204 }, { "epoch": 0.34186666666666665, "grad_norm": 1.6218781835618665, "learning_rate": 7.659794698162229e-06, "loss": 0.5053, "step": 3205 }, { "avg_step_time": 5.654118906367909, "epoch": 0.34186666666666665, "eta_time": 9.690531570080555, "step": 3205 }, { "epoch": 0.34197333333333335, "grad_norm": 1.6263465010569926, "learning_rate": 7.658331762098876e-06, "loss": 0.5103, "step": 3206 }, { "avg_step_time": 5.656456896753022, "epoch": 0.34197333333333335, "eta_time": 9.692967387797054, "step": 3206 }, { "epoch": 0.34208, "grad_norm": 1.5632822991837907, "learning_rate": 7.656868508717648e-06, "loss": 0.4784, "step": 3207 }, { "avg_step_time": 5.6859659811463015, "epoch": 0.34208, "eta_time": 9.74195504769733, "step": 3207 }, { "epoch": 0.34218666666666664, "grad_norm": 1.6397258512512787, "learning_rate": 7.655404938193207e-06, "loss": 0.4519, "step": 3208 }, { "avg_step_time": 5.682749557976771, "epoch": 0.34218666666666664, "eta_time": 9.734865701122985, "step": 3208 }, { "epoch": 0.34229333333333334, "grad_norm": 1.6075285275486757, "learning_rate": 7.653941050700257e-06, "loss": 0.5271, "step": 3209 }, { "avg_step_time": 5.667668190869418, "epoch": 0.34229333333333334, "eta_time": 9.70745612913912, "step": 3209 }, { "epoch": 0.3424, "grad_norm": 1.842699215911198, "learning_rate": 7.652476846413537e-06, "loss": 0.5198, "step": 3210 }, { "avg_step_time": 5.664973468491525, "epoch": 0.3424, "eta_time": 9.701267064791736, "step": 3210 }, { "epoch": 0.3425066666666667, "grad_norm": 1.6913498412267125, "learning_rate": 7.651012325507827e-06, "loss": 0.5087, "step": 3211 }, { "avg_step_time": 5.670204174638998, "epoch": 0.3425066666666667, "eta_time": 9.708649592354107, "step": 3211 }, { "epoch": 0.3426133333333333, "grad_norm": 1.773913514925973, "learning_rate": 7.649547488157943e-06, "loss": 0.5717, "step": 3212 }, { "avg_step_time": 5.669961551223138, "epoch": 0.3426133333333333, "eta_time": 9.706659177830055, "step": 3212 }, { "epoch": 0.34272, "grad_norm": 1.4432367207354504, "learning_rate": 7.648082334538735e-06, "loss": 0.5177, "step": 3213 }, { "avg_step_time": 5.66981411943532, "epoch": 0.34272, "eta_time": 9.704831834433456, "step": 3213 }, { "epoch": 0.34282666666666667, "grad_norm": 1.606428564305948, "learning_rate": 7.646616864825099e-06, "loss": 0.4294, "step": 3214 }, { "avg_step_time": 5.6662930069547714, "epoch": 0.34282666666666667, "eta_time": 9.69723089329121, "step": 3214 }, { "epoch": 0.3429333333333333, "grad_norm": 1.4485404795884107, "learning_rate": 7.645151079191962e-06, "loss": 0.4671, "step": 3215 }, { "avg_step_time": 5.687132016576902, "epoch": 0.3429333333333333, "eta_time": 9.731314783920475, "step": 3215 }, { "epoch": 0.34304, "grad_norm": 1.432372371326109, "learning_rate": 7.64368497781429e-06, "loss": 0.4516, "step": 3216 }, { "avg_step_time": 5.6869180250649505, "epoch": 0.34304, "eta_time": 9.729368921215286, "step": 3216 }, { "epoch": 0.34314666666666666, "grad_norm": 1.7936071608763078, "learning_rate": 7.64221856086709e-06, "loss": 0.5315, "step": 3217 }, { "avg_step_time": 5.702559796246615, "epoch": 0.34314666666666666, "eta_time": 9.754545340357405, "step": 3217 }, { "epoch": 0.34325333333333335, "grad_norm": 1.8631685776372682, "learning_rate": 7.640751828525402e-06, "loss": 0.4772, "step": 3218 }, { "avg_step_time": 5.701918948780406, "epoch": 0.34325333333333335, "eta_time": 9.751865268789155, "step": 3218 }, { "epoch": 0.34336, "grad_norm": 1.643715037932395, "learning_rate": 7.639284780964307e-06, "loss": 0.5495, "step": 3219 }, { "avg_step_time": 5.69533447785811, "epoch": 0.34336, "eta_time": 9.739021957137368, "step": 3219 }, { "epoch": 0.34346666666666664, "grad_norm": 1.8611725716741006, "learning_rate": 7.637817418358922e-06, "loss": 0.5196, "step": 3220 }, { "avg_step_time": 5.686710136105316, "epoch": 0.34346666666666664, "eta_time": 9.722694691035617, "step": 3220 }, { "epoch": 0.34357333333333334, "grad_norm": 1.5520903523671543, "learning_rate": 7.636349740884402e-06, "loss": 0.4685, "step": 3221 }, { "avg_step_time": 5.691257231163256, "epoch": 0.34357333333333334, "eta_time": 9.728888055716299, "step": 3221 }, { "epoch": 0.34368, "grad_norm": 1.6504302008038814, "learning_rate": 7.634881748715941e-06, "loss": 0.5464, "step": 3222 }, { "avg_step_time": 5.700600515712392, "epoch": 0.34368, "eta_time": 9.74327638143843, "step": 3222 }, { "epoch": 0.3437866666666667, "grad_norm": 1.5358426055947176, "learning_rate": 7.633413442028768e-06, "loss": 0.4527, "step": 3223 }, { "avg_step_time": 5.699743947597465, "epoch": 0.3437866666666667, "eta_time": 9.740229101561, "step": 3223 }, { "epoch": 0.34389333333333333, "grad_norm": 1.6958772503359396, "learning_rate": 7.63194482099815e-06, "loss": 0.534, "step": 3224 }, { "avg_step_time": 5.7194763963872735, "epoch": 0.34389333333333333, "eta_time": 9.772360920605033, "step": 3224 }, { "epoch": 0.344, "grad_norm": 1.5957182106782615, "learning_rate": 7.630475885799395e-06, "loss": 0.4462, "step": 3225 }, { "avg_step_time": 5.722794662822377, "epoch": 0.344, "eta_time": 9.77644088232156, "step": 3225 }, { "epoch": 0.34410666666666667, "grad_norm": 1.463972924520122, "learning_rate": 7.629006636607843e-06, "loss": 0.526, "step": 3226 }, { "avg_step_time": 5.7491321371059225, "epoch": 0.34410666666666667, "eta_time": 9.819837086406755, "step": 3226 }, { "epoch": 0.3442133333333333, "grad_norm": 1.3753034719683634, "learning_rate": 7.627537073598876e-06, "loss": 0.4939, "step": 3227 }, { "avg_step_time": 5.778417613771227, "epoch": 0.3442133333333333, "eta_time": 9.868253191518194, "step": 3227 }, { "epoch": 0.34432, "grad_norm": 1.6843480244862528, "learning_rate": 7.626067196947913e-06, "loss": 0.5309, "step": 3228 }, { "avg_step_time": 5.782515410220984, "epoch": 0.34432, "eta_time": 9.87364506295233, "step": 3228 }, { "epoch": 0.34442666666666666, "grad_norm": 1.6325859073342766, "learning_rate": 7.624597006830405e-06, "loss": 0.439, "step": 3229 }, { "avg_step_time": 5.785241709815131, "epoch": 0.34442666666666666, "eta_time": 9.876693207923276, "step": 3229 }, { "epoch": 0.34453333333333336, "grad_norm": 1.671505485708663, "learning_rate": 7.623126503421848e-06, "loss": 0.4731, "step": 3230 }, { "avg_step_time": 5.850714541444875, "epoch": 0.34453333333333336, "eta_time": 9.986844682549654, "step": 3230 }, { "epoch": 0.34464, "grad_norm": 1.5161881974299654, "learning_rate": 7.621655686897771e-06, "loss": 0.4607, "step": 3231 }, { "avg_step_time": 5.841936335419163, "epoch": 0.34464, "eta_time": 9.970238012448705, "step": 3231 }, { "epoch": 0.34474666666666665, "grad_norm": 1.5793867319264883, "learning_rate": 7.620184557433742e-06, "loss": 0.4943, "step": 3232 }, { "avg_step_time": 5.844695047898726, "epoch": 0.34474666666666665, "eta_time": 9.973322688678298, "step": 3232 }, { "epoch": 0.34485333333333335, "grad_norm": 1.7182831230406597, "learning_rate": 7.618713115205364e-06, "loss": 0.4711, "step": 3233 }, { "avg_step_time": 5.881003237733937, "epoch": 0.34485333333333335, "eta_time": 10.033644968378288, "step": 3233 }, { "epoch": 0.34496, "grad_norm": 1.8416694011284989, "learning_rate": 7.617241360388282e-06, "loss": 0.5375, "step": 3234 }, { "avg_step_time": 5.884286512028087, "epoch": 0.34496, "eta_time": 10.037612075101244, "step": 3234 }, { "epoch": 0.3450666666666667, "grad_norm": 1.6962468639165353, "learning_rate": 7.615769293158173e-06, "loss": 0.5675, "step": 3235 }, { "avg_step_time": 5.921256079818264, "epoch": 0.3450666666666667, "eta_time": 10.099031202801148, "step": 3235 }, { "epoch": 0.34517333333333333, "grad_norm": 1.7848210898622638, "learning_rate": 7.614296913690756e-06, "loss": 0.6168, "step": 3236 }, { "avg_step_time": 5.925002589370266, "epoch": 0.34517333333333333, "eta_time": 10.103775248928905, "step": 3236 }, { "epoch": 0.34528, "grad_norm": 1.7180021005335093, "learning_rate": 7.612824222161781e-06, "loss": 0.5089, "step": 3237 }, { "avg_step_time": 5.971153225561585, "epoch": 0.34528, "eta_time": 10.180816249582502, "step": 3237 }, { "epoch": 0.3453866666666667, "grad_norm": 1.5787880096623939, "learning_rate": 7.61135121874704e-06, "loss": 0.5421, "step": 3238 }, { "avg_step_time": 5.96691883453215, "epoch": 0.3453866666666667, "eta_time": 10.171939135423278, "step": 3238 }, { "epoch": 0.3454933333333333, "grad_norm": 1.4458087058810698, "learning_rate": 7.609877903622368e-06, "loss": 0.4487, "step": 3239 }, { "avg_step_time": 5.968151677738536, "epoch": 0.3454933333333333, "eta_time": 10.17238297072324, "step": 3239 }, { "epoch": 0.3456, "grad_norm": 1.7377734720237004, "learning_rate": 7.608404276963623e-06, "loss": 0.445, "step": 3240 }, { "avg_step_time": 5.970229591986145, "epoch": 0.3456, "eta_time": 10.174266263009722, "step": 3240 }, { "epoch": 0.34570666666666666, "grad_norm": 1.947914052599267, "learning_rate": 7.60693033894671e-06, "loss": 0.6187, "step": 3241 }, { "avg_step_time": 5.969690616684731, "epoch": 0.34570666666666666, "eta_time": 10.171689511873371, "step": 3241 }, { "epoch": 0.3458133333333333, "grad_norm": 1.7088523680107828, "learning_rate": 7.6054560897475715e-06, "loss": 0.503, "step": 3242 }, { "avg_step_time": 5.969701730843746, "epoch": 0.3458133333333333, "eta_time": 10.170050198684637, "step": 3242 }, { "epoch": 0.34592, "grad_norm": 0.6412205180385643, "learning_rate": 7.60398152954218e-06, "loss": 0.4303, "step": 3243 }, { "avg_step_time": 5.933805434390752, "epoch": 0.34592, "eta_time": 10.107248589912247, "step": 3243 }, { "epoch": 0.34602666666666665, "grad_norm": 1.637164882503448, "learning_rate": 7.602506658506554e-06, "loss": 0.4901, "step": 3244 }, { "avg_step_time": 5.916386081714823, "epoch": 0.34602666666666665, "eta_time": 10.075934185275996, "step": 3244 }, { "epoch": 0.34613333333333335, "grad_norm": 1.55970368015743, "learning_rate": 7.601031476816742e-06, "loss": 0.5623, "step": 3245 }, { "avg_step_time": 5.918770190441247, "epoch": 0.34613333333333335, "eta_time": 10.078350352056901, "step": 3245 }, { "epoch": 0.34624, "grad_norm": 1.5078687912443, "learning_rate": 7.599555984648836e-06, "loss": 0.4505, "step": 3246 }, { "avg_step_time": 5.904898212413595, "epoch": 0.34624, "eta_time": 10.053089206634146, "step": 3246 }, { "epoch": 0.3463466666666667, "grad_norm": 1.599442556569866, "learning_rate": 7.598080182178957e-06, "loss": 0.4997, "step": 3247 }, { "avg_step_time": 5.912429438696967, "epoch": 0.3463466666666667, "eta_time": 10.064268777870836, "step": 3247 }, { "epoch": 0.34645333333333334, "grad_norm": 1.585803835734811, "learning_rate": 7.5966040695832725e-06, "loss": 0.4231, "step": 3248 }, { "avg_step_time": 5.940336542900162, "epoch": 0.34645333333333334, "eta_time": 10.110122777319248, "step": 3248 }, { "epoch": 0.34656, "grad_norm": 1.6024067732887552, "learning_rate": 7.595127647037976e-06, "loss": 0.4211, "step": 3249 }, { "avg_step_time": 5.935303059491244, "epoch": 0.34656, "eta_time": 10.099907372900933, "step": 3249 }, { "epoch": 0.3466666666666667, "grad_norm": 1.690065212384437, "learning_rate": 7.593650914719311e-06, "loss": 0.531, "step": 3250 }, { "avg_step_time": 5.943009282603408, "epoch": 0.3466666666666667, "eta_time": 10.111369959984966, "step": 3250 }, { "epoch": 0.3467733333333333, "grad_norm": 1.825796462766733, "learning_rate": 7.5921738728035454e-06, "loss": 0.4184, "step": 3251 }, { "avg_step_time": 5.964531012255736, "epoch": 0.3467733333333333, "eta_time": 10.146329977515036, "step": 3251 }, { "epoch": 0.34688, "grad_norm": 1.8221498541446575, "learning_rate": 7.590696521466992e-06, "loss": 0.5114, "step": 3252 }, { "avg_step_time": 5.958582899787209, "epoch": 0.34688, "eta_time": 10.134556415388078, "step": 3252 }, { "epoch": 0.34698666666666667, "grad_norm": 1.7107806117903337, "learning_rate": 7.5892188608859985e-06, "loss": 0.514, "step": 3253 }, { "avg_step_time": 5.990040417873498, "epoch": 0.34698666666666667, "eta_time": 10.186396510617099, "step": 3253 }, { "epoch": 0.3470933333333333, "grad_norm": 1.929995208501669, "learning_rate": 7.587740891236948e-06, "loss": 0.5537, "step": 3254 }, { "avg_step_time": 6.014939154037322, "epoch": 0.3470933333333333, "eta_time": 10.227067378295123, "step": 3254 }, { "epoch": 0.3472, "grad_norm": 1.8189206285192412, "learning_rate": 7.586262612696263e-06, "loss": 0.4308, "step": 3255 }, { "avg_step_time": 6.012848191791111, "epoch": 0.3472, "eta_time": 10.221841926044888, "step": 3255 }, { "epoch": 0.34730666666666665, "grad_norm": 1.6697744124798082, "learning_rate": 7.5847840254404e-06, "loss": 0.5296, "step": 3256 }, { "avg_step_time": 5.994294130440914, "epoch": 0.34730666666666665, "eta_time": 10.188634940046654, "step": 3256 }, { "epoch": 0.34741333333333335, "grad_norm": 1.7178088438501706, "learning_rate": 7.583305129645857e-06, "loss": 0.5601, "step": 3257 }, { "avg_step_time": 5.994199333768902, "epoch": 0.34741333333333335, "eta_time": 10.186808756666151, "step": 3257 }, { "epoch": 0.34752, "grad_norm": 1.6302230582461117, "learning_rate": 7.5818259254891614e-06, "loss": 0.4629, "step": 3258 }, { "avg_step_time": 5.99162483215332, "epoch": 0.34752, "eta_time": 10.180769193967183, "step": 3258 }, { "epoch": 0.34762666666666664, "grad_norm": 1.6290900373042039, "learning_rate": 7.580346413146886e-06, "loss": 0.5022, "step": 3259 }, { "avg_step_time": 5.989429666538431, "epoch": 0.34762666666666664, "eta_time": 10.175375511263624, "step": 3259 }, { "epoch": 0.34773333333333334, "grad_norm": 1.708847222442532, "learning_rate": 7.578866592795635e-06, "loss": 0.5691, "step": 3260 }, { "avg_step_time": 5.990615777295045, "epoch": 0.34773333333333334, "eta_time": 10.17572652171089, "step": 3260 }, { "epoch": 0.34784, "grad_norm": 1.6509979750445236, "learning_rate": 7.577386464612049e-06, "loss": 0.5228, "step": 3261 }, { "avg_step_time": 5.982457329528501, "epoch": 0.34784, "eta_time": 10.16020669798257, "step": 3261 }, { "epoch": 0.3479466666666667, "grad_norm": 2.0923854963844044, "learning_rate": 7.575906028772808e-06, "loss": 0.5324, "step": 3262 }, { "avg_step_time": 5.981426219747524, "epoch": 0.3479466666666667, "eta_time": 10.156794022587949, "step": 3262 }, { "epoch": 0.3480533333333333, "grad_norm": 1.8376719655913225, "learning_rate": 7.574425285454627e-06, "loss": 0.4889, "step": 3263 }, { "avg_step_time": 6.01591481825318, "epoch": 0.3480533333333333, "eta_time": 10.213686491434288, "step": 3263 }, { "epoch": 0.34816, "grad_norm": 1.8478774874843211, "learning_rate": 7.572944234834261e-06, "loss": 0.5408, "step": 3264 }, { "avg_step_time": 6.039233029490769, "epoch": 0.34816, "eta_time": 10.251598067560582, "step": 3264 }, { "epoch": 0.34826666666666667, "grad_norm": 1.7902887705620871, "learning_rate": 7.571462877088496e-06, "loss": 0.5095, "step": 3265 }, { "avg_step_time": 6.0372047954135475, "epoch": 0.34826666666666667, "eta_time": 10.246478138882438, "step": 3265 }, { "epoch": 0.3483733333333333, "grad_norm": 1.7121672058489006, "learning_rate": 7.569981212394157e-06, "loss": 0.4923, "step": 3266 }, { "avg_step_time": 6.046062459849348, "epoch": 0.3483733333333333, "eta_time": 10.259832102005463, "step": 3266 }, { "epoch": 0.34848, "grad_norm": 0.6867979863002922, "learning_rate": 7.568499240928109e-06, "loss": 0.4592, "step": 3267 }, { "avg_step_time": 6.017049789428711, "epoch": 0.34848, "eta_time": 10.20892780939738, "step": 3267 }, { "epoch": 0.34858666666666666, "grad_norm": 1.8053601207255128, "learning_rate": 7.56701696286725e-06, "loss": 0.5364, "step": 3268 }, { "avg_step_time": 6.008579292682686, "epoch": 0.34858666666666666, "eta_time": 10.192887150114768, "step": 3268 }, { "epoch": 0.34869333333333336, "grad_norm": 1.8027575017612858, "learning_rate": 7.565534378388515e-06, "loss": 0.6248, "step": 3269 }, { "avg_step_time": 6.007908852413447, "epoch": 0.34869333333333336, "eta_time": 10.190080959121252, "step": 3269 }, { "epoch": 0.3488, "grad_norm": 2.0504405440151356, "learning_rate": 7.5640514876688765e-06, "loss": 0.5808, "step": 3270 }, { "avg_step_time": 6.011480006304654, "epoch": 0.3488, "eta_time": 10.19446817735831, "step": 3270 }, { "epoch": 0.34890666666666664, "grad_norm": 0.6357275861447149, "learning_rate": 7.562568290885344e-06, "loss": 0.4512, "step": 3271 }, { "avg_step_time": 5.9753015113599375, "epoch": 0.34890666666666664, "eta_time": 10.13145567370585, "step": 3271 }, { "epoch": 0.34901333333333334, "grad_norm": 1.7967102723050379, "learning_rate": 7.561084788214958e-06, "loss": 0.5644, "step": 3272 }, { "avg_step_time": 5.977879601295548, "epoch": 0.34901333333333334, "eta_time": 10.134166446307425, "step": 3272 }, { "epoch": 0.34912, "grad_norm": 1.6070812554175038, "learning_rate": 7.559600979834809e-06, "loss": 0.5126, "step": 3273 }, { "avg_step_time": 5.983338156131783, "epoch": 0.34912, "eta_time": 10.141758174643373, "step": 3273 }, { "epoch": 0.3492266666666667, "grad_norm": 1.541123987875624, "learning_rate": 7.558116865922007e-06, "loss": 0.3952, "step": 3274 }, { "avg_step_time": 5.98403593265649, "epoch": 0.3492266666666667, "eta_time": 10.141278673649234, "step": 3274 }, { "epoch": 0.34933333333333333, "grad_norm": 1.6236607754338277, "learning_rate": 7.556632446653711e-06, "loss": 0.4757, "step": 3275 }, { "avg_step_time": 5.977260269299902, "epoch": 0.34933333333333333, "eta_time": 10.128135456313723, "step": 3275 }, { "epoch": 0.34944, "grad_norm": 1.6006629414434088, "learning_rate": 7.555147722207111e-06, "loss": 0.501, "step": 3276 }, { "avg_step_time": 5.9782632480968125, "epoch": 0.34944, "eta_time": 10.128174319484016, "step": 3276 }, { "epoch": 0.34954666666666667, "grad_norm": 1.8952488380733659, "learning_rate": 7.553662692759434e-06, "loss": 0.5195, "step": 3277 }, { "avg_step_time": 5.978288226657444, "epoch": 0.34954666666666667, "eta_time": 10.126556001710304, "step": 3277 }, { "epoch": 0.3496533333333333, "grad_norm": 1.7199334371545492, "learning_rate": 7.552177358487944e-06, "loss": 0.5104, "step": 3278 }, { "avg_step_time": 5.981321563624372, "epoch": 0.3496533333333333, "eta_time": 10.13003265928272, "step": 3278 }, { "epoch": 0.34976, "grad_norm": 1.4758362531737799, "learning_rate": 7.550691719569944e-06, "loss": 0.453, "step": 3279 }, { "avg_step_time": 5.971903709450153, "epoch": 0.34976, "eta_time": 10.112423614668927, "step": 3279 }, { "epoch": 0.34986666666666666, "grad_norm": 0.6596726084681983, "learning_rate": 7.549205776182766e-06, "loss": 0.4503, "step": 3280 }, { "avg_step_time": 5.941873906838773, "epoch": 0.34986666666666666, "eta_time": 10.059922628383978, "step": 3280 }, { "epoch": 0.34997333333333336, "grad_norm": 1.6065400116797084, "learning_rate": 7.5477195285037875e-06, "loss": 0.564, "step": 3281 }, { "avg_step_time": 5.954714014072611, "epoch": 0.34997333333333336, "eta_time": 10.080007556044023, "step": 3281 }, { "epoch": 0.35008, "grad_norm": 0.6759587946229235, "learning_rate": 7.546232976710413e-06, "loss": 0.4519, "step": 3282 }, { "avg_step_time": 5.921929749575528, "epoch": 0.35008, "eta_time": 10.022866101156582, "step": 3282 }, { "epoch": 0.35018666666666665, "grad_norm": 1.4929236594646507, "learning_rate": 7.544746120980093e-06, "loss": 0.5627, "step": 3283 }, { "avg_step_time": 5.890263480369491, "epoch": 0.35018666666666665, "eta_time": 9.96763475622526, "step": 3283 }, { "epoch": 0.35029333333333335, "grad_norm": 1.7459147225261225, "learning_rate": 7.543258961490309e-06, "loss": 0.4559, "step": 3284 }, { "avg_step_time": 5.926417822789664, "epoch": 0.35029333333333335, "eta_time": 10.027169710725513, "step": 3284 }, { "epoch": 0.3504, "grad_norm": 1.462853288239125, "learning_rate": 7.541771498418575e-06, "loss": 0.362, "step": 3285 }, { "avg_step_time": 5.927027637308294, "epoch": 0.3504, "eta_time": 10.026555086446532, "step": 3285 }, { "epoch": 0.3505066666666667, "grad_norm": 1.596937289939834, "learning_rate": 7.5402837319424495e-06, "loss": 0.5118, "step": 3286 }, { "avg_step_time": 5.926108827494612, "epoch": 0.3505066666666667, "eta_time": 10.023354625170747, "step": 3286 }, { "epoch": 0.35061333333333333, "grad_norm": 1.387224898479623, "learning_rate": 7.538795662239522e-06, "loss": 0.491, "step": 3287 }, { "avg_step_time": 5.924775256050958, "epoch": 0.35061333333333333, "eta_time": 10.019453266343954, "step": 3287 }, { "epoch": 0.35072, "grad_norm": 1.8188822730910081, "learning_rate": 7.537307289487419e-06, "loss": 0.5297, "step": 3288 }, { "avg_step_time": 5.922963067738697, "epoch": 0.35072, "eta_time": 10.014743387034846, "step": 3288 }, { "epoch": 0.3508266666666667, "grad_norm": 1.8007811898785295, "learning_rate": 7.535818613863804e-06, "loss": 0.5032, "step": 3289 }, { "avg_step_time": 5.937570374421399, "epoch": 0.3508266666666667, "eta_time": 10.037792582980176, "step": 3289 }, { "epoch": 0.3509333333333333, "grad_norm": 1.5107178342998728, "learning_rate": 7.534329635546374e-06, "loss": 0.4064, "step": 3290 }, { "avg_step_time": 5.9676333798302545, "epoch": 0.3509333333333333, "eta_time": 10.086958087851972, "step": 3290 }, { "epoch": 0.35104, "grad_norm": 1.736027953700066, "learning_rate": 7.532840354712868e-06, "loss": 0.4712, "step": 3291 }, { "avg_step_time": 5.99323579518482, "epoch": 0.35104, "eta_time": 10.128568493862344, "step": 3291 }, { "epoch": 0.35114666666666666, "grad_norm": 1.7047864574321743, "learning_rate": 7.531350771541055e-06, "loss": 0.5599, "step": 3292 }, { "avg_step_time": 6.02864555397419, "epoch": 0.35114666666666666, "eta_time": 10.18673636245139, "step": 3292 }, { "epoch": 0.3512533333333333, "grad_norm": 1.68852814885751, "learning_rate": 7.529860886208744e-06, "loss": 0.5779, "step": 3293 }, { "avg_step_time": 6.026123104673443, "epoch": 0.3512533333333333, "eta_time": 10.180800200728857, "step": 3293 }, { "epoch": 0.35136, "grad_norm": 1.702301099950366, "learning_rate": 7.5283706988937765e-06, "loss": 0.5304, "step": 3294 }, { "avg_step_time": 6.027369911020452, "epoch": 0.35136, "eta_time": 10.18123234136538, "step": 3294 }, { "epoch": 0.35146666666666665, "grad_norm": 1.632180346361305, "learning_rate": 7.526880209774034e-06, "loss": 0.5118, "step": 3295 }, { "avg_step_time": 6.028198726249464, "epoch": 0.35146666666666665, "eta_time": 10.180957848776872, "step": 3295 }, { "epoch": 0.35157333333333335, "grad_norm": 1.3595994039879589, "learning_rate": 7.5253894190274335e-06, "loss": 0.5461, "step": 3296 }, { "avg_step_time": 6.054290713685932, "epoch": 0.35157333333333335, "eta_time": 10.223342569026883, "step": 3296 }, { "epoch": 0.35168, "grad_norm": 0.649123235945915, "learning_rate": 7.523898326831921e-06, "loss": 0.4294, "step": 3297 }, { "avg_step_time": 6.02283128825101, "epoch": 0.35168, "eta_time": 10.168546824997122, "step": 3297 }, { "epoch": 0.3517866666666667, "grad_norm": 1.4405225178904857, "learning_rate": 7.522406933365491e-06, "loss": 0.5089, "step": 3298 }, { "avg_step_time": 6.0124759457328105, "epoch": 0.3517866666666667, "eta_time": 10.149393422838415, "step": 3298 }, { "epoch": 0.35189333333333334, "grad_norm": 1.7469356265751335, "learning_rate": 7.520915238806161e-06, "loss": 0.4942, "step": 3299 }, { "avg_step_time": 6.015676717565517, "epoch": 0.35189333333333334, "eta_time": 10.153125482202245, "step": 3299 }, { "epoch": 0.352, "grad_norm": 0.6731416036507962, "learning_rate": 7.5194232433319955e-06, "loss": 0.4573, "step": 3300 }, { "avg_step_time": 5.967547614165027, "epoch": 0.352, "eta_time": 10.070236598903483, "step": 3300 }, { "epoch": 0.3521066666666667, "grad_norm": 2.0772096230883608, "learning_rate": 7.517930947121088e-06, "loss": 0.5329, "step": 3301 }, { "avg_step_time": 5.982930898666382, "epoch": 0.3521066666666667, "eta_time": 10.09453396624989, "step": 3301 }, { "epoch": 0.3522133333333333, "grad_norm": 1.8930161359451119, "learning_rate": 7.51643835035157e-06, "loss": 0.5152, "step": 3302 }, { "avg_step_time": 5.985364492493447, "epoch": 0.3522133333333333, "eta_time": 10.09697737858686, "step": 3302 }, { "epoch": 0.35232, "grad_norm": 1.643577631779592, "learning_rate": 7.514945453201608e-06, "loss": 0.5518, "step": 3303 }, { "avg_step_time": 5.959182101066666, "epoch": 0.35232, "eta_time": 10.051153810465777, "step": 3303 }, { "epoch": 0.35242666666666667, "grad_norm": 1.68874574652519, "learning_rate": 7.513452255849405e-06, "loss": 0.4897, "step": 3304 }, { "avg_step_time": 5.955736340898456, "epoch": 0.35242666666666667, "eta_time": 10.043687590442925, "step": 3304 }, { "epoch": 0.3525333333333333, "grad_norm": 1.4577961214209398, "learning_rate": 7.511958758473201e-06, "loss": 0.4906, "step": 3305 }, { "avg_step_time": 5.960879648574675, "epoch": 0.3525333333333333, "eta_time": 10.050705407457855, "step": 3305 }, { "epoch": 0.35264, "grad_norm": 1.8516226150126396, "learning_rate": 7.510464961251271e-06, "loss": 0.4999, "step": 3306 }, { "avg_step_time": 5.931728194458316, "epoch": 0.35264, "eta_time": 9.999905114490977, "step": 3306 }, { "epoch": 0.35274666666666665, "grad_norm": 1.685874112986791, "learning_rate": 7.508970864361924e-06, "loss": 0.5036, "step": 3307 }, { "avg_step_time": 5.9299072231909244, "epoch": 0.35274666666666665, "eta_time": 9.99518806397848, "step": 3307 }, { "epoch": 0.35285333333333335, "grad_norm": 2.515090798147679, "learning_rate": 7.507476467983508e-06, "loss": 0.632, "step": 3308 }, { "avg_step_time": 5.9262018131487295, "epoch": 0.35285333333333335, "eta_time": 9.987296222325929, "step": 3308 }, { "epoch": 0.35296, "grad_norm": 0.6494880560955552, "learning_rate": 7.505981772294404e-06, "loss": 0.4599, "step": 3309 }, { "avg_step_time": 5.894923530443751, "epoch": 0.35296, "eta_time": 9.93294614879772, "step": 3309 }, { "epoch": 0.35306666666666664, "grad_norm": 1.7331187256287404, "learning_rate": 7.50448677747303e-06, "loss": 0.4986, "step": 3310 }, { "avg_step_time": 5.893189543425435, "epoch": 0.35306666666666664, "eta_time": 9.928387383576462, "step": 3310 }, { "epoch": 0.35317333333333334, "grad_norm": 1.5743884340646463, "learning_rate": 7.502991483697839e-06, "loss": 0.4508, "step": 3311 }, { "avg_step_time": 5.893067971624509, "epoch": 0.35317333333333334, "eta_time": 9.926545605536395, "step": 3311 }, { "epoch": 0.35328, "grad_norm": 1.5792511691856848, "learning_rate": 7.501495891147322e-06, "loss": 0.4662, "step": 3312 }, { "avg_step_time": 5.924603881257953, "epoch": 0.35328, "eta_time": 9.978020370018603, "step": 3312 }, { "epoch": 0.3533866666666667, "grad_norm": 1.6308377255806012, "learning_rate": 7.500000000000001e-06, "loss": 0.5086, "step": 3313 }, { "avg_step_time": 5.9539393583933515, "epoch": 0.3533866666666667, "eta_time": 10.025772330716805, "step": 3313 }, { "epoch": 0.3534933333333333, "grad_norm": 1.8633186502600698, "learning_rate": 7.498503810434438e-06, "loss": 0.5146, "step": 3314 }, { "avg_step_time": 5.9333138658542826, "epoch": 0.3534933333333333, "eta_time": 9.98939315026189, "step": 3314 }, { "epoch": 0.3536, "grad_norm": 1.687001290642553, "learning_rate": 7.497007322629231e-06, "loss": 0.5184, "step": 3315 }, { "avg_step_time": 5.935299851677635, "epoch": 0.3536, "eta_time": 9.99108808365735, "step": 3315 }, { "epoch": 0.35370666666666667, "grad_norm": 2.0325102546855236, "learning_rate": 7.495510536763008e-06, "loss": 0.5485, "step": 3316 }, { "avg_step_time": 5.927558552135121, "epoch": 0.35370666666666667, "eta_time": 9.97641035205186, "step": 3316 }, { "epoch": 0.3538133333333333, "grad_norm": 1.4893128357170027, "learning_rate": 7.494013453014438e-06, "loss": 0.4538, "step": 3317 }, { "avg_step_time": 5.927687247594197, "epoch": 0.3538133333333333, "eta_time": 9.974980373868235, "step": 3317 }, { "epoch": 0.35392, "grad_norm": 1.864441985751103, "learning_rate": 7.492516071562226e-06, "loss": 0.5262, "step": 3318 }, { "avg_step_time": 5.924635451249402, "epoch": 0.35392, "eta_time": 9.96819914672712, "step": 3318 }, { "epoch": 0.35402666666666666, "grad_norm": 1.6082595085091445, "learning_rate": 7.4910183925851055e-06, "loss": 0.4426, "step": 3319 }, { "avg_step_time": 5.939076062404748, "epoch": 0.35402666666666666, "eta_time": 9.99084573164532, "step": 3319 }, { "epoch": 0.35413333333333336, "grad_norm": 1.6134922072501892, "learning_rate": 7.489520416261855e-06, "loss": 0.499, "step": 3320 }, { "avg_step_time": 5.9371343020236855, "epoch": 0.35413333333333336, "eta_time": 9.985930055209282, "step": 3320 }, { "epoch": 0.35424, "grad_norm": 1.817403174703381, "learning_rate": 7.488022142771282e-06, "loss": 0.4738, "step": 3321 }, { "avg_step_time": 5.921780969157363, "epoch": 0.35424, "eta_time": 9.958461663132967, "step": 3321 }, { "epoch": 0.35434666666666664, "grad_norm": 1.57348197479581, "learning_rate": 7.486523572292231e-06, "loss": 0.4272, "step": 3322 }, { "avg_step_time": 5.921481435949152, "epoch": 0.35434666666666664, "eta_time": 9.956313092166727, "step": 3322 }, { "epoch": 0.35445333333333334, "grad_norm": 1.9667884723722873, "learning_rate": 7.485024705003583e-06, "loss": 0.5313, "step": 3323 }, { "avg_step_time": 5.888112029643974, "epoch": 0.35445333333333334, "eta_time": 9.89857055650148, "step": 3323 }, { "epoch": 0.35456, "grad_norm": 1.7015184754283397, "learning_rate": 7.483525541084253e-06, "loss": 0.3839, "step": 3324 }, { "avg_step_time": 5.885697042099153, "epoch": 0.35456, "eta_time": 9.89287577826166, "step": 3324 }, { "epoch": 0.3546666666666667, "grad_norm": 1.814699268315553, "learning_rate": 7.4820260807131935e-06, "loss": 0.5197, "step": 3325 }, { "avg_step_time": 5.859078257974952, "epoch": 0.3546666666666667, "eta_time": 9.846506516874573, "step": 3325 }, { "epoch": 0.35477333333333333, "grad_norm": 2.102360720381262, "learning_rate": 7.480526324069391e-06, "loss": 0.5794, "step": 3326 }, { "avg_step_time": 5.824890803809118, "epoch": 0.35477333333333333, "eta_time": 9.787434575622598, "step": 3326 }, { "epoch": 0.35488, "grad_norm": 1.5196726410548527, "learning_rate": 7.479026271331864e-06, "loss": 0.3942, "step": 3327 }, { "avg_step_time": 5.821549769603845, "epoch": 0.35488, "eta_time": 9.78020361293446, "step": 3327 }, { "epoch": 0.3549866666666667, "grad_norm": 1.6839657486925885, "learning_rate": 7.477525922679673e-06, "loss": 0.5319, "step": 3328 }, { "avg_step_time": 5.8467317855719365, "epoch": 0.3549866666666667, "eta_time": 9.820885307598195, "step": 3328 }, { "epoch": 0.3550933333333333, "grad_norm": 2.033192068624213, "learning_rate": 7.476025278291912e-06, "loss": 0.4795, "step": 3329 }, { "avg_step_time": 5.784465989681205, "epoch": 0.3550933333333333, "eta_time": 9.714689270447936, "step": 3329 }, { "epoch": 0.3552, "grad_norm": 1.6076642348696446, "learning_rate": 7.4745243383477055e-06, "loss": 0.4832, "step": 3330 }, { "avg_step_time": 5.786874848182755, "epoch": 0.3552, "eta_time": 9.71712734924021, "step": 3330 }, { "epoch": 0.35530666666666666, "grad_norm": 1.6975870870726104, "learning_rate": 7.4730231030262164e-06, "loss": 0.4302, "step": 3331 }, { "avg_step_time": 5.790083307208437, "epoch": 0.35530666666666666, "eta_time": 9.720906530213275, "step": 3331 }, { "epoch": 0.35541333333333336, "grad_norm": 1.4971345968596375, "learning_rate": 7.471521572506647e-06, "loss": 0.5044, "step": 3332 }, { "avg_step_time": 5.789360891688954, "epoch": 0.35541333333333336, "eta_time": 9.718085519021209, "step": 3332 }, { "epoch": 0.35552, "grad_norm": 1.6493225706677044, "learning_rate": 7.470019746968226e-06, "loss": 0.5271, "step": 3333 }, { "avg_step_time": 5.78864940970835, "epoch": 0.35552, "eta_time": 9.715283259293848, "step": 3333 }, { "epoch": 0.35562666666666665, "grad_norm": 1.920568758577237, "learning_rate": 7.468517626590229e-06, "loss": 0.5157, "step": 3334 }, { "avg_step_time": 5.784081589091908, "epoch": 0.35562666666666665, "eta_time": 9.706010244362282, "step": 3334 }, { "epoch": 0.35573333333333335, "grad_norm": 1.8347618059104323, "learning_rate": 7.467015211551951e-06, "loss": 0.4925, "step": 3335 }, { "avg_step_time": 5.821177085240682, "epoch": 0.35573333333333335, "eta_time": 9.766641554126032, "step": 3335 }, { "epoch": 0.35584, "grad_norm": 1.7543297219911074, "learning_rate": 7.4655125020327376e-06, "loss": 0.5047, "step": 3336 }, { "avg_step_time": 5.808057002346925, "epoch": 0.35584, "eta_time": 9.743015621436967, "step": 3336 }, { "epoch": 0.3559466666666667, "grad_norm": 1.6319007262977203, "learning_rate": 7.464009498211964e-06, "loss": 0.5758, "step": 3337 }, { "avg_step_time": 5.806445215687607, "epoch": 0.3559466666666667, "eta_time": 9.73869894786716, "step": 3337 }, { "epoch": 0.35605333333333333, "grad_norm": 1.898465765667372, "learning_rate": 7.462506200269034e-06, "loss": 0.555, "step": 3338 }, { "avg_step_time": 5.803263693144827, "epoch": 0.35605333333333333, "eta_time": 9.731750809865366, "step": 3338 }, { "epoch": 0.35616, "grad_norm": 1.7471537898052236, "learning_rate": 7.461002608383396e-06, "loss": 0.4737, "step": 3339 }, { "avg_step_time": 5.816311711012715, "epoch": 0.35616, "eta_time": 9.752015968797986, "step": 3339 }, { "epoch": 0.3562666666666667, "grad_norm": 2.040249156820613, "learning_rate": 7.4594987227345314e-06, "loss": 0.6069, "step": 3340 }, { "avg_step_time": 5.815129730436537, "epoch": 0.3562666666666667, "eta_time": 9.74841886755125, "step": 3340 }, { "epoch": 0.3563733333333333, "grad_norm": 1.6698020128286857, "learning_rate": 7.457994543501951e-06, "loss": 0.4899, "step": 3341 }, { "avg_step_time": 5.817354568327316, "epoch": 0.3563733333333333, "eta_time": 9.750532629246395, "step": 3341 }, { "epoch": 0.35648, "grad_norm": 1.8600306913245528, "learning_rate": 7.456490070865206e-06, "loss": 0.5921, "step": 3342 }, { "avg_step_time": 5.850270056965376, "epoch": 0.35648, "eta_time": 9.804077570464475, "step": 3342 }, { "epoch": 0.35658666666666666, "grad_norm": 1.6563296195447252, "learning_rate": 7.454985305003884e-06, "loss": 0.4526, "step": 3343 }, { "avg_step_time": 5.850849390029907, "epoch": 0.35658666666666666, "eta_time": 9.803423200183445, "step": 3343 }, { "epoch": 0.3566933333333333, "grad_norm": 1.6182227728071796, "learning_rate": 7.453480246097601e-06, "loss": 0.5265, "step": 3344 }, { "avg_step_time": 5.862171801653775, "epoch": 0.3566933333333333, "eta_time": 9.820766148826088, "step": 3344 }, { "epoch": 0.3568, "grad_norm": 1.6445698089571146, "learning_rate": 7.4519748943260126e-06, "loss": 0.4198, "step": 3345 }, { "avg_step_time": 5.857855854612408, "epoch": 0.3568, "eta_time": 9.811908556475784, "step": 3345 }, { "epoch": 0.35690666666666665, "grad_norm": 1.8485434728929069, "learning_rate": 7.45046924986881e-06, "loss": 0.4739, "step": 3346 }, { "avg_step_time": 5.8489403243016715, "epoch": 0.35690666666666665, "eta_time": 9.795350337559661, "step": 3346 }, { "epoch": 0.35701333333333335, "grad_norm": 1.8988622039338088, "learning_rate": 7.448963312905717e-06, "loss": 0.5037, "step": 3347 }, { "avg_step_time": 5.872981126862343, "epoch": 0.35701333333333335, "eta_time": 9.833980620201723, "step": 3347 }, { "epoch": 0.35712, "grad_norm": 0.661892434856671, "learning_rate": 7.447457083616494e-06, "loss": 0.4797, "step": 3348 }, { "avg_step_time": 5.841718435287476, "epoch": 0.35712, "eta_time": 9.78001028041045, "step": 3348 }, { "epoch": 0.3572266666666667, "grad_norm": 1.8338264421152717, "learning_rate": 7.445950562180935e-06, "loss": 0.5322, "step": 3349 }, { "avg_step_time": 5.832949660041115, "epoch": 0.3572266666666667, "eta_time": 9.763709625391044, "step": 3349 }, { "epoch": 0.35733333333333334, "grad_norm": 1.6123017944294034, "learning_rate": 7.444443748778869e-06, "loss": 0.5125, "step": 3350 }, { "avg_step_time": 5.808723553262576, "epoch": 0.35733333333333334, "eta_time": 9.721544280113061, "step": 3350 }, { "epoch": 0.35744, "grad_norm": 1.5586349882231525, "learning_rate": 7.44293664359016e-06, "loss": 0.5658, "step": 3351 }, { "avg_step_time": 5.814984783981785, "epoch": 0.35744, "eta_time": 9.730407871862855, "step": 3351 }, { "epoch": 0.3575466666666667, "grad_norm": 2.100232675947988, "learning_rate": 7.441429246794708e-06, "loss": 0.4611, "step": 3352 }, { "avg_step_time": 5.812215504020151, "epoch": 0.3575466666666667, "eta_time": 9.724159439087046, "step": 3352 }, { "epoch": 0.3576533333333333, "grad_norm": 1.7399003768658416, "learning_rate": 7.4399215585724445e-06, "loss": 0.5849, "step": 3353 }, { "avg_step_time": 5.797725655815818, "epoch": 0.3576533333333333, "eta_time": 9.698306638700794, "step": 3353 }, { "epoch": 0.35776, "grad_norm": 1.5013854949086167, "learning_rate": 7.438413579103344e-06, "loss": 0.4201, "step": 3354 }, { "avg_step_time": 5.798130216020526, "epoch": 0.35776, "eta_time": 9.69737278629433, "step": 3354 }, { "epoch": 0.35786666666666667, "grad_norm": 1.754153016935299, "learning_rate": 7.436905308567404e-06, "loss": 0.5371, "step": 3355 }, { "avg_step_time": 5.793062104119195, "epoch": 0.35786666666666667, "eta_time": 9.687287185221544, "step": 3355 }, { "epoch": 0.3579733333333333, "grad_norm": 1.9119718985753118, "learning_rate": 7.435396747144664e-06, "loss": 0.4955, "step": 3356 }, { "avg_step_time": 5.793462122329558, "epoch": 0.3579733333333333, "eta_time": 9.686346809528224, "step": 3356 }, { "epoch": 0.35808, "grad_norm": 1.5051273623892607, "learning_rate": 7.433887895015199e-06, "loss": 0.4992, "step": 3357 }, { "avg_step_time": 5.793362793296274, "epoch": 0.35808, "eta_time": 9.684571469460272, "step": 3357 }, { "epoch": 0.35818666666666665, "grad_norm": 1.5211127707614374, "learning_rate": 7.432378752359115e-06, "loss": 0.452, "step": 3358 }, { "avg_step_time": 5.8204920508644795, "epoch": 0.35818666666666665, "eta_time": 9.728305741680993, "step": 3358 }, { "epoch": 0.35829333333333335, "grad_norm": 2.0179970279860493, "learning_rate": 7.430869319356554e-06, "loss": 0.5082, "step": 3359 }, { "avg_step_time": 5.817213544941912, "epoch": 0.35829333333333335, "eta_time": 9.721210190658484, "step": 3359 }, { "epoch": 0.3584, "grad_norm": 1.6038700939378883, "learning_rate": 7.429359596187694e-06, "loss": 0.5255, "step": 3360 }, { "avg_step_time": 5.8187608983781605, "epoch": 0.3584, "eta_time": 9.722179667706843, "step": 3360 }, { "epoch": 0.35850666666666664, "grad_norm": 1.6866206340184768, "learning_rate": 7.4278495830327465e-06, "loss": 0.512, "step": 3361 }, { "avg_step_time": 5.823679432724461, "epoch": 0.35850666666666664, "eta_time": 9.728780030112475, "step": 3361 }, { "epoch": 0.35861333333333334, "grad_norm": 1.8699327264272447, "learning_rate": 7.426339280071957e-06, "loss": 0.6149, "step": 3362 }, { "avg_step_time": 5.831596718894111, "epoch": 0.35861333333333334, "eta_time": 9.740386408530634, "step": 3362 }, { "epoch": 0.35872, "grad_norm": 1.6171158428778567, "learning_rate": 7.424828687485606e-06, "loss": 0.5208, "step": 3363 }, { "avg_step_time": 5.8125829937482125, "epoch": 0.35872, "eta_time": 9.707013599559515, "step": 3363 }, { "epoch": 0.3588266666666667, "grad_norm": 1.714318212260655, "learning_rate": 7.42331780545401e-06, "loss": 0.5327, "step": 3364 }, { "avg_step_time": 5.815718662859213, "epoch": 0.3588266666666667, "eta_time": 9.710634689568536, "step": 3364 }, { "epoch": 0.3589333333333333, "grad_norm": 0.6668051737026037, "learning_rate": 7.421806634157518e-06, "loss": 0.4423, "step": 3365 }, { "avg_step_time": 5.773017461853798, "epoch": 0.3589333333333333, "eta_time": 9.637731929372592, "step": 3365 }, { "epoch": 0.35904, "grad_norm": 1.7516406250971255, "learning_rate": 7.420295173776515e-06, "loss": 0.5792, "step": 3366 }, { "avg_step_time": 5.802559262574321, "epoch": 0.35904, "eta_time": 9.68543850244697, "step": 3366 }, { "epoch": 0.35914666666666667, "grad_norm": 1.924917404790433, "learning_rate": 7.418783424491418e-06, "loss": 0.4964, "step": 3367 }, { "avg_step_time": 5.8063527140954525, "epoch": 0.35914666666666667, "eta_time": 9.690157529523745, "step": 3367 }, { "epoch": 0.3592533333333333, "grad_norm": 1.5035337939291242, "learning_rate": 7.417271386482684e-06, "loss": 0.4749, "step": 3368 }, { "avg_step_time": 5.8073355525431, "epoch": 0.3592533333333333, "eta_time": 9.690184628924001, "step": 3368 }, { "epoch": 0.35936, "grad_norm": 0.6383843281972211, "learning_rate": 7.415759059930799e-06, "loss": 0.4555, "step": 3369 }, { "avg_step_time": 5.771602661922724, "epoch": 0.35936, "eta_time": 9.628957107641078, "step": 3369 }, { "epoch": 0.35946666666666666, "grad_norm": 1.8705149021716239, "learning_rate": 7.414246445016283e-06, "loss": 0.5795, "step": 3370 }, { "avg_step_time": 5.8032847317782315, "epoch": 0.35946666666666666, "eta_time": 9.680201337313411, "step": 3370 }, { "epoch": 0.35957333333333336, "grad_norm": 1.961907101522165, "learning_rate": 7.412733541919699e-06, "loss": 0.5434, "step": 3371 }, { "avg_step_time": 5.801742808987396, "epoch": 0.35957333333333336, "eta_time": 9.676017729211203, "step": 3371 }, { "epoch": 0.35968, "grad_norm": 1.7101494939438318, "learning_rate": 7.411220350821631e-06, "loss": 0.508, "step": 3372 }, { "avg_step_time": 5.798494211351029, "epoch": 0.35968, "eta_time": 9.66898909742784, "step": 3372 }, { "epoch": 0.35978666666666664, "grad_norm": 1.6580342151111414, "learning_rate": 7.409706871902709e-06, "loss": 0.5339, "step": 3373 }, { "avg_step_time": 5.797915511661106, "epoch": 0.35978666666666664, "eta_time": 9.666413583608323, "step": 3373 }, { "epoch": 0.35989333333333334, "grad_norm": 1.9376750793867907, "learning_rate": 7.408193105343592e-06, "loss": 0.5923, "step": 3374 }, { "avg_step_time": 5.797099400048304, "epoch": 0.35989333333333334, "eta_time": 9.663442638802744, "step": 3374 }, { "epoch": 0.36, "grad_norm": 1.9437925440143897, "learning_rate": 7.406679051324972e-06, "loss": 0.5394, "step": 3375 }, { "avg_step_time": 5.797195029981209, "epoch": 0.36, "eta_time": 9.661991716635349, "step": 3375 }, { "epoch": 0.3601066666666667, "grad_norm": 1.490908735224714, "learning_rate": 7.40516471002758e-06, "loss": 0.4519, "step": 3376 }, { "avg_step_time": 5.796829442785244, "epoch": 0.3601066666666667, "eta_time": 9.659772174241299, "step": 3376 }, { "epoch": 0.36021333333333333, "grad_norm": 0.6720756827062708, "learning_rate": 7.403650081632178e-06, "loss": 0.5079, "step": 3377 }, { "avg_step_time": 5.755535193163939, "epoch": 0.36021333333333333, "eta_time": 9.589361135721475, "step": 3377 }, { "epoch": 0.36032, "grad_norm": 1.720688548193603, "learning_rate": 7.402135166319567e-06, "loss": 0.51, "step": 3378 }, { "avg_step_time": 5.755762861232565, "epoch": 0.36032, "eta_time": 9.588141633003248, "step": 3378 }, { "epoch": 0.3604266666666667, "grad_norm": 1.820374588652739, "learning_rate": 7.400619964270571e-06, "loss": 0.5685, "step": 3379 }, { "avg_step_time": 5.785871669499561, "epoch": 0.3604266666666667, "eta_time": 9.63669070286649, "step": 3379 }, { "epoch": 0.3605333333333333, "grad_norm": 1.914160991673689, "learning_rate": 7.399104475666059e-06, "loss": 0.5063, "step": 3380 }, { "avg_step_time": 5.77036929371381, "epoch": 0.3605333333333333, "eta_time": 9.609267754392858, "step": 3380 }, { "epoch": 0.36064, "grad_norm": 1.732548847882507, "learning_rate": 7.397588700686933e-06, "loss": 0.5433, "step": 3381 }, { "avg_step_time": 5.8046606020493945, "epoch": 0.36064, "eta_time": 9.664759902412243, "step": 3381 }, { "epoch": 0.36074666666666666, "grad_norm": 2.1687559145881163, "learning_rate": 7.396072639514123e-06, "loss": 0.5121, "step": 3382 }, { "avg_step_time": 5.804921631861215, "epoch": 0.36074666666666666, "eta_time": 9.66358203881785, "step": 3382 }, { "epoch": 0.36085333333333336, "grad_norm": 0.6379619126136455, "learning_rate": 7.394556292328601e-06, "loss": 0.4398, "step": 3383 }, { "avg_step_time": 5.766473281263101, "epoch": 0.36085333333333336, "eta_time": 9.597974417035696, "step": 3383 }, { "epoch": 0.36096, "grad_norm": 1.7452246155392233, "learning_rate": 7.393039659311366e-06, "loss": 0.5103, "step": 3384 }, { "avg_step_time": 5.765835721083362, "epoch": 0.36096, "eta_time": 9.595311612502895, "step": 3384 }, { "epoch": 0.36106666666666665, "grad_norm": 1.8931064797781092, "learning_rate": 7.391522740643456e-06, "loss": 0.5242, "step": 3385 }, { "avg_step_time": 5.763468597874497, "epoch": 0.36106666666666665, "eta_time": 9.589771361463399, "step": 3385 }, { "epoch": 0.36117333333333335, "grad_norm": 1.8349352901453706, "learning_rate": 7.390005536505942e-06, "loss": 0.542, "step": 3386 }, { "avg_step_time": 5.801937324832184, "epoch": 0.36117333333333335, "eta_time": 9.652167399561096, "step": 3386 }, { "epoch": 0.36128, "grad_norm": 1.6284538614022739, "learning_rate": 7.388488047079927e-06, "loss": 0.5159, "step": 3387 }, { "avg_step_time": 5.805390668637825, "epoch": 0.36128, "eta_time": 9.656299812167584, "step": 3387 }, { "epoch": 0.3613866666666667, "grad_norm": 0.661550548424332, "learning_rate": 7.386970272546551e-06, "loss": 0.4562, "step": 3388 }, { "avg_step_time": 5.749085510619963, "epoch": 0.3613866666666667, "eta_time": 9.561048597800479, "step": 3388 }, { "epoch": 0.36149333333333333, "grad_norm": 1.8445591056756294, "learning_rate": 7.385452213086985e-06, "loss": 0.4097, "step": 3389 }, { "avg_step_time": 5.749885489242246, "epoch": 0.36149333333333333, "eta_time": 9.560781816278913, "step": 3389 }, { "epoch": 0.3616, "grad_norm": 1.9171557409370643, "learning_rate": 7.383933868882438e-06, "loss": 0.5482, "step": 3390 }, { "avg_step_time": 5.734599118280893, "epoch": 0.3616, "eta_time": 9.533771034141983, "step": 3390 }, { "epoch": 0.3617066666666667, "grad_norm": 1.7641496654133635, "learning_rate": 7.382415240114149e-06, "loss": 0.4456, "step": 3391 }, { "avg_step_time": 5.733672512902154, "epoch": 0.3617066666666667, "eta_time": 9.530637865890693, "step": 3391 }, { "epoch": 0.3618133333333333, "grad_norm": 1.92868765172458, "learning_rate": 7.380896326963392e-06, "loss": 0.4998, "step": 3392 }, { "avg_step_time": 5.733298761676056, "epoch": 0.3618133333333333, "eta_time": 9.528424025307734, "step": 3392 }, { "epoch": 0.36192, "grad_norm": 1.5834071339167235, "learning_rate": 7.379377129611478e-06, "loss": 0.4856, "step": 3393 }, { "avg_step_time": 5.734007438023885, "epoch": 0.36192, "eta_time": 9.528009026183023, "step": 3393 }, { "epoch": 0.36202666666666666, "grad_norm": 1.7600839684665657, "learning_rate": 7.377857648239748e-06, "loss": 0.5398, "step": 3394 }, { "avg_step_time": 5.733297877841526, "epoch": 0.36202666666666666, "eta_time": 9.525237390936157, "step": 3394 }, { "epoch": 0.3621333333333333, "grad_norm": 1.5454008589209418, "learning_rate": 7.376337883029576e-06, "loss": 0.4717, "step": 3395 }, { "avg_step_time": 5.707959136577568, "epoch": 0.3621333333333333, "eta_time": 9.48155434353718, "step": 3395 }, { "epoch": 0.36224, "grad_norm": 2.048140338354619, "learning_rate": 7.374817834162378e-06, "loss": 0.5174, "step": 3396 }, { "avg_step_time": 5.737973218012338, "epoch": 0.36224, "eta_time": 9.529817186248826, "step": 3396 }, { "epoch": 0.36234666666666665, "grad_norm": 1.6184998670140598, "learning_rate": 7.373297501819591e-06, "loss": 0.4927, "step": 3397 }, { "avg_step_time": 5.735206160882507, "epoch": 0.36234666666666665, "eta_time": 9.523628452709897, "step": 3397 }, { "epoch": 0.36245333333333335, "grad_norm": 1.5558739307475908, "learning_rate": 7.371776886182699e-06, "loss": 0.5515, "step": 3398 }, { "avg_step_time": 5.735068077992911, "epoch": 0.36245333333333335, "eta_time": 9.52180608393434, "step": 3398 }, { "epoch": 0.36256, "grad_norm": 1.426714185539871, "learning_rate": 7.3702559874332125e-06, "loss": 0.516, "step": 3399 }, { "avg_step_time": 5.7743691603342695, "epoch": 0.36256, "eta_time": 9.585452806154887, "step": 3399 }, { "epoch": 0.3626666666666667, "grad_norm": 1.5725414351214462, "learning_rate": 7.368734805752673e-06, "loss": 0.4825, "step": 3400 }, { "avg_step_time": 5.757132910718822, "epoch": 0.3626666666666667, "eta_time": 9.555241428206932, "step": 3400 }, { "epoch": 0.36277333333333334, "grad_norm": 1.9096286960807418, "learning_rate": 7.367213341322666e-06, "loss": 0.4595, "step": 3401 }, { "avg_step_time": 5.753017505009969, "epoch": 0.36277333333333334, "eta_time": 9.54681293748043, "step": 3401 }, { "epoch": 0.36288, "grad_norm": 1.5348311005557165, "learning_rate": 7.3656915943247984e-06, "loss": 0.449, "step": 3402 }, { "avg_step_time": 5.75137851214168, "epoch": 0.36288, "eta_time": 9.542495514728405, "step": 3402 }, { "epoch": 0.3629866666666667, "grad_norm": 1.626127734582384, "learning_rate": 7.364169564940722e-06, "loss": 0.4986, "step": 3403 }, { "avg_step_time": 5.754046102966925, "epoch": 0.3629866666666667, "eta_time": 9.545323146366245, "step": 3403 }, { "epoch": 0.3630933333333333, "grad_norm": 1.5447474638702607, "learning_rate": 7.362647253352116e-06, "loss": 0.5139, "step": 3404 }, { "avg_step_time": 5.748810308148163, "epoch": 0.3630933333333333, "eta_time": 9.535040652764634, "step": 3404 }, { "epoch": 0.3632, "grad_norm": 1.7728614195632857, "learning_rate": 7.3611246597406925e-06, "loss": 0.55, "step": 3405 }, { "avg_step_time": 5.7499422280475345, "epoch": 0.3632, "eta_time": 9.535320861512162, "step": 3405 }, { "epoch": 0.36330666666666667, "grad_norm": 1.9767324567372448, "learning_rate": 7.3596017842882025e-06, "loss": 0.6095, "step": 3406 }, { "avg_step_time": 5.747998225568521, "epoch": 0.36330666666666667, "eta_time": 9.530500391227363, "step": 3406 }, { "epoch": 0.3634133333333333, "grad_norm": 1.8222327209173752, "learning_rate": 7.358078627176426e-06, "loss": 0.4707, "step": 3407 }, { "avg_step_time": 5.752164922579371, "epoch": 0.3634133333333333, "eta_time": 9.535811182764913, "step": 3407 }, { "epoch": 0.36352, "grad_norm": 1.7141658321648197, "learning_rate": 7.356555188587178e-06, "loss": 0.5513, "step": 3408 }, { "avg_step_time": 5.780965966407699, "epoch": 0.36352, "eta_time": 9.58195108932076, "step": 3408 }, { "epoch": 0.36362666666666665, "grad_norm": 1.793510591564855, "learning_rate": 7.355031468702305e-06, "loss": 0.5585, "step": 3409 }, { "avg_step_time": 5.779595394327183, "epoch": 0.36362666666666665, "eta_time": 9.578073922932216, "step": 3409 }, { "epoch": 0.36373333333333335, "grad_norm": 1.6462040265041145, "learning_rate": 7.3535074677036956e-06, "loss": 0.5739, "step": 3410 }, { "avg_step_time": 5.77991511123349, "epoch": 0.36373333333333335, "eta_time": 9.576998232918823, "step": 3410 }, { "epoch": 0.36384, "grad_norm": 1.5956071772722877, "learning_rate": 7.351983185773259e-06, "loss": 0.5163, "step": 3411 }, { "avg_step_time": 5.752213078315812, "epoch": 0.36384, "eta_time": 9.529499666409862, "step": 3411 }, { "epoch": 0.36394666666666664, "grad_norm": 1.630117691676431, "learning_rate": 7.350458623092947e-06, "loss": 0.4721, "step": 3412 }, { "avg_step_time": 5.726614441534485, "epoch": 0.36394666666666664, "eta_time": 9.485500531908372, "step": 3412 }, { "epoch": 0.36405333333333334, "grad_norm": 0.6703090578469655, "learning_rate": 7.348933779844746e-06, "loss": 0.4579, "step": 3413 }, { "avg_step_time": 5.691918866802948, "epoch": 0.36405333333333334, "eta_time": 9.426450078855327, "step": 3413 }, { "epoch": 0.36416, "grad_norm": 1.631725295997523, "learning_rate": 7.347408656210666e-06, "loss": 0.5131, "step": 3414 }, { "avg_step_time": 5.719170616130636, "epoch": 0.36416, "eta_time": 9.469993345209645, "step": 3414 }, { "epoch": 0.3642666666666667, "grad_norm": 1.7711069235680126, "learning_rate": 7.3458832523727615e-06, "loss": 0.4789, "step": 3415 }, { "avg_step_time": 5.707835346761376, "epoch": 0.3642666666666667, "eta_time": 9.449638518527168, "step": 3415 }, { "epoch": 0.3643733333333333, "grad_norm": 1.7624804843759165, "learning_rate": 7.344357568513116e-06, "loss": 0.5191, "step": 3416 }, { "avg_step_time": 5.707711891694502, "epoch": 0.3643733333333333, "eta_time": 9.447848656279872, "step": 3416 }, { "epoch": 0.36448, "grad_norm": 2.064516122944904, "learning_rate": 7.342831604813844e-06, "loss": 0.5926, "step": 3417 }, { "avg_step_time": 5.709333894228695, "epoch": 0.36448, "eta_time": 9.44894759494849, "step": 3417 }, { "epoch": 0.36458666666666667, "grad_norm": 1.8125569524971326, "learning_rate": 7.341305361457096e-06, "loss": 0.5499, "step": 3418 }, { "avg_step_time": 5.698349820242988, "epoch": 0.36458666666666667, "eta_time": 9.429186077552076, "step": 3418 }, { "epoch": 0.3646933333333333, "grad_norm": 1.7522502817664554, "learning_rate": 7.339778838625055e-06, "loss": 0.4557, "step": 3419 }, { "avg_step_time": 5.694362279140588, "epoch": 0.3646933333333333, "eta_time": 9.42100603737815, "step": 3419 }, { "epoch": 0.3648, "grad_norm": 1.5885478272227498, "learning_rate": 7.338252036499941e-06, "loss": 0.4832, "step": 3420 }, { "avg_step_time": 5.692956531890715, "epoch": 0.3648, "eta_time": 9.417098929835891, "step": 3420 }, { "epoch": 0.36490666666666666, "grad_norm": 1.7594166672975016, "learning_rate": 7.336724955264001e-06, "loss": 0.3994, "step": 3421 }, { "avg_step_time": 5.691244806906189, "epoch": 0.36490666666666666, "eta_time": 9.412686550088736, "step": 3421 }, { "epoch": 0.36501333333333336, "grad_norm": 1.4483623274326962, "learning_rate": 7.33519759509952e-06, "loss": 0.3881, "step": 3422 }, { "avg_step_time": 5.693199839254822, "epoch": 0.36501333333333336, "eta_time": 9.414338511967767, "step": 3422 }, { "epoch": 0.36512, "grad_norm": 1.63828100974016, "learning_rate": 7.333669956188815e-06, "loss": 0.5021, "step": 3423 }, { "avg_step_time": 5.692562151436854, "epoch": 0.36512, "eta_time": 9.411702757042265, "step": 3423 }, { "epoch": 0.36522666666666664, "grad_norm": 1.7386239872024556, "learning_rate": 7.332142038714236e-06, "loss": 0.5502, "step": 3424 }, { "avg_step_time": 5.691272778944536, "epoch": 0.36522666666666664, "eta_time": 9.40799008541637, "step": 3424 }, { "epoch": 0.36533333333333334, "grad_norm": 1.9478564617732288, "learning_rate": 7.330613842858165e-06, "loss": 0.6012, "step": 3425 }, { "avg_step_time": 5.691443197654955, "epoch": 0.36533333333333334, "eta_time": 9.406690840568606, "step": 3425 }, { "epoch": 0.36544, "grad_norm": 1.4304555865063162, "learning_rate": 7.3290853688030196e-06, "loss": 0.5079, "step": 3426 }, { "avg_step_time": 5.713518186049028, "epoch": 0.36544, "eta_time": 9.44158880244602, "step": 3426 }, { "epoch": 0.3655466666666667, "grad_norm": 1.760355614070065, "learning_rate": 7.3275566167312504e-06, "loss": 0.5171, "step": 3427 }, { "avg_step_time": 5.687235326477976, "epoch": 0.3655466666666667, "eta_time": 9.396576589414167, "step": 3427 }, { "epoch": 0.36565333333333333, "grad_norm": 1.4321459111392636, "learning_rate": 7.32602758682534e-06, "loss": 0.4319, "step": 3428 }, { "avg_step_time": 5.692070228884918, "epoch": 0.36565333333333333, "eta_time": 9.402983791994057, "step": 3428 }, { "epoch": 0.36576, "grad_norm": 1.7922422804623297, "learning_rate": 7.324498279267803e-06, "loss": 0.5626, "step": 3429 }, { "avg_step_time": 5.693118165237735, "epoch": 0.36576, "eta_time": 9.403133502917658, "step": 3429 }, { "epoch": 0.3658666666666667, "grad_norm": 1.5268877248856656, "learning_rate": 7.322968694241193e-06, "loss": 0.4398, "step": 3430 }, { "avg_step_time": 5.695326807523014, "epoch": 0.3658666666666667, "eta_time": 9.405199408534534, "step": 3430 }, { "epoch": 0.3659733333333333, "grad_norm": 0.6609151387090887, "learning_rate": 7.3214388319280845e-06, "loss": 0.4545, "step": 3431 }, { "avg_step_time": 5.683064248826769, "epoch": 0.3659733333333333, "eta_time": 9.383370526396199, "step": 3431 }, { "epoch": 0.36608, "grad_norm": 1.5888799803134754, "learning_rate": 7.319908692511103e-06, "loss": 0.479, "step": 3432 }, { "avg_step_time": 5.696008000710998, "epoch": 0.36608, "eta_time": 9.403159874507073, "step": 3432 }, { "epoch": 0.36618666666666666, "grad_norm": 1.704087920623538, "learning_rate": 7.318378276172889e-06, "loss": 0.4708, "step": 3433 }, { "avg_step_time": 5.695501431070193, "epoch": 0.36618666666666666, "eta_time": 9.400741528727524, "step": 3433 }, { "epoch": 0.36629333333333336, "grad_norm": 1.7351555291955598, "learning_rate": 7.316847583096128e-06, "loss": 0.5477, "step": 3434 }, { "avg_step_time": 5.655947759898022, "epoch": 0.36629333333333336, "eta_time": 9.333884900431709, "step": 3434 }, { "epoch": 0.3664, "grad_norm": 1.6666761675690267, "learning_rate": 7.315316613463535e-06, "loss": 0.4432, "step": 3435 }, { "avg_step_time": 5.655891813413061, "epoch": 0.3664, "eta_time": 9.33222149213155, "step": 3435 }, { "epoch": 0.36650666666666665, "grad_norm": 1.9050660277285776, "learning_rate": 7.313785367457855e-06, "loss": 0.4935, "step": 3436 }, { "avg_step_time": 5.660185129955561, "epoch": 0.36650666666666665, "eta_time": 9.337733190779467, "step": 3436 }, { "epoch": 0.36661333333333335, "grad_norm": 1.7443273335030822, "learning_rate": 7.312253845261871e-06, "loss": 0.4935, "step": 3437 }, { "avg_step_time": 5.671743482050269, "epoch": 0.36661333333333335, "eta_time": 9.355225776781804, "step": 3437 }, { "epoch": 0.36672, "grad_norm": 1.5800417241226965, "learning_rate": 7.310722047058396e-06, "loss": 0.4817, "step": 3438 }, { "avg_step_time": 5.677405391076599, "epoch": 0.36672, "eta_time": 9.362987724117158, "step": 3438 }, { "epoch": 0.3668266666666667, "grad_norm": 1.794797787710275, "learning_rate": 7.3091899730302765e-06, "loss": 0.4742, "step": 3439 }, { "avg_step_time": 5.67663732201162, "epoch": 0.3668266666666667, "eta_time": 9.360144206516939, "step": 3439 }, { "epoch": 0.36693333333333333, "grad_norm": 1.6250989555223052, "learning_rate": 7.307657623360393e-06, "loss": 0.5217, "step": 3440 }, { "avg_step_time": 5.67558793828945, "epoch": 0.36693333333333333, "eta_time": 9.35683733715219, "step": 3440 }, { "epoch": 0.36704, "grad_norm": 1.628315506601589, "learning_rate": 7.306124998231655e-06, "loss": 0.528, "step": 3441 }, { "avg_step_time": 5.680711329585374, "epoch": 0.36704, "eta_time": 9.36370584159989, "step": 3441 }, { "epoch": 0.3671466666666667, "grad_norm": 2.0652016730986964, "learning_rate": 7.3045920978270116e-06, "loss": 0.5316, "step": 3442 }, { "avg_step_time": 5.679885743844388, "epoch": 0.3671466666666667, "eta_time": 9.360767255063543, "step": 3442 }, { "epoch": 0.3672533333333333, "grad_norm": 1.5227131527774465, "learning_rate": 7.303058922329439e-06, "loss": 0.5918, "step": 3443 }, { "avg_step_time": 5.692207297893486, "epoch": 0.3672533333333333, "eta_time": 9.379492691973377, "step": 3443 }, { "epoch": 0.36736, "grad_norm": 1.866173879449337, "learning_rate": 7.301525471921949e-06, "loss": 0.5321, "step": 3444 }, { "avg_step_time": 5.695183585388492, "epoch": 0.36736, "eta_time": 9.38281495692754, "step": 3444 }, { "epoch": 0.36746666666666666, "grad_norm": 1.6024803057664956, "learning_rate": 7.299991746787584e-06, "loss": 0.6155, "step": 3445 }, { "avg_step_time": 5.699182310489693, "epoch": 0.36746666666666666, "eta_time": 9.387819750334412, "step": 3445 }, { "epoch": 0.3675733333333333, "grad_norm": 1.3234111887072966, "learning_rate": 7.298457747109421e-06, "loss": 0.3916, "step": 3446 }, { "avg_step_time": 5.691225564841068, "epoch": 0.3675733333333333, "eta_time": 9.373132326095194, "step": 3446 }, { "epoch": 0.36768, "grad_norm": 1.8560218106570279, "learning_rate": 7.296923473070571e-06, "loss": 0.5637, "step": 3447 }, { "avg_step_time": 5.723451072519476, "epoch": 0.36768, "eta_time": 9.424616099415404, "step": 3447 }, { "epoch": 0.36778666666666665, "grad_norm": 1.725979215664993, "learning_rate": 7.295388924854174e-06, "loss": 0.5261, "step": 3448 }, { "avg_step_time": 5.72974762531242, "epoch": 0.36778666666666665, "eta_time": 9.433392826451865, "step": 3448 }, { "epoch": 0.36789333333333335, "grad_norm": 2.079451042889502, "learning_rate": 7.293854102643407e-06, "loss": 0.558, "step": 3449 }, { "avg_step_time": 5.731104995265151, "epoch": 0.36789333333333335, "eta_time": 9.434035611650357, "step": 3449 }, { "epoch": 0.368, "grad_norm": 2.043003539713893, "learning_rate": 7.292319006621477e-06, "loss": 0.5785, "step": 3450 }, { "avg_step_time": 5.7270359968898275, "epoch": 0.368, "eta_time": 9.425746744881174, "step": 3450 }, { "epoch": 0.3681066666666667, "grad_norm": 1.8275735937621307, "learning_rate": 7.290783636971622e-06, "loss": 0.4843, "step": 3451 }, { "avg_step_time": 5.730997740620315, "epoch": 0.3681066666666667, "eta_time": 9.430675170954096, "step": 3451 }, { "epoch": 0.36821333333333334, "grad_norm": 1.8717949104938756, "learning_rate": 7.289247993877119e-06, "loss": 0.5232, "step": 3452 }, { "avg_step_time": 5.736275913739445, "epoch": 0.36821333333333334, "eta_time": 9.437767288077426, "step": 3452 }, { "epoch": 0.36832, "grad_norm": 2.170169374234569, "learning_rate": 7.2877120775212685e-06, "loss": 0.5452, "step": 3453 }, { "avg_step_time": 5.736882378356626, "epoch": 0.36832, "eta_time": 9.437171512396649, "step": 3453 }, { "epoch": 0.3684266666666667, "grad_norm": 1.7191153714577476, "learning_rate": 7.286175888087413e-06, "loss": 0.5076, "step": 3454 }, { "avg_step_time": 5.739293881136962, "epoch": 0.3684266666666667, "eta_time": 9.439544186169986, "step": 3454 }, { "epoch": 0.3685333333333333, "grad_norm": 1.6656431160308063, "learning_rate": 7.284639425758924e-06, "loss": 0.5197, "step": 3455 }, { "avg_step_time": 5.742935679175637, "epoch": 0.3685333333333333, "eta_time": 9.443938672422158, "step": 3455 }, { "epoch": 0.36864, "grad_norm": 1.8097406151497621, "learning_rate": 7.283102690719198e-06, "loss": 0.4979, "step": 3456 }, { "avg_step_time": 5.761800749133331, "epoch": 0.36864, "eta_time": 9.473360731700051, "step": 3456 }, { "epoch": 0.36874666666666667, "grad_norm": 1.7841397171324813, "learning_rate": 7.281565683151679e-06, "loss": 0.4774, "step": 3457 }, { "avg_step_time": 5.734205149640941, "epoch": 0.36874666666666667, "eta_time": 9.426396132104191, "step": 3457 }, { "epoch": 0.3688533333333333, "grad_norm": 1.7830795128906103, "learning_rate": 7.28002840323983e-06, "loss": 0.5084, "step": 3458 }, { "avg_step_time": 5.734537979569098, "epoch": 0.3688533333333333, "eta_time": 9.425350340308432, "step": 3458 }, { "epoch": 0.36896, "grad_norm": 1.7511166472446567, "learning_rate": 7.278490851167155e-06, "loss": 0.6145, "step": 3459 }, { "avg_step_time": 5.732438352372911, "epoch": 0.36896, "eta_time": 9.420307025732818, "step": 3459 }, { "epoch": 0.36906666666666665, "grad_norm": 0.6790056320471585, "learning_rate": 7.276953027117186e-06, "loss": 0.4485, "step": 3460 }, { "avg_step_time": 5.693947493427932, "epoch": 0.36906666666666665, "eta_time": 9.355472062118395, "step": 3460 }, { "epoch": 0.36917333333333335, "grad_norm": 1.7459856081624878, "learning_rate": 7.275414931273489e-06, "loss": 0.4397, "step": 3461 }, { "avg_step_time": 5.69390098013059, "epoch": 0.36917333333333335, "eta_time": 9.353813999025641, "step": 3461 }, { "epoch": 0.36928, "grad_norm": 1.595382833537688, "learning_rate": 7.2738765638196625e-06, "loss": 0.5776, "step": 3462 }, { "avg_step_time": 5.692391804974489, "epoch": 0.36928, "eta_time": 9.349753539670596, "step": 3462 }, { "epoch": 0.36938666666666664, "grad_norm": 1.763438936759197, "learning_rate": 7.272337924939338e-06, "loss": 0.4599, "step": 3463 }, { "avg_step_time": 5.751399832542496, "epoch": 0.36938666666666664, "eta_time": 9.445076613886455, "step": 3463 }, { "epoch": 0.36949333333333334, "grad_norm": 2.0258499093676696, "learning_rate": 7.270799014816178e-06, "loss": 0.4992, "step": 3464 }, { "avg_step_time": 5.784830177673186, "epoch": 0.36949333333333334, "eta_time": 9.498369772285056, "step": 3464 }, { "epoch": 0.3696, "grad_norm": 1.3568542432954604, "learning_rate": 7.269259833633877e-06, "loss": 0.4172, "step": 3465 }, { "avg_step_time": 5.785197412124788, "epoch": 0.3696, "eta_time": 9.497365751571525, "step": 3465 }, { "epoch": 0.3697066666666667, "grad_norm": 1.4814392319682819, "learning_rate": 7.267720381576165e-06, "loss": 0.4057, "step": 3466 }, { "avg_step_time": 5.780426177111539, "epoch": 0.3697066666666667, "eta_time": 9.487927300153357, "step": 3466 }, { "epoch": 0.3698133333333333, "grad_norm": 1.2864662498132822, "learning_rate": 7.2661806588268015e-06, "loss": 0.4124, "step": 3467 }, { "avg_step_time": 5.780752764807807, "epoch": 0.3698133333333333, "eta_time": 9.486857592912367, "step": 3467 }, { "epoch": 0.36992, "grad_norm": 2.003682259251679, "learning_rate": 7.264640665569577e-06, "loss": 0.4957, "step": 3468 }, { "avg_step_time": 5.815592748950226, "epoch": 0.36992, "eta_time": 9.54241843556916, "step": 3468 }, { "epoch": 0.37002666666666667, "grad_norm": 1.6615913395549298, "learning_rate": 7.263100401988319e-06, "loss": 0.4228, "step": 3469 }, { "avg_step_time": 5.815728177927961, "epoch": 0.37002666666666667, "eta_time": 9.541025171900706, "step": 3469 }, { "epoch": 0.3701333333333333, "grad_norm": 1.5636467969057397, "learning_rate": 7.261559868266883e-06, "loss": 0.4966, "step": 3470 }, { "avg_step_time": 5.854360864620016, "epoch": 0.3701333333333333, "eta_time": 9.60277802932811, "step": 3470 }, { "epoch": 0.37024, "grad_norm": 1.6776639980041617, "learning_rate": 7.26001906458916e-06, "loss": 0.481, "step": 3471 }, { "avg_step_time": 5.852248887823086, "epoch": 0.37024, "eta_time": 9.59768817602986, "step": 3471 }, { "epoch": 0.37034666666666666, "grad_norm": 1.731970689722047, "learning_rate": 7.258477991139071e-06, "loss": 0.498, "step": 3472 }, { "avg_step_time": 5.85384088333207, "epoch": 0.37034666666666666, "eta_time": 9.598672981752559, "step": 3472 }, { "epoch": 0.37045333333333336, "grad_norm": 1.8563471790039823, "learning_rate": 7.256936648100567e-06, "loss": 0.4443, "step": 3473 }, { "avg_step_time": 5.860414902369182, "epoch": 0.37045333333333336, "eta_time": 9.607824653828587, "step": 3473 }, { "epoch": 0.37056, "grad_norm": 1.5929914860856635, "learning_rate": 7.255395035657639e-06, "loss": 0.4537, "step": 3474 }, { "avg_step_time": 5.8607098285597985, "epoch": 0.37056, "eta_time": 9.606680193980935, "step": 3474 }, { "epoch": 0.37066666666666664, "grad_norm": 2.0497855102823084, "learning_rate": 7.253853153994301e-06, "loss": 0.5651, "step": 3475 }, { "avg_step_time": 5.883437652780552, "epoch": 0.37066666666666664, "eta_time": 9.642300597612572, "step": 3475 }, { "epoch": 0.37077333333333334, "grad_norm": 1.6590802054032865, "learning_rate": 7.252311003294605e-06, "loss": 0.5163, "step": 3476 }, { "avg_step_time": 5.918636384636465, "epoch": 0.37077333333333334, "eta_time": 9.698343342491807, "step": 3476 }, { "epoch": 0.37088, "grad_norm": 1.6079018790770434, "learning_rate": 7.250768583742634e-06, "loss": 0.4534, "step": 3477 }, { "avg_step_time": 5.921034625082305, "epoch": 0.37088, "eta_time": 9.700628394093176, "step": 3477 }, { "epoch": 0.3709866666666667, "grad_norm": 1.5496811682657554, "learning_rate": 7.2492258955224995e-06, "loss": 0.4222, "step": 3478 }, { "avg_step_time": 5.92207897793163, "epoch": 0.3709866666666667, "eta_time": 9.700694370239674, "step": 3478 }, { "epoch": 0.37109333333333333, "grad_norm": 2.0214969869302797, "learning_rate": 7.24768293881835e-06, "loss": 0.553, "step": 3479 }, { "avg_step_time": 5.9243061638841725, "epoch": 0.37109333333333333, "eta_time": 9.702696983961411, "step": 3479 }, { "epoch": 0.3712, "grad_norm": 1.5386301609447262, "learning_rate": 7.246139713814365e-06, "loss": 0.4043, "step": 3480 }, { "avg_step_time": 5.921002956351849, "epoch": 0.3712, "eta_time": 9.695642341026154, "step": 3480 }, { "epoch": 0.3713066666666667, "grad_norm": 1.7085800343351767, "learning_rate": 7.244596220694754e-06, "loss": 0.5287, "step": 3481 }, { "avg_step_time": 5.922003731583104, "epoch": 0.3713066666666667, "eta_time": 9.695636109430781, "step": 3481 }, { "epoch": 0.3714133333333333, "grad_norm": 1.6273305107075384, "learning_rate": 7.24305245964376e-06, "loss": 0.4906, "step": 3482 }, { "avg_step_time": 5.959409434385974, "epoch": 0.3714133333333333, "eta_time": 9.755222165787929, "step": 3482 }, { "epoch": 0.37152, "grad_norm": 1.8905498547105288, "learning_rate": 7.241508430845656e-06, "loss": 0.5587, "step": 3483 }, { "avg_step_time": 5.958779915414675, "epoch": 0.37152, "eta_time": 9.752536461562018, "step": 3483 }, { "epoch": 0.37162666666666666, "grad_norm": 1.521417388263556, "learning_rate": 7.239964134484752e-06, "loss": 0.4467, "step": 3484 }, { "avg_step_time": 5.9646887947814635, "epoch": 0.37162666666666666, "eta_time": 9.760550469460446, "step": 3484 }, { "epoch": 0.37173333333333336, "grad_norm": 1.5528864379750191, "learning_rate": 7.238419570745383e-06, "loss": 0.5097, "step": 3485 }, { "avg_step_time": 5.929960424249822, "epoch": 0.37173333333333336, "eta_time": 9.702074138564292, "step": 3485 }, { "epoch": 0.37184, "grad_norm": 1.7727078829567922, "learning_rate": 7.236874739811921e-06, "loss": 0.4807, "step": 3486 }, { "avg_step_time": 5.968047418979683, "epoch": 0.37184, "eta_time": 9.762730902880932, "step": 3486 }, { "epoch": 0.37194666666666665, "grad_norm": 1.5068913239180097, "learning_rate": 7.235329641868768e-06, "loss": 0.5352, "step": 3487 }, { "avg_step_time": 6.00157327844639, "epoch": 0.37194666666666665, "eta_time": 9.815906517636762, "step": 3487 }, { "epoch": 0.37205333333333335, "grad_norm": 1.6405637403792697, "learning_rate": 7.233784277100359e-06, "loss": 0.4406, "step": 3488 }, { "avg_step_time": 6.004803452828918, "epoch": 0.37205333333333335, "eta_time": 9.819521646334401, "step": 3488 }, { "epoch": 0.37216, "grad_norm": 1.6789560320292218, "learning_rate": 7.232238645691157e-06, "loss": 0.5072, "step": 3489 }, { "avg_step_time": 5.99229492322363, "epoch": 0.37216, "eta_time": 9.797402199470634, "step": 3489 }, { "epoch": 0.3722666666666667, "grad_norm": 1.6902194546627411, "learning_rate": 7.2306927478256624e-06, "loss": 0.523, "step": 3490 }, { "avg_step_time": 5.994688917892148, "epoch": 0.3722666666666667, "eta_time": 9.79965118938758, "step": 3490 }, { "epoch": 0.37237333333333333, "grad_norm": 1.6895307794310856, "learning_rate": 7.2291465836884075e-06, "loss": 0.5046, "step": 3491 }, { "avg_step_time": 5.995950118459836, "epoch": 0.37237333333333333, "eta_time": 9.800047360282688, "step": 3491 }, { "epoch": 0.37248, "grad_norm": 1.6376162550926137, "learning_rate": 7.227600153463947e-06, "loss": 0.4148, "step": 3492 }, { "avg_step_time": 5.994736789452909, "epoch": 0.37248, "eta_time": 9.796399036764296, "step": 3492 }, { "epoch": 0.3725866666666667, "grad_norm": 1.7526892380768815, "learning_rate": 7.226053457336881e-06, "loss": 0.5466, "step": 3493 }, { "avg_step_time": 5.992859469519721, "epoch": 0.3725866666666667, "eta_time": 9.791666499920833, "step": 3493 }, { "epoch": 0.3726933333333333, "grad_norm": 1.7386767755069685, "learning_rate": 7.224506495491831e-06, "loss": 0.6203, "step": 3494 }, { "avg_step_time": 6.0485699875186185, "epoch": 0.3726933333333333, "eta_time": 9.88101113794361, "step": 3494 }, { "epoch": 0.3728, "grad_norm": 1.751082752133639, "learning_rate": 7.222959268113452e-06, "loss": 0.516, "step": 3495 }, { "avg_step_time": 6.046334842238763, "epoch": 0.3728, "eta_time": 9.875680242323314, "step": 3495 }, { "epoch": 0.37290666666666666, "grad_norm": 1.947364676966354, "learning_rate": 7.221411775386435e-06, "loss": 0.5303, "step": 3496 }, { "avg_step_time": 6.046805687624999, "epoch": 0.37290666666666666, "eta_time": 9.874769621540935, "step": 3496 }, { "epoch": 0.3730133333333333, "grad_norm": 1.777152581898119, "learning_rate": 7.219864017495499e-06, "loss": 0.5119, "step": 3497 }, { "avg_step_time": 6.047140725935348, "epoch": 0.3730133333333333, "eta_time": 9.873636996402215, "step": 3497 }, { "epoch": 0.37312, "grad_norm": 1.5419036696637012, "learning_rate": 7.218315994625397e-06, "loss": 0.4989, "step": 3498 }, { "avg_step_time": 6.045148671275437, "epoch": 0.37312, "eta_time": 9.868705205857152, "step": 3498 }, { "epoch": 0.37322666666666665, "grad_norm": 1.6718820458006485, "learning_rate": 7.216767706960911e-06, "loss": 0.5176, "step": 3499 }, { "avg_step_time": 6.043957454989655, "epoch": 0.37322666666666665, "eta_time": 9.86508166819978, "step": 3499 }, { "epoch": 0.37333333333333335, "grad_norm": 1.7423565164547616, "learning_rate": 7.215219154686855e-06, "loss": 0.5285, "step": 3500 }, { "avg_step_time": 6.04879690420748, "epoch": 0.37333333333333335, "eta_time": 9.871300503394151, "step": 3500 }, { "epoch": 0.37344, "grad_norm": 1.7077685114932963, "learning_rate": 7.213670337988079e-06, "loss": 0.4993, "step": 3501 }, { "avg_step_time": 6.05152579028197, "epoch": 0.37344, "eta_time": 9.874072914476749, "step": 3501 }, { "epoch": 0.3735466666666667, "grad_norm": 1.8322519997724973, "learning_rate": 7.212121257049457e-06, "loss": 0.5189, "step": 3502 }, { "avg_step_time": 6.059431950251262, "epoch": 0.3735466666666667, "eta_time": 9.885289956618239, "step": 3502 }, { "epoch": 0.37365333333333334, "grad_norm": 1.885054074778096, "learning_rate": 7.2105719120559014e-06, "loss": 0.5543, "step": 3503 }, { "avg_step_time": 6.0592109362284345, "epoch": 0.37365333333333334, "eta_time": 9.883246282648159, "step": 3503 }, { "epoch": 0.37376, "grad_norm": 1.5368682582483608, "learning_rate": 7.209022303192351e-06, "loss": 0.4479, "step": 3504 }, { "avg_step_time": 6.05956501912589, "epoch": 0.37376, "eta_time": 9.882140618691139, "step": 3504 }, { "epoch": 0.3738666666666667, "grad_norm": 0.6553988373373076, "learning_rate": 7.207472430643781e-06, "loss": 0.4443, "step": 3505 }, { "avg_step_time": 6.028385822219078, "epoch": 0.3738666666666667, "eta_time": 9.829617993451663, "step": 3505 }, { "epoch": 0.3739733333333333, "grad_norm": 0.6780964804696333, "learning_rate": 7.205922294595194e-06, "loss": 0.4982, "step": 3506 }, { "avg_step_time": 5.989690797497528, "epoch": 0.3739733333333333, "eta_time": 9.764859802920276, "step": 3506 }, { "epoch": 0.37408, "grad_norm": 1.839797664492231, "learning_rate": 7.204371895231623e-06, "loss": 0.6264, "step": 3507 }, { "avg_step_time": 6.014405698487253, "epoch": 0.37408, "eta_time": 9.803481288534222, "step": 3507 }, { "epoch": 0.37418666666666667, "grad_norm": 0.6469092273100279, "learning_rate": 7.202821232738142e-06, "loss": 0.458, "step": 3508 }, { "avg_step_time": 5.978490793343746, "epoch": 0.37418666666666667, "eta_time": 9.743279301263266, "step": 3508 }, { "epoch": 0.3742933333333333, "grad_norm": 1.6088666527544757, "learning_rate": 7.201270307299844e-06, "loss": 0.4284, "step": 3509 }, { "avg_step_time": 5.976282476174711, "epoch": 0.3742933333333333, "eta_time": 9.73802027923357, "step": 3509 }, { "epoch": 0.3744, "grad_norm": 1.7079421756805113, "learning_rate": 7.199719119101858e-06, "loss": 0.5041, "step": 3510 }, { "avg_step_time": 6.002773696726019, "epoch": 0.3744, "eta_time": 9.779518814249471, "step": 3510 }, { "epoch": 0.37450666666666665, "grad_norm": 1.7176345196962783, "learning_rate": 7.198167668329348e-06, "loss": 0.5522, "step": 3511 }, { "avg_step_time": 6.002619712039678, "epoch": 0.37450666666666665, "eta_time": 9.777600553166852, "step": 3511 }, { "epoch": 0.37461333333333335, "grad_norm": 1.6460999704980273, "learning_rate": 7.196615955167505e-06, "loss": 0.4887, "step": 3512 }, { "avg_step_time": 6.036045389946061, "epoch": 0.37461333333333335, "eta_time": 9.830370589237155, "step": 3512 }, { "epoch": 0.37472, "grad_norm": 1.6008261548122158, "learning_rate": 7.195063979801554e-06, "loss": 0.5394, "step": 3513 }, { "avg_step_time": 6.006359006419326, "epoch": 0.37472, "eta_time": 9.78035458211947, "step": 3513 }, { "epoch": 0.37482666666666664, "grad_norm": 1.4590489110230729, "learning_rate": 7.19351174241675e-06, "loss": 0.4827, "step": 3514 }, { "avg_step_time": 6.008602192907622, "epoch": 0.37482666666666664, "eta_time": 9.78233818128655, "step": 3514 }, { "epoch": 0.37493333333333334, "grad_norm": 1.751301954954863, "learning_rate": 7.191959243198379e-06, "loss": 0.4737, "step": 3515 }, { "avg_step_time": 6.02872254631736, "epoch": 0.37493333333333334, "eta_time": 9.81342058928326, "step": 3515 }, { "epoch": 0.37504, "grad_norm": 1.435029566645944, "learning_rate": 7.190406482331757e-06, "loss": 0.4705, "step": 3516 }, { "avg_step_time": 6.032704757921623, "epoch": 0.37504, "eta_time": 9.818226993517442, "step": 3516 }, { "epoch": 0.3751466666666667, "grad_norm": 1.7627334089551356, "learning_rate": 7.188853460002235e-06, "loss": 0.4959, "step": 3517 }, { "avg_step_time": 6.031039389696988, "epoch": 0.3751466666666667, "eta_time": 9.813841318012487, "step": 3517 }, { "epoch": 0.3752533333333333, "grad_norm": 1.8016438657930918, "learning_rate": 7.187300176395192e-06, "loss": 0.5532, "step": 3518 }, { "avg_step_time": 6.029788554316819, "epoch": 0.3752533333333333, "eta_time": 9.810130989620447, "step": 3518 }, { "epoch": 0.37536, "grad_norm": 1.676297855218876, "learning_rate": 7.18574663169604e-06, "loss": 0.4086, "step": 3519 }, { "avg_step_time": 6.045536616835931, "epoch": 0.37536, "eta_time": 9.834072896719782, "step": 3519 }, { "epoch": 0.37546666666666667, "grad_norm": 1.79655531543429, "learning_rate": 7.1841928260902215e-06, "loss": 0.4947, "step": 3520 }, { "avg_step_time": 6.048407145220824, "epoch": 0.37546666666666667, "eta_time": 9.837062176463313, "step": 3520 }, { "epoch": 0.3755733333333333, "grad_norm": 1.742473995990507, "learning_rate": 7.18263875976321e-06, "loss": 0.6136, "step": 3521 }, { "avg_step_time": 6.050428823991255, "epoch": 0.3755733333333333, "eta_time": 9.838669537679113, "step": 3521 }, { "epoch": 0.37568, "grad_norm": 1.9882222203115991, "learning_rate": 7.1810844329005095e-06, "loss": 0.5231, "step": 3522 }, { "avg_step_time": 6.074727332953251, "epoch": 0.37568, "eta_time": 9.876494188826493, "step": 3522 }, { "epoch": 0.37578666666666666, "grad_norm": 1.958238693081184, "learning_rate": 7.179529845687656e-06, "loss": 0.5221, "step": 3523 }, { "avg_step_time": 6.078108373314444, "epoch": 0.37578666666666666, "eta_time": 9.880302833510033, "step": 3523 }, { "epoch": 0.37589333333333336, "grad_norm": 0.6594532432563354, "learning_rate": 7.1779749983102155e-06, "loss": 0.4427, "step": 3524 }, { "avg_step_time": 6.0420117619061715, "epoch": 0.37589333333333336, "eta_time": 9.819947449698057, "step": 3524 }, { "epoch": 0.376, "grad_norm": 1.8361039800491699, "learning_rate": 7.176419890953788e-06, "loss": 0.505, "step": 3525 }, { "avg_step_time": 6.019386414325599, "epoch": 0.376, "eta_time": 9.781502923279097, "step": 3525 }, { "epoch": 0.37610666666666664, "grad_norm": 1.894403336288904, "learning_rate": 7.174864523804002e-06, "loss": 0.4524, "step": 3526 }, { "avg_step_time": 6.01648802468271, "epoch": 0.37610666666666664, "eta_time": 9.775121793435881, "step": 3526 }, { "epoch": 0.37621333333333334, "grad_norm": 1.711305593419697, "learning_rate": 7.173308897046516e-06, "loss": 0.5677, "step": 3527 }, { "avg_step_time": 6.008450592407073, "epoch": 0.37621333333333334, "eta_time": 9.7603941845546, "step": 3527 }, { "epoch": 0.37632, "grad_norm": 2.0287924137787225, "learning_rate": 7.171753010867023e-06, "loss": 0.5585, "step": 3528 }, { "avg_step_time": 6.006130736283581, "epoch": 0.37632, "eta_time": 9.754957337513916, "step": 3528 }, { "epoch": 0.3764266666666667, "grad_norm": 1.8696764728339221, "learning_rate": 7.170196865451242e-06, "loss": 0.5388, "step": 3529 }, { "avg_step_time": 5.9997748293057835, "epoch": 0.3764266666666667, "eta_time": 9.742967681144892, "step": 3529 }, { "epoch": 0.37653333333333333, "grad_norm": 1.7021991759458905, "learning_rate": 7.168640460984929e-06, "loss": 0.4795, "step": 3530 }, { "avg_step_time": 6.012423912684123, "epoch": 0.37653333333333333, "eta_time": 9.761838269344084, "step": 3530 }, { "epoch": 0.37664, "grad_norm": 1.7863543693839259, "learning_rate": 7.167083797653866e-06, "loss": 0.4721, "step": 3531 }, { "avg_step_time": 6.000343609337855, "epoch": 0.37664, "eta_time": 9.740557792491783, "step": 3531 }, { "epoch": 0.3767466666666667, "grad_norm": 0.6372850400304106, "learning_rate": 7.1655268756438675e-06, "loss": 0.4458, "step": 3532 }, { "avg_step_time": 5.969171813040068, "epoch": 0.3767466666666667, "eta_time": 9.68829747322031, "step": 3532 }, { "epoch": 0.3768533333333333, "grad_norm": 2.1847498918448474, "learning_rate": 7.163969695140782e-06, "loss": 0.563, "step": 3533 }, { "avg_step_time": 5.9727395447817715, "epoch": 0.3768533333333333, "eta_time": 9.69242900572642, "step": 3533 }, { "epoch": 0.37696, "grad_norm": 1.3922365792368905, "learning_rate": 7.162412256330481e-06, "loss": 0.4191, "step": 3534 }, { "avg_step_time": 5.970485870284263, "epoch": 0.37696, "eta_time": 9.687113324536218, "step": 3534 }, { "epoch": 0.37706666666666666, "grad_norm": 1.713250504310847, "learning_rate": 7.160854559398876e-06, "loss": 0.4934, "step": 3535 }, { "avg_step_time": 5.966717794688061, "epoch": 0.37706666666666666, "eta_time": 9.679342200271742, "step": 3535 }, { "epoch": 0.37717333333333336, "grad_norm": 1.9433588065398926, "learning_rate": 7.159296604531902e-06, "loss": 0.6393, "step": 3536 }, { "avg_step_time": 6.007047985539292, "epoch": 0.37717333333333336, "eta_time": 9.743098107656646, "step": 3536 }, { "epoch": 0.37728, "grad_norm": 1.5508726442220757, "learning_rate": 7.157738391915531e-06, "loss": 0.4354, "step": 3537 }, { "avg_step_time": 5.988900724083487, "epoch": 0.37728, "eta_time": 9.712000674222054, "step": 3537 }, { "epoch": 0.37738666666666665, "grad_norm": 1.9284178973031765, "learning_rate": 7.15617992173576e-06, "loss": 0.5249, "step": 3538 }, { "avg_step_time": 6.023450001321658, "epoch": 0.37738666666666665, "eta_time": 9.7663549049207, "step": 3538 }, { "epoch": 0.37749333333333335, "grad_norm": 1.8535251965840422, "learning_rate": 7.15462119417862e-06, "loss": 0.4863, "step": 3539 }, { "avg_step_time": 6.038045594186494, "epoch": 0.37749333333333335, "eta_time": 9.788342802131217, "step": 3539 }, { "epoch": 0.3776, "grad_norm": 1.4211871232086064, "learning_rate": 7.153062209430174e-06, "loss": 0.3722, "step": 3540 }, { "avg_step_time": 6.035248722692932, "epoch": 0.3776, "eta_time": 9.782132304698129, "step": 3540 }, { "epoch": 0.3777066666666667, "grad_norm": 1.697523321729218, "learning_rate": 7.151502967676511e-06, "loss": 0.5343, "step": 3541 }, { "avg_step_time": 6.039025595693877, "epoch": 0.3777066666666667, "eta_time": 9.78657647924391, "step": 3541 }, { "epoch": 0.37781333333333333, "grad_norm": 1.5869337483862191, "learning_rate": 7.149943469103755e-06, "loss": 0.5922, "step": 3542 }, { "avg_step_time": 6.058782628088286, "epoch": 0.37781333333333333, "eta_time": 9.816910852677491, "step": 3542 }, { "epoch": 0.37792, "grad_norm": 1.754717307601881, "learning_rate": 7.148383713898058e-06, "loss": 0.4834, "step": 3543 }, { "avg_step_time": 6.073583439143017, "epoch": 0.37792, "eta_time": 9.839205171411688, "step": 3543 }, { "epoch": 0.3780266666666667, "grad_norm": 1.598287524767121, "learning_rate": 7.146823702245606e-06, "loss": 0.4387, "step": 3544 }, { "avg_step_time": 6.069669945071442, "epoch": 0.3780266666666667, "eta_time": 9.83117929158655, "step": 3544 }, { "epoch": 0.3781333333333333, "grad_norm": 0.6660466196661171, "learning_rate": 7.145263434332611e-06, "loss": 0.4515, "step": 3545 }, { "avg_step_time": 6.024988983616685, "epoch": 0.3781333333333333, "eta_time": 9.75713493735702, "step": 3545 }, { "epoch": 0.37824, "grad_norm": 1.8714666944376233, "learning_rate": 7.143702910345318e-06, "loss": 0.5589, "step": 3546 }, { "avg_step_time": 6.024503310521443, "epoch": 0.37824, "eta_time": 9.754674943619305, "step": 3546 }, { "epoch": 0.37834666666666666, "grad_norm": 2.0360657621522367, "learning_rate": 7.142142130470007e-06, "loss": 0.4376, "step": 3547 }, { "avg_step_time": 6.0162787124364066, "epoch": 0.37834666666666666, "eta_time": 9.739686760022048, "step": 3547 }, { "epoch": 0.3784533333333333, "grad_norm": 1.71826015138184, "learning_rate": 7.140581094892978e-06, "loss": 0.5257, "step": 3548 }, { "avg_step_time": 6.018550005826083, "epoch": 0.3784533333333333, "eta_time": 9.74169191220794, "step": 3548 }, { "epoch": 0.37856, "grad_norm": 1.7182107349362938, "learning_rate": 7.139019803800569e-06, "loss": 0.4591, "step": 3549 }, { "avg_step_time": 6.020283732751404, "epoch": 0.37856, "eta_time": 9.742825840836021, "step": 3549 }, { "epoch": 0.37866666666666665, "grad_norm": 1.81736754219162, "learning_rate": 7.137458257379151e-06, "loss": 0.4825, "step": 3550 }, { "avg_step_time": 6.0476626699621026, "epoch": 0.37866666666666665, "eta_time": 9.785454181258125, "step": 3550 }, { "epoch": 0.37877333333333335, "grad_norm": 1.6149608731476492, "learning_rate": 7.135896455815117e-06, "loss": 0.4512, "step": 3551 }, { "avg_step_time": 6.044600132739905, "epoch": 0.37877333333333335, "eta_time": 9.778819770299226, "step": 3551 }, { "epoch": 0.37888, "grad_norm": 1.7078669955849608, "learning_rate": 7.134334399294897e-06, "loss": 0.4739, "step": 3552 }, { "avg_step_time": 6.041301963305233, "epoch": 0.37888, "eta_time": 9.771805925646214, "step": 3552 }, { "epoch": 0.3789866666666667, "grad_norm": 0.6607986835741019, "learning_rate": 7.132772088004951e-06, "loss": 0.4556, "step": 3553 }, { "avg_step_time": 6.007888550710196, "epoch": 0.3789866666666667, "eta_time": 9.716090872842988, "step": 3553 }, { "epoch": 0.37909333333333334, "grad_norm": 1.6830485344359563, "learning_rate": 7.131209522131764e-06, "loss": 0.4959, "step": 3554 }, { "avg_step_time": 6.0042656912948145, "epoch": 0.37909333333333334, "eta_time": 9.708564052507532, "step": 3554 }, { "epoch": 0.3792, "grad_norm": 1.720274087074315, "learning_rate": 7.129646701861858e-06, "loss": 0.5342, "step": 3555 }, { "avg_step_time": 6.016156926299587, "epoch": 0.3792, "eta_time": 9.726120364184332, "step": 3555 }, { "epoch": 0.3793066666666667, "grad_norm": 1.7866198543204816, "learning_rate": 7.128083627381782e-06, "loss": 0.5317, "step": 3556 }, { "avg_step_time": 6.016396281695125, "epoch": 0.3793066666666667, "eta_time": 9.724836100884426, "step": 3556 }, { "epoch": 0.3794133333333333, "grad_norm": 1.7680245021282783, "learning_rate": 7.1265202988781165e-06, "loss": 0.5494, "step": 3557 }, { "avg_step_time": 6.015997903515594, "epoch": 0.3794133333333333, "eta_time": 9.722521056292702, "step": 3557 }, { "epoch": 0.37952, "grad_norm": 1.494990653917719, "learning_rate": 7.124956716537471e-06, "loss": 0.4508, "step": 3558 }, { "avg_step_time": 6.015722086935332, "epoch": 0.37952, "eta_time": 9.720404272139675, "step": 3558 }, { "epoch": 0.37962666666666667, "grad_norm": 1.6707023012215425, "learning_rate": 7.123392880546487e-06, "loss": 0.482, "step": 3559 }, { "avg_step_time": 6.049052854981086, "epoch": 0.37962666666666667, "eta_time": 9.772580945713887, "step": 3559 }, { "epoch": 0.3797333333333333, "grad_norm": 1.8068750564989184, "learning_rate": 7.121828791091834e-06, "loss": 0.5802, "step": 3560 }, { "avg_step_time": 6.0415958635734786, "epoch": 0.3797333333333333, "eta_time": 9.758855540744383, "step": 3560 }, { "epoch": 0.37984, "grad_norm": 1.8734956677891512, "learning_rate": 7.120264448360214e-06, "loss": 0.5193, "step": 3561 }, { "avg_step_time": 6.041597197754214, "epoch": 0.37984, "eta_time": 9.757179474373057, "step": 3561 }, { "epoch": 0.37994666666666665, "grad_norm": 1.597899714535532, "learning_rate": 7.11869985253836e-06, "loss": 0.4799, "step": 3562 }, { "avg_step_time": 5.981246914526428, "epoch": 0.37994666666666665, "eta_time": 9.658052309483924, "step": 3562 }, { "epoch": 0.38005333333333335, "grad_norm": 1.8043362543108716, "learning_rate": 7.11713500381303e-06, "loss": 0.5142, "step": 3563 }, { "avg_step_time": 5.991831509753911, "epoch": 0.38005333333333335, "eta_time": 9.67347909296937, "step": 3563 }, { "epoch": 0.38016, "grad_norm": 0.6223725718928809, "learning_rate": 7.115569902371018e-06, "loss": 0.432, "step": 3564 }, { "avg_step_time": 5.958156128122349, "epoch": 0.38016, "eta_time": 9.617457016810825, "step": 3564 }, { "epoch": 0.38026666666666664, "grad_norm": 1.8395858881141538, "learning_rate": 7.114004548399146e-06, "loss": 0.5191, "step": 3565 }, { "avg_step_time": 5.965505510869653, "epoch": 0.38026666666666664, "eta_time": 9.627663060597968, "step": 3565 }, { "epoch": 0.38037333333333334, "grad_norm": 1.7425755215283778, "learning_rate": 7.112438942084264e-06, "loss": 0.4867, "step": 3566 }, { "avg_step_time": 5.963703206091216, "epoch": 0.38037333333333334, "eta_time": 9.623097756717744, "step": 3566 }, { "epoch": 0.38048, "grad_norm": 1.6002485935907074, "learning_rate": 7.110873083613259e-06, "loss": 0.5129, "step": 3567 }, { "avg_step_time": 5.959873081457736, "epoch": 0.38048, "eta_time": 9.615261904751813, "step": 3567 }, { "epoch": 0.3805866666666667, "grad_norm": 1.6767380478586889, "learning_rate": 7.109306973173038e-06, "loss": 0.4253, "step": 3568 }, { "avg_step_time": 5.959175145987309, "epoch": 0.3805866666666667, "eta_time": 9.612480575763417, "step": 3568 }, { "epoch": 0.38069333333333333, "grad_norm": 1.8149348882601197, "learning_rate": 7.107740610950546e-06, "loss": 0.4454, "step": 3569 }, { "avg_step_time": 5.91950798034668, "epoch": 0.38069333333333333, "eta_time": 9.546850926081339, "step": 3569 }, { "epoch": 0.3808, "grad_norm": 1.7864889155802042, "learning_rate": 7.106173997132755e-06, "loss": 0.4766, "step": 3570 }, { "avg_step_time": 5.921709091976435, "epoch": 0.3808, "eta_time": 9.548755910812003, "step": 3570 }, { "epoch": 0.38090666666666667, "grad_norm": 0.6544492486899292, "learning_rate": 7.104607131906667e-06, "loss": 0.4587, "step": 3571 }, { "avg_step_time": 5.886208409010762, "epoch": 0.38090666666666667, "eta_time": 9.489876001638462, "step": 3571 }, { "epoch": 0.3810133333333333, "grad_norm": 1.4451482308017665, "learning_rate": 7.103040015459315e-06, "loss": 0.4037, "step": 3572 }, { "avg_step_time": 5.881590060513429, "epoch": 0.3810133333333333, "eta_time": 9.480796422544286, "step": 3572 }, { "epoch": 0.38112, "grad_norm": 0.6455890901979723, "learning_rate": 7.101472647977761e-06, "loss": 0.4604, "step": 3573 }, { "avg_step_time": 5.846725702285767, "epoch": 0.38112, "eta_time": 9.422972923517227, "step": 3573 }, { "epoch": 0.38122666666666666, "grad_norm": 1.757292483101795, "learning_rate": 7.099905029649098e-06, "loss": 0.5356, "step": 3574 }, { "avg_step_time": 5.82152941010215, "epoch": 0.38122666666666666, "eta_time": 9.380747807778492, "step": 3574 }, { "epoch": 0.38133333333333336, "grad_norm": 1.6686890228454383, "learning_rate": 7.098337160660449e-06, "loss": 0.4344, "step": 3575 }, { "avg_step_time": 5.825456311004331, "epoch": 0.38133333333333336, "eta_time": 9.385457389951421, "step": 3575 }, { "epoch": 0.38144, "grad_norm": 1.6541735442069372, "learning_rate": 7.096769041198964e-06, "loss": 0.4962, "step": 3576 }, { "avg_step_time": 5.823867000714697, "epoch": 0.38144, "eta_time": 9.381279093651257, "step": 3576 }, { "epoch": 0.38154666666666665, "grad_norm": 1.6619679004639654, "learning_rate": 7.0952006714518275e-06, "loss": 0.5143, "step": 3577 }, { "avg_step_time": 5.824502795633643, "epoch": 0.38154666666666665, "eta_time": 9.38068533585663, "step": 3577 }, { "epoch": 0.38165333333333334, "grad_norm": 1.5894326342570675, "learning_rate": 7.09363205160625e-06, "loss": 0.557, "step": 3578 }, { "avg_step_time": 5.8242369757758246, "epoch": 0.38165333333333334, "eta_time": 9.378639374603459, "step": 3578 }, { "epoch": 0.38176, "grad_norm": 1.881444718029898, "learning_rate": 7.0920631818494745e-06, "loss": 0.567, "step": 3579 }, { "avg_step_time": 5.856447711135402, "epoch": 0.38176, "eta_time": 9.428880814927998, "step": 3579 }, { "epoch": 0.3818666666666667, "grad_norm": 1.7844714915186475, "learning_rate": 7.090494062368771e-06, "loss": 0.5762, "step": 3580 }, { "avg_step_time": 5.861102860383313, "epoch": 0.3818666666666667, "eta_time": 9.43474752108925, "step": 3580 }, { "epoch": 0.38197333333333333, "grad_norm": 1.787094392950213, "learning_rate": 7.088924693351445e-06, "loss": 0.4922, "step": 3581 }, { "avg_step_time": 5.860424020073631, "epoch": 0.38197333333333333, "eta_time": 9.432026881196283, "step": 3581 }, { "epoch": 0.38208, "grad_norm": 1.6235490064054618, "learning_rate": 7.087355074984823e-06, "loss": 0.4454, "step": 3582 }, { "avg_step_time": 5.863691298648565, "epoch": 0.38208, "eta_time": 9.435656581408649, "step": 3582 }, { "epoch": 0.3821866666666667, "grad_norm": 2.0127345523379634, "learning_rate": 7.085785207456268e-06, "loss": 0.5729, "step": 3583 }, { "avg_step_time": 5.861936694443828, "epoch": 0.3821866666666667, "eta_time": 9.431204815060736, "step": 3583 }, { "epoch": 0.3822933333333333, "grad_norm": 1.5314673503107732, "learning_rate": 7.084215090953172e-06, "loss": 0.552, "step": 3584 }, { "avg_step_time": 5.856100467720417, "epoch": 0.3822933333333333, "eta_time": 9.420188280158039, "step": 3584 }, { "epoch": 0.3824, "grad_norm": 1.9745178751263401, "learning_rate": 7.082644725662954e-06, "loss": 0.5118, "step": 3585 }, { "avg_step_time": 5.8189193118702285, "epoch": 0.3824, "eta_time": 9.35876189325795, "step": 3585 }, { "epoch": 0.38250666666666666, "grad_norm": 1.6629416141049476, "learning_rate": 7.081074111773066e-06, "loss": 0.4481, "step": 3586 }, { "avg_step_time": 5.824462871358852, "epoch": 0.38250666666666666, "eta_time": 9.366059878415665, "step": 3586 }, { "epoch": 0.38261333333333336, "grad_norm": 1.748523851837129, "learning_rate": 7.079503249470987e-06, "loss": 0.4269, "step": 3587 }, { "avg_step_time": 5.820296535588274, "epoch": 0.38261333333333336, "eta_time": 9.357743429995814, "step": 3587 }, { "epoch": 0.38272, "grad_norm": 1.7016804679600295, "learning_rate": 7.077932138944225e-06, "loss": 0.5329, "step": 3588 }, { "avg_step_time": 5.8237100755325475, "epoch": 0.38272, "eta_time": 9.361613946418569, "step": 3588 }, { "epoch": 0.38282666666666665, "grad_norm": 1.4197912854950592, "learning_rate": 7.076360780380321e-06, "loss": 0.5378, "step": 3589 }, { "avg_step_time": 5.8283635486256, "epoch": 0.38282666666666665, "eta_time": 9.367475414541033, "step": 3589 }, { "epoch": 0.38293333333333335, "grad_norm": 1.7965946813662381, "learning_rate": 7.074789173966843e-06, "loss": 0.491, "step": 3590 }, { "avg_step_time": 5.82717411205022, "epoch": 0.38293333333333335, "eta_time": 9.363945066169588, "step": 3590 }, { "epoch": 0.38304, "grad_norm": 1.5744464850423567, "learning_rate": 7.073217319891391e-06, "loss": 0.4732, "step": 3591 }, { "avg_step_time": 5.828805239513667, "epoch": 0.38304, "eta_time": 9.364947084818624, "step": 3591 }, { "epoch": 0.3831466666666667, "grad_norm": 0.6846250990454547, "learning_rate": 7.071645218341593e-06, "loss": 0.4696, "step": 3592 }, { "avg_step_time": 5.7914628332311455, "epoch": 0.3831466666666667, "eta_time": 9.303341545715476, "step": 3592 }, { "epoch": 0.38325333333333333, "grad_norm": 0.6613905578696551, "learning_rate": 7.070072869505103e-06, "loss": 0.4748, "step": 3593 }, { "avg_step_time": 5.700340615378486, "epoch": 0.38325333333333333, "eta_time": 9.155380399477334, "step": 3593 }, { "epoch": 0.38336, "grad_norm": 0.6703779543601933, "learning_rate": 7.068500273569612e-06, "loss": 0.4911, "step": 3594 }, { "avg_step_time": 5.690666740590876, "epoch": 0.38336, "eta_time": 9.138262340932181, "step": 3594 }, { "epoch": 0.3834666666666667, "grad_norm": 1.6808572440175074, "learning_rate": 7.066927430722833e-06, "loss": 0.5103, "step": 3595 }, { "avg_step_time": 5.6877245782601715, "epoch": 0.3834666666666667, "eta_time": 9.131957795095497, "step": 3595 }, { "epoch": 0.3835733333333333, "grad_norm": 1.5329168287941382, "learning_rate": 7.065354341152515e-06, "loss": 0.5109, "step": 3596 }, { "avg_step_time": 5.688845665767939, "epoch": 0.3835733333333333, "eta_time": 9.1321775284647, "step": 3596 }, { "epoch": 0.38368, "grad_norm": 1.5764529977089374, "learning_rate": 7.063781005046433e-06, "loss": 0.5228, "step": 3597 }, { "avg_step_time": 5.699851527358547, "epoch": 0.38368, "eta_time": 9.148261701410467, "step": 3597 }, { "epoch": 0.38378666666666666, "grad_norm": 1.8261563253707955, "learning_rate": 7.062207422592391e-06, "loss": 0.5915, "step": 3598 }, { "avg_step_time": 5.700133318852896, "epoch": 0.38378666666666666, "eta_time": 9.14713060639255, "step": 3598 }, { "epoch": 0.3838933333333333, "grad_norm": 1.9506249471491586, "learning_rate": 7.060633593978223e-06, "loss": 0.5527, "step": 3599 }, { "avg_step_time": 5.697584287084714, "epoch": 0.3838933333333333, "eta_time": 9.14145745616703, "step": 3599 }, { "epoch": 0.384, "grad_norm": 1.750593983170296, "learning_rate": 7.059059519391794e-06, "loss": 0.5661, "step": 3600 }, { "avg_step_time": 5.69451128593599, "epoch": 0.384, "eta_time": 9.134945187855651, "step": 3600 }, { "epoch": 0.38410666666666665, "grad_norm": 0.6194005335289312, "learning_rate": 7.057485199020996e-06, "loss": 0.42, "step": 3601 }, { "avg_step_time": 5.647161438007547, "epoch": 0.38410666666666665, "eta_time": 9.057419484182105, "step": 3601 }, { "epoch": 0.38421333333333335, "grad_norm": 1.573945294003783, "learning_rate": 7.055910633053751e-06, "loss": 0.431, "step": 3602 }, { "avg_step_time": 5.657272553203081, "epoch": 0.38421333333333335, "eta_time": 9.072065124900385, "step": 3602 }, { "epoch": 0.38432, "grad_norm": 1.809306404059165, "learning_rate": 7.054335821678012e-06, "loss": 0.4876, "step": 3603 }, { "avg_step_time": 5.655231090507122, "epoch": 0.38432, "eta_time": 9.067220515113087, "step": 3603 }, { "epoch": 0.3844266666666667, "grad_norm": 1.7396954421503386, "learning_rate": 7.0527607650817585e-06, "loss": 0.5244, "step": 3604 }, { "avg_step_time": 5.708729322510536, "epoch": 0.3844266666666667, "eta_time": 9.151410255613417, "step": 3604 }, { "epoch": 0.38453333333333334, "grad_norm": 1.8089021616065688, "learning_rate": 7.051185463453001e-06, "loss": 0.5656, "step": 3605 }, { "avg_step_time": 5.743192272956925, "epoch": 0.38453333333333334, "eta_time": 9.205060948600405, "step": 3605 }, { "epoch": 0.38464, "grad_norm": 1.8382053685271684, "learning_rate": 7.049609916979782e-06, "loss": 0.5849, "step": 3606 }, { "avg_step_time": 5.719900675494261, "epoch": 0.38464, "eta_time": 9.166140832479554, "step": 3606 }, { "epoch": 0.3847466666666667, "grad_norm": 1.7613239176885045, "learning_rate": 7.048034125850165e-06, "loss": 0.4637, "step": 3607 }, { "avg_step_time": 5.754433147835009, "epoch": 0.3847466666666667, "eta_time": 9.219880665753426, "step": 3607 }, { "epoch": 0.3848533333333333, "grad_norm": 1.6002961475171702, "learning_rate": 7.046458090252252e-06, "loss": 0.5223, "step": 3608 }, { "avg_step_time": 5.7594211125614665, "epoch": 0.3848533333333333, "eta_time": 9.226272654483884, "step": 3608 }, { "epoch": 0.38496, "grad_norm": 0.6904245818762847, "learning_rate": 7.044881810374169e-06, "loss": 0.4477, "step": 3609 }, { "avg_step_time": 5.698666926586267, "epoch": 0.38496, "eta_time": 9.127364860749003, "step": 3609 }, { "epoch": 0.38506666666666667, "grad_norm": 1.6328116717776189, "learning_rate": 7.043305286404071e-06, "loss": 0.5181, "step": 3610 }, { "avg_step_time": 5.712510267893474, "epoch": 0.38506666666666667, "eta_time": 9.147950470668299, "step": 3610 }, { "epoch": 0.3851733333333333, "grad_norm": 1.6864878458888606, "learning_rate": 7.0417285185301445e-06, "loss": 0.4846, "step": 3611 }, { "avg_step_time": 5.712490599564831, "epoch": 0.3851733333333333, "eta_time": 9.146332171081024, "step": 3611 }, { "epoch": 0.38528, "grad_norm": 1.7967580989726122, "learning_rate": 7.040151506940605e-06, "loss": 0.516, "step": 3612 }, { "avg_step_time": 5.712106909414734, "epoch": 0.38528, "eta_time": 9.144131144154754, "step": 3612 }, { "epoch": 0.38538666666666666, "grad_norm": 1.8007117626461906, "learning_rate": 7.038574251823694e-06, "loss": 0.5645, "step": 3613 }, { "avg_step_time": 5.709746630504878, "epoch": 0.38538666666666666, "eta_time": 9.138766690269195, "step": 3613 }, { "epoch": 0.38549333333333335, "grad_norm": 1.606961650895596, "learning_rate": 7.036996753367686e-06, "loss": 0.4568, "step": 3614 }, { "avg_step_time": 5.689624104836975, "epoch": 0.38549333333333335, "eta_time": 9.104979018879392, "step": 3614 }, { "epoch": 0.3856, "grad_norm": 1.8675224134656911, "learning_rate": 7.035419011760882e-06, "loss": 0.4718, "step": 3615 }, { "avg_step_time": 5.681775724044954, "epoch": 0.3856, "eta_time": 9.090841158471926, "step": 3615 }, { "epoch": 0.38570666666666664, "grad_norm": 0.6282373856719955, "learning_rate": 7.0338410271916126e-06, "loss": 0.451, "step": 3616 }, { "avg_step_time": 5.6718796142424, "epoch": 0.38570666666666664, "eta_time": 9.073431860672772, "step": 3616 }, { "epoch": 0.38581333333333334, "grad_norm": 0.618526159581272, "learning_rate": 7.032262799848237e-06, "loss": 0.4343, "step": 3617 }, { "avg_step_time": 5.63856495751275, "epoch": 0.38581333333333334, "eta_time": 9.018571395932891, "step": 3617 }, { "epoch": 0.38592, "grad_norm": 0.6578341878753767, "learning_rate": 7.0306843299191465e-06, "loss": 0.4633, "step": 3618 }, { "avg_step_time": 5.590931716591421, "epoch": 0.38592, "eta_time": 8.940831636782448, "step": 3618 }, { "epoch": 0.3860266666666667, "grad_norm": 1.7511610187302895, "learning_rate": 7.029105617592755e-06, "loss": 0.4641, "step": 3619 }, { "avg_step_time": 5.586978799164897, "epoch": 0.3860266666666667, "eta_time": 8.932958324442541, "step": 3619 }, { "epoch": 0.38613333333333333, "grad_norm": 1.529038996151285, "learning_rate": 7.027526663057511e-06, "loss": 0.5171, "step": 3620 }, { "avg_step_time": 5.586727515615598, "epoch": 0.38613333333333333, "eta_time": 8.931004681213269, "step": 3620 }, { "epoch": 0.38624, "grad_norm": 1.596289727319462, "learning_rate": 7.0259474665018915e-06, "loss": 0.5049, "step": 3621 }, { "avg_step_time": 5.5628481513322, "epoch": 0.38624, "eta_time": 8.891285628545965, "step": 3621 }, { "epoch": 0.38634666666666667, "grad_norm": 1.833443529269054, "learning_rate": 7.024368028114397e-06, "loss": 0.5439, "step": 3622 }, { "avg_step_time": 5.560453104250358, "epoch": 0.38634666666666667, "eta_time": 8.88591297465342, "step": 3622 }, { "epoch": 0.3864533333333333, "grad_norm": 0.6500749370464265, "learning_rate": 7.022788348083567e-06, "loss": 0.4558, "step": 3623 }, { "avg_step_time": 5.565055317348904, "epoch": 0.3864533333333333, "eta_time": 8.891721718164137, "step": 3623 }, { "epoch": 0.38656, "grad_norm": 1.9031657231457535, "learning_rate": 7.0212084265979575e-06, "loss": 0.5187, "step": 3624 }, { "avg_step_time": 5.566462692588266, "epoch": 0.38656, "eta_time": 8.892424151409756, "step": 3624 }, { "epoch": 0.38666666666666666, "grad_norm": 2.128555181872286, "learning_rate": 7.0196282638461624e-06, "loss": 0.632, "step": 3625 }, { "avg_step_time": 5.568241143467451, "epoch": 0.38666666666666666, "eta_time": 8.893718493038289, "step": 3625 }, { "epoch": 0.38677333333333336, "grad_norm": 0.6671827570188573, "learning_rate": 7.0180478600168e-06, "loss": 0.4481, "step": 3626 }, { "avg_step_time": 5.532120680568194, "epoch": 0.38677333333333336, "eta_time": 8.834489386829596, "step": 3626 }, { "epoch": 0.38688, "grad_norm": 1.5393271944553182, "learning_rate": 7.016467215298519e-06, "loss": 0.434, "step": 3627 }, { "avg_step_time": 5.533224760883987, "epoch": 0.38688, "eta_time": 8.834715534878098, "step": 3627 }, { "epoch": 0.38698666666666665, "grad_norm": 1.8912575591082124, "learning_rate": 7.0148863298800005e-06, "loss": 0.4849, "step": 3628 }, { "avg_step_time": 5.532744867633087, "epoch": 0.38698666666666665, "eta_time": 8.832412431746487, "step": 3628 }, { "epoch": 0.38709333333333334, "grad_norm": 1.6090848629120087, "learning_rate": 7.013305203949945e-06, "loss": 0.5363, "step": 3629 }, { "avg_step_time": 5.532649709720804, "epoch": 0.38709333333333334, "eta_time": 8.830723675571038, "step": 3629 }, { "epoch": 0.3872, "grad_norm": 0.627323326042394, "learning_rate": 7.011723837697091e-06, "loss": 0.4309, "step": 3630 }, { "avg_step_time": 5.497204609591551, "epoch": 0.3872, "eta_time": 8.77262235613985, "step": 3630 }, { "epoch": 0.3873066666666667, "grad_norm": 1.4677885261835089, "learning_rate": 7.010142231310201e-06, "loss": 0.4759, "step": 3631 }, { "avg_step_time": 5.534767902258671, "epoch": 0.3873066666666667, "eta_time": 8.83102967515939, "step": 3631 }, { "epoch": 0.38741333333333333, "grad_norm": 1.893362593576045, "learning_rate": 7.008560384978065e-06, "loss": 0.554, "step": 3632 }, { "avg_step_time": 5.536855473662868, "epoch": 0.38741333333333333, "eta_time": 8.832822495901626, "step": 3632 }, { "epoch": 0.38752, "grad_norm": 1.6649165974617468, "learning_rate": 7.0069782988895056e-06, "loss": 0.4556, "step": 3633 }, { "avg_step_time": 5.555564637135977, "epoch": 0.38752, "eta_time": 8.861125596231883, "step": 3633 }, { "epoch": 0.3876266666666667, "grad_norm": 1.9988279553737975, "learning_rate": 7.005395973233372e-06, "loss": 0.5579, "step": 3634 }, { "avg_step_time": 5.5572757070714776, "epoch": 0.3876266666666667, "eta_time": 8.862311065082597, "step": 3634 }, { "epoch": 0.3877333333333333, "grad_norm": 1.97865219861167, "learning_rate": 7.003813408198543e-06, "loss": 0.5832, "step": 3635 }, { "avg_step_time": 5.510120312372844, "epoch": 0.3877333333333333, "eta_time": 8.785580720283367, "step": 3635 }, { "epoch": 0.38784, "grad_norm": 1.5927473858631649, "learning_rate": 7.002230603973924e-06, "loss": 0.5671, "step": 3636 }, { "avg_step_time": 5.519463146575774, "epoch": 0.38784, "eta_time": 8.798944166166212, "step": 3636 }, { "epoch": 0.38794666666666666, "grad_norm": 1.7667665181686776, "learning_rate": 7.00064756074845e-06, "loss": 0.5773, "step": 3637 }, { "avg_step_time": 5.493572829949735, "epoch": 0.38794666666666666, "eta_time": 8.756144693958772, "step": 3637 }, { "epoch": 0.3880533333333333, "grad_norm": 0.6378288197959916, "learning_rate": 6.999064278711085e-06, "loss": 0.4911, "step": 3638 }, { "avg_step_time": 5.448680735597707, "epoch": 0.3880533333333333, "eta_time": 8.683078161145568, "step": 3638 }, { "epoch": 0.38816, "grad_norm": 1.9312001027207364, "learning_rate": 6.9974807580508205e-06, "loss": 0.5323, "step": 3639 }, { "avg_step_time": 5.445973319236678, "epoch": 0.38816, "eta_time": 8.677250821983774, "step": 3639 }, { "epoch": 0.38826666666666665, "grad_norm": 1.8623174491615777, "learning_rate": 6.995896998956677e-06, "loss": 0.5602, "step": 3640 }, { "avg_step_time": 5.446004183605464, "epoch": 0.38826666666666665, "eta_time": 8.67578722027148, "step": 3640 }, { "epoch": 0.38837333333333335, "grad_norm": 1.5844913754414416, "learning_rate": 6.994313001617705e-06, "loss": 0.4441, "step": 3641 }, { "avg_step_time": 5.404136893725155, "epoch": 0.38837333333333335, "eta_time": 8.607589152394455, "step": 3641 }, { "epoch": 0.38848, "grad_norm": 1.7104866245103536, "learning_rate": 6.992728766222982e-06, "loss": 0.5378, "step": 3642 }, { "avg_step_time": 5.385409256424567, "epoch": 0.38848, "eta_time": 8.576264240856123, "step": 3642 }, { "epoch": 0.3885866666666667, "grad_norm": 1.6525284004388867, "learning_rate": 6.991144292961611e-06, "loss": 0.5122, "step": 3643 }, { "avg_step_time": 5.383622248967488, "epoch": 0.3885866666666667, "eta_time": 8.571922980856012, "step": 3643 }, { "epoch": 0.38869333333333334, "grad_norm": 1.4975532487619432, "learning_rate": 6.989559582022728e-06, "loss": 0.456, "step": 3644 }, { "avg_step_time": 5.414518972839972, "epoch": 0.38869333333333334, "eta_time": 8.619613398151634, "step": 3644 }, { "epoch": 0.3888, "grad_norm": 1.7092440110697238, "learning_rate": 6.987974633595498e-06, "loss": 0.4831, "step": 3645 }, { "avg_step_time": 5.418789916568333, "epoch": 0.3888, "eta_time": 8.624907283871263, "step": 3645 }, { "epoch": 0.3889066666666667, "grad_norm": 2.079069896271033, "learning_rate": 6.986389447869108e-06, "loss": 0.5242, "step": 3646 }, { "avg_step_time": 5.419946244268706, "epoch": 0.3889066666666667, "eta_time": 8.625242231504282, "step": 3646 }, { "epoch": 0.3890133333333333, "grad_norm": 1.5661779310017663, "learning_rate": 6.984804025032781e-06, "loss": 0.4623, "step": 3647 }, { "avg_step_time": 5.415247317516442, "epoch": 0.3890133333333333, "eta_time": 8.61626017631505, "step": 3647 }, { "epoch": 0.38912, "grad_norm": 1.967768251409145, "learning_rate": 6.9832183652757625e-06, "loss": 0.5079, "step": 3648 }, { "avg_step_time": 5.416694318405305, "epoch": 0.38912, "eta_time": 8.617057878196439, "step": 3648 }, { "epoch": 0.38922666666666667, "grad_norm": 1.5748818828039766, "learning_rate": 6.981632468787327e-06, "loss": 0.4591, "step": 3649 }, { "avg_step_time": 5.401216270947697, "epoch": 0.38922666666666667, "eta_time": 8.590934546512921, "step": 3649 }, { "epoch": 0.3893333333333333, "grad_norm": 2.295540536811111, "learning_rate": 6.980046335756782e-06, "loss": 0.572, "step": 3650 }, { "avg_step_time": 5.4210619468881625, "epoch": 0.3893333333333333, "eta_time": 8.62099434609298, "step": 3650 }, { "epoch": 0.38944, "grad_norm": 1.7948208312992413, "learning_rate": 6.978459966373458e-06, "loss": 0.5397, "step": 3651 }, { "avg_step_time": 5.422626420705005, "epoch": 0.38944, "eta_time": 8.621976008920958, "step": 3651 }, { "epoch": 0.38954666666666665, "grad_norm": 1.928425768887621, "learning_rate": 6.976873360826716e-06, "loss": 0.5508, "step": 3652 }, { "avg_step_time": 5.462331571964302, "epoch": 0.38954666666666665, "eta_time": 8.683589885097694, "step": 3652 }, { "epoch": 0.38965333333333335, "grad_norm": 1.8367953956343315, "learning_rate": 6.975286519305944e-06, "loss": 0.504, "step": 3653 }, { "avg_step_time": 5.475963662369082, "epoch": 0.38965333333333335, "eta_time": 8.703740021132191, "step": 3653 }, { "epoch": 0.38976, "grad_norm": 0.670724897658818, "learning_rate": 6.973699442000561e-06, "loss": 0.4333, "step": 3654 }, { "avg_step_time": 5.414067032361271, "epoch": 0.38976, "eta_time": 8.603854858927454, "step": 3654 }, { "epoch": 0.38986666666666664, "grad_norm": 1.553027428601378, "learning_rate": 6.972112129100011e-06, "loss": 0.5695, "step": 3655 }, { "avg_step_time": 5.416737908064717, "epoch": 0.38986666666666664, "eta_time": 8.606594676147273, "step": 3655 }, { "epoch": 0.38997333333333334, "grad_norm": 1.8086630907251509, "learning_rate": 6.970524580793766e-06, "loss": 0.5889, "step": 3656 }, { "avg_step_time": 5.414996744406344, "epoch": 0.38997333333333334, "eta_time": 8.602323994794412, "step": 3656 }, { "epoch": 0.39008, "grad_norm": 1.7180680138796496, "learning_rate": 6.96893679727133e-06, "loss": 0.5407, "step": 3657 }, { "avg_step_time": 5.414687021814212, "epoch": 0.39008, "eta_time": 8.600327886314906, "step": 3657 }, { "epoch": 0.3901866666666667, "grad_norm": 1.4943698822813454, "learning_rate": 6.967348778722229e-06, "loss": 0.4648, "step": 3658 }, { "avg_step_time": 5.4199746738780625, "epoch": 0.3901866666666667, "eta_time": 8.607220891822468, "step": 3658 }, { "epoch": 0.3902933333333333, "grad_norm": 0.6408543378149049, "learning_rate": 6.965760525336025e-06, "loss": 0.4506, "step": 3659 }, { "avg_step_time": 5.387991428375244, "epoch": 0.3902933333333333, "eta_time": 8.55493305683136, "step": 3659 }, { "epoch": 0.3904, "grad_norm": 1.9883551288321157, "learning_rate": 6.9641720373022996e-06, "loss": 0.5388, "step": 3660 }, { "avg_step_time": 5.391427191821012, "epoch": 0.3904, "eta_time": 8.558890667015856, "step": 3660 }, { "epoch": 0.39050666666666667, "grad_norm": 1.7555646561213505, "learning_rate": 6.962583314810666e-06, "loss": 0.5294, "step": 3661 }, { "avg_step_time": 5.390882814773406, "epoch": 0.39050666666666667, "eta_time": 8.556529001004233, "step": 3661 }, { "epoch": 0.3906133333333333, "grad_norm": 1.6690039990687398, "learning_rate": 6.96099435805077e-06, "loss": 0.525, "step": 3662 }, { "avg_step_time": 5.383885467895354, "epoch": 0.3906133333333333, "eta_time": 8.543927132801711, "step": 3662 }, { "epoch": 0.39072, "grad_norm": 1.799886859535346, "learning_rate": 6.959405167212278e-06, "loss": 0.477, "step": 3663 }, { "avg_step_time": 5.419320185979207, "epoch": 0.39072, "eta_time": 8.598654695087008, "step": 3663 }, { "epoch": 0.39082666666666666, "grad_norm": 1.7892182044217197, "learning_rate": 6.957815742484886e-06, "loss": 0.5545, "step": 3664 }, { "avg_step_time": 5.412971171465787, "epoch": 0.39082666666666666, "eta_time": 8.587077322289197, "step": 3664 }, { "epoch": 0.39093333333333335, "grad_norm": 1.5978997673305377, "learning_rate": 6.956226084058324e-06, "loss": 0.4793, "step": 3665 }, { "avg_step_time": 5.414175587471085, "epoch": 0.39093333333333335, "eta_time": 8.587484056794416, "step": 3665 }, { "epoch": 0.39104, "grad_norm": 1.6128294669368022, "learning_rate": 6.954636192122339e-06, "loss": 0.4887, "step": 3666 }, { "avg_step_time": 5.419133061110371, "epoch": 0.39104, "eta_time": 8.593841846077531, "step": 3666 }, { "epoch": 0.39114666666666664, "grad_norm": 1.8796261376883503, "learning_rate": 6.953046066866717e-06, "loss": 0.479, "step": 3667 }, { "avg_step_time": 5.420716887772685, "epoch": 0.39114666666666664, "eta_time": 8.594847776501803, "step": 3667 }, { "epoch": 0.39125333333333334, "grad_norm": 1.9680370120095898, "learning_rate": 6.951455708481268e-06, "loss": 0.5324, "step": 3668 }, { "avg_step_time": 5.424473733612985, "epoch": 0.39125333333333334, "eta_time": 8.59929766603592, "step": 3668 }, { "epoch": 0.39136, "grad_norm": 0.659572737022496, "learning_rate": 6.949865117155823e-06, "loss": 0.4594, "step": 3669 }, { "avg_step_time": 5.387643640691584, "epoch": 0.39136, "eta_time": 8.539415170496161, "step": 3669 }, { "epoch": 0.3914666666666667, "grad_norm": 2.02859125296568, "learning_rate": 6.948274293080252e-06, "loss": 0.5166, "step": 3670 }, { "avg_step_time": 5.4225227351140495, "epoch": 0.3914666666666667, "eta_time": 8.593192278840458, "step": 3670 }, { "epoch": 0.39157333333333333, "grad_norm": 1.9744428189391048, "learning_rate": 6.946683236444444e-06, "loss": 0.5143, "step": 3671 }, { "avg_step_time": 5.427251900085295, "epoch": 0.39157333333333333, "eta_time": 8.599179121690701, "step": 3671 }, { "epoch": 0.39168, "grad_norm": 1.7880329692854677, "learning_rate": 6.94509194743832e-06, "loss": 0.5203, "step": 3672 }, { "avg_step_time": 5.46119908371357, "epoch": 0.39168, "eta_time": 8.65144954844958, "step": 3672 }, { "epoch": 0.39178666666666667, "grad_norm": 1.5118527492415788, "learning_rate": 6.94350042625183e-06, "loss": 0.4021, "step": 3673 }, { "avg_step_time": 5.461791823608706, "epoch": 0.39178666666666667, "eta_time": 8.650871382838012, "step": 3673 }, { "epoch": 0.3918933333333333, "grad_norm": 1.8456083854569985, "learning_rate": 6.941908673074946e-06, "loss": 0.4937, "step": 3674 }, { "avg_step_time": 5.458638116566822, "epoch": 0.3918933333333333, "eta_time": 8.644359972929847, "step": 3674 }, { "epoch": 0.392, "grad_norm": 1.8755816398401315, "learning_rate": 6.940316688097675e-06, "loss": 0.5225, "step": 3675 }, { "avg_step_time": 5.4613073835469255, "epoch": 0.392, "eta_time": 8.647070023949299, "step": 3675 }, { "epoch": 0.39210666666666666, "grad_norm": 1.8480535407248324, "learning_rate": 6.938724471510043e-06, "loss": 0.5129, "step": 3676 }, { "avg_step_time": 5.460337674979008, "epoch": 0.39210666666666666, "eta_time": 8.644017891584824, "step": 3676 }, { "epoch": 0.39221333333333336, "grad_norm": 1.7383243807793494, "learning_rate": 6.937132023502114e-06, "loss": 0.5676, "step": 3677 }, { "avg_step_time": 5.463527164073906, "epoch": 0.39221333333333336, "eta_time": 8.64754938358142, "step": 3677 }, { "epoch": 0.39232, "grad_norm": 1.6189011876951658, "learning_rate": 6.935539344263971e-06, "loss": 0.4499, "step": 3678 }, { "avg_step_time": 5.433605080903178, "epoch": 0.39232, "eta_time": 8.59868004052928, "step": 3678 }, { "epoch": 0.39242666666666665, "grad_norm": 2.0919790805007117, "learning_rate": 6.9339464339857295e-06, "loss": 0.5182, "step": 3679 }, { "avg_step_time": 5.43075979358018, "epoch": 0.39242666666666665, "eta_time": 8.59266882895353, "step": 3679 }, { "epoch": 0.39253333333333335, "grad_norm": 1.51077146544996, "learning_rate": 6.93235329285753e-06, "loss": 0.5133, "step": 3680 }, { "avg_step_time": 5.431674692365858, "epoch": 0.39253333333333335, "eta_time": 8.592607603617656, "step": 3680 }, { "epoch": 0.39264, "grad_norm": 1.4701462027210443, "learning_rate": 6.93075992106954e-06, "loss": 0.4547, "step": 3681 }, { "avg_step_time": 5.42890557616648, "epoch": 0.39264, "eta_time": 8.586718986303316, "step": 3681 }, { "epoch": 0.3927466666666667, "grad_norm": 1.7058692149072543, "learning_rate": 6.929166318811959e-06, "loss": 0.5049, "step": 3682 }, { "avg_step_time": 5.42752903880495, "epoch": 0.3927466666666667, "eta_time": 8.583034116087939, "step": 3682 }, { "epoch": 0.39285333333333333, "grad_norm": 1.6736334091908736, "learning_rate": 6.927572486275007e-06, "loss": 0.4075, "step": 3683 }, { "avg_step_time": 5.4482235956673675, "epoch": 0.39285333333333333, "eta_time": 8.614246862927404, "step": 3683 }, { "epoch": 0.39296, "grad_norm": 1.760566116625725, "learning_rate": 6.925978423648941e-06, "loss": 0.599, "step": 3684 }, { "avg_step_time": 5.445947321978482, "epoch": 0.39296, "eta_time": 8.609135058160984, "step": 3684 }, { "epoch": 0.3930666666666667, "grad_norm": 1.70830652488305, "learning_rate": 6.9243841311240356e-06, "loss": 0.5743, "step": 3685 }, { "avg_step_time": 5.448743726267959, "epoch": 0.3930666666666667, "eta_time": 8.612042167351301, "step": 3685 }, { "epoch": 0.3931733333333333, "grad_norm": 1.7145081993836147, "learning_rate": 6.922789608890598e-06, "loss": 0.438, "step": 3686 }, { "avg_step_time": 5.462788791367502, "epoch": 0.3931733333333333, "eta_time": 8.632723731691588, "step": 3686 }, { "epoch": 0.39328, "grad_norm": 1.5359968144676819, "learning_rate": 6.921194857138963e-06, "loss": 0.4789, "step": 3687 }, { "avg_step_time": 5.531673255592886, "epoch": 0.39328, "eta_time": 8.74004374383676, "step": 3687 }, { "epoch": 0.39338666666666666, "grad_norm": 1.4062306705055394, "learning_rate": 6.91959987605949e-06, "loss": 0.4606, "step": 3688 }, { "avg_step_time": 5.530650165345934, "epoch": 0.39338666666666666, "eta_time": 8.73689096953398, "step": 3688 }, { "epoch": 0.3934933333333333, "grad_norm": 1.9030839765489453, "learning_rate": 6.918004665842571e-06, "loss": 0.4303, "step": 3689 }, { "avg_step_time": 5.529829981351139, "epoch": 0.3934933333333333, "eta_time": 8.734059242767383, "step": 3689 }, { "epoch": 0.3936, "grad_norm": 1.8105037075626782, "learning_rate": 6.91640922667862e-06, "loss": 0.4499, "step": 3690 }, { "avg_step_time": 5.525944008971706, "epoch": 0.3936, "eta_time": 8.726386580834486, "step": 3690 }, { "epoch": 0.39370666666666665, "grad_norm": 1.6819387895711797, "learning_rate": 6.914813558758078e-06, "loss": 0.4791, "step": 3691 }, { "avg_step_time": 5.5611874479236025, "epoch": 0.39370666666666665, "eta_time": 8.780497070554933, "step": 3691 }, { "epoch": 0.39381333333333335, "grad_norm": 1.8214529932731953, "learning_rate": 6.913217662271419e-06, "loss": 0.4867, "step": 3692 }, { "avg_step_time": 5.600743866930104, "epoch": 0.39381333333333335, "eta_time": 8.841396498823274, "step": 3692 }, { "epoch": 0.39392, "grad_norm": 1.7135156574615584, "learning_rate": 6.911621537409139e-06, "loss": 0.4917, "step": 3693 }, { "avg_step_time": 5.610875666743577, "epoch": 0.39392, "eta_time": 8.855832094010278, "step": 3693 }, { "epoch": 0.3940266666666667, "grad_norm": 1.9618499150170026, "learning_rate": 6.910025184361764e-06, "loss": 0.5587, "step": 3694 }, { "avg_step_time": 5.615026071818188, "epoch": 0.3940266666666667, "eta_time": 8.860823087221979, "step": 3694 }, { "epoch": 0.39413333333333334, "grad_norm": 1.7773988194759067, "learning_rate": 6.908428603319844e-06, "loss": 0.445, "step": 3695 }, { "avg_step_time": 5.615124846949722, "epoch": 0.39413333333333334, "eta_time": 8.859419202965116, "step": 3695 }, { "epoch": 0.39424, "grad_norm": 0.666925148125922, "learning_rate": 6.906831794473963e-06, "loss": 0.4628, "step": 3696 }, { "avg_step_time": 5.567588331723454, "epoch": 0.39424, "eta_time": 8.78287059329375, "step": 3696 }, { "epoch": 0.3943466666666667, "grad_norm": 1.5367129694506803, "learning_rate": 6.905234758014724e-06, "loss": 0.5169, "step": 3697 }, { "avg_step_time": 5.568885834530146, "epoch": 0.3943466666666667, "eta_time": 8.783370491239491, "step": 3697 }, { "epoch": 0.3944533333333333, "grad_norm": 1.7970216749397865, "learning_rate": 6.903637494132762e-06, "loss": 0.4741, "step": 3698 }, { "avg_step_time": 5.568904973039723, "epoch": 0.3944533333333333, "eta_time": 8.78185375887403, "step": 3698 }, { "epoch": 0.39456, "grad_norm": 1.780431880434978, "learning_rate": 6.9020400030187394e-06, "loss": 0.4793, "step": 3699 }, { "avg_step_time": 5.569394102000227, "epoch": 0.39456, "eta_time": 8.781078034153692, "step": 3699 }, { "epoch": 0.39466666666666667, "grad_norm": 1.5489854869412722, "learning_rate": 6.900442284863342e-06, "loss": 0.4815, "step": 3700 }, { "avg_step_time": 5.607655404794095, "epoch": 0.39466666666666667, "eta_time": 8.839845672835137, "step": 3700 }, { "epoch": 0.3947733333333333, "grad_norm": 2.19331937753494, "learning_rate": 6.898844339857288e-06, "loss": 0.5709, "step": 3701 }, { "avg_step_time": 5.599494628231935, "epoch": 0.3947733333333333, "eta_time": 8.825425700163333, "step": 3701 }, { "epoch": 0.39488, "grad_norm": 0.6475210802179028, "learning_rate": 6.897246168191317e-06, "loss": 0.4602, "step": 3702 }, { "avg_step_time": 5.564200466329401, "epoch": 0.39488, "eta_time": 8.768252568190748, "step": 3702 }, { "epoch": 0.39498666666666665, "grad_norm": 1.691832938417978, "learning_rate": 6.895647770056199e-06, "loss": 0.5162, "step": 3703 }, { "avg_step_time": 5.546762454389322, "epoch": 0.39498666666666665, "eta_time": 8.739232400360065, "step": 3703 }, { "epoch": 0.39509333333333335, "grad_norm": 1.4193213536721945, "learning_rate": 6.894049145642731e-06, "loss": 0.454, "step": 3704 }, { "avg_step_time": 5.555270956020163, "epoch": 0.39509333333333335, "eta_time": 8.751094886552874, "step": 3704 }, { "epoch": 0.3952, "grad_norm": 2.6193937618206533, "learning_rate": 6.892450295141737e-06, "loss": 0.5063, "step": 3705 }, { "avg_step_time": 5.555339945687188, "epoch": 0.3952, "eta_time": 8.74966041445732, "step": 3705 }, { "epoch": 0.39530666666666664, "grad_norm": 1.967844089767473, "learning_rate": 6.890851218744068e-06, "loss": 0.5291, "step": 3706 }, { "avg_step_time": 5.558030617357504, "epoch": 0.39530666666666664, "eta_time": 8.752354324944358, "step": 3706 }, { "epoch": 0.39541333333333334, "grad_norm": 1.571189139288144, "learning_rate": 6.8892519166406e-06, "loss": 0.444, "step": 3707 }, { "avg_step_time": 5.553440361311941, "epoch": 0.39541333333333334, "eta_time": 8.743583324421135, "step": 3707 }, { "epoch": 0.39552, "grad_norm": 1.6787402875481783, "learning_rate": 6.887652389022236e-06, "loss": 0.4979, "step": 3708 }, { "avg_step_time": 5.58578074821318, "epoch": 0.39552, "eta_time": 8.792949861145582, "step": 3708 }, { "epoch": 0.3956266666666667, "grad_norm": 1.8407943152228727, "learning_rate": 6.8860526360799105e-06, "loss": 0.4178, "step": 3709 }, { "avg_step_time": 5.5703767116623695, "epoch": 0.3956266666666667, "eta_time": 8.76715401341083, "step": 3709 }, { "epoch": 0.3957333333333333, "grad_norm": 2.24401605209492, "learning_rate": 6.88445265800458e-06, "loss": 0.5069, "step": 3710 }, { "avg_step_time": 5.573987496019614, "epoch": 0.3957333333333333, "eta_time": 8.771288656930864, "step": 3710 }, { "epoch": 0.39584, "grad_norm": 2.033306711352334, "learning_rate": 6.88285245498723e-06, "loss": 0.4571, "step": 3711 }, { "avg_step_time": 5.574938138326009, "epoch": 0.39584, "eta_time": 8.771236004299588, "step": 3711 }, { "epoch": 0.39594666666666667, "grad_norm": 0.6348265842471683, "learning_rate": 6.881252027218872e-06, "loss": 0.4504, "step": 3712 }, { "avg_step_time": 5.543958736188484, "epoch": 0.39594666666666667, "eta_time": 8.720955089732051, "step": 3712 }, { "epoch": 0.3960533333333333, "grad_norm": 1.4865835268834022, "learning_rate": 6.8796513748905446e-06, "loss": 0.5104, "step": 3713 }, { "avg_step_time": 5.542133526368574, "epoch": 0.3960533333333333, "eta_time": 8.716544451749686, "step": 3713 }, { "epoch": 0.39616, "grad_norm": 1.666360994683715, "learning_rate": 6.878050498193314e-06, "loss": 0.4247, "step": 3714 }, { "avg_step_time": 5.545136475803877, "epoch": 0.39616, "eta_time": 8.719727108201596, "step": 3714 }, { "epoch": 0.39626666666666666, "grad_norm": 1.6547594342032137, "learning_rate": 6.876449397318272e-06, "loss": 0.4641, "step": 3715 }, { "avg_step_time": 5.5578124739907, "epoch": 0.39626666666666666, "eta_time": 8.738116278552045, "step": 3715 }, { "epoch": 0.39637333333333336, "grad_norm": 1.6466325057939066, "learning_rate": 6.874848072456538e-06, "loss": 0.5007, "step": 3716 }, { "avg_step_time": 5.6095282405313815, "epoch": 0.39637333333333336, "eta_time": 8.817866753657524, "step": 3716 }, { "epoch": 0.39648, "grad_norm": 2.0025623004493043, "learning_rate": 6.873246523799256e-06, "loss": 0.6361, "step": 3717 }, { "avg_step_time": 5.643535115502098, "epoch": 0.39648, "eta_time": 8.869756023197464, "step": 3717 }, { "epoch": 0.39658666666666664, "grad_norm": 2.0343674049080116, "learning_rate": 6.871644751537604e-06, "loss": 0.4877, "step": 3718 }, { "avg_step_time": 5.677409196140791, "epoch": 0.39658666666666664, "eta_time": 8.921417728491237, "step": 3718 }, { "epoch": 0.39669333333333334, "grad_norm": 1.5387748702374457, "learning_rate": 6.870042755862775e-06, "loss": 0.5093, "step": 3719 }, { "avg_step_time": 5.6769131241422714, "epoch": 0.39669333333333334, "eta_time": 8.919061286152413, "step": 3719 }, { "epoch": 0.3968, "grad_norm": 1.650300098046599, "learning_rate": 6.868440536965997e-06, "loss": 0.4889, "step": 3720 }, { "avg_step_time": 5.67566365184206, "epoch": 0.3968, "eta_time": 8.915521653101901, "step": 3720 }, { "epoch": 0.3969066666666667, "grad_norm": 1.6724099831052386, "learning_rate": 6.866838095038524e-06, "loss": 0.4702, "step": 3721 }, { "avg_step_time": 5.674020608266194, "epoch": 0.3969066666666667, "eta_time": 8.911364588649183, "step": 3721 }, { "epoch": 0.39701333333333333, "grad_norm": 1.9621028341304054, "learning_rate": 6.865235430271633e-06, "loss": 0.5165, "step": 3722 }, { "avg_step_time": 5.708043069550485, "epoch": 0.39701333333333333, "eta_time": 8.963213186713581, "step": 3722 }, { "epoch": 0.39712, "grad_norm": 1.7478886858058496, "learning_rate": 6.863632542856632e-06, "loss": 0.4447, "step": 3723 }, { "avg_step_time": 5.7089167002475625, "epoch": 0.39712, "eta_time": 8.962999219388674, "step": 3723 }, { "epoch": 0.3972266666666667, "grad_norm": 1.8055628427088937, "learning_rate": 6.862029432984852e-06, "loss": 0.3946, "step": 3724 }, { "avg_step_time": 5.706034325590037, "epoch": 0.3972266666666667, "eta_time": 8.956888881641474, "step": 3724 }, { "epoch": 0.3973333333333333, "grad_norm": 1.8001141513266647, "learning_rate": 6.86042610084765e-06, "loss": 0.4826, "step": 3725 }, { "avg_step_time": 5.738515157892246, "epoch": 0.3973333333333333, "eta_time": 9.00628073391422, "step": 3725 }, { "epoch": 0.39744, "grad_norm": 1.6418042745728543, "learning_rate": 6.858822546636417e-06, "loss": 0.5269, "step": 3726 }, { "avg_step_time": 5.736145660130664, "epoch": 0.39744, "eta_time": 9.0009685650217, "step": 3726 }, { "epoch": 0.39754666666666666, "grad_norm": 1.8390246972260602, "learning_rate": 6.857218770542557e-06, "loss": 0.5085, "step": 3727 }, { "avg_step_time": 5.739837290060641, "epoch": 0.39754666666666666, "eta_time": 9.005166948406249, "step": 3727 }, { "epoch": 0.39765333333333336, "grad_norm": 1.534205864648483, "learning_rate": 6.855614772757516e-06, "loss": 0.5308, "step": 3728 }, { "avg_step_time": 5.74227978725626, "epoch": 0.39765333333333336, "eta_time": 9.007403877398916, "step": 3728 }, { "epoch": 0.39776, "grad_norm": 1.4169806696180827, "learning_rate": 6.854010553472757e-06, "loss": 0.4159, "step": 3729 }, { "avg_step_time": 5.7751068779916475, "epoch": 0.39776, "eta_time": 9.0572926203169, "step": 3729 }, { "epoch": 0.39786666666666665, "grad_norm": 0.6318534979829348, "learning_rate": 6.852406112879766e-06, "loss": 0.4317, "step": 3730 }, { "avg_step_time": 5.7396483324994945, "epoch": 0.39786666666666665, "eta_time": 9.000087454711013, "step": 3730 }, { "epoch": 0.39797333333333335, "grad_norm": 1.4856940562689596, "learning_rate": 6.850801451170066e-06, "loss": 0.4388, "step": 3731 }, { "avg_step_time": 5.735434992144806, "epoch": 0.39797333333333335, "eta_time": 8.99188752657369, "step": 3731 }, { "epoch": 0.39808, "grad_norm": 1.768787392049657, "learning_rate": 6.849196568535201e-06, "loss": 0.4391, "step": 3732 }, { "avg_step_time": 5.728543240614612, "epoch": 0.39808, "eta_time": 8.979491529663404, "step": 3732 }, { "epoch": 0.3981866666666667, "grad_norm": 1.8059002458447557, "learning_rate": 6.847591465166741e-06, "loss": 0.5369, "step": 3733 }, { "avg_step_time": 5.72635580554153, "epoch": 0.3981866666666667, "eta_time": 8.97447207079592, "step": 3733 }, { "epoch": 0.39829333333333333, "grad_norm": 1.6687381506243009, "learning_rate": 6.84598614125628e-06, "loss": 0.5153, "step": 3734 }, { "avg_step_time": 5.723186146129262, "epoch": 0.39829333333333333, "eta_time": 8.967914736198658, "step": 3734 }, { "epoch": 0.3984, "grad_norm": 1.635918857941786, "learning_rate": 6.8443805969954445e-06, "loss": 0.5117, "step": 3735 }, { "avg_step_time": 5.713116294205791, "epoch": 0.3984, "eta_time": 8.950548860922405, "step": 3735 }, { "epoch": 0.3985066666666667, "grad_norm": 2.0181079522907788, "learning_rate": 6.8427748325758834e-06, "loss": 0.5444, "step": 3736 }, { "avg_step_time": 5.7292025402338815, "epoch": 0.3985066666666667, "eta_time": 8.97415920121635, "step": 3736 }, { "epoch": 0.3986133333333333, "grad_norm": 1.4680504993596115, "learning_rate": 6.8411688481892715e-06, "loss": 0.4315, "step": 3737 }, { "avg_step_time": 5.763322599006422, "epoch": 0.3986133333333333, "eta_time": 9.026003559221724, "step": 3737 }, { "epoch": 0.39872, "grad_norm": 1.8508751640656838, "learning_rate": 6.839562644027311e-06, "loss": 0.5908, "step": 3738 }, { "avg_step_time": 5.766246610217625, "epoch": 0.39872, "eta_time": 9.028981150499098, "step": 3738 }, { "epoch": 0.39882666666666666, "grad_norm": 1.7726257936099907, "learning_rate": 6.8379562202817295e-06, "loss": 0.5317, "step": 3739 }, { "avg_step_time": 5.7618152372764815, "epoch": 0.39882666666666666, "eta_time": 9.020441854802847, "step": 3739 }, { "epoch": 0.3989333333333333, "grad_norm": 1.778175937474789, "learning_rate": 6.836349577144284e-06, "loss": 0.5453, "step": 3740 }, { "avg_step_time": 5.757995990791706, "epoch": 0.3989333333333333, "eta_time": 9.012863168919795, "step": 3740 }, { "epoch": 0.39904, "grad_norm": 1.6662360893007184, "learning_rate": 6.834742714806754e-06, "loss": 0.4811, "step": 3741 }, { "avg_step_time": 5.783930036756727, "epoch": 0.39904, "eta_time": 9.051850507524279, "step": 3741 }, { "epoch": 0.39914666666666665, "grad_norm": 1.8042424021735883, "learning_rate": 6.833135633460943e-06, "loss": 0.4776, "step": 3742 }, { "avg_step_time": 5.786353877096465, "epoch": 0.39914666666666665, "eta_time": 9.054036497134552, "step": 3742 }, { "epoch": 0.39925333333333335, "grad_norm": 1.6150222106010872, "learning_rate": 6.83152833329869e-06, "loss": 0.4002, "step": 3743 }, { "avg_step_time": 5.788680004351066, "epoch": 0.39925333333333335, "eta_time": 9.056068273473668, "step": 3743 }, { "epoch": 0.39936, "grad_norm": 1.5365731327617855, "learning_rate": 6.8299208145118475e-06, "loss": 0.4558, "step": 3744 }, { "avg_step_time": 5.784723351700137, "epoch": 0.39936, "eta_time": 9.048271442617631, "step": 3744 }, { "epoch": 0.3994666666666667, "grad_norm": 0.6236603273827835, "learning_rate": 6.828313077292307e-06, "loss": 0.4337, "step": 3745 }, { "avg_step_time": 5.755149576399061, "epoch": 0.3994666666666667, "eta_time": 9.000414476424087, "step": 3745 }, { "epoch": 0.39957333333333334, "grad_norm": 1.9279868837252196, "learning_rate": 6.8267051218319766e-06, "loss": 0.5687, "step": 3746 }, { "avg_step_time": 5.760589640549939, "epoch": 0.39957333333333334, "eta_time": 9.007321968515445, "step": 3746 }, { "epoch": 0.39968, "grad_norm": 2.113573540012207, "learning_rate": 6.825096948322791e-06, "loss": 0.4695, "step": 3747 }, { "avg_step_time": 5.761415594756001, "epoch": 0.39968, "eta_time": 9.007013046468549, "step": 3747 }, { "epoch": 0.3997866666666667, "grad_norm": 2.4493338735811894, "learning_rate": 6.823488556956719e-06, "loss": 0.4857, "step": 3748 }, { "avg_step_time": 5.745004165052164, "epoch": 0.3997866666666667, "eta_time": 8.97976067687459, "step": 3748 }, { "epoch": 0.3998933333333333, "grad_norm": 0.6595112143709672, "learning_rate": 6.821879947925747e-06, "loss": 0.4582, "step": 3749 }, { "avg_step_time": 5.688492529319994, "epoch": 0.3998933333333333, "eta_time": 8.889849713876192, "step": 3749 }, { "epoch": 0.4, "grad_norm": 1.9592487425150324, "learning_rate": 6.820271121421889e-06, "loss": 0.5667, "step": 3750 }, { "avg_step_time": 5.689362053919321, "epoch": 0.4, "eta_time": 8.889628209248938, "step": 3750 }, { "epoch": 0.40010666666666667, "grad_norm": 2.019067467148987, "learning_rate": 6.818662077637189e-06, "loss": 0.4857, "step": 3751 }, { "avg_step_time": 5.706834976119224, "epoch": 0.40010666666666667, "eta_time": 8.915344418248477, "step": 3751 }, { "epoch": 0.4002133333333333, "grad_norm": 1.957781314473532, "learning_rate": 6.817052816763713e-06, "loss": 0.5342, "step": 3752 }, { "avg_step_time": 5.694539241116456, "epoch": 0.4002133333333333, "eta_time": 8.894553931332732, "step": 3752 }, { "epoch": 0.40032, "grad_norm": 0.6243174273037192, "learning_rate": 6.815443338993554e-06, "loss": 0.4554, "step": 3753 }, { "avg_step_time": 5.691862522953689, "epoch": 0.40032, "eta_time": 8.888791973346011, "step": 3753 }, { "epoch": 0.40042666666666665, "grad_norm": 1.5207410120005456, "learning_rate": 6.81383364451883e-06, "loss": 0.4939, "step": 3754 }, { "avg_step_time": 5.690111292733087, "epoch": 0.40042666666666665, "eta_time": 8.884476549014634, "step": 3754 }, { "epoch": 0.40053333333333335, "grad_norm": 1.5935131991530986, "learning_rate": 6.812223733531689e-06, "loss": 0.5058, "step": 3755 }, { "avg_step_time": 5.6916641611041445, "epoch": 0.40053333333333335, "eta_time": 8.885320162612581, "step": 3755 }, { "epoch": 0.40064, "grad_norm": 2.010810157998217, "learning_rate": 6.810613606224299e-06, "loss": 0.5613, "step": 3756 }, { "avg_step_time": 5.692792762409557, "epoch": 0.40064, "eta_time": 8.885500703327583, "step": 3756 }, { "epoch": 0.40074666666666664, "grad_norm": 2.2623308420416754, "learning_rate": 6.809003262788857e-06, "loss": 0.4879, "step": 3757 }, { "avg_step_time": 5.688854660650696, "epoch": 0.40074666666666664, "eta_time": 8.877773745426557, "step": 3757 }, { "epoch": 0.40085333333333334, "grad_norm": 1.783993490567397, "learning_rate": 6.807392703417586e-06, "loss": 0.5467, "step": 3758 }, { "avg_step_time": 5.722164067355069, "epoch": 0.40085333333333334, "eta_time": 8.928165435092618, "step": 3758 }, { "epoch": 0.40096, "grad_norm": 1.4486488711527346, "learning_rate": 6.805781928302732e-06, "loss": 0.399, "step": 3759 }, { "avg_step_time": 5.7155651516384545, "epoch": 0.40096, "eta_time": 8.916281636555988, "step": 3759 }, { "epoch": 0.4010666666666667, "grad_norm": 2.0695066275344707, "learning_rate": 6.804170937636573e-06, "loss": 0.5443, "step": 3760 }, { "avg_step_time": 5.718298830167211, "epoch": 0.4010666666666667, "eta_time": 8.918957758719136, "step": 3760 }, { "epoch": 0.4011733333333333, "grad_norm": 1.894049360084765, "learning_rate": 6.802559731611404e-06, "loss": 0.5498, "step": 3761 }, { "avg_step_time": 5.716884044685749, "epoch": 0.4011733333333333, "eta_time": 8.915163063018277, "step": 3761 }, { "epoch": 0.40128, "grad_norm": 1.990442969293266, "learning_rate": 6.800948310419554e-06, "loss": 0.5819, "step": 3762 }, { "avg_step_time": 5.713952938715617, "epoch": 0.40128, "eta_time": 8.909004956947433, "step": 3762 }, { "epoch": 0.40138666666666667, "grad_norm": 1.8556322421910796, "learning_rate": 6.799336674253373e-06, "loss": 0.5945, "step": 3763 }, { "avg_step_time": 5.7137283050652705, "epoch": 0.40138666666666667, "eta_time": 8.907067568896194, "step": 3763 }, { "epoch": 0.4014933333333333, "grad_norm": 0.6447074231077895, "learning_rate": 6.797724823305236e-06, "loss": 0.4474, "step": 3764 }, { "avg_step_time": 5.6822530428568525, "epoch": 0.4014933333333333, "eta_time": 8.856422728741611, "step": 3764 }, { "epoch": 0.4016, "grad_norm": 1.7033424857208597, "learning_rate": 6.796112757767547e-06, "loss": 0.4823, "step": 3765 }, { "avg_step_time": 5.681550902549667, "epoch": 0.4016, "eta_time": 8.85375015647323, "step": 3765 }, { "epoch": 0.40170666666666666, "grad_norm": 1.6709892145312044, "learning_rate": 6.794500477832733e-06, "loss": 0.4686, "step": 3766 }, { "avg_step_time": 5.680316029172955, "epoch": 0.40170666666666666, "eta_time": 8.850247946564195, "step": 3766 }, { "epoch": 0.40181333333333336, "grad_norm": 1.8974326105717436, "learning_rate": 6.792887983693248e-06, "loss": 0.5501, "step": 3767 }, { "avg_step_time": 5.676544480853611, "epoch": 0.40181333333333336, "eta_time": 8.842794846840848, "step": 3767 }, { "epoch": 0.40192, "grad_norm": 1.621109889192715, "learning_rate": 6.7912752755415716e-06, "loss": 0.5155, "step": 3768 }, { "avg_step_time": 5.720209302324237, "epoch": 0.40192, "eta_time": 8.90922598837, "step": 3768 }, { "epoch": 0.40202666666666664, "grad_norm": 1.5464668638141705, "learning_rate": 6.789662353570207e-06, "loss": 0.4803, "step": 3769 }, { "avg_step_time": 5.721039735909664, "epoch": 0.40202666666666664, "eta_time": 8.908930210974882, "step": 3769 }, { "epoch": 0.40213333333333334, "grad_norm": 2.0396078829090434, "learning_rate": 6.788049217971685e-06, "loss": 0.5134, "step": 3770 }, { "avg_step_time": 5.715412857556584, "epoch": 0.40213333333333334, "eta_time": 8.89858029627907, "step": 3770 }, { "epoch": 0.40224, "grad_norm": 1.9009168492776753, "learning_rate": 6.786435868938561e-06, "loss": 0.4819, "step": 3771 }, { "avg_step_time": 5.716470759324353, "epoch": 0.40224, "eta_time": 8.898639482014909, "step": 3771 }, { "epoch": 0.4023466666666667, "grad_norm": 1.6891646209188087, "learning_rate": 6.7848223066634174e-06, "loss": 0.4832, "step": 3772 }, { "avg_step_time": 5.730418369023487, "epoch": 0.4023466666666667, "eta_time": 8.918759478232943, "step": 3772 }, { "epoch": 0.40245333333333333, "grad_norm": 1.829219165529692, "learning_rate": 6.783208531338861e-06, "loss": 0.5298, "step": 3773 }, { "avg_step_time": 5.7268930854219375, "epoch": 0.40245333333333333, "eta_time": 8.911681962370471, "step": 3773 }, { "epoch": 0.40256, "grad_norm": 1.6096443936730769, "learning_rate": 6.78159454315752e-06, "loss": 0.444, "step": 3774 }, { "avg_step_time": 5.7258973217973805, "epoch": 0.40256, "eta_time": 8.908541916496425, "step": 3774 }, { "epoch": 0.4026666666666667, "grad_norm": 1.495656685269863, "learning_rate": 6.779980342312056e-06, "loss": 0.4052, "step": 3775 }, { "avg_step_time": 5.728759486265857, "epoch": 0.4026666666666667, "eta_time": 8.911403645302444, "step": 3775 }, { "epoch": 0.4027733333333333, "grad_norm": 0.6704807056522076, "learning_rate": 6.77836592899515e-06, "loss": 0.4347, "step": 3776 }, { "avg_step_time": 5.695232651450417, "epoch": 0.4027733333333333, "eta_time": 8.857668782075246, "step": 3776 }, { "epoch": 0.40288, "grad_norm": 0.6663244594362333, "learning_rate": 6.776751303399509e-06, "loss": 0.4628, "step": 3777 }, { "avg_step_time": 5.6580393025369355, "epoch": 0.40288, "eta_time": 8.798251115444934, "step": 3777 }, { "epoch": 0.40298666666666666, "grad_norm": 1.823932736611982, "learning_rate": 6.775136465717868e-06, "loss": 0.4841, "step": 3778 }, { "avg_step_time": 5.655756487990871, "epoch": 0.40298666666666666, "eta_time": 8.793130295356917, "step": 3778 }, { "epoch": 0.40309333333333336, "grad_norm": 1.770725333280883, "learning_rate": 6.773521416142987e-06, "loss": 0.4745, "step": 3779 }, { "avg_step_time": 5.6658634248406, "epoch": 0.40309333333333336, "eta_time": 8.807269923724443, "step": 3779 }, { "epoch": 0.4032, "grad_norm": 1.742387912590504, "learning_rate": 6.771906154867649e-06, "loss": 0.4607, "step": 3780 }, { "avg_step_time": 5.672151753396699, "epoch": 0.4032, "eta_time": 8.815469183404037, "step": 3780 }, { "epoch": 0.40330666666666665, "grad_norm": 1.4989157033969338, "learning_rate": 6.770290682084661e-06, "loss": 0.4582, "step": 3781 }, { "avg_step_time": 5.673910121725063, "epoch": 0.40330666666666665, "eta_time": 8.816625894702778, "step": 3781 }, { "epoch": 0.40341333333333335, "grad_norm": 1.6583623431308578, "learning_rate": 6.768674997986863e-06, "loss": 0.4325, "step": 3782 }, { "avg_step_time": 5.657035755388664, "epoch": 0.40341333333333335, "eta_time": 8.788833605524665, "step": 3782 }, { "epoch": 0.40352, "grad_norm": 1.951603787835184, "learning_rate": 6.767059102767109e-06, "loss": 0.5454, "step": 3783 }, { "avg_step_time": 5.660304782366512, "epoch": 0.40352, "eta_time": 8.792340095275982, "step": 3783 }, { "epoch": 0.4036266666666667, "grad_norm": 1.8185091706810486, "learning_rate": 6.765442996618287e-06, "loss": 0.522, "step": 3784 }, { "avg_step_time": 5.654080207901772, "epoch": 0.4036266666666667, "eta_time": 8.781100678438557, "step": 3784 }, { "epoch": 0.40373333333333333, "grad_norm": 2.201745455124502, "learning_rate": 6.763826679733307e-06, "loss": 0.5013, "step": 3785 }, { "avg_step_time": 5.642302161515361, "epoch": 0.40373333333333333, "eta_time": 8.761241411908573, "step": 3785 }, { "epoch": 0.40384, "grad_norm": 1.4232359771796042, "learning_rate": 6.7622101523051045e-06, "loss": 0.5025, "step": 3786 }, { "avg_step_time": 5.584613867480345, "epoch": 0.40384, "eta_time": 8.670113029263236, "step": 3786 }, { "epoch": 0.4039466666666667, "grad_norm": 1.7535347745156462, "learning_rate": 6.7605934145266395e-06, "loss": 0.5251, "step": 3787 }, { "avg_step_time": 5.583397499238602, "epoch": 0.4039466666666667, "eta_time": 8.666673673818142, "step": 3787 }, { "epoch": 0.4040533333333333, "grad_norm": 1.8553505762934275, "learning_rate": 6.758976466590898e-06, "loss": 0.465, "step": 3788 }, { "avg_step_time": 5.590092483192984, "epoch": 0.4040533333333333, "eta_time": 8.675512973222, "step": 3788 }, { "epoch": 0.40416, "grad_norm": 1.7192446566720672, "learning_rate": 6.757359308690889e-06, "loss": 0.5095, "step": 3789 }, { "avg_step_time": 5.594637745558614, "epoch": 0.40416, "eta_time": 8.681012901858448, "step": 3789 }, { "epoch": 0.40426666666666666, "grad_norm": 0.6467787502171434, "learning_rate": 6.755741941019652e-06, "loss": 0.4593, "step": 3790 }, { "avg_step_time": 5.561583827240298, "epoch": 0.40426666666666666, "eta_time": 8.628179354204741, "step": 3790 }, { "epoch": 0.4043733333333333, "grad_norm": 1.6607890115759916, "learning_rate": 6.754124363770246e-06, "loss": 0.4447, "step": 3791 }, { "avg_step_time": 5.555529165749598, "epoch": 0.4043733333333333, "eta_time": 8.617243017096044, "step": 3791 }, { "epoch": 0.40448, "grad_norm": 2.268723778314563, "learning_rate": 6.7525065771357546e-06, "loss": 0.5782, "step": 3792 }, { "avg_step_time": 5.555826242523964, "epoch": 0.40448, "eta_time": 8.616160531114248, "step": 3792 }, { "epoch": 0.40458666666666665, "grad_norm": 1.6354317379361074, "learning_rate": 6.7508885813092915e-06, "loss": 0.4344, "step": 3793 }, { "avg_step_time": 5.552622775838833, "epoch": 0.40458666666666665, "eta_time": 8.609650092981212, "step": 3793 }, { "epoch": 0.40469333333333335, "grad_norm": 1.6744643950455473, "learning_rate": 6.749270376483992e-06, "loss": 0.5645, "step": 3794 }, { "avg_step_time": 5.553317857511116, "epoch": 0.40469333333333335, "eta_time": 8.609185267435983, "step": 3794 }, { "epoch": 0.4048, "grad_norm": 1.719255896779751, "learning_rate": 6.7476519628530145e-06, "loss": 0.5337, "step": 3795 }, { "avg_step_time": 5.591448856122566, "epoch": 0.4048, "eta_time": 8.666745726989978, "step": 3795 }, { "epoch": 0.4049066666666667, "grad_norm": 1.6738164449597597, "learning_rate": 6.746033340609548e-06, "loss": 0.4357, "step": 3796 }, { "avg_step_time": 5.591050042046441, "epoch": 0.4049066666666667, "eta_time": 8.66457449571586, "step": 3796 }, { "epoch": 0.40501333333333334, "grad_norm": 1.8617664928453541, "learning_rate": 6.744414509946802e-06, "loss": 0.5078, "step": 3797 }, { "avg_step_time": 5.589490825479681, "epoch": 0.40501333333333334, "eta_time": 8.660605506812683, "step": 3797 }, { "epoch": 0.40512, "grad_norm": 1.7130995920217742, "learning_rate": 6.742795471058009e-06, "loss": 0.3818, "step": 3798 }, { "avg_step_time": 5.587320207345365, "epoch": 0.40512, "eta_time": 8.655690221212527, "step": 3798 }, { "epoch": 0.4052266666666667, "grad_norm": 0.6700399132064733, "learning_rate": 6.741176224136434e-06, "loss": 0.4694, "step": 3799 }, { "avg_step_time": 5.5743373090570625, "epoch": 0.4052266666666667, "eta_time": 8.634029120917273, "step": 3799 }, { "epoch": 0.4053333333333333, "grad_norm": 1.5340977884999694, "learning_rate": 6.739556769375359e-06, "loss": 0.4044, "step": 3800 }, { "avg_step_time": 5.578553915023804, "epoch": 0.4053333333333333, "eta_time": 8.63901057673825, "step": 3800 }, { "epoch": 0.40544, "grad_norm": 1.6166687725509623, "learning_rate": 6.737937106968094e-06, "loss": 0.4349, "step": 3801 }, { "avg_step_time": 5.614145565514613, "epoch": 0.40544, "eta_time": 8.692568717271792, "step": 3801 }, { "epoch": 0.40554666666666667, "grad_norm": 0.6134545467343693, "learning_rate": 6.736317237107976e-06, "loss": 0.4164, "step": 3802 }, { "avg_step_time": 5.581186578731344, "epoch": 0.40554666666666667, "eta_time": 8.63998688979716, "step": 3802 }, { "epoch": 0.4056533333333333, "grad_norm": 1.5638182730160166, "learning_rate": 6.734697159988362e-06, "loss": 0.4009, "step": 3803 }, { "avg_step_time": 5.574387504596903, "epoch": 0.4056533333333333, "eta_time": 8.627913104337205, "step": 3803 }, { "epoch": 0.40576, "grad_norm": 1.846306542506402, "learning_rate": 6.7330768758026374e-06, "loss": 0.509, "step": 3804 }, { "avg_step_time": 5.614311577093722, "epoch": 0.40576, "eta_time": 8.688147165552534, "step": 3804 }, { "epoch": 0.40586666666666665, "grad_norm": 1.9880159236771737, "learning_rate": 6.731456384744212e-06, "loss": 0.5816, "step": 3805 }, { "avg_step_time": 5.614482210140036, "epoch": 0.40586666666666665, "eta_time": 8.686851641799999, "step": 3805 }, { "epoch": 0.40597333333333335, "grad_norm": 1.741323911293914, "learning_rate": 6.729835687006519e-06, "loss": 0.5197, "step": 3806 }, { "avg_step_time": 5.618614847009832, "epoch": 0.40597333333333335, "eta_time": 8.691685023054932, "step": 3806 }, { "epoch": 0.40608, "grad_norm": 1.953354801954789, "learning_rate": 6.728214782783013e-06, "loss": 0.5492, "step": 3807 }, { "avg_step_time": 5.618427507805102, "epoch": 0.40608, "eta_time": 8.689834545405224, "step": 3807 }, { "epoch": 0.40618666666666664, "grad_norm": 1.8235963424773838, "learning_rate": 6.726593672267183e-06, "loss": 0.5534, "step": 3808 }, { "avg_step_time": 5.621082055448282, "epoch": 0.40618666666666664, "eta_time": 8.69237883407794, "step": 3808 }, { "epoch": 0.40629333333333334, "grad_norm": 1.6592777753468038, "learning_rate": 6.724972355652533e-06, "loss": 0.3842, "step": 3809 }, { "avg_step_time": 5.6190391742821895, "epoch": 0.40629333333333334, "eta_time": 8.687658901126296, "step": 3809 }, { "epoch": 0.4064, "grad_norm": 1.9381074747311384, "learning_rate": 6.723350833132596e-06, "loss": 0.4789, "step": 3810 }, { "avg_step_time": 5.618341761406022, "epoch": 0.4064, "eta_time": 8.685019972840141, "step": 3810 }, { "epoch": 0.4065066666666667, "grad_norm": 1.8567693213327552, "learning_rate": 6.721729104900927e-06, "loss": 0.4702, "step": 3811 }, { "avg_step_time": 5.648372534549598, "epoch": 0.4065066666666667, "eta_time": 8.729873550620546, "step": 3811 }, { "epoch": 0.4066133333333333, "grad_norm": 1.851860569715653, "learning_rate": 6.720107171151112e-06, "loss": 0.4818, "step": 3812 }, { "avg_step_time": 5.647222747706404, "epoch": 0.4066133333333333, "eta_time": 8.726527818191869, "step": 3812 }, { "epoch": 0.40672, "grad_norm": 1.6315006306611564, "learning_rate": 6.7184850320767505e-06, "loss": 0.5222, "step": 3813 }, { "avg_step_time": 5.645842727988657, "epoch": 0.40672, "eta_time": 8.722827014742474, "step": 3813 }, { "epoch": 0.40682666666666667, "grad_norm": 1.8835374996069445, "learning_rate": 6.716862687871477e-06, "loss": 0.4876, "step": 3814 }, { "avg_step_time": 5.646963528912477, "epoch": 0.40682666666666667, "eta_time": 8.722990051189523, "step": 3814 }, { "epoch": 0.4069333333333333, "grad_norm": 1.5738520668469071, "learning_rate": 6.715240138728946e-06, "loss": 0.4651, "step": 3815 }, { "avg_step_time": 5.635075364450012, "epoch": 0.4069333333333333, "eta_time": 8.703060840650574, "step": 3815 }, { "epoch": 0.40704, "grad_norm": 1.7095185979776408, "learning_rate": 6.7136173848428375e-06, "loss": 0.4863, "step": 3816 }, { "avg_step_time": 5.640018118752374, "epoch": 0.40704, "eta_time": 8.709127978373457, "step": 3816 }, { "epoch": 0.40714666666666666, "grad_norm": 1.854692991534006, "learning_rate": 6.711994426406853e-06, "loss": 0.5774, "step": 3817 }, { "avg_step_time": 5.608339283201429, "epoch": 0.40714666666666666, "eta_time": 8.658652704453763, "step": 3817 }, { "epoch": 0.40725333333333336, "grad_norm": 1.6867241922313516, "learning_rate": 6.71037126361472e-06, "loss": 0.4674, "step": 3818 }, { "avg_step_time": 5.605287431466459, "epoch": 0.40725333333333336, "eta_time": 8.652383960183087, "step": 3818 }, { "epoch": 0.40736, "grad_norm": 1.6651130291691862, "learning_rate": 6.708747896660196e-06, "loss": 0.5305, "step": 3819 }, { "avg_step_time": 5.62385976675785, "epoch": 0.40736, "eta_time": 8.679490240029615, "step": 3819 }, { "epoch": 0.40746666666666664, "grad_norm": 0.7028500840460571, "learning_rate": 6.707124325737051e-06, "loss": 0.4497, "step": 3820 }, { "avg_step_time": 5.58838448379979, "epoch": 0.40746666666666664, "eta_time": 8.623187724307732, "step": 3820 }, { "epoch": 0.40757333333333334, "grad_norm": 1.830172975518959, "learning_rate": 6.7055005510390935e-06, "loss": 0.4656, "step": 3821 }, { "avg_step_time": 5.583955230134906, "epoch": 0.40757333333333334, "eta_time": 8.61480204115813, "step": 3821 }, { "epoch": 0.40768, "grad_norm": 1.4983837602817207, "learning_rate": 6.703876572760144e-06, "loss": 0.4843, "step": 3822 }, { "avg_step_time": 5.583575585875848, "epoch": 0.40768, "eta_time": 8.612665341213496, "step": 3822 }, { "epoch": 0.4077866666666667, "grad_norm": 1.7856064368242905, "learning_rate": 6.702252391094053e-06, "loss": 0.4871, "step": 3823 }, { "avg_step_time": 5.58942931830281, "epoch": 0.4077866666666667, "eta_time": 8.620142104227, "step": 3823 }, { "epoch": 0.40789333333333333, "grad_norm": 1.5997284661117506, "learning_rate": 6.700628006234698e-06, "loss": 0.4655, "step": 3824 }, { "avg_step_time": 5.6037191887094515, "epoch": 0.40789333333333333, "eta_time": 8.640623671257268, "step": 3824 }, { "epoch": 0.408, "grad_norm": 1.670367905599528, "learning_rate": 6.6990034183759726e-06, "loss": 0.5213, "step": 3825 }, { "avg_step_time": 5.61238958137204, "epoch": 0.408, "eta_time": 8.65243393794856, "step": 3825 }, { "epoch": 0.4081066666666667, "grad_norm": 1.7899661532618794, "learning_rate": 6.6973786277118026e-06, "loss": 0.5313, "step": 3826 }, { "avg_step_time": 5.6091903893634525, "epoch": 0.4081066666666667, "eta_time": 8.645943741827166, "step": 3826 }, { "epoch": 0.4082133333333333, "grad_norm": 1.6533302833316057, "learning_rate": 6.695753634436134e-06, "loss": 0.4763, "step": 3827 }, { "avg_step_time": 5.620253647216643, "epoch": 0.4082133333333333, "eta_time": 8.661435342988314, "step": 3827 }, { "epoch": 0.40832, "grad_norm": 1.485523958704559, "learning_rate": 6.694128438742939e-06, "loss": 0.4806, "step": 3828 }, { "avg_step_time": 5.619294419433132, "epoch": 0.40832, "eta_time": 8.65839615127655, "step": 3828 }, { "epoch": 0.40842666666666666, "grad_norm": 1.6115805113383694, "learning_rate": 6.692503040826211e-06, "loss": 0.3822, "step": 3829 }, { "avg_step_time": 5.652282182616417, "epoch": 0.40842666666666666, "eta_time": 8.707654717997402, "step": 3829 }, { "epoch": 0.40853333333333336, "grad_norm": 1.7293948620781208, "learning_rate": 6.690877440879971e-06, "loss": 0.5401, "step": 3830 }, { "avg_step_time": 5.6582353741231595, "epoch": 0.40853333333333336, "eta_time": 8.715254208198033, "step": 3830 }, { "epoch": 0.40864, "grad_norm": 1.7537424958135137, "learning_rate": 6.689251639098261e-06, "loss": 0.4556, "step": 3831 }, { "avg_step_time": 5.667791872313528, "epoch": 0.40864, "eta_time": 8.728399483362834, "step": 3831 }, { "epoch": 0.40874666666666665, "grad_norm": 1.7834189518803985, "learning_rate": 6.68762563567515e-06, "loss": 0.5162, "step": 3832 }, { "avg_step_time": 5.671081697097932, "epoch": 0.40874666666666665, "eta_time": 8.7318905130594, "step": 3832 }, { "epoch": 0.40885333333333335, "grad_norm": 1.6917470656748304, "learning_rate": 6.685999430804729e-06, "loss": 0.499, "step": 3833 }, { "avg_step_time": 5.672490418559373, "epoch": 0.40885333333333335, "eta_time": 8.732483861015568, "step": 3833 }, { "epoch": 0.40896, "grad_norm": 1.9779790409896034, "learning_rate": 6.684373024681112e-06, "loss": 0.6032, "step": 3834 }, { "avg_step_time": 5.67746452851729, "epoch": 0.40896, "eta_time": 8.738564153476196, "step": 3834 }, { "epoch": 0.4090666666666667, "grad_norm": 1.6476382645682324, "learning_rate": 6.6827464174984405e-06, "loss": 0.4377, "step": 3835 }, { "avg_step_time": 5.651185481235235, "epoch": 0.4090666666666667, "eta_time": 8.69654654612311, "step": 3835 }, { "epoch": 0.40917333333333333, "grad_norm": 0.6575183701501918, "learning_rate": 6.681119609450879e-06, "loss": 0.4368, "step": 3836 }, { "avg_step_time": 5.611441332884509, "epoch": 0.40917333333333333, "eta_time": 8.63382598412425, "step": 3836 }, { "epoch": 0.40928, "grad_norm": 1.6764148046409804, "learning_rate": 6.679492600732614e-06, "loss": 0.53, "step": 3837 }, { "avg_step_time": 5.611380690276021, "epoch": 0.40928, "eta_time": 8.632173961874612, "step": 3837 }, { "epoch": 0.4093866666666667, "grad_norm": 1.6288082970429036, "learning_rate": 6.677865391537857e-06, "loss": 0.4936, "step": 3838 }, { "avg_step_time": 5.611485565551604, "epoch": 0.4093866666666667, "eta_time": 8.630776549016453, "step": 3838 }, { "epoch": 0.4094933333333333, "grad_norm": 1.6459211175430741, "learning_rate": 6.676237982060844e-06, "loss": 0.4723, "step": 3839 }, { "avg_step_time": 5.62121807926833, "epoch": 0.4094933333333333, "eta_time": 8.644184246341522, "step": 3839 }, { "epoch": 0.4096, "grad_norm": 1.6833920409567127, "learning_rate": 6.674610372495832e-06, "loss": 0.4877, "step": 3840 }, { "avg_step_time": 5.6144118622095895, "epoch": 0.4096, "eta_time": 8.632158238147245, "step": 3840 }, { "epoch": 0.40970666666666666, "grad_norm": 1.9798256431545551, "learning_rate": 6.67298256303711e-06, "loss": 0.5395, "step": 3841 }, { "avg_step_time": 5.612827221552531, "epoch": 0.40970666666666666, "eta_time": 8.628162734464363, "step": 3841 }, { "epoch": 0.4098133333333333, "grad_norm": 0.6379892202275855, "learning_rate": 6.67135455387898e-06, "loss": 0.4746, "step": 3842 }, { "avg_step_time": 5.580327604756211, "epoch": 0.4098133333333333, "eta_time": 8.576653510310033, "step": 3842 }, { "epoch": 0.40992, "grad_norm": 1.7543991245539796, "learning_rate": 6.669726345215776e-06, "loss": 0.5328, "step": 3843 }, { "avg_step_time": 5.582653630863536, "epoch": 0.40992, "eta_time": 8.578677746093634, "step": 3843 }, { "epoch": 0.41002666666666665, "grad_norm": 1.9049266546615422, "learning_rate": 6.668097937241852e-06, "loss": 0.46, "step": 3844 }, { "avg_step_time": 5.611913156027746, "epoch": 0.41002666666666665, "eta_time": 8.622081018330407, "step": 3844 }, { "epoch": 0.41013333333333335, "grad_norm": 1.8494555481906403, "learning_rate": 6.666469330151585e-06, "loss": 0.4649, "step": 3845 }, { "avg_step_time": 5.606949295660462, "epoch": 0.41013333333333335, "eta_time": 8.612897112500653, "step": 3845 }, { "epoch": 0.41024, "grad_norm": 0.6349387575895923, "learning_rate": 6.66484052413938e-06, "loss": 0.4619, "step": 3846 }, { "avg_step_time": 5.568565467391351, "epoch": 0.41024, "eta_time": 8.55238846366855, "step": 3846 }, { "epoch": 0.4103466666666667, "grad_norm": 1.651341853453802, "learning_rate": 6.663211519399661e-06, "loss": 0.4198, "step": 3847 }, { "avg_step_time": 5.56958582907012, "epoch": 0.4103466666666667, "eta_time": 8.552408461972117, "step": 3847 }, { "epoch": 0.41045333333333334, "grad_norm": 1.5566732769423834, "learning_rate": 6.66158231612688e-06, "loss": 0.4552, "step": 3848 }, { "avg_step_time": 5.611677740559434, "epoch": 0.41045333333333334, "eta_time": 8.615484131131108, "step": 3848 }, { "epoch": 0.41056, "grad_norm": 1.7049537176035212, "learning_rate": 6.659952914515508e-06, "loss": 0.5295, "step": 3849 }, { "avg_step_time": 5.613474658041289, "epoch": 0.41056, "eta_time": 8.616683600093378, "step": 3849 }, { "epoch": 0.4106666666666667, "grad_norm": 1.9325297864789357, "learning_rate": 6.658323314760046e-06, "loss": 0.483, "step": 3850 }, { "avg_step_time": 5.626693935105295, "epoch": 0.4106666666666667, "eta_time": 8.635412219849098, "step": 3850 }, { "epoch": 0.4107733333333333, "grad_norm": 0.6256408839582829, "learning_rate": 6.656693517055011e-06, "loss": 0.4504, "step": 3851 }, { "avg_step_time": 5.589029394014918, "epoch": 0.4107733333333333, "eta_time": 8.57605510348289, "step": 3851 }, { "epoch": 0.41088, "grad_norm": 1.7510416155760382, "learning_rate": 6.65506352159495e-06, "loss": 0.55, "step": 3852 }, { "avg_step_time": 5.6279473617823434, "epoch": 0.41088, "eta_time": 8.63420924420108, "step": 3852 }, { "epoch": 0.41098666666666667, "grad_norm": 1.708222652235198, "learning_rate": 6.65343332857443e-06, "loss": 0.4954, "step": 3853 }, { "avg_step_time": 5.625036186642117, "epoch": 0.41098666666666667, "eta_time": 8.628180506288269, "step": 3853 }, { "epoch": 0.4110933333333333, "grad_norm": 2.1397933641630735, "learning_rate": 6.651802938188044e-06, "loss": 0.4687, "step": 3854 }, { "avg_step_time": 5.649713817268911, "epoch": 0.4110933333333333, "eta_time": 8.664463884761572, "step": 3854 }, { "epoch": 0.4112, "grad_norm": 1.8137111304739175, "learning_rate": 6.650172350630406e-06, "loss": 0.5836, "step": 3855 }, { "avg_step_time": 5.6502708907079215, "epoch": 0.4112, "eta_time": 8.66374869908548, "step": 3855 }, { "epoch": 0.41130666666666665, "grad_norm": 2.006296288213949, "learning_rate": 6.648541566096155e-06, "loss": 0.4909, "step": 3856 }, { "avg_step_time": 5.670780299889921, "epoch": 0.41130666666666665, "eta_time": 8.693621243081243, "step": 3856 }, { "epoch": 0.41141333333333335, "grad_norm": 1.604351611791813, "learning_rate": 6.646910584779953e-06, "loss": 0.4945, "step": 3857 }, { "avg_step_time": 5.670805372373022, "epoch": 0.41141333333333335, "eta_time": 8.692084456876204, "step": 3857 }, { "epoch": 0.41152, "grad_norm": 1.6037628548608838, "learning_rate": 6.645279406876488e-06, "loss": 0.4211, "step": 3858 }, { "avg_step_time": 5.671511510405877, "epoch": 0.41152, "eta_time": 8.691591389697008, "step": 3858 }, { "epoch": 0.41162666666666664, "grad_norm": 1.5915529594046196, "learning_rate": 6.643648032580466e-06, "loss": 0.5172, "step": 3859 }, { "avg_step_time": 5.66748426177285, "epoch": 0.41162666666666664, "eta_time": 8.683845329983066, "step": 3859 }, { "epoch": 0.41173333333333334, "grad_norm": 1.8256540057975053, "learning_rate": 6.6420164620866226e-06, "loss": 0.5118, "step": 3860 }, { "avg_step_time": 5.666399707697859, "epoch": 0.41173333333333334, "eta_time": 8.68060955220936, "step": 3860 }, { "epoch": 0.41184, "grad_norm": 2.0163232056062896, "learning_rate": 6.640384695589714e-06, "loss": 0.4919, "step": 3861 }, { "avg_step_time": 5.667053798232415, "epoch": 0.41184, "eta_time": 8.680037400959316, "step": 3861 }, { "epoch": 0.4119466666666667, "grad_norm": 0.654185835235426, "learning_rate": 6.638752733284514e-06, "loss": 0.4379, "step": 3862 }, { "avg_step_time": 5.634020525999744, "epoch": 0.4119466666666667, "eta_time": 8.627876433287941, "step": 3862 }, { "epoch": 0.4120533333333333, "grad_norm": 1.7274744542961384, "learning_rate": 6.637120575365834e-06, "loss": 0.5236, "step": 3863 }, { "avg_step_time": 5.666421555509471, "epoch": 0.4120533333333333, "eta_time": 8.675921003880056, "step": 3863 }, { "epoch": 0.41216, "grad_norm": 1.8516021363221205, "learning_rate": 6.635488222028497e-06, "loss": 0.5819, "step": 3864 }, { "avg_step_time": 5.670509128859549, "epoch": 0.41216, "eta_time": 8.68060439142916, "step": 3864 }, { "epoch": 0.41226666666666667, "grad_norm": 1.8478462496294654, "learning_rate": 6.63385567346735e-06, "loss": 0.4216, "step": 3865 }, { "avg_step_time": 5.671000709437361, "epoch": 0.41226666666666667, "eta_time": 8.67978164138885, "step": 3865 }, { "epoch": 0.4123733333333333, "grad_norm": 1.6775323948472654, "learning_rate": 6.632222929877268e-06, "loss": 0.4299, "step": 3866 }, { "avg_step_time": 5.669708779363921, "epoch": 0.4123733333333333, "eta_time": 8.676229351532177, "step": 3866 }, { "epoch": 0.41248, "grad_norm": 1.6305842313443681, "learning_rate": 6.630589991453148e-06, "loss": 0.5346, "step": 3867 }, { "avg_step_time": 5.676303858708853, "epoch": 0.41248, "eta_time": 8.684744903824546, "step": 3867 }, { "epoch": 0.41258666666666666, "grad_norm": 1.7705296986473862, "learning_rate": 6.6289568583899074e-06, "loss": 0.5299, "step": 3868 }, { "avg_step_time": 5.6833594856840195, "epoch": 0.41258666666666666, "eta_time": 8.693961302128304, "step": 3868 }, { "epoch": 0.41269333333333336, "grad_norm": 1.6861567125219783, "learning_rate": 6.627323530882491e-06, "loss": 0.4544, "step": 3869 }, { "avg_step_time": 5.683197231003732, "epoch": 0.41269333333333336, "eta_time": 8.692134431640708, "step": 3869 }, { "epoch": 0.4128, "grad_norm": 1.936055582466953, "learning_rate": 6.6256900091258644e-06, "loss": 0.4326, "step": 3870 }, { "avg_step_time": 5.68326754521842, "epoch": 0.4128, "eta_time": 8.6906632878965, "step": 3870 }, { "epoch": 0.41290666666666664, "grad_norm": 1.879257177381911, "learning_rate": 6.624056293315015e-06, "loss": 0.5617, "step": 3871 }, { "avg_step_time": 5.670441059151081, "epoch": 0.41290666666666664, "eta_time": 8.669474330435431, "step": 3871 }, { "epoch": 0.41301333333333334, "grad_norm": 1.5754426496243545, "learning_rate": 6.622422383644956e-06, "loss": 0.4463, "step": 3872 }, { "avg_step_time": 5.672245791464141, "epoch": 0.41301333333333334, "eta_time": 8.670657941785324, "step": 3872 }, { "epoch": 0.41312, "grad_norm": 1.6076452867718152, "learning_rate": 6.620788280310722e-06, "loss": 0.5107, "step": 3873 }, { "avg_step_time": 5.6723545488685065, "epoch": 0.41312, "eta_time": 8.669248535520701, "step": 3873 }, { "epoch": 0.4132266666666667, "grad_norm": 1.915427077429538, "learning_rate": 6.619153983507373e-06, "loss": 0.5184, "step": 3874 }, { "avg_step_time": 5.671760209883102, "epoch": 0.4132266666666667, "eta_time": 8.666764698490818, "step": 3874 }, { "epoch": 0.41333333333333333, "grad_norm": 1.7119561564891215, "learning_rate": 6.617519493429991e-06, "loss": 0.4245, "step": 3875 }, { "avg_step_time": 5.711474917151711, "epoch": 0.41333333333333333, "eta_time": 8.72586445675956, "step": 3875 }, { "epoch": 0.41344, "grad_norm": 1.9186849123698784, "learning_rate": 6.615884810273678e-06, "loss": 0.5046, "step": 3876 }, { "avg_step_time": 5.752051071687178, "epoch": 0.41344, "eta_time": 8.786258012002165, "step": 3876 }, { "epoch": 0.4135466666666667, "grad_norm": 1.7792581051857075, "learning_rate": 6.614249934233565e-06, "loss": 0.4947, "step": 3877 }, { "avg_step_time": 5.775423466557204, "epoch": 0.4135466666666667, "eta_time": 8.820355060869863, "step": 3877 }, { "epoch": 0.4136533333333333, "grad_norm": 1.8618136957249094, "learning_rate": 6.6126148655048e-06, "loss": 0.5777, "step": 3878 }, { "avg_step_time": 5.851156198617184, "epoch": 0.4136533333333333, "eta_time": 8.934390451055183, "step": 3878 }, { "epoch": 0.41376, "grad_norm": 0.6646480093435087, "learning_rate": 6.610979604282557e-06, "loss": 0.4516, "step": 3879 }, { "avg_step_time": 5.812547197245588, "epoch": 0.41376, "eta_time": 8.873822054461598, "step": 3879 }, { "epoch": 0.41386666666666666, "grad_norm": 1.6828532700536893, "learning_rate": 6.609344150762035e-06, "loss": 0.471, "step": 3880 }, { "avg_step_time": 5.8082366278677275, "epoch": 0.41386666666666666, "eta_time": 8.865627852814768, "step": 3880 }, { "epoch": 0.41397333333333336, "grad_norm": 1.873556386699355, "learning_rate": 6.60770850513845e-06, "loss": 0.4794, "step": 3881 }, { "avg_step_time": 5.805618466752948, "epoch": 0.41397333333333336, "eta_time": 8.860018848983527, "step": 3881 }, { "epoch": 0.41408, "grad_norm": 1.8469361036582124, "learning_rate": 6.606072667607048e-06, "loss": 0.4495, "step": 3882 }, { "avg_step_time": 5.802592287159929, "epoch": 0.41408, "eta_time": 8.853788731491525, "step": 3882 }, { "epoch": 0.41418666666666665, "grad_norm": 2.2916422401902854, "learning_rate": 6.604436638363094e-06, "loss": 0.6228, "step": 3883 }, { "avg_step_time": 5.8017982593690505, "epoch": 0.41418666666666665, "eta_time": 8.850965566793008, "step": 3883 }, { "epoch": 0.41429333333333335, "grad_norm": 1.7664932173518166, "learning_rate": 6.602800417601874e-06, "loss": 0.4613, "step": 3884 }, { "avg_step_time": 5.8032129099874785, "epoch": 0.41429333333333335, "eta_time": 8.851511691317013, "step": 3884 }, { "epoch": 0.4144, "grad_norm": 0.6503678664218451, "learning_rate": 6.601164005518702e-06, "loss": 0.4639, "step": 3885 }, { "avg_step_time": 5.755827318538319, "epoch": 0.4144, "eta_time": 8.777636660770936, "step": 3885 }, { "epoch": 0.4145066666666667, "grad_norm": 0.642160150910912, "learning_rate": 6.5995274023089105e-06, "loss": 0.4488, "step": 3886 }, { "avg_step_time": 5.717892463761147, "epoch": 0.4145066666666667, "eta_time": 8.718197703773594, "step": 3886 }, { "epoch": 0.41461333333333333, "grad_norm": 0.7087567302638128, "learning_rate": 6.597890608167856e-06, "loss": 0.4771, "step": 3887 }, { "avg_step_time": 5.68184711475565, "epoch": 0.41461333333333333, "eta_time": 8.661660268271946, "step": 3887 }, { "epoch": 0.41472, "grad_norm": 1.9239648576150803, "learning_rate": 6.59625362329092e-06, "loss": 0.554, "step": 3888 }, { "avg_step_time": 5.678783517895323, "epoch": 0.41472, "eta_time": 8.655412545192123, "step": 3888 }, { "epoch": 0.4148266666666667, "grad_norm": 1.76213106426155, "learning_rate": 6.594616447873506e-06, "loss": 0.4488, "step": 3889 }, { "avg_step_time": 5.724850042901858, "epoch": 0.4148266666666667, "eta_time": 8.72403537093322, "step": 3889 }, { "epoch": 0.4149333333333333, "grad_norm": 1.4869720040918262, "learning_rate": 6.592979082111034e-06, "loss": 0.5398, "step": 3890 }, { "avg_step_time": 5.728610096555768, "epoch": 0.4149333333333333, "eta_time": 8.728173994335663, "step": 3890 }, { "epoch": 0.41504, "grad_norm": 1.541035498492405, "learning_rate": 6.591341526198955e-06, "loss": 0.4724, "step": 3891 }, { "avg_step_time": 5.742361104849613, "epoch": 0.41504, "eta_time": 8.747530083054244, "step": 3891 }, { "epoch": 0.41514666666666666, "grad_norm": 1.7803534765868563, "learning_rate": 6.589703780332742e-06, "loss": 0.4804, "step": 3892 }, { "avg_step_time": 5.8252187810762965, "epoch": 0.41514666666666666, "eta_time": 8.872131826844814, "step": 3892 }, { "epoch": 0.4152533333333333, "grad_norm": 1.778130695777905, "learning_rate": 6.588065844707885e-06, "loss": 0.5756, "step": 3893 }, { "avg_step_time": 5.823833056170531, "epoch": 0.4152533333333333, "eta_time": 8.868403559424126, "step": 3893 }, { "epoch": 0.41536, "grad_norm": 1.828080665258465, "learning_rate": 6.586427719519901e-06, "loss": 0.4858, "step": 3894 }, { "avg_step_time": 5.819791837172075, "epoch": 0.41536, "eta_time": 8.860633072094485, "step": 3894 }, { "epoch": 0.41546666666666665, "grad_norm": 1.5553622981521926, "learning_rate": 6.584789404964329e-06, "loss": 0.4958, "step": 3895 }, { "avg_step_time": 5.823508693714334, "epoch": 0.41546666666666665, "eta_time": 8.864674344876263, "step": 3895 }, { "epoch": 0.41557333333333335, "grad_norm": 1.7563393341089182, "learning_rate": 6.5831509012367275e-06, "loss": 0.5059, "step": 3896 }, { "avg_step_time": 5.825208066689847, "epoch": 0.41557333333333335, "eta_time": 8.865643054831576, "step": 3896 }, { "epoch": 0.41568, "grad_norm": 1.6145882849271733, "learning_rate": 6.581512208532685e-06, "loss": 0.525, "step": 3897 }, { "avg_step_time": 5.8278379632969095, "epoch": 0.41568, "eta_time": 8.868026767483464, "step": 3897 }, { "epoch": 0.4157866666666667, "grad_norm": 1.652090085140227, "learning_rate": 6.579873327047805e-06, "loss": 0.5506, "step": 3898 }, { "avg_step_time": 5.839555417648469, "epoch": 0.4157866666666667, "eta_time": 8.884234728461296, "step": 3898 }, { "epoch": 0.41589333333333334, "grad_norm": 0.6539333121585249, "learning_rate": 6.5782342569777155e-06, "loss": 0.4477, "step": 3899 }, { "avg_step_time": 5.797903535341976, "epoch": 0.41589333333333334, "eta_time": 8.819255488759072, "step": 3899 }, { "epoch": 0.416, "grad_norm": 1.9239135622703603, "learning_rate": 6.576594998518071e-06, "loss": 0.6306, "step": 3900 }, { "avg_step_time": 5.799450614235618, "epoch": 0.416, "eta_time": 8.819997809150003, "step": 3900 }, { "epoch": 0.4161066666666667, "grad_norm": 1.9664626160895653, "learning_rate": 6.574955551864541e-06, "loss": 0.6047, "step": 3901 }, { "avg_step_time": 5.830984761016538, "epoch": 0.4161066666666667, "eta_time": 8.86633627272348, "step": 3901 }, { "epoch": 0.4162133333333333, "grad_norm": 1.823104711758926, "learning_rate": 6.573315917212826e-06, "loss": 0.4743, "step": 3902 }, { "avg_step_time": 5.833798321810636, "epoch": 0.4162133333333333, "eta_time": 8.868993948686002, "step": 3902 }, { "epoch": 0.41632, "grad_norm": 1.8485997900013371, "learning_rate": 6.5716760947586425e-06, "loss": 0.5066, "step": 3903 }, { "avg_step_time": 5.792674353628447, "epoch": 0.41632, "eta_time": 8.80486501751524, "step": 3903 }, { "epoch": 0.41642666666666667, "grad_norm": 1.5149045497580784, "learning_rate": 6.570036084697732e-06, "loss": 0.4582, "step": 3904 }, { "avg_step_time": 5.788735823197798, "epoch": 0.41642666666666667, "eta_time": 8.797270469087543, "step": 3904 }, { "epoch": 0.4165333333333333, "grad_norm": 1.6385592550644923, "learning_rate": 6.568395887225858e-06, "loss": 0.4781, "step": 3905 }, { "avg_step_time": 5.783798461008554, "epoch": 0.4165333333333333, "eta_time": 8.788160439365775, "step": 3905 }, { "epoch": 0.41664, "grad_norm": 2.08533953153008, "learning_rate": 6.566755502538806e-06, "loss": 0.6289, "step": 3906 }, { "avg_step_time": 5.784045544537631, "epoch": 0.41664, "eta_time": 8.786929189743416, "step": 3906 }, { "epoch": 0.41674666666666665, "grad_norm": 1.910444199606626, "learning_rate": 6.565114930832387e-06, "loss": 0.5299, "step": 3907 }, { "avg_step_time": 5.783427898329918, "epoch": 0.41674666666666665, "eta_time": 8.78438437446333, "step": 3907 }, { "epoch": 0.41685333333333335, "grad_norm": 1.8219458475392505, "learning_rate": 6.563474172302429e-06, "loss": 0.5949, "step": 3908 }, { "avg_step_time": 5.782034462148493, "epoch": 0.41685333333333335, "eta_time": 8.780661779046058, "step": 3908 }, { "epoch": 0.41696, "grad_norm": 1.776304915478265, "learning_rate": 6.561833227144784e-06, "loss": 0.4216, "step": 3909 }, { "avg_step_time": 5.797255874884249, "epoch": 0.41696, "eta_time": 8.802166836699252, "step": 3909 }, { "epoch": 0.41706666666666664, "grad_norm": 1.5685282088623356, "learning_rate": 6.5601920955553285e-06, "loss": 0.5135, "step": 3910 }, { "avg_step_time": 5.799599820917303, "epoch": 0.41706666666666664, "eta_time": 8.804114728142517, "step": 3910 }, { "epoch": 0.41717333333333334, "grad_norm": 1.7519274158716458, "learning_rate": 6.558550777729962e-06, "loss": 0.5297, "step": 3911 }, { "avg_step_time": 5.80148188273112, "epoch": 0.41717333333333334, "eta_time": 8.805360279789678, "step": 3911 }, { "epoch": 0.41728, "grad_norm": 1.8832506851511506, "learning_rate": 6.556909273864601e-06, "loss": 0.4855, "step": 3912 }, { "avg_step_time": 5.803109412241464, "epoch": 0.41728, "eta_time": 8.806218533076422, "step": 3912 }, { "epoch": 0.4173866666666667, "grad_norm": 1.8293055225005146, "learning_rate": 6.555267584155188e-06, "loss": 0.5506, "step": 3913 }, { "avg_step_time": 5.82272905291933, "epoch": 0.4173866666666667, "eta_time": 8.834373913068161, "step": 3913 }, { "epoch": 0.4174933333333333, "grad_norm": 0.6601866056898985, "learning_rate": 6.55362570879769e-06, "loss": 0.4503, "step": 3914 }, { "avg_step_time": 5.7838635251979635, "epoch": 0.4174933333333333, "eta_time": 8.77379964197391, "step": 3914 }, { "epoch": 0.4176, "grad_norm": 1.8716115274346534, "learning_rate": 6.551983647988089e-06, "loss": 0.4997, "step": 3915 }, { "avg_step_time": 5.778951372763123, "epoch": 0.4176, "eta_time": 8.764742915357402, "step": 3915 }, { "epoch": 0.41770666666666667, "grad_norm": 1.8597410596492292, "learning_rate": 6.550341401922395e-06, "loss": 0.4598, "step": 3916 }, { "avg_step_time": 5.778248105386291, "epoch": 0.41770666666666667, "eta_time": 8.762071224251047, "step": 3916 }, { "epoch": 0.4178133333333333, "grad_norm": 1.609983970707708, "learning_rate": 6.548698970796641e-06, "loss": 0.4273, "step": 3917 }, { "avg_step_time": 5.793587780962087, "epoch": 0.4178133333333333, "eta_time": 8.783722807914186, "step": 3917 }, { "epoch": 0.41792, "grad_norm": 1.9361511715191526, "learning_rate": 6.547056354806874e-06, "loss": 0.4961, "step": 3918 }, { "avg_step_time": 5.776829339037038, "epoch": 0.41792, "eta_time": 8.75671047309031, "step": 3918 }, { "epoch": 0.41802666666666666, "grad_norm": 0.6579836056622681, "learning_rate": 6.545413554149175e-06, "loss": 0.4543, "step": 3919 }, { "avg_step_time": 5.781774417318479, "epoch": 0.41802666666666666, "eta_time": 8.762600339136005, "step": 3919 }, { "epoch": 0.41813333333333336, "grad_norm": 1.7527494191396027, "learning_rate": 6.543770569019635e-06, "loss": 0.4756, "step": 3920 }, { "avg_step_time": 5.783647115784462, "epoch": 0.41813333333333336, "eta_time": 8.763831949056733, "step": 3920 }, { "epoch": 0.41824, "grad_norm": 1.9212373620368282, "learning_rate": 6.542127399614376e-06, "loss": 0.5045, "step": 3921 }, { "avg_step_time": 5.78333241530139, "epoch": 0.41824, "eta_time": 8.761748609181607, "step": 3921 }, { "epoch": 0.41834666666666664, "grad_norm": 1.7473591990308248, "learning_rate": 6.54048404612954e-06, "loss": 0.4742, "step": 3922 }, { "avg_step_time": 5.781463367770416, "epoch": 0.41834666666666664, "eta_time": 8.757311040125579, "step": 3922 }, { "epoch": 0.41845333333333334, "grad_norm": 1.7463877998137074, "learning_rate": 6.538840508761286e-06, "loss": 0.4797, "step": 3923 }, { "avg_step_time": 5.7711341019832725, "epoch": 0.41845333333333334, "eta_time": 8.740061978892445, "step": 3923 }, { "epoch": 0.41856, "grad_norm": 1.54314948186704, "learning_rate": 6.5371967877058e-06, "loss": 0.5539, "step": 3924 }, { "avg_step_time": 5.765145879803282, "epoch": 0.41856, "eta_time": 8.729391719668802, "step": 3924 }, { "epoch": 0.4186666666666667, "grad_norm": 1.932238283981291, "learning_rate": 6.53555288315929e-06, "loss": 0.5433, "step": 3925 }, { "avg_step_time": 5.771180957254737, "epoch": 0.4186666666666667, "eta_time": 8.736926726955089, "step": 3925 }, { "epoch": 0.41877333333333333, "grad_norm": 1.737439789688683, "learning_rate": 6.533908795317982e-06, "loss": 0.536, "step": 3926 }, { "avg_step_time": 5.761056644747955, "epoch": 0.41877333333333333, "eta_time": 8.719999349231003, "step": 3926 }, { "epoch": 0.41888, "grad_norm": 1.7668592233209464, "learning_rate": 6.532264524378128e-06, "loss": 0.5262, "step": 3927 }, { "avg_step_time": 5.761583807492497, "epoch": 0.41888, "eta_time": 8.71919682867198, "step": 3927 }, { "epoch": 0.4189866666666667, "grad_norm": 2.150567611629938, "learning_rate": 6.530620070536e-06, "loss": 0.5612, "step": 3928 }, { "avg_step_time": 5.774765932198727, "epoch": 0.4189866666666667, "eta_time": 8.73754167574624, "step": 3928 }, { "epoch": 0.4190933333333333, "grad_norm": 1.9192836717408188, "learning_rate": 6.528975433987892e-06, "loss": 0.499, "step": 3929 }, { "avg_step_time": 5.769561302782309, "epoch": 0.4190933333333333, "eta_time": 8.728064126375683, "step": 3929 }, { "epoch": 0.4192, "grad_norm": 1.5966497652284466, "learning_rate": 6.52733061493012e-06, "loss": 0.5102, "step": 3930 }, { "avg_step_time": 5.758157544665867, "epoch": 0.4192, "eta_time": 8.709213286307124, "step": 3930 }, { "epoch": 0.41930666666666666, "grad_norm": 0.6721550953754762, "learning_rate": 6.52568561355902e-06, "loss": 0.4513, "step": 3931 }, { "avg_step_time": 5.722686310007115, "epoch": 0.41930666666666666, "eta_time": 8.653973408799647, "step": 3931 }, { "epoch": 0.41941333333333336, "grad_norm": 1.7618568108727448, "learning_rate": 6.524040430070953e-06, "loss": 0.5952, "step": 3932 }, { "avg_step_time": 5.728383950512819, "epoch": 0.41941333333333336, "eta_time": 8.660998289622576, "step": 3932 }, { "epoch": 0.41952, "grad_norm": 1.7687510497243537, "learning_rate": 6.522395064662299e-06, "loss": 0.4958, "step": 3933 }, { "avg_step_time": 5.722126402036108, "epoch": 0.41952, "eta_time": 8.64994774441125, "step": 3933 }, { "epoch": 0.41962666666666665, "grad_norm": 1.5463656499234792, "learning_rate": 6.520749517529463e-06, "loss": 0.4676, "step": 3934 }, { "avg_step_time": 5.724239961065427, "epoch": 0.41962666666666665, "eta_time": 8.651552674488052, "step": 3934 }, { "epoch": 0.41973333333333335, "grad_norm": 1.8530465114523593, "learning_rate": 6.519103788868866e-06, "loss": 0.5224, "step": 3935 }, { "avg_step_time": 5.761520535054833, "epoch": 0.41973333333333335, "eta_time": 8.706297697416193, "step": 3935 }, { "epoch": 0.41984, "grad_norm": 1.8723038246996482, "learning_rate": 6.517457878876958e-06, "loss": 0.5564, "step": 3936 }, { "avg_step_time": 5.760946420708088, "epoch": 0.41984, "eta_time": 8.703829883953135, "step": 3936 }, { "epoch": 0.4199466666666667, "grad_norm": 1.691369939513888, "learning_rate": 6.515811787750204e-06, "loss": 0.4628, "step": 3937 }, { "avg_step_time": 5.767653279834324, "epoch": 0.4199466666666667, "eta_time": 8.71236070437196, "step": 3937 }, { "epoch": 0.42005333333333333, "grad_norm": 0.6861309654682438, "learning_rate": 6.5141655156850936e-06, "loss": 0.4537, "step": 3938 }, { "avg_step_time": 5.720634226847177, "epoch": 0.42005333333333333, "eta_time": 8.639746747602251, "step": 3938 }, { "epoch": 0.42016, "grad_norm": 1.5571591980530366, "learning_rate": 6.512519062878142e-06, "loss": 0.5068, "step": 3939 }, { "avg_step_time": 5.704422876088306, "epoch": 0.42016, "eta_time": 8.613678542893341, "step": 3939 }, { "epoch": 0.4202666666666667, "grad_norm": 1.6382082398267956, "learning_rate": 6.510872429525875e-06, "loss": 0.3788, "step": 3940 }, { "avg_step_time": 5.708128086244217, "epoch": 0.4202666666666667, "eta_time": 8.617687819093701, "step": 3940 }, { "epoch": 0.4203733333333333, "grad_norm": 1.6708071869658336, "learning_rate": 6.509225615824851e-06, "loss": 0.5323, "step": 3941 }, { "avg_step_time": 5.741603222760287, "epoch": 0.4203733333333333, "eta_time": 8.666631086799834, "step": 3941 }, { "epoch": 0.42048, "grad_norm": 1.9025963079058053, "learning_rate": 6.507578621971646e-06, "loss": 0.4934, "step": 3942 }, { "avg_step_time": 5.739623621256665, "epoch": 0.42048, "eta_time": 8.662048648413183, "step": 3942 }, { "epoch": 0.42058666666666666, "grad_norm": 1.8257160952862763, "learning_rate": 6.505931448162857e-06, "loss": 0.5096, "step": 3943 }, { "avg_step_time": 5.742211772937967, "epoch": 0.42058666666666666, "eta_time": 8.664359541833067, "step": 3943 }, { "epoch": 0.4206933333333333, "grad_norm": 0.6558672007871487, "learning_rate": 6.504284094595099e-06, "loss": 0.4394, "step": 3944 }, { "avg_step_time": 5.7323257754547425, "epoch": 0.4206933333333333, "eta_time": 8.64785035735964, "step": 3944 }, { "epoch": 0.4208, "grad_norm": 2.2404250765169875, "learning_rate": 6.502636561465018e-06, "loss": 0.5139, "step": 3945 }, { "avg_step_time": 5.76329858616145, "epoch": 0.4208, "eta_time": 8.692975367460187, "step": 3945 }, { "epoch": 0.42090666666666665, "grad_norm": 1.6261642809136463, "learning_rate": 6.500988848969271e-06, "loss": 0.5022, "step": 3946 }, { "avg_step_time": 5.762002643912729, "epoch": 0.42090666666666665, "eta_time": 8.68942009827839, "step": 3946 }, { "epoch": 0.42101333333333335, "grad_norm": 0.6466224988640015, "learning_rate": 6.499340957304543e-06, "loss": 0.4697, "step": 3947 }, { "avg_step_time": 5.728060194940278, "epoch": 0.42101333333333335, "eta_time": 8.636641871704397, "step": 3947 }, { "epoch": 0.42112, "grad_norm": 1.6130131341661536, "learning_rate": 6.497692886667537e-06, "loss": 0.4264, "step": 3948 }, { "avg_step_time": 5.725347273277514, "epoch": 0.42112, "eta_time": 8.630961014465852, "step": 3948 }, { "epoch": 0.4212266666666667, "grad_norm": 1.6598231183743077, "learning_rate": 6.496044637254982e-06, "loss": 0.4937, "step": 3949 }, { "avg_step_time": 5.683853455264159, "epoch": 0.4212266666666667, "eta_time": 8.566830235628702, "step": 3949 }, { "epoch": 0.42133333333333334, "grad_norm": 1.9153726434694127, "learning_rate": 6.4943962092636205e-06, "loss": 0.5451, "step": 3950 }, { "avg_step_time": 5.7223652757779515, "epoch": 0.42133333333333334, "eta_time": 8.623286561415386, "step": 3950 }, { "epoch": 0.42144, "grad_norm": 1.702329708873256, "learning_rate": 6.492747602890223e-06, "loss": 0.4475, "step": 3951 }, { "avg_step_time": 5.7429611779222585, "epoch": 0.42144, "eta_time": 8.652728174736204, "step": 3951 }, { "epoch": 0.4215466666666667, "grad_norm": 2.0542417357184544, "learning_rate": 6.4910988183315805e-06, "loss": 0.5131, "step": 3952 }, { "avg_step_time": 5.7486565522473265, "epoch": 0.4215466666666667, "eta_time": 8.65971235634368, "step": 3952 }, { "epoch": 0.4216533333333333, "grad_norm": 1.7460261712350718, "learning_rate": 6.4894498557845035e-06, "loss": 0.4854, "step": 3953 }, { "avg_step_time": 5.726233525709673, "epoch": 0.4216533333333333, "eta_time": 8.624343937888291, "step": 3953 }, { "epoch": 0.42176, "grad_norm": 1.515757414929661, "learning_rate": 6.487800715445822e-06, "loss": 0.4698, "step": 3954 }, { "avg_step_time": 5.7290569098308834, "epoch": 0.42176, "eta_time": 8.627004863387006, "step": 3954 }, { "epoch": 0.42186666666666667, "grad_norm": 1.6944806864184871, "learning_rate": 6.486151397512391e-06, "loss": 0.574, "step": 3955 }, { "avg_step_time": 5.709637049472693, "epoch": 0.42186666666666667, "eta_time": 8.596175780039443, "step": 3955 }, { "epoch": 0.4219733333333333, "grad_norm": 2.1703072570460953, "learning_rate": 6.484501902181086e-06, "loss": 0.5491, "step": 3956 }, { "avg_step_time": 5.709705364824545, "epoch": 0.4219733333333333, "eta_time": 8.594692603328948, "step": 3956 }, { "epoch": 0.42208, "grad_norm": 1.5999556729283055, "learning_rate": 6.4828522296488014e-06, "loss": 0.4281, "step": 3957 }, { "avg_step_time": 5.713610800829801, "epoch": 0.42208, "eta_time": 8.59898425524885, "step": 3957 }, { "epoch": 0.42218666666666665, "grad_norm": 1.7385876105197788, "learning_rate": 6.481202380112454e-06, "loss": 0.4909, "step": 3958 }, { "avg_step_time": 5.715327156914605, "epoch": 0.42218666666666665, "eta_time": 8.59997978027956, "step": 3958 }, { "epoch": 0.42229333333333335, "grad_norm": 1.7363260473296889, "learning_rate": 6.479552353768986e-06, "loss": 0.4478, "step": 3959 }, { "avg_step_time": 5.717169744799835, "epoch": 0.42229333333333335, "eta_time": 8.601164260509975, "step": 3959 }, { "epoch": 0.4224, "grad_norm": 0.6431279061479745, "learning_rate": 6.477902150815347e-06, "loss": 0.4764, "step": 3960 }, { "avg_step_time": 5.683595110671689, "epoch": 0.4224, "eta_time": 8.549074312301999, "step": 3960 }, { "epoch": 0.42250666666666664, "grad_norm": 1.6475863739080654, "learning_rate": 6.4762517714485275e-06, "loss": 0.4151, "step": 3961 }, { "avg_step_time": 5.714668440096306, "epoch": 0.42250666666666664, "eta_time": 8.594226370744833, "step": 3961 }, { "epoch": 0.42261333333333334, "grad_norm": 1.7424932115646918, "learning_rate": 6.474601215865523e-06, "loss": 0.612, "step": 3962 }, { "avg_step_time": 5.71591525366812, "epoch": 0.42261333333333334, "eta_time": 8.59451368558487, "step": 3962 }, { "epoch": 0.42272, "grad_norm": 0.6452934047505434, "learning_rate": 6.472950484263359e-06, "loss": 0.4401, "step": 3963 }, { "avg_step_time": 5.676288611961134, "epoch": 0.42272, "eta_time": 8.53335387998157, "step": 3963 }, { "epoch": 0.4228266666666667, "grad_norm": 1.7796964238416626, "learning_rate": 6.471299576839076e-06, "loss": 0.5074, "step": 3964 }, { "avg_step_time": 5.674022313320275, "epoch": 0.4228266666666667, "eta_time": 8.528370760382225, "step": 3964 }, { "epoch": 0.42293333333333333, "grad_norm": 0.632706741107245, "learning_rate": 6.469648493789741e-06, "loss": 0.4308, "step": 3965 }, { "avg_step_time": 5.664472269289421, "epoch": 0.42293333333333333, "eta_time": 8.512443049126603, "step": 3965 }, { "epoch": 0.42304, "grad_norm": 1.5495332180797103, "learning_rate": 6.467997235312437e-06, "loss": 0.5171, "step": 3966 }, { "avg_step_time": 5.652043679747918, "epoch": 0.42304, "eta_time": 8.492195628821246, "step": 3966 }, { "epoch": 0.42314666666666667, "grad_norm": 1.631953727844366, "learning_rate": 6.466345801604272e-06, "loss": 0.556, "step": 3967 }, { "avg_step_time": 5.646488131898822, "epoch": 0.42314666666666667, "eta_time": 8.482279949252453, "step": 3967 }, { "epoch": 0.4232533333333333, "grad_norm": 2.0363000990314317, "learning_rate": 6.464694192862372e-06, "loss": 0.561, "step": 3968 }, { "avg_step_time": 5.647263919464265, "epoch": 0.4232533333333333, "eta_time": 8.481876670150912, "step": 3968 }, { "epoch": 0.42336, "grad_norm": 1.4441877317161913, "learning_rate": 6.463042409283885e-06, "loss": 0.4389, "step": 3969 }, { "avg_step_time": 5.648557643697719, "epoch": 0.42336, "eta_time": 8.482250728286076, "step": 3969 }, { "epoch": 0.42346666666666666, "grad_norm": 1.8335057383309892, "learning_rate": 6.461390451065982e-06, "loss": 0.4663, "step": 3970 }, { "avg_step_time": 5.647682211615822, "epoch": 0.42346666666666666, "eta_time": 8.479367320495422, "step": 3970 }, { "epoch": 0.42357333333333336, "grad_norm": 0.654350956425418, "learning_rate": 6.45973831840585e-06, "loss": 0.4462, "step": 3971 }, { "avg_step_time": 5.613107601801555, "epoch": 0.42357333333333336, "eta_time": 8.425898188926556, "step": 3971 }, { "epoch": 0.42368, "grad_norm": 1.8282989109634316, "learning_rate": 6.458086011500703e-06, "loss": 0.4671, "step": 3972 }, { "avg_step_time": 5.613444482437288, "epoch": 0.42368, "eta_time": 8.424844594057962, "step": 3972 }, { "epoch": 0.42378666666666664, "grad_norm": 0.6330303379789178, "learning_rate": 6.456433530547768e-06, "loss": 0.4449, "step": 3973 }, { "avg_step_time": 5.577454068443992, "epoch": 0.42378666666666664, "eta_time": 8.369279688259569, "step": 3973 }, { "epoch": 0.42389333333333334, "grad_norm": 1.9207160137324713, "learning_rate": 6.4547808757442995e-06, "loss": 0.521, "step": 3974 }, { "avg_step_time": 5.566074636247423, "epoch": 0.42389333333333334, "eta_time": 8.350658086214537, "step": 3974 }, { "epoch": 0.424, "grad_norm": 1.6266800868711078, "learning_rate": 6.453128047287573e-06, "loss": 0.4731, "step": 3975 }, { "avg_step_time": 5.5593747105261295, "epoch": 0.424, "eta_time": 8.339062065789195, "step": 3975 }, { "epoch": 0.4241066666666667, "grad_norm": 1.9617483915922795, "learning_rate": 6.451475045374877e-06, "loss": 0.5496, "step": 3976 }, { "avg_step_time": 5.534819959390043, "epoch": 0.4241066666666667, "eta_time": 8.300692489096345, "step": 3976 }, { "epoch": 0.42421333333333333, "grad_norm": 1.7357848098478117, "learning_rate": 6.449821870203529e-06, "loss": 0.4354, "step": 3977 }, { "avg_step_time": 5.4473149607879945, "epoch": 0.42421333333333333, "eta_time": 8.167946155092665, "step": 3977 }, { "epoch": 0.42432, "grad_norm": 1.5884402539069336, "learning_rate": 6.448168521970865e-06, "loss": 0.4699, "step": 3978 }, { "avg_step_time": 5.4809952456541735, "epoch": 0.42432, "eta_time": 8.216925372443216, "step": 3978 }, { "epoch": 0.4244266666666667, "grad_norm": 1.9117132457653072, "learning_rate": 6.4465150008742365e-06, "loss": 0.5143, "step": 3979 }, { "avg_step_time": 5.4825241999192675, "epoch": 0.4244266666666667, "eta_time": 8.217694606323436, "step": 3979 }, { "epoch": 0.4245333333333333, "grad_norm": 1.7579652068078722, "learning_rate": 6.444861307111023e-06, "loss": 0.4826, "step": 3980 }, { "avg_step_time": 5.481367852952745, "epoch": 0.4245333333333333, "eta_time": 8.214438768522239, "step": 3980 }, { "epoch": 0.42464, "grad_norm": 0.6747837792884469, "learning_rate": 6.443207440878624e-06, "loss": 0.4445, "step": 3981 }, { "avg_step_time": 5.446011654054276, "epoch": 0.42464, "eta_time": 8.159940794991323, "step": 3981 }, { "epoch": 0.42474666666666666, "grad_norm": 1.7994628984060326, "learning_rate": 6.441553402374451e-06, "loss": 0.5028, "step": 3982 }, { "avg_step_time": 5.44574153062069, "epoch": 0.42474666666666666, "eta_time": 8.15802335406594, "step": 3982 }, { "epoch": 0.42485333333333336, "grad_norm": 0.6961967662906093, "learning_rate": 6.439899191795946e-06, "loss": 0.4475, "step": 3983 }, { "avg_step_time": 5.4076337164098565, "epoch": 0.42485333333333336, "eta_time": 8.09943361080054, "step": 3983 }, { "epoch": 0.42496, "grad_norm": 1.8753735197553785, "learning_rate": 6.438244809340568e-06, "loss": 0.5311, "step": 3984 }, { "avg_step_time": 5.4445186600540625, "epoch": 0.42496, "eta_time": 8.15316669343096, "step": 3984 }, { "epoch": 0.42506666666666665, "grad_norm": 1.4516168277509904, "learning_rate": 6.4365902552057945e-06, "loss": 0.3945, "step": 3985 }, { "avg_step_time": 5.499348556152498, "epoch": 0.42506666666666665, "eta_time": 8.233746866017212, "step": 3985 }, { "epoch": 0.42517333333333335, "grad_norm": 1.9769096935582047, "learning_rate": 6.4349355295891246e-06, "loss": 0.5575, "step": 3986 }, { "avg_step_time": 5.529662040748981, "epoch": 0.42517333333333335, "eta_time": 8.277596871554517, "step": 3986 }, { "epoch": 0.42528, "grad_norm": 1.6904353258248048, "learning_rate": 6.43328063268808e-06, "loss": 0.5254, "step": 3987 }, { "avg_step_time": 5.532989516402736, "epoch": 0.42528, "eta_time": 8.281040976216095, "step": 3987 }, { "epoch": 0.4253866666666667, "grad_norm": 1.4672740103986208, "learning_rate": 6.431625564700201e-06, "loss": 0.3566, "step": 3988 }, { "avg_step_time": 5.575969854990642, "epoch": 0.4253866666666667, "eta_time": 8.343819335787385, "step": 3988 }, { "epoch": 0.42549333333333333, "grad_norm": 2.124947720399452, "learning_rate": 6.4299703258230485e-06, "loss": 0.586, "step": 3989 }, { "avg_step_time": 5.575297945677632, "epoch": 0.42549333333333333, "eta_time": 8.341265204283257, "step": 3989 }, { "epoch": 0.4256, "grad_norm": 1.7451296192406158, "learning_rate": 6.428314916254203e-06, "loss": 0.4631, "step": 3990 }, { "avg_step_time": 5.562539762920803, "epoch": 0.4256, "eta_time": 8.320632395369035, "step": 3990 }, { "epoch": 0.4257066666666667, "grad_norm": 1.8981881913515022, "learning_rate": 6.4266593361912665e-06, "loss": 0.4509, "step": 3991 }, { "avg_step_time": 5.482451583399917, "epoch": 0.4257066666666667, "eta_time": 8.199310923618098, "step": 3991 }, { "epoch": 0.4258133333333333, "grad_norm": 1.8379744956474608, "learning_rate": 6.4250035858318635e-06, "loss": 0.5233, "step": 3992 }, { "avg_step_time": 5.478584761571402, "epoch": 0.4258133333333333, "eta_time": 8.192006047649683, "step": 3992 }, { "epoch": 0.42592, "grad_norm": 2.081211777048781, "learning_rate": 6.423347665373633e-06, "loss": 0.5363, "step": 3993 }, { "avg_step_time": 5.482750834840717, "epoch": 0.42592, "eta_time": 8.196712498086873, "step": 3993 }, { "epoch": 0.42602666666666666, "grad_norm": 0.6520772205025179, "learning_rate": 6.42169157501424e-06, "loss": 0.4633, "step": 3994 }, { "avg_step_time": 5.448584891328908, "epoch": 0.42602666666666666, "eta_time": 8.14412091673357, "step": 3994 }, { "epoch": 0.4261333333333333, "grad_norm": 1.5551372518286786, "learning_rate": 6.4200353149513674e-06, "loss": 0.5057, "step": 3995 }, { "avg_step_time": 5.455332650078668, "epoch": 0.4261333333333333, "eta_time": 8.152691571506454, "step": 3995 }, { "epoch": 0.42624, "grad_norm": 1.498086229386793, "learning_rate": 6.418378885382716e-06, "loss": 0.3894, "step": 3996 }, { "avg_step_time": 5.473414356058294, "epoch": 0.42624, "eta_time": 8.178193283677102, "step": 3996 }, { "epoch": 0.42634666666666665, "grad_norm": 1.5913886039032985, "learning_rate": 6.416722286506013e-06, "loss": 0.5157, "step": 3997 }, { "avg_step_time": 5.560696729505905, "epoch": 0.42634666666666665, "eta_time": 8.307063058689653, "step": 3997 }, { "epoch": 0.42645333333333335, "grad_norm": 0.6763681915710468, "learning_rate": 6.415065518519e-06, "loss": 0.4756, "step": 3998 }, { "avg_step_time": 5.561971606630268, "epoch": 0.42645333333333335, "eta_time": 8.307422591347486, "step": 3998 }, { "epoch": 0.42656, "grad_norm": 1.814437239629471, "learning_rate": 6.41340858161944e-06, "loss": 0.4189, "step": 3999 }, { "avg_step_time": 5.570196346803145, "epoch": 0.42656, "eta_time": 8.318159877892695, "step": 3999 }, { "epoch": 0.4266666666666667, "grad_norm": 1.645962076767183, "learning_rate": 6.411751476005119e-06, "loss": 0.4803, "step": 4000 }, { "avg_step_time": 5.5692565152139375, "epoch": 0.4266666666666667, "eta_time": 8.315209380354142, "step": 4000 }, { "epoch": 0.42677333333333334, "grad_norm": 2.0550381941481293, "learning_rate": 6.410094201873842e-06, "loss": 0.5852, "step": 4001 }, { "avg_step_time": 5.577463735233653, "epoch": 0.42677333333333334, "eta_time": 8.325913920318238, "step": 4001 }, { "epoch": 0.42688, "grad_norm": 1.6754938254135225, "learning_rate": 6.408436759423431e-06, "loss": 0.4862, "step": 4002 }, { "avg_step_time": 5.587491206448488, "epoch": 0.42688, "eta_time": 8.339330625624367, "step": 4002 }, { "epoch": 0.4269866666666667, "grad_norm": 1.7998815382146223, "learning_rate": 6.406779148851731e-06, "loss": 0.5521, "step": 4003 }, { "avg_step_time": 5.589475643755209, "epoch": 0.4269866666666667, "eta_time": 8.340739766181384, "step": 4003 }, { "epoch": 0.4270933333333333, "grad_norm": 1.8601926278882954, "learning_rate": 6.405121370356606e-06, "loss": 0.5428, "step": 4004 }, { "avg_step_time": 5.594803499452995, "epoch": 0.4270933333333333, "eta_time": 8.347135998767232, "step": 4004 }, { "epoch": 0.4272, "grad_norm": 1.9688487721574606, "learning_rate": 6.403463424135943e-06, "loss": 0.6594, "step": 4005 }, { "avg_step_time": 5.593204835448602, "epoch": 0.4272, "eta_time": 8.343197212877499, "step": 4005 }, { "epoch": 0.42730666666666667, "grad_norm": 2.1950623661817943, "learning_rate": 6.401805310387644e-06, "loss": 0.5322, "step": 4006 }, { "avg_step_time": 5.592929194671939, "epoch": 0.42730666666666667, "eta_time": 8.34123245727601, "step": 4006 }, { "epoch": 0.4274133333333333, "grad_norm": 1.687482279265714, "learning_rate": 6.400147029309635e-06, "loss": 0.5074, "step": 4007 }, { "avg_step_time": 5.591673260987407, "epoch": 0.4274133333333333, "eta_time": 8.337806129161223, "step": 4007 }, { "epoch": 0.42752, "grad_norm": 1.9059821213408223, "learning_rate": 6.398488581099859e-06, "loss": 0.5173, "step": 4008 }, { "avg_step_time": 5.576561383526735, "epoch": 0.42752, "eta_time": 8.313723595941108, "step": 4008 }, { "epoch": 0.42762666666666665, "grad_norm": 1.7928693455142701, "learning_rate": 6.396829965956283e-06, "loss": 0.4892, "step": 4009 }, { "avg_step_time": 5.5767098051128965, "epoch": 0.42762666666666665, "eta_time": 8.312395781732167, "step": 4009 }, { "epoch": 0.42773333333333335, "grad_norm": 1.7160676753772197, "learning_rate": 6.395171184076889e-06, "loss": 0.4413, "step": 4010 }, { "avg_step_time": 5.581223261476767, "epoch": 0.42773333333333335, "eta_time": 8.317572999395237, "step": 4010 }, { "epoch": 0.42784, "grad_norm": 1.9517043796208868, "learning_rate": 6.393512235659681e-06, "loss": 0.4573, "step": 4011 }, { "avg_step_time": 5.579902309359926, "epoch": 0.42784, "eta_time": 8.31405444094629, "step": 4011 }, { "epoch": 0.42794666666666664, "grad_norm": 0.6793701763959044, "learning_rate": 6.391853120902687e-06, "loss": 0.4573, "step": 4012 }, { "avg_step_time": 5.545474245090677, "epoch": 0.42794666666666664, "eta_time": 8.261216215672583, "step": 4012 }, { "epoch": 0.42805333333333334, "grad_norm": 1.816205166587748, "learning_rate": 6.390193840003945e-06, "loss": 0.3933, "step": 4013 }, { "avg_step_time": 5.582741048600939, "epoch": 0.42805333333333334, "eta_time": 8.31518263961062, "step": 4013 }, { "epoch": 0.42816, "grad_norm": 1.859495141129021, "learning_rate": 6.388534393161525e-06, "loss": 0.5209, "step": 4014 }, { "avg_step_time": 5.585890543581259, "epoch": 0.42816, "eta_time": 8.318322001149758, "step": 4014 }, { "epoch": 0.4282666666666667, "grad_norm": 0.6437888611197391, "learning_rate": 6.3868747805735084e-06, "loss": 0.4568, "step": 4015 }, { "avg_step_time": 5.550211371797504, "epoch": 0.4282666666666667, "eta_time": 8.263648042454061, "step": 4015 }, { "epoch": 0.42837333333333333, "grad_norm": 1.6496665633464087, "learning_rate": 6.385215002437997e-06, "loss": 0.5202, "step": 4016 }, { "avg_step_time": 5.535616665175467, "epoch": 0.42837333333333333, "eta_time": 8.240380474632035, "step": 4016 }, { "epoch": 0.42848, "grad_norm": 1.819238308375985, "learning_rate": 6.383555058953115e-06, "loss": 0.5058, "step": 4017 }, { "avg_step_time": 5.5476627783341845, "epoch": 0.42848, "eta_time": 8.256771435087378, "step": 4017 }, { "epoch": 0.42858666666666667, "grad_norm": 1.959879024130191, "learning_rate": 6.381894950317006e-06, "loss": 0.5065, "step": 4018 }, { "avg_step_time": 5.577285667862555, "epoch": 0.42858666666666667, "eta_time": 8.299310922983253, "step": 4018 }, { "epoch": 0.4286933333333333, "grad_norm": 1.7221657430846284, "learning_rate": 6.380234676727832e-06, "loss": 0.4707, "step": 4019 }, { "avg_step_time": 5.578256366228817, "epoch": 0.4286933333333333, "eta_time": 8.299205860422651, "step": 4019 }, { "epoch": 0.4288, "grad_norm": 0.6832409579609346, "learning_rate": 6.378574238383776e-06, "loss": 0.4466, "step": 4020 }, { "avg_step_time": 5.542640462066188, "epoch": 0.4288, "eta_time": 8.244677687323456, "step": 4020 }, { "epoch": 0.42890666666666666, "grad_norm": 1.8363588319556439, "learning_rate": 6.3769136354830395e-06, "loss": 0.5411, "step": 4021 }, { "avg_step_time": 5.542917359958995, "epoch": 0.42890666666666666, "eta_time": 8.24354987367235, "step": 4021 }, { "epoch": 0.42901333333333336, "grad_norm": 1.6884045042572327, "learning_rate": 6.375252868223845e-06, "loss": 0.4831, "step": 4022 }, { "avg_step_time": 5.539869826249402, "epoch": 0.42901333333333336, "eta_time": 8.237478661086957, "step": 4022 }, { "epoch": 0.42912, "grad_norm": 0.6569342433329822, "learning_rate": 6.373591936804433e-06, "loss": 0.4566, "step": 4023 }, { "avg_step_time": 5.503437786391287, "epoch": 0.42912, "eta_time": 8.181777509101714, "step": 4023 }, { "epoch": 0.42922666666666665, "grad_norm": 1.612859331822889, "learning_rate": 6.3719308414230645e-06, "loss": 0.4355, "step": 4024 }, { "avg_step_time": 5.4993992116716175, "epoch": 0.42922666666666665, "eta_time": 8.174245883793008, "step": 4024 }, { "epoch": 0.42933333333333334, "grad_norm": 0.6477493947116247, "learning_rate": 6.3702695822780206e-06, "loss": 0.4476, "step": 4025 }, { "avg_step_time": 5.4621000434413105, "epoch": 0.42933333333333334, "eta_time": 8.117287564558614, "step": 4025 }, { "epoch": 0.42944, "grad_norm": 0.6466514648317028, "learning_rate": 6.3686081595676e-06, "loss": 0.4219, "step": 4026 }, { "avg_step_time": 5.429058619219847, "epoch": 0.42944, "eta_time": 8.06667626505749, "step": 4026 }, { "epoch": 0.4295466666666667, "grad_norm": 1.8626244747297456, "learning_rate": 6.366946573490124e-06, "loss": 0.5616, "step": 4027 }, { "avg_step_time": 5.416905805318042, "epoch": 0.4295466666666667, "eta_time": 8.047114513011358, "step": 4027 }, { "epoch": 0.42965333333333333, "grad_norm": 1.8004597668489366, "learning_rate": 6.365284824243929e-06, "loss": 0.4957, "step": 4028 }, { "avg_step_time": 5.414787533307316, "epoch": 0.42965333333333333, "eta_time": 8.042463594609506, "step": 4028 }, { "epoch": 0.42976, "grad_norm": 1.7390425024380904, "learning_rate": 6.3636229120273766e-06, "loss": 0.5051, "step": 4029 }, { "avg_step_time": 5.405443242101958, "epoch": 0.42976, "eta_time": 8.027083214521408, "step": 4029 }, { "epoch": 0.4298666666666667, "grad_norm": 1.5878922419523231, "learning_rate": 6.361960837038842e-06, "loss": 0.4632, "step": 4030 }, { "avg_step_time": 5.44262782250992, "epoch": 0.4298666666666667, "eta_time": 8.080790475365422, "step": 4030 }, { "epoch": 0.4299733333333333, "grad_norm": 1.777029122568992, "learning_rate": 6.360298599476727e-06, "loss": 0.4594, "step": 4031 }, { "avg_step_time": 5.437236116390036, "epoch": 0.4299733333333333, "eta_time": 8.071274946107875, "step": 4031 }, { "epoch": 0.43008, "grad_norm": 0.6197341975853525, "learning_rate": 6.3586361995394415e-06, "loss": 0.4357, "step": 4032 }, { "avg_step_time": 5.403099999283299, "epoch": 0.43008, "eta_time": 8.019100915602962, "step": 4032 }, { "epoch": 0.43018666666666666, "grad_norm": 1.7640819066160816, "learning_rate": 6.356973637425427e-06, "loss": 0.4791, "step": 4033 }, { "avg_step_time": 5.424100897528908, "epoch": 0.43018666666666666, "eta_time": 8.048763054055396, "step": 4033 }, { "epoch": 0.43029333333333336, "grad_norm": 2.0438966364224487, "learning_rate": 6.355310913333139e-06, "loss": 0.5108, "step": 4034 }, { "avg_step_time": 5.422316363363555, "epoch": 0.43029333333333336, "eta_time": 8.044608804645764, "step": 4034 }, { "epoch": 0.4304, "grad_norm": 1.7102309745794586, "learning_rate": 6.353648027461048e-06, "loss": 0.4817, "step": 4035 }, { "avg_step_time": 5.428071320658982, "epoch": 0.4304, "eta_time": 8.051639125644158, "step": 4035 }, { "epoch": 0.43050666666666665, "grad_norm": 1.735554556428794, "learning_rate": 6.351984980007653e-06, "loss": 0.5074, "step": 4036 }, { "avg_step_time": 5.421554693067916, "epoch": 0.43050666666666665, "eta_time": 8.040466807302668, "step": 4036 }, { "epoch": 0.43061333333333335, "grad_norm": 1.8874968690934255, "learning_rate": 6.350321771171467e-06, "loss": 0.3809, "step": 4037 }, { "avg_step_time": 5.467530000089395, "epoch": 0.43061333333333335, "eta_time": 8.107131983465887, "step": 4037 }, { "epoch": 0.43072, "grad_norm": 1.573529899710532, "learning_rate": 6.348658401151018e-06, "loss": 0.4892, "step": 4038 }, { "avg_step_time": 5.466220407774954, "epoch": 0.43072, "eta_time": 8.103671754526369, "step": 4038 }, { "epoch": 0.4308266666666667, "grad_norm": 0.6320992561723069, "learning_rate": 6.3469948701448644e-06, "loss": 0.4395, "step": 4039 }, { "avg_step_time": 5.42991422884392, "epoch": 0.4308266666666667, "eta_time": 8.048339534753099, "step": 4039 }, { "epoch": 0.43093333333333333, "grad_norm": 1.6153951101365425, "learning_rate": 6.345331178351572e-06, "loss": 0.3849, "step": 4040 }, { "avg_step_time": 5.444901789077605, "epoch": 0.43093333333333333, "eta_time": 8.069041956869173, "step": 4040 }, { "epoch": 0.43104, "grad_norm": 1.8301234705456155, "learning_rate": 6.343667325969736e-06, "loss": 0.4767, "step": 4041 }, { "avg_step_time": 5.444599573058311, "epoch": 0.43104, "eta_time": 8.067081700748064, "step": 4041 }, { "epoch": 0.4311466666666667, "grad_norm": 1.906442732034502, "learning_rate": 6.342003313197962e-06, "loss": 0.4752, "step": 4042 }, { "avg_step_time": 5.440754989180902, "epoch": 0.4311466666666667, "eta_time": 8.059873988139374, "step": 4042 }, { "epoch": 0.4312533333333333, "grad_norm": 1.9115800438187318, "learning_rate": 6.340339140234882e-06, "loss": 0.4836, "step": 4043 }, { "avg_step_time": 5.4557824833224515, "epoch": 0.4312533333333333, "eta_time": 8.080620055854254, "step": 4043 }, { "epoch": 0.43136, "grad_norm": 2.182489644152302, "learning_rate": 6.3386748072791395e-06, "loss": 0.504, "step": 4044 }, { "avg_step_time": 5.458435578779741, "epoch": 0.43136, "eta_time": 8.083033352909666, "step": 4044 }, { "epoch": 0.43146666666666667, "grad_norm": 2.116297933066469, "learning_rate": 6.3370103145294045e-06, "loss": 0.5698, "step": 4045 }, { "avg_step_time": 5.460159740062675, "epoch": 0.43146666666666667, "eta_time": 8.084069837370572, "step": 4045 }, { "epoch": 0.4315733333333333, "grad_norm": 0.673561781582765, "learning_rate": 6.3353456621843635e-06, "loss": 0.4633, "step": 4046 }, { "avg_step_time": 5.454986129144226, "epoch": 0.4315733333333333, "eta_time": 8.074894745058216, "step": 4046 }, { "epoch": 0.43168, "grad_norm": 1.7752837901166998, "learning_rate": 6.33368085044272e-06, "loss": 0.6123, "step": 4047 }, { "avg_step_time": 5.453997525301847, "epoch": 0.43168, "eta_time": 8.071916337446734, "step": 4047 }, { "epoch": 0.43178666666666665, "grad_norm": 1.7662469248327488, "learning_rate": 6.332015879503198e-06, "loss": 0.5695, "step": 4048 }, { "avg_step_time": 5.459233823448721, "epoch": 0.43178666666666665, "eta_time": 8.07814960486426, "step": 4048 }, { "epoch": 0.43189333333333335, "grad_norm": 1.545155453226525, "learning_rate": 6.330350749564542e-06, "loss": 0.4699, "step": 4049 }, { "avg_step_time": 5.456166168656012, "epoch": 0.43189333333333335, "eta_time": 8.072094726183867, "step": 4049 }, { "epoch": 0.432, "grad_norm": 2.0682052045665364, "learning_rate": 6.328685460825512e-06, "loss": 0.5341, "step": 4050 }, { "avg_step_time": 5.434521542655097, "epoch": 0.432, "eta_time": 8.03856311517733, "step": 4050 }, { "epoch": 0.43210666666666664, "grad_norm": 2.024950951763855, "learning_rate": 6.327020013484893e-06, "loss": 0.5196, "step": 4051 }, { "avg_step_time": 5.431721155089561, "epoch": 0.43210666666666664, "eta_time": 8.032912063804673, "step": 4051 }, { "epoch": 0.43221333333333334, "grad_norm": 2.003775439453081, "learning_rate": 6.32535440774148e-06, "loss": 0.586, "step": 4052 }, { "avg_step_time": 5.425460682974921, "epoch": 0.43221333333333334, "eta_time": 8.022146448743197, "step": 4052 }, { "epoch": 0.43232, "grad_norm": 1.6322744236359727, "learning_rate": 6.323688643794094e-06, "loss": 0.5214, "step": 4053 }, { "avg_step_time": 5.42233935991923, "epoch": 0.43232, "eta_time": 8.01602502041393, "step": 4053 }, { "epoch": 0.4324266666666667, "grad_norm": 1.8788515027888668, "learning_rate": 6.322022721841574e-06, "loss": 0.453, "step": 4054 }, { "avg_step_time": 5.4202832043772995, "epoch": 0.4324266666666667, "eta_time": 8.011479702914336, "step": 4054 }, { "epoch": 0.4325333333333333, "grad_norm": 1.7059526517716155, "learning_rate": 6.320356642082774e-06, "loss": 0.4843, "step": 4055 }, { "avg_step_time": 5.4200030336476335, "epoch": 0.4325333333333333, "eta_time": 8.009560038612614, "step": 4055 }, { "epoch": 0.43264, "grad_norm": 1.7959074793911554, "learning_rate": 6.318690404716572e-06, "loss": 0.4675, "step": 4056 }, { "avg_step_time": 5.419179723720358, "epoch": 0.43264, "eta_time": 8.00683804179683, "step": 4056 }, { "epoch": 0.43274666666666667, "grad_norm": 1.827390779307905, "learning_rate": 6.31702400994186e-06, "loss": 0.4104, "step": 4057 }, { "avg_step_time": 5.422905168148002, "epoch": 0.43274666666666667, "eta_time": 8.010836023391965, "step": 4057 }, { "epoch": 0.4328533333333333, "grad_norm": 2.14640628423925, "learning_rate": 6.315357457957553e-06, "loss": 0.5347, "step": 4058 }, { "avg_step_time": 5.422959710612441, "epoch": 0.4328533333333333, "eta_time": 8.009410217035098, "step": 4058 }, { "epoch": 0.43296, "grad_norm": 1.6227971251965683, "learning_rate": 6.313690748962582e-06, "loss": 0.522, "step": 4059 }, { "avg_step_time": 5.463686981586495, "epoch": 0.43296, "eta_time": 8.068044442809391, "step": 4059 }, { "epoch": 0.43306666666666666, "grad_norm": 1.6228675358291713, "learning_rate": 6.312023883155897e-06, "loss": 0.6155, "step": 4060 }, { "avg_step_time": 5.46834907628069, "epoch": 0.43306666666666666, "eta_time": 8.07340981678663, "step": 4060 }, { "epoch": 0.43317333333333335, "grad_norm": 1.976331247801335, "learning_rate": 6.310356860736468e-06, "loss": 0.5286, "step": 4061 }, { "avg_step_time": 5.465575251916443, "epoch": 0.43317333333333335, "eta_time": 8.067796357967772, "step": 4061 }, { "epoch": 0.43328, "grad_norm": 1.9659774859257462, "learning_rate": 6.3086896819032814e-06, "loss": 0.5653, "step": 4062 }, { "avg_step_time": 5.522261845945108, "epoch": 0.43328, "eta_time": 8.149938107640656, "step": 4062 }, { "epoch": 0.43338666666666664, "grad_norm": 1.7151087531958995, "learning_rate": 6.307022346855347e-06, "loss": 0.5222, "step": 4063 }, { "avg_step_time": 5.520202499447447, "epoch": 0.43338666666666664, "eta_time": 8.145365465851343, "step": 4063 }, { "epoch": 0.43349333333333334, "grad_norm": 1.8555800397632567, "learning_rate": 6.305354855791688e-06, "loss": 0.4899, "step": 4064 }, { "avg_step_time": 5.56892201153919, "epoch": 0.43349333333333334, "eta_time": 8.215706889801288, "step": 4064 }, { "epoch": 0.4336, "grad_norm": 1.8438400388381742, "learning_rate": 6.303687208911348e-06, "loss": 0.5364, "step": 4065 }, { "avg_step_time": 5.56712075435754, "epoch": 0.4336, "eta_time": 8.211503112677372, "step": 4065 }, { "epoch": 0.4337066666666667, "grad_norm": 1.7295475434635588, "learning_rate": 6.30201940641339e-06, "loss": 0.4148, "step": 4066 }, { "avg_step_time": 5.562926263520212, "epoch": 0.4337066666666667, "eta_time": 8.20377098139689, "step": 4066 }, { "epoch": 0.43381333333333333, "grad_norm": 0.6218903676263744, "learning_rate": 6.300351448496894e-06, "loss": 0.4272, "step": 4067 }, { "avg_step_time": 5.5256300670932035, "epoch": 0.43381333333333333, "eta_time": 8.147234554480757, "step": 4067 }, { "epoch": 0.43392, "grad_norm": 2.147554345857786, "learning_rate": 6.298683335360962e-06, "loss": 0.6314, "step": 4068 }, { "avg_step_time": 5.5252354096884675, "epoch": 0.43392, "eta_time": 8.145117866449082, "step": 4068 }, { "epoch": 0.43402666666666667, "grad_norm": 1.5178005932055445, "learning_rate": 6.2970150672047115e-06, "loss": 0.4356, "step": 4069 }, { "avg_step_time": 5.52556606735846, "epoch": 0.43402666666666667, "eta_time": 8.144070431501108, "step": 4069 }, { "epoch": 0.4341333333333333, "grad_norm": 1.766984924497747, "learning_rate": 6.295346644227278e-06, "loss": 0.501, "step": 4070 }, { "avg_step_time": 5.560617930961378, "epoch": 0.4341333333333333, "eta_time": 8.194188367708364, "step": 4070 }, { "epoch": 0.43424, "grad_norm": 0.7112574419495731, "learning_rate": 6.293678066627816e-06, "loss": 0.463, "step": 4071 }, { "avg_step_time": 5.525798306320652, "epoch": 0.43424, "eta_time": 8.141342837979094, "step": 4071 }, { "epoch": 0.43434666666666666, "grad_norm": 2.4174081497279043, "learning_rate": 6.292009334605501e-06, "loss": 0.5331, "step": 4072 }, { "avg_step_time": 5.558917079309021, "epoch": 0.43434666666666666, "eta_time": 8.188593686548817, "step": 4072 }, { "epoch": 0.43445333333333336, "grad_norm": 1.8680930228750576, "learning_rate": 6.290340448359526e-06, "loss": 0.5499, "step": 4073 }, { "avg_step_time": 5.5632888018482864, "epoch": 0.43445333333333336, "eta_time": 8.193488118722115, "step": 4073 }, { "epoch": 0.43456, "grad_norm": 1.9844019812912879, "learning_rate": 6.288671408089098e-06, "loss": 0.6007, "step": 4074 }, { "avg_step_time": 5.56816083253032, "epoch": 0.43456, "eta_time": 8.199116825900896, "step": 4074 }, { "epoch": 0.43466666666666665, "grad_norm": 1.7164209740223078, "learning_rate": 6.287002213993446e-06, "loss": 0.409, "step": 4075 }, { "avg_step_time": 5.570497011897539, "epoch": 0.43466666666666665, "eta_time": 8.201009489738045, "step": 4075 }, { "epoch": 0.43477333333333334, "grad_norm": 1.6931493005179457, "learning_rate": 6.2853328662718215e-06, "loss": 0.47, "step": 4076 }, { "avg_step_time": 5.574617267859103, "epoch": 0.43477333333333334, "eta_time": 8.205526917329275, "step": 4076 }, { "epoch": 0.43488, "grad_norm": 1.658495184894354, "learning_rate": 6.283663365123486e-06, "loss": 0.5438, "step": 4077 }, { "avg_step_time": 5.582350769428292, "epoch": 0.43488, "eta_time": 8.215359549008635, "step": 4077 }, { "epoch": 0.4349866666666667, "grad_norm": 2.029093971920993, "learning_rate": 6.281993710747725e-06, "loss": 0.5505, "step": 4078 }, { "avg_step_time": 5.580533933157873, "epoch": 0.4349866666666667, "eta_time": 8.211135623315903, "step": 4078 }, { "epoch": 0.43509333333333333, "grad_norm": 0.6348353056872632, "learning_rate": 6.280323903343839e-06, "loss": 0.4187, "step": 4079 }, { "avg_step_time": 5.551404844630849, "epoch": 0.43509333333333333, "eta_time": 8.166733349212492, "step": 4079 }, { "epoch": 0.4352, "grad_norm": 1.8385468543140684, "learning_rate": 6.278653943111152e-06, "loss": 0.4796, "step": 4080 }, { "avg_step_time": 5.586620687234281, "epoch": 0.4352, "eta_time": 8.216987927473754, "step": 4080 }, { "epoch": 0.4353066666666667, "grad_norm": 1.5386105472668212, "learning_rate": 6.276983830248998e-06, "loss": 0.4708, "step": 4081 }, { "avg_step_time": 5.618302884728018, "epoch": 0.4353066666666667, "eta_time": 8.262026519930592, "step": 4081 }, { "epoch": 0.4354133333333333, "grad_norm": 0.657775766891685, "learning_rate": 6.275313564956738e-06, "loss": 0.4379, "step": 4082 }, { "avg_step_time": 5.618989291817251, "epoch": 0.4354133333333333, "eta_time": 8.261475089330197, "step": 4082 }, { "epoch": 0.43552, "grad_norm": 1.824599285854204, "learning_rate": 6.273643147433743e-06, "loss": 0.4748, "step": 4083 }, { "avg_step_time": 5.617174403836029, "epoch": 0.43552, "eta_time": 8.257246373638962, "step": 4083 }, { "epoch": 0.43562666666666666, "grad_norm": 1.7931321885892602, "learning_rate": 6.27197257787941e-06, "loss": 0.434, "step": 4084 }, { "avg_step_time": 5.596390584502557, "epoch": 0.43562666666666666, "eta_time": 8.225139606278619, "step": 4084 }, { "epoch": 0.4357333333333333, "grad_norm": 1.6223935375370866, "learning_rate": 6.270301856493149e-06, "loss": 0.4504, "step": 4085 }, { "avg_step_time": 5.596504714753893, "epoch": 0.4357333333333333, "eta_time": 8.223752761402249, "step": 4085 }, { "epoch": 0.43584, "grad_norm": 1.8156203860111402, "learning_rate": 6.268630983474388e-06, "loss": 0.5078, "step": 4086 }, { "avg_step_time": 5.595269073139537, "epoch": 0.43584, "eta_time": 8.220382813287502, "step": 4086 }, { "epoch": 0.43594666666666665, "grad_norm": 1.5369701977568877, "learning_rate": 6.266959959022578e-06, "loss": 0.4412, "step": 4087 }, { "avg_step_time": 5.566016351333772, "epoch": 0.43594666666666665, "eta_time": 8.175859573848053, "step": 4087 }, { "epoch": 0.43605333333333335, "grad_norm": 1.7988119734724228, "learning_rate": 6.265288783337181e-06, "loss": 0.5274, "step": 4088 }, { "avg_step_time": 5.565173787300033, "epoch": 0.43605333333333335, "eta_time": 8.173076059293132, "step": 4088 }, { "epoch": 0.43616, "grad_norm": 1.7782180238415257, "learning_rate": 6.263617456617681e-06, "loss": 0.4983, "step": 4089 }, { "avg_step_time": 5.564050828567659, "epoch": 0.43616, "eta_time": 8.169881299946846, "step": 4089 }, { "epoch": 0.4362666666666667, "grad_norm": 1.535677477460631, "learning_rate": 6.2619459790635835e-06, "loss": 0.4053, "step": 4090 }, { "avg_step_time": 5.562747191901159, "epoch": 0.4362666666666667, "eta_time": 8.166421919221563, "step": 4090 }, { "epoch": 0.43637333333333334, "grad_norm": 1.514293889729963, "learning_rate": 6.260274350874406e-06, "loss": 0.49, "step": 4091 }, { "avg_step_time": 5.561596660903006, "epoch": 0.43637333333333334, "eta_time": 8.163187987836523, "step": 4091 }, { "epoch": 0.43648, "grad_norm": 1.9567081758257894, "learning_rate": 6.258602572249683e-06, "loss": 0.4937, "step": 4092 }, { "avg_step_time": 5.560605858311509, "epoch": 0.43648, "eta_time": 8.16018909707214, "step": 4092 }, { "epoch": 0.4365866666666667, "grad_norm": 1.6020915264523736, "learning_rate": 6.256930643388977e-06, "loss": 0.4796, "step": 4093 }, { "avg_step_time": 5.593823582235009, "epoch": 0.4365866666666667, "eta_time": 8.207382267045922, "step": 4093 }, { "epoch": 0.4366933333333333, "grad_norm": 0.6411228352065023, "learning_rate": 6.255258564491854e-06, "loss": 0.4439, "step": 4094 }, { "avg_step_time": 5.552774487119732, "epoch": 0.4366933333333333, "eta_time": 8.14561168513314, "step": 4094 }, { "epoch": 0.4368, "grad_norm": 1.6867133335008055, "learning_rate": 6.2535863357579105e-06, "loss": 0.4881, "step": 4095 }, { "avg_step_time": 5.532161125028976, "epoch": 0.4368, "eta_time": 8.113836316709165, "step": 4095 }, { "epoch": 0.43690666666666667, "grad_norm": 2.0508953618694132, "learning_rate": 6.251913957386757e-06, "loss": 0.5568, "step": 4096 }, { "avg_step_time": 5.446678250727027, "epoch": 0.43690666666666667, "eta_time": 7.986948468218882, "step": 4096 }, { "epoch": 0.4370133333333333, "grad_norm": 1.8355282882479345, "learning_rate": 6.250241429578017e-06, "loss": 0.5498, "step": 4097 }, { "avg_step_time": 5.4778123455818255, "epoch": 0.4370133333333333, "eta_time": 8.031081544439132, "step": 4097 }, { "epoch": 0.43712, "grad_norm": 1.9048859199532238, "learning_rate": 6.248568752531337e-06, "loss": 0.5122, "step": 4098 }, { "avg_step_time": 5.466641146727283, "epoch": 0.43712, "eta_time": 8.01318481424441, "step": 4098 }, { "epoch": 0.43722666666666665, "grad_norm": 1.7191835120020613, "learning_rate": 6.2468959264463805e-06, "loss": 0.5985, "step": 4099 }, { "avg_step_time": 5.468448542585277, "epoch": 0.43722666666666665, "eta_time": 8.014315141855533, "step": 4099 }, { "epoch": 0.43733333333333335, "grad_norm": 1.555312537478763, "learning_rate": 6.2452229515228276e-06, "loss": 0.5618, "step": 4100 }, { "avg_step_time": 5.461940079024344, "epoch": 0.43733333333333335, "eta_time": 8.00325942134817, "step": 4100 }, { "epoch": 0.43744, "grad_norm": 0.6332272197848654, "learning_rate": 6.243549827960378e-06, "loss": 0.4208, "step": 4101 }, { "avg_step_time": 5.420358624121155, "epoch": 0.43744, "eta_time": 7.940825384337492, "step": 4101 }, { "epoch": 0.43754666666666664, "grad_norm": 1.6501367144344323, "learning_rate": 6.241876555958746e-06, "loss": 0.4573, "step": 4102 }, { "avg_step_time": 5.428338932268547, "epoch": 0.43754666666666664, "eta_time": 7.951008663847791, "step": 4102 }, { "epoch": 0.43765333333333334, "grad_norm": 1.8644209374165692, "learning_rate": 6.240203135717667e-06, "loss": 0.5131, "step": 4103 }, { "avg_step_time": 5.42592863121418, "epoch": 0.43765333333333334, "eta_time": 7.945971039933656, "step": 4103 }, { "epoch": 0.43776, "grad_norm": 1.4759999799653745, "learning_rate": 6.238529567436892e-06, "loss": 0.4636, "step": 4104 }, { "avg_step_time": 5.428324545272673, "epoch": 0.43776, "eta_time": 7.947971855036739, "step": 4104 }, { "epoch": 0.4378666666666667, "grad_norm": 0.6698706159848667, "learning_rate": 6.23685585131619e-06, "loss": 0.4647, "step": 4105 }, { "avg_step_time": 5.390984580974386, "epoch": 0.4378666666666667, "eta_time": 7.8918024282597266, "step": 4105 }, { "epoch": 0.4379733333333333, "grad_norm": 1.7095272546758664, "learning_rate": 6.235181987555349e-06, "loss": 0.4759, "step": 4106 }, { "avg_step_time": 5.395585883747447, "epoch": 0.4379733333333333, "eta_time": 7.8970394504070285, "step": 4106 }, { "epoch": 0.43808, "grad_norm": 1.6941351978710235, "learning_rate": 6.233507976354174e-06, "loss": 0.4509, "step": 4107 }, { "avg_step_time": 5.396891297716083, "epoch": 0.43808, "eta_time": 7.897450932324534, "step": 4107 }, { "epoch": 0.43818666666666667, "grad_norm": 0.6566064028366643, "learning_rate": 6.231833817912486e-06, "loss": 0.4543, "step": 4108 }, { "avg_step_time": 5.361417659605392, "epoch": 0.43818666666666667, "eta_time": 7.844051892539333, "step": 4108 }, { "epoch": 0.4382933333333333, "grad_norm": 2.0187070893892174, "learning_rate": 6.230159512430124e-06, "loss": 0.5496, "step": 4109 }, { "avg_step_time": 5.3553304286918255, "epoch": 0.4382933333333333, "eta_time": 7.833658343747542, "step": 4109 }, { "epoch": 0.4384, "grad_norm": 1.6517832205134293, "learning_rate": 6.228485060106948e-06, "loss": 0.5447, "step": 4110 }, { "avg_step_time": 5.38658204945651, "epoch": 0.4384, "eta_time": 7.877876247330145, "step": 4110 }, { "epoch": 0.43850666666666666, "grad_norm": 1.624594603458848, "learning_rate": 6.226810461142829e-06, "loss": 0.4353, "step": 4111 }, { "avg_step_time": 5.4400241832540495, "epoch": 0.43850666666666666, "eta_time": 7.954524250180366, "step": 4111 }, { "epoch": 0.43861333333333336, "grad_norm": 1.6111167902193158, "learning_rate": 6.225135715737662e-06, "loss": 0.5082, "step": 4112 }, { "avg_step_time": 5.442107622069542, "epoch": 0.43861333333333336, "eta_time": 7.956059004153333, "step": 4112 }, { "epoch": 0.43872, "grad_norm": 0.6533039396719638, "learning_rate": 6.223460824091358e-06, "loss": 0.4605, "step": 4113 }, { "avg_step_time": 5.410088346462057, "epoch": 0.43872, "eta_time": 7.907745799745374, "step": 4113 }, { "epoch": 0.43882666666666664, "grad_norm": 1.6322678401999546, "learning_rate": 6.221785786403843e-06, "loss": 0.4622, "step": 4114 }, { "avg_step_time": 5.447602616416083, "epoch": 0.43882666666666664, "eta_time": 7.9610659347125035, "step": 4114 }, { "epoch": 0.43893333333333334, "grad_norm": 1.7125462876181008, "learning_rate": 6.2201106028750605e-06, "loss": 0.4855, "step": 4115 }, { "avg_step_time": 5.452109204398261, "epoch": 0.43893333333333334, "eta_time": 7.966137337537459, "step": 4115 }, { "epoch": 0.43904, "grad_norm": 1.6378215371739573, "learning_rate": 6.218435273704973e-06, "loss": 0.5344, "step": 4116 }, { "avg_step_time": 5.445142481062147, "epoch": 0.43904, "eta_time": 7.954445641084953, "step": 4116 }, { "epoch": 0.4391466666666667, "grad_norm": 1.5620094134550628, "learning_rate": 6.216759799093561e-06, "loss": 0.3967, "step": 4117 }, { "avg_step_time": 5.453013933066166, "epoch": 0.4391466666666667, "eta_time": 7.96442979446164, "step": 4117 }, { "epoch": 0.43925333333333333, "grad_norm": 1.9450919660669694, "learning_rate": 6.215084179240821e-06, "loss": 0.495, "step": 4118 }, { "avg_step_time": 5.451109483988598, "epoch": 0.43925333333333333, "eta_time": 7.960134043702239, "step": 4118 }, { "epoch": 0.43936, "grad_norm": 1.75035458527357, "learning_rate": 6.213408414346765e-06, "loss": 0.4751, "step": 4119 }, { "avg_step_time": 5.486224954778498, "epoch": 0.43936, "eta_time": 8.009888433976608, "step": 4119 }, { "epoch": 0.43946666666666667, "grad_norm": 1.754968338815716, "learning_rate": 6.211732504611429e-06, "loss": 0.5079, "step": 4120 }, { "avg_step_time": 5.484832607134424, "epoch": 0.43946666666666667, "eta_time": 8.006332041803168, "step": 4120 }, { "epoch": 0.4395733333333333, "grad_norm": 1.755065221801792, "learning_rate": 6.21005645023486e-06, "loss": 0.4653, "step": 4121 }, { "avg_step_time": 5.4860107970960215, "epoch": 0.4395733333333333, "eta_time": 8.006527979984027, "step": 4121 }, { "epoch": 0.43968, "grad_norm": 2.031306991234111, "learning_rate": 6.208380251417122e-06, "loss": 0.492, "step": 4122 }, { "avg_step_time": 5.521041607615923, "epoch": 0.43968, "eta_time": 8.056119879112902, "step": 4122 }, { "epoch": 0.43978666666666666, "grad_norm": 1.9126460235002136, "learning_rate": 6.206703908358301e-06, "loss": 0.4776, "step": 4123 }, { "avg_step_time": 5.517602874775125, "epoch": 0.43978666666666666, "eta_time": 8.049569527310823, "step": 4123 }, { "epoch": 0.43989333333333336, "grad_norm": 1.7451479579859288, "learning_rate": 6.205027421258496e-06, "loss": 0.4304, "step": 4124 }, { "avg_step_time": 5.551075246598986, "epoch": 0.43989333333333336, "eta_time": 8.09686003330313, "step": 4124 }, { "epoch": 0.44, "grad_norm": 1.6745261716673145, "learning_rate": 6.203350790317825e-06, "loss": 0.4868, "step": 4125 }, { "avg_step_time": 5.586251133620137, "epoch": 0.44, "eta_time": 8.146616236529367, "step": 4125 }, { "epoch": 0.44010666666666665, "grad_norm": 1.675607713861772, "learning_rate": 6.201674015736423e-06, "loss": 0.5222, "step": 4126 }, { "avg_step_time": 5.583258154416325, "epoch": 0.44010666666666665, "eta_time": 8.140700570147581, "step": 4126 }, { "epoch": 0.44021333333333335, "grad_norm": 1.6685619117353971, "learning_rate": 6.199997097714443e-06, "loss": 0.5325, "step": 4127 }, { "avg_step_time": 5.581743989327942, "epoch": 0.44021333333333335, "eta_time": 8.136942348886954, "step": 4127 }, { "epoch": 0.44032, "grad_norm": 1.7648880036568346, "learning_rate": 6.198320036452051e-06, "loss": 0.5387, "step": 4128 }, { "avg_step_time": 5.587728608738292, "epoch": 0.44032, "eta_time": 8.144114447236062, "step": 4128 }, { "epoch": 0.4404266666666667, "grad_norm": 1.8133540565846802, "learning_rate": 6.196642832149439e-06, "loss": 0.4796, "step": 4129 }, { "avg_step_time": 5.583397125956988, "epoch": 0.4404266666666667, "eta_time": 8.13625036743621, "step": 4129 }, { "epoch": 0.44053333333333333, "grad_norm": 1.866161423510794, "learning_rate": 6.194965485006805e-06, "loss": 0.4659, "step": 4130 }, { "avg_step_time": 5.582165368879684, "epoch": 0.44053333333333333, "eta_time": 8.132904822159428, "step": 4130 }, { "epoch": 0.44064, "grad_norm": 1.752800808341459, "learning_rate": 6.193287995224371e-06, "loss": 0.5287, "step": 4131 }, { "avg_step_time": 5.637758707759356, "epoch": 0.44064, "eta_time": 8.212335184302795, "step": 4131 }, { "epoch": 0.4407466666666667, "grad_norm": 1.6914228540588492, "learning_rate": 6.191610363002376e-06, "loss": 0.5424, "step": 4132 }, { "avg_step_time": 5.616621149910821, "epoch": 0.4407466666666667, "eta_time": 8.179984635828454, "step": 4132 }, { "epoch": 0.4408533333333333, "grad_norm": 1.559997962218541, "learning_rate": 6.189932588541071e-06, "loss": 0.5473, "step": 4133 }, { "avg_step_time": 5.621204354546287, "epoch": 0.4408533333333333, "eta_time": 8.18509811848101, "step": 4133 }, { "epoch": 0.44096, "grad_norm": 1.922779771733157, "learning_rate": 6.18825467204073e-06, "loss": 0.5995, "step": 4134 }, { "avg_step_time": 5.6237891298351865, "epoch": 0.44096, "eta_time": 8.187299674851726, "step": 4134 }, { "epoch": 0.44106666666666666, "grad_norm": 1.7351540692479823, "learning_rate": 6.186576613701644e-06, "loss": 0.5016, "step": 4135 }, { "avg_step_time": 5.626976759746821, "epoch": 0.44106666666666666, "eta_time": 8.190377283631483, "step": 4135 }, { "epoch": 0.4411733333333333, "grad_norm": 1.8527929646716879, "learning_rate": 6.184898413724111e-06, "loss": 0.4595, "step": 4136 }, { "avg_step_time": 5.618899925790652, "epoch": 0.4411733333333333, "eta_time": 8.17706019756034, "step": 4136 }, { "epoch": 0.44128, "grad_norm": 1.8626371409141877, "learning_rate": 6.183220072308459e-06, "loss": 0.4695, "step": 4137 }, { "avg_step_time": 5.618096349215267, "epoch": 0.44128, "eta_time": 8.174330188108213, "step": 4137 }, { "epoch": 0.44138666666666665, "grad_norm": 3.2092717395312103, "learning_rate": 6.181541589655026e-06, "loss": 0.5102, "step": 4138 }, { "avg_step_time": 5.65295359582612, "epoch": 0.44138666666666665, "eta_time": 8.223477217039276, "step": 4138 }, { "epoch": 0.44149333333333335, "grad_norm": 1.666984922746424, "learning_rate": 6.1798629659641676e-06, "loss": 0.5415, "step": 4139 }, { "avg_step_time": 5.65995691761826, "epoch": 0.44149333333333335, "eta_time": 8.23209289462478, "step": 4139 }, { "epoch": 0.4416, "grad_norm": 1.7048028467814025, "learning_rate": 6.178184201436256e-06, "loss": 0.5085, "step": 4140 }, { "avg_step_time": 5.664608069140502, "epoch": 0.4416, "eta_time": 8.237284233875146, "step": 4140 }, { "epoch": 0.4417066666666667, "grad_norm": 1.8699574965630967, "learning_rate": 6.1765052962716805e-06, "loss": 0.3928, "step": 4141 }, { "avg_step_time": 5.665959338949184, "epoch": 0.4417066666666667, "eta_time": 8.237675327794452, "step": 4141 }, { "epoch": 0.44181333333333334, "grad_norm": 0.6333438529348997, "learning_rate": 6.174826250670849e-06, "loss": 0.4461, "step": 4142 }, { "avg_step_time": 5.629840780990293, "epoch": 0.44181333333333334, "eta_time": 8.183599113033944, "step": 4142 }, { "epoch": 0.44192, "grad_norm": 1.5974119048959676, "learning_rate": 6.173147064834183e-06, "loss": 0.4315, "step": 4143 }, { "avg_step_time": 5.63000159552603, "epoch": 0.44192, "eta_time": 8.182268985497831, "step": 4143 }, { "epoch": 0.4420266666666667, "grad_norm": 1.6935482173559473, "learning_rate": 6.171467738962123e-06, "loss": 0.5181, "step": 4144 }, { "avg_step_time": 5.630534627220848, "epoch": 0.4420266666666667, "eta_time": 8.181479620831182, "step": 4144 }, { "epoch": 0.4421333333333333, "grad_norm": 2.1645235452685725, "learning_rate": 6.169788273255126e-06, "loss": 0.496, "step": 4145 }, { "avg_step_time": 5.663151550774622, "epoch": 0.4421333333333333, "eta_time": 8.227300725153132, "step": 4145 }, { "epoch": 0.44224, "grad_norm": 1.6836995479212733, "learning_rate": 6.168108667913666e-06, "loss": 0.5235, "step": 4146 }, { "avg_step_time": 5.6624973277852995, "epoch": 0.44224, "eta_time": 8.224777368608148, "step": 4146 }, { "epoch": 0.44234666666666667, "grad_norm": 0.6334866726207831, "learning_rate": 6.1664289231382315e-06, "loss": 0.4406, "step": 4147 }, { "avg_step_time": 5.62899988107007, "epoch": 0.44234666666666667, "eta_time": 8.1745587161762, "step": 4147 }, { "epoch": 0.4424533333333333, "grad_norm": 1.6498895701625118, "learning_rate": 6.164749039129328e-06, "loss": 0.4217, "step": 4148 }, { "avg_step_time": 5.630386993138477, "epoch": 0.4424533333333333, "eta_time": 8.175009114759671, "step": 4148 }, { "epoch": 0.44256, "grad_norm": 1.8268635034355618, "learning_rate": 6.163069016087483e-06, "loss": 0.4675, "step": 4149 }, { "avg_step_time": 5.625993210859973, "epoch": 0.44256, "eta_time": 8.167066811098394, "step": 4149 }, { "epoch": 0.44266666666666665, "grad_norm": 1.9091427628294266, "learning_rate": 6.161388854213231e-06, "loss": 0.4696, "step": 4150 }, { "avg_step_time": 5.625511222415501, "epoch": 0.44266666666666665, "eta_time": 8.164804482533608, "step": 4150 }, { "epoch": 0.44277333333333335, "grad_norm": 1.6185324679037592, "learning_rate": 6.159708553707131e-06, "loss": 0.487, "step": 4151 }, { "avg_step_time": 5.633626237060085, "epoch": 0.44277333333333335, "eta_time": 8.175017628444968, "step": 4151 }, { "epoch": 0.44288, "grad_norm": 1.6184811927327007, "learning_rate": 6.158028114769758e-06, "loss": 0.5052, "step": 4152 }, { "avg_step_time": 5.629350941590588, "epoch": 0.44288, "eta_time": 8.167249991091012, "step": 4152 }, { "epoch": 0.44298666666666664, "grad_norm": 1.7362878666396764, "learning_rate": 6.156347537601698e-06, "loss": 0.5325, "step": 4153 }, { "avg_step_time": 5.6291017773175485, "epoch": 0.44298666666666664, "eta_time": 8.165324855875623, "step": 4153 }, { "epoch": 0.44309333333333334, "grad_norm": 0.6430225124929487, "learning_rate": 6.154666822403558e-06, "loss": 0.4441, "step": 4154 }, { "avg_step_time": 5.618076806116586, "epoch": 0.44309333333333334, "eta_time": 8.147771945759638, "step": 4154 }, { "epoch": 0.4432, "grad_norm": 1.953227448821166, "learning_rate": 6.152985969375962e-06, "loss": 0.4736, "step": 4155 }, { "avg_step_time": 5.617475796227503, "epoch": 0.4432, "eta_time": 8.14533990452988, "step": 4155 }, { "epoch": 0.4433066666666667, "grad_norm": 1.7631950024880993, "learning_rate": 6.151304978719546e-06, "loss": 0.4487, "step": 4156 }, { "avg_step_time": 5.612315671612518, "epoch": 0.4433066666666667, "eta_time": 8.136298747262703, "step": 4156 }, { "epoch": 0.4434133333333333, "grad_norm": 0.6512796604986624, "learning_rate": 6.149623850634968e-06, "loss": 0.4551, "step": 4157 }, { "avg_step_time": 5.576560981345899, "epoch": 0.4434133333333333, "eta_time": 8.082915333517473, "step": 4157 }, { "epoch": 0.44352, "grad_norm": 1.5851765166443514, "learning_rate": 6.147942585322898e-06, "loss": 0.4788, "step": 4158 }, { "avg_step_time": 5.570136840897377, "epoch": 0.44352, "eta_time": 8.072056638600449, "step": 4158 }, { "epoch": 0.44362666666666667, "grad_norm": 1.7320673969183031, "learning_rate": 6.146261182984026e-06, "loss": 0.4964, "step": 4159 }, { "avg_step_time": 5.568845361170142, "epoch": 0.44362666666666667, "eta_time": 8.06863816773985, "step": 4159 }, { "epoch": 0.4437333333333333, "grad_norm": 1.6940540688148433, "learning_rate": 6.144579643819053e-06, "loss": 0.4984, "step": 4160 }, { "avg_step_time": 5.574272338790123, "epoch": 0.4437333333333333, "eta_time": 8.074952846330692, "step": 4160 }, { "epoch": 0.44384, "grad_norm": 1.6190470557175116, "learning_rate": 6.142897968028704e-06, "loss": 0.4077, "step": 4161 }, { "avg_step_time": 5.555179593538997, "epoch": 0.44384, "eta_time": 8.045751777975648, "step": 4161 }, { "epoch": 0.44394666666666666, "grad_norm": 1.8616618712803863, "learning_rate": 6.141216155813713e-06, "loss": 0.5248, "step": 4162 }, { "avg_step_time": 5.55947538578149, "epoch": 0.44394666666666666, "eta_time": 8.050429218355251, "step": 4162 }, { "epoch": 0.44405333333333336, "grad_norm": 1.7714096523494574, "learning_rate": 6.1395342073748345e-06, "loss": 0.4807, "step": 4163 }, { "avg_step_time": 5.523989422152741, "epoch": 0.44405333333333336, "eta_time": 7.997509130072245, "step": 4163 }, { "epoch": 0.44416, "grad_norm": 1.7186478811902266, "learning_rate": 6.137852122912839e-06, "loss": 0.4076, "step": 4164 }, { "avg_step_time": 5.5391721051148695, "epoch": 0.44416, "eta_time": 8.017951622153774, "step": 4164 }, { "epoch": 0.44426666666666664, "grad_norm": 1.4145696043444305, "learning_rate": 6.136169902628508e-06, "loss": 0.3548, "step": 4165 }, { "avg_step_time": 5.549019343925245, "epoch": 0.44426666666666664, "eta_time": 8.030664106069592, "step": 4165 }, { "epoch": 0.44437333333333334, "grad_norm": 2.0777793958753765, "learning_rate": 6.134487546722652e-06, "loss": 0.5132, "step": 4166 }, { "avg_step_time": 5.585777282714844, "epoch": 0.44437333333333334, "eta_time": 8.082309407128228, "step": 4166 }, { "epoch": 0.44448, "grad_norm": 1.8502800955649903, "learning_rate": 6.1328050553960804e-06, "loss": 0.5083, "step": 4167 }, { "avg_step_time": 5.58678164385786, "epoch": 0.44448, "eta_time": 8.082210778114371, "step": 4167 }, { "epoch": 0.4445866666666667, "grad_norm": 1.8671219555847727, "learning_rate": 6.131122428849634e-06, "loss": 0.4905, "step": 4168 }, { "avg_step_time": 5.586859929441202, "epoch": 0.4445866666666667, "eta_time": 8.080772125722316, "step": 4168 }, { "epoch": 0.44469333333333333, "grad_norm": 0.6792260988119572, "learning_rate": 6.12943966728416e-06, "loss": 0.467, "step": 4169 }, { "avg_step_time": 5.5533337713492035, "epoch": 0.44469333333333333, "eta_time": 8.030737670456654, "step": 4169 }, { "epoch": 0.4448, "grad_norm": 1.961139759162363, "learning_rate": 6.1277567709005245e-06, "loss": 0.5377, "step": 4170 }, { "avg_step_time": 5.583490870215676, "epoch": 0.4448, "eta_time": 8.072797216520165, "step": 4170 }, { "epoch": 0.4449066666666667, "grad_norm": 1.723023663444532, "learning_rate": 6.126073739899615e-06, "loss": 0.4917, "step": 4171 }, { "avg_step_time": 5.584641119446418, "epoch": 0.4449066666666667, "eta_time": 8.072908995999766, "step": 4171 }, { "epoch": 0.4450133333333333, "grad_norm": 1.7158859491448226, "learning_rate": 6.124390574482324e-06, "loss": 0.455, "step": 4172 }, { "avg_step_time": 5.586234824826019, "epoch": 0.4450133333333333, "eta_time": 8.073661053769383, "step": 4172 }, { "epoch": 0.44512, "grad_norm": 1.6580483972396518, "learning_rate": 6.122707274849572e-06, "loss": 0.5454, "step": 4173 }, { "avg_step_time": 5.582977923479947, "epoch": 0.44512, "eta_time": 8.067403099428523, "step": 4173 }, { "epoch": 0.44522666666666666, "grad_norm": 1.5081018069980037, "learning_rate": 6.1210238412022875e-06, "loss": 0.5272, "step": 4174 }, { "avg_step_time": 5.588684635932999, "epoch": 0.44522666666666666, "eta_time": 8.074096886524314, "step": 4174 }, { "epoch": 0.44533333333333336, "grad_norm": 1.8640043698119257, "learning_rate": 6.1193402737414154e-06, "loss": 0.4749, "step": 4175 }, { "avg_step_time": 5.583761983447605, "epoch": 0.44533333333333336, "eta_time": 8.065433976090985, "step": 4175 }, { "epoch": 0.44544, "grad_norm": 1.7707493754899097, "learning_rate": 6.117656572667921e-06, "loss": 0.4651, "step": 4176 }, { "avg_step_time": 5.591784910722212, "epoch": 0.44544, "eta_time": 8.075469375234661, "step": 4176 }, { "epoch": 0.44554666666666665, "grad_norm": 1.9706917208475265, "learning_rate": 6.115972738182784e-06, "loss": 0.4798, "step": 4177 }, { "avg_step_time": 5.59316875236203, "epoch": 0.44554666666666665, "eta_time": 8.075914215216065, "step": 4177 }, { "epoch": 0.44565333333333335, "grad_norm": 2.0371052909607026, "learning_rate": 6.114288770486998e-06, "loss": 0.4987, "step": 4178 }, { "avg_step_time": 5.622633319912535, "epoch": 0.44565333333333335, "eta_time": 8.11689593432929, "step": 4178 }, { "epoch": 0.44576, "grad_norm": 1.973851375087379, "learning_rate": 6.112604669781572e-06, "loss": 0.5281, "step": 4179 }, { "avg_step_time": 5.62467543765752, "epoch": 0.44576, "eta_time": 8.118281548352353, "step": 4179 }, { "epoch": 0.4458666666666667, "grad_norm": 1.835894454989238, "learning_rate": 6.110920436267536e-06, "loss": 0.5658, "step": 4180 }, { "avg_step_time": 5.592285216456712, "epoch": 0.4458666666666667, "eta_time": 8.06997824985906, "step": 4180 }, { "epoch": 0.44597333333333333, "grad_norm": 1.8424440752703122, "learning_rate": 6.10923607014593e-06, "loss": 0.5681, "step": 4181 }, { "avg_step_time": 5.630379144591514, "epoch": 0.44597333333333333, "eta_time": 8.12338591028009, "step": 4181 }, { "epoch": 0.44608, "grad_norm": 1.8604176140112534, "learning_rate": 6.107551571617813e-06, "loss": 0.4773, "step": 4182 }, { "avg_step_time": 5.6561181834249785, "epoch": 0.44608, "eta_time": 8.158950479590532, "step": 4182 }, { "epoch": 0.4461866666666667, "grad_norm": 1.7331585260271662, "learning_rate": 6.1058669408842586e-06, "loss": 0.4167, "step": 4183 }, { "avg_step_time": 5.6735139687856035, "epoch": 0.4461866666666667, "eta_time": 8.182467923870792, "step": 4183 }, { "epoch": 0.4462933333333333, "grad_norm": 1.873416326802987, "learning_rate": 6.1041821781463566e-06, "loss": 0.5334, "step": 4184 }, { "avg_step_time": 5.672777245743106, "epoch": 0.4462933333333333, "eta_time": 8.179829634070128, "step": 4184 }, { "epoch": 0.4464, "grad_norm": 1.8372652655119963, "learning_rate": 6.1024972836052135e-06, "loss": 0.5166, "step": 4185 }, { "avg_step_time": 5.669215012078333, "epoch": 0.4464, "eta_time": 8.173118309079598, "step": 4185 }, { "epoch": 0.44650666666666666, "grad_norm": 1.9369483856731655, "learning_rate": 6.100812257461949e-06, "loss": 0.5519, "step": 4186 }, { "avg_step_time": 5.644186756827614, "epoch": 0.44650666666666666, "eta_time": 8.135468078105136, "step": 4186 }, { "epoch": 0.4466133333333333, "grad_norm": 1.8713622377111045, "learning_rate": 6.0991270999177e-06, "loss": 0.4133, "step": 4187 }, { "avg_step_time": 5.643162255335336, "epoch": 0.4466133333333333, "eta_time": 8.13242382796659, "step": 4187 }, { "epoch": 0.44672, "grad_norm": 1.3916300951897942, "learning_rate": 6.0974418111736235e-06, "loss": 0.5409, "step": 4188 }, { "avg_step_time": 5.645574116947675, "epoch": 0.44672, "eta_time": 8.134331373502109, "step": 4188 }, { "epoch": 0.44682666666666665, "grad_norm": 1.8454513404006838, "learning_rate": 6.0957563914308815e-06, "loss": 0.539, "step": 4189 }, { "avg_step_time": 5.645466794871321, "epoch": 0.44682666666666665, "eta_time": 8.132608555056297, "step": 4189 }, { "epoch": 0.44693333333333335, "grad_norm": 1.4955865494192861, "learning_rate": 6.094070840890663e-06, "loss": 0.4954, "step": 4190 }, { "avg_step_time": 5.649935727167612, "epoch": 0.44693333333333335, "eta_time": 8.13747687371224, "step": 4190 }, { "epoch": 0.44704, "grad_norm": 1.6155390020788998, "learning_rate": 6.092385159754165e-06, "loss": 0.5082, "step": 4191 }, { "avg_step_time": 5.644625186920166, "epoch": 0.44704, "eta_time": 8.12826026916504, "step": 4191 }, { "epoch": 0.4471466666666667, "grad_norm": 1.6616708373404985, "learning_rate": 6.0906993482226025e-06, "loss": 0.6005, "step": 4192 }, { "avg_step_time": 5.649101250099413, "epoch": 0.4471466666666667, "eta_time": 8.13313660535146, "step": 4192 }, { "epoch": 0.44725333333333334, "grad_norm": 1.7371367322247842, "learning_rate": 6.0890134064972085e-06, "loss": 0.4126, "step": 4193 }, { "avg_step_time": 5.683707641832756, "epoch": 0.44725333333333334, "eta_time": 8.181381388882595, "step": 4193 }, { "epoch": 0.44736, "grad_norm": 1.8877861683330672, "learning_rate": 6.0873273347792275e-06, "loss": 0.5459, "step": 4194 }, { "avg_step_time": 5.6890014831465905, "epoch": 0.44736, "eta_time": 8.187421301161802, "step": 4194 }, { "epoch": 0.4474666666666667, "grad_norm": 1.8437060261086566, "learning_rate": 6.085641133269923e-06, "loss": 0.5654, "step": 4195 }, { "avg_step_time": 5.687565321874136, "epoch": 0.4474666666666667, "eta_time": 8.183774546474453, "step": 4195 }, { "epoch": 0.4475733333333333, "grad_norm": 1.5016491674845598, "learning_rate": 6.083954802170569e-06, "loss": 0.4795, "step": 4196 }, { "avg_step_time": 5.710182365745005, "epoch": 0.4475733333333333, "eta_time": 8.214731797831494, "step": 4196 }, { "epoch": 0.44768, "grad_norm": 1.5544743554536888, "learning_rate": 6.0822683416824625e-06, "loss": 0.482, "step": 4197 }, { "avg_step_time": 5.710217302495783, "epoch": 0.44768, "eta_time": 8.213195886756434, "step": 4197 }, { "epoch": 0.44778666666666667, "grad_norm": 1.7608795747661545, "learning_rate": 6.080581752006909e-06, "loss": 0.4982, "step": 4198 }, { "avg_step_time": 5.714274632810342, "epoch": 0.44778666666666667, "eta_time": 8.217444381683094, "step": 4198 }, { "epoch": 0.4478933333333333, "grad_norm": 2.0154818627387474, "learning_rate": 6.0788950333452324e-06, "loss": 0.5642, "step": 4199 }, { "avg_step_time": 5.706686094553784, "epoch": 0.4478933333333333, "eta_time": 8.204946451502884, "step": 4199 }, { "epoch": 0.448, "grad_norm": 0.6553662551062424, "learning_rate": 6.077208185898772e-06, "loss": 0.4347, "step": 4200 }, { "avg_step_time": 5.708447805558793, "epoch": 0.448, "eta_time": 8.205893720490764, "step": 4200 }, { "epoch": 0.44810666666666665, "grad_norm": 1.770056745241935, "learning_rate": 6.075521209868882e-06, "loss": 0.4387, "step": 4201 }, { "avg_step_time": 5.699115719458069, "epoch": 0.44810666666666665, "eta_time": 8.190895759021124, "step": 4201 }, { "epoch": 0.44821333333333335, "grad_norm": 1.9441629856504894, "learning_rate": 6.073834105456934e-06, "loss": 0.4589, "step": 4202 }, { "avg_step_time": 5.697347937208233, "epoch": 0.44821333333333335, "eta_time": 8.186772466438386, "step": 4202 }, { "epoch": 0.44832, "grad_norm": 2.0350091212303, "learning_rate": 6.07214687286431e-06, "loss": 0.5751, "step": 4203 }, { "avg_step_time": 5.694354136784871, "epoch": 0.44832, "eta_time": 8.180888776514266, "step": 4203 }, { "epoch": 0.44842666666666664, "grad_norm": 1.970229531842323, "learning_rate": 6.070459512292413e-06, "loss": 0.4869, "step": 4204 }, { "avg_step_time": 5.730595974007038, "epoch": 0.44842666666666664, "eta_time": 8.231364383775109, "step": 4204 }, { "epoch": 0.44853333333333334, "grad_norm": 1.835333502003247, "learning_rate": 6.068772023942659e-06, "loss": 0.5138, "step": 4205 }, { "avg_step_time": 5.735103067725595, "epoch": 0.44853333333333334, "eta_time": 8.236245238928147, "step": 4205 }, { "epoch": 0.44864, "grad_norm": 1.7089136804083558, "learning_rate": 6.067084408016475e-06, "loss": 0.4615, "step": 4206 }, { "avg_step_time": 5.73445246677206, "epoch": 0.44864, "eta_time": 8.233718000206883, "step": 4206 }, { "epoch": 0.4487466666666667, "grad_norm": 1.923988366123861, "learning_rate": 6.065396664715311e-06, "loss": 0.5956, "step": 4207 }, { "avg_step_time": 5.775000095367432, "epoch": 0.4487466666666667, "eta_time": 8.29033347023858, "step": 4207 }, { "epoch": 0.4488533333333333, "grad_norm": 1.782405935574922, "learning_rate": 6.063708794240627e-06, "loss": 0.4863, "step": 4208 }, { "avg_step_time": 5.776212523681949, "epoch": 0.4488533333333333, "eta_time": 8.290469474962396, "step": 4208 }, { "epoch": 0.44896, "grad_norm": 1.6721754003313118, "learning_rate": 6.0620207967939e-06, "loss": 0.5168, "step": 4209 }, { "avg_step_time": 5.742692985919991, "epoch": 0.44896, "eta_time": 8.240764434795187, "step": 4209 }, { "epoch": 0.44906666666666667, "grad_norm": 1.8527913857380496, "learning_rate": 6.0603326725766195e-06, "loss": 0.5245, "step": 4210 }, { "avg_step_time": 5.706261107415864, "epoch": 0.44906666666666667, "eta_time": 8.186899616611928, "step": 4210 }, { "epoch": 0.4491733333333333, "grad_norm": 1.8068618537026568, "learning_rate": 6.058644421790296e-06, "loss": 0.5115, "step": 4211 }, { "avg_step_time": 5.706027091151536, "epoch": 0.4491733333333333, "eta_time": 8.184978860751814, "step": 4211 }, { "epoch": 0.44928, "grad_norm": 0.6381575139996132, "learning_rate": 6.0569560446364495e-06, "loss": 0.4321, "step": 4212 }, { "avg_step_time": 5.703511835348727, "epoch": 0.44928, "eta_time": 8.179786557195966, "step": 4212 }, { "epoch": 0.44938666666666666, "grad_norm": 0.6574440394876996, "learning_rate": 6.0552675413166185e-06, "loss": 0.4457, "step": 4213 }, { "avg_step_time": 5.666695594787598, "epoch": 0.44938666666666666, "eta_time": 8.12541185008155, "step": 4213 }, { "epoch": 0.44949333333333336, "grad_norm": 1.4887069050173118, "learning_rate": 6.05357891203235e-06, "loss": 0.4542, "step": 4214 }, { "avg_step_time": 5.668725743438259, "epoch": 0.44949333333333336, "eta_time": 8.126748211634682, "step": 4214 }, { "epoch": 0.4496, "grad_norm": 1.5622101550363927, "learning_rate": 6.051890156985217e-06, "loss": 0.506, "step": 4215 }, { "avg_step_time": 5.667753549537274, "epoch": 0.4496, "eta_time": 8.123780087670092, "step": 4215 }, { "epoch": 0.44970666666666664, "grad_norm": 1.3800914967782116, "learning_rate": 6.0502012763768e-06, "loss": 0.5026, "step": 4216 }, { "avg_step_time": 5.664207371798429, "epoch": 0.44970666666666664, "eta_time": 8.11712384197447, "step": 4216 }, { "epoch": 0.44981333333333334, "grad_norm": 1.7186839687560596, "learning_rate": 6.0485122704086955e-06, "loss": 0.478, "step": 4217 }, { "avg_step_time": 5.669009170146904, "epoch": 0.44981333333333334, "eta_time": 8.122430361004925, "step": 4217 }, { "epoch": 0.44992, "grad_norm": 1.473397755438025, "learning_rate": 6.046823139282515e-06, "loss": 0.4463, "step": 4218 }, { "avg_step_time": 5.670882557377671, "epoch": 0.44992, "eta_time": 8.123539263443513, "step": 4218 }, { "epoch": 0.4500266666666667, "grad_norm": 1.7467056762488833, "learning_rate": 6.0451338831998855e-06, "loss": 0.4902, "step": 4219 }, { "avg_step_time": 5.6696781172896875, "epoch": 0.4500266666666667, "eta_time": 8.120238992429341, "step": 4219 }, { "epoch": 0.45013333333333333, "grad_norm": 2.0776426208858263, "learning_rate": 6.04344450236245e-06, "loss": 0.5755, "step": 4220 }, { "avg_step_time": 5.669520924789737, "epoch": 0.45013333333333333, "eta_time": 8.118438990914193, "step": 4220 }, { "epoch": 0.45024, "grad_norm": 1.8688784021973983, "learning_rate": 6.041754996971866e-06, "loss": 0.55, "step": 4221 }, { "avg_step_time": 5.668613089455499, "epoch": 0.45024, "eta_time": 8.115564406403788, "step": 4221 }, { "epoch": 0.4503466666666667, "grad_norm": 1.7344572095618649, "learning_rate": 6.040065367229803e-06, "loss": 0.5074, "step": 4222 }, { "avg_step_time": 5.671036156741056, "epoch": 0.4503466666666667, "eta_time": 8.117458143246294, "step": 4222 }, { "epoch": 0.4504533333333333, "grad_norm": 1.7601409727370936, "learning_rate": 6.038375613337949e-06, "loss": 0.5848, "step": 4223 }, { "avg_step_time": 5.672415186660459, "epoch": 0.4504533333333333, "eta_time": 8.11785640046519, "step": 4223 }, { "epoch": 0.45056, "grad_norm": 1.698720401634091, "learning_rate": 6.036685735498004e-06, "loss": 0.4851, "step": 4224 }, { "avg_step_time": 5.669211204605873, "epoch": 0.45056, "eta_time": 8.111696365256904, "step": 4224 }, { "epoch": 0.45066666666666666, "grad_norm": 1.847746411848198, "learning_rate": 6.034995733911687e-06, "loss": 0.4005, "step": 4225 }, { "avg_step_time": 5.672171592712402, "epoch": 0.45066666666666666, "eta_time": 8.11435658401913, "step": 4225 }, { "epoch": 0.45077333333333336, "grad_norm": 1.8805295988415276, "learning_rate": 6.033305608780725e-06, "loss": 0.5277, "step": 4226 }, { "avg_step_time": 5.67723030995841, "epoch": 0.45077333333333336, "eta_time": 8.120016351659958, "step": 4226 }, { "epoch": 0.45088, "grad_norm": 1.848448617949171, "learning_rate": 6.031615360306867e-06, "loss": 0.5275, "step": 4227 }, { "avg_step_time": 5.711892250812415, "epoch": 0.45088, "eta_time": 8.168005918661754, "step": 4227 }, { "epoch": 0.45098666666666665, "grad_norm": 1.5513828122771867, "learning_rate": 6.029924988691872e-06, "loss": 0.4883, "step": 4228 }, { "avg_step_time": 5.714955040902803, "epoch": 0.45098666666666665, "eta_time": 8.170798220979647, "step": 4228 }, { "epoch": 0.45109333333333335, "grad_norm": 1.6576446288853512, "learning_rate": 6.028234494137515e-06, "loss": 0.5035, "step": 4229 }, { "avg_step_time": 5.715959091379185, "epoch": 0.45109333333333335, "eta_time": 8.17064596784369, "step": 4229 }, { "epoch": 0.4512, "grad_norm": 1.8504581688910524, "learning_rate": 6.026543876845586e-06, "loss": 0.5377, "step": 4230 }, { "avg_step_time": 5.697521611897632, "epoch": 0.4512, "eta_time": 8.142707970337034, "step": 4230 }, { "epoch": 0.4513066666666667, "grad_norm": 1.814894908403822, "learning_rate": 6.024853137017889e-06, "loss": 0.4917, "step": 4231 }, { "avg_step_time": 5.698890616195371, "epoch": 0.4513066666666667, "eta_time": 8.143081480474718, "step": 4231 }, { "epoch": 0.45141333333333333, "grad_norm": 1.7476165620507127, "learning_rate": 6.023162274856243e-06, "loss": 0.5656, "step": 4232 }, { "avg_step_time": 5.693585884691489, "epoch": 0.45141333333333333, "eta_time": 8.133920056935645, "step": 4232 }, { "epoch": 0.45152, "grad_norm": 2.1064510675619004, "learning_rate": 6.021471290562484e-06, "loss": 0.4484, "step": 4233 }, { "avg_step_time": 5.690254794226752, "epoch": 0.45152, "eta_time": 8.127580597753878, "step": 4233 }, { "epoch": 0.4516266666666667, "grad_norm": 1.7109955525959122, "learning_rate": 6.019780184338457e-06, "loss": 0.514, "step": 4234 }, { "avg_step_time": 5.687589893437395, "epoch": 0.4516266666666667, "eta_time": 8.122194345044903, "step": 4234 }, { "epoch": 0.4517333333333333, "grad_norm": 1.9183302166204834, "learning_rate": 6.018088956386025e-06, "loss": 0.4712, "step": 4235 }, { "avg_step_time": 5.68320657267715, "epoch": 0.4517333333333333, "eta_time": 8.114356050989043, "step": 4235 }, { "epoch": 0.45184, "grad_norm": 1.848282119478927, "learning_rate": 6.016397606907069e-06, "loss": 0.5396, "step": 4236 }, { "avg_step_time": 5.688769135812317, "epoch": 0.45184, "eta_time": 8.120717941372082, "step": 4236 }, { "epoch": 0.45194666666666666, "grad_norm": 2.085346063667428, "learning_rate": 6.0147061361034765e-06, "loss": 0.5719, "step": 4237 }, { "avg_step_time": 5.690991413713705, "epoch": 0.45194666666666666, "eta_time": 8.122309412128061, "step": 4237 }, { "epoch": 0.4520533333333333, "grad_norm": 0.6373692119991701, "learning_rate": 6.013014544177156e-06, "loss": 0.431, "step": 4238 }, { "avg_step_time": 5.629403740468652, "epoch": 0.4520533333333333, "eta_time": 8.032846392996518, "step": 4238 }, { "epoch": 0.45216, "grad_norm": 0.6647394221967058, "learning_rate": 6.011322831330028e-06, "loss": 0.4472, "step": 4239 }, { "avg_step_time": 5.596669156141956, "epoch": 0.45216, "eta_time": 7.98458132942919, "step": 4239 }, { "epoch": 0.45226666666666665, "grad_norm": 0.6389093815840666, "learning_rate": 6.009630997764027e-06, "loss": 0.4402, "step": 4240 }, { "avg_step_time": 5.576076334173029, "epoch": 0.45226666666666665, "eta_time": 7.953653326660696, "step": 4240 }, { "epoch": 0.45237333333333335, "grad_norm": 0.6210865959490255, "learning_rate": 6.0079390436811025e-06, "loss": 0.4303, "step": 4241 }, { "avg_step_time": 5.573389200249103, "epoch": 0.45237333333333335, "eta_time": 7.948272265021916, "step": 4241 }, { "epoch": 0.45248, "grad_norm": 1.511282403886333, "learning_rate": 6.0062469692832205e-06, "loss": 0.4652, "step": 4242 }, { "avg_step_time": 5.59491374516728, "epoch": 0.45248, "eta_time": 7.977414514984347, "step": 4242 }, { "epoch": 0.4525866666666667, "grad_norm": 0.66609911048039, "learning_rate": 6.004554774772356e-06, "loss": 0.4479, "step": 4243 }, { "avg_step_time": 5.583236506490996, "epoch": 0.4525866666666667, "eta_time": 7.959213819808831, "step": 4243 }, { "epoch": 0.45269333333333334, "grad_norm": 1.7471505710682977, "learning_rate": 6.002862460350505e-06, "loss": 0.4775, "step": 4244 }, { "avg_step_time": 5.5841842492421465, "epoch": 0.45269333333333334, "eta_time": 7.959013717461515, "step": 4244 }, { "epoch": 0.4528, "grad_norm": 1.6404405219479252, "learning_rate": 6.001170026219673e-06, "loss": 0.4792, "step": 4245 }, { "avg_step_time": 5.5904408271866615, "epoch": 0.4528, "eta_time": 7.966378178740993, "step": 4245 }, { "epoch": 0.4529066666666667, "grad_norm": 1.7363648050984968, "learning_rate": 5.99947747258188e-06, "loss": 0.4761, "step": 4246 }, { "avg_step_time": 5.653340980260059, "epoch": 0.4529066666666667, "eta_time": 8.054440524376068, "step": 4246 }, { "epoch": 0.4530133333333333, "grad_norm": 1.781604854838678, "learning_rate": 5.9977847996391634e-06, "loss": 0.4363, "step": 4247 }, { "avg_step_time": 5.6523516298544525, "epoch": 0.4530133333333333, "eta_time": 8.051460877192676, "step": 4247 }, { "epoch": 0.45312, "grad_norm": 0.6502714128866438, "learning_rate": 5.996092007593572e-06, "loss": 0.4495, "step": 4248 }, { "avg_step_time": 5.618113175787107, "epoch": 0.45312, "eta_time": 8.001129514516805, "step": 4248 }, { "epoch": 0.45322666666666667, "grad_norm": 1.9301097071317699, "learning_rate": 5.994399096647172e-06, "loss": 0.499, "step": 4249 }, { "avg_step_time": 5.619676982513582, "epoch": 0.45322666666666667, "eta_time": 8.001795614545728, "step": 4249 }, { "epoch": 0.4533333333333333, "grad_norm": 1.5328437596134628, "learning_rate": 5.99270606700204e-06, "loss": 0.4673, "step": 4250 }, { "avg_step_time": 5.615201911540947, "epoch": 0.4533333333333333, "eta_time": 7.993863832402043, "step": 4250 }, { "epoch": 0.45344, "grad_norm": 1.955753049105272, "learning_rate": 5.9910129188602665e-06, "loss": 0.48, "step": 4251 }, { "avg_step_time": 5.619044855387524, "epoch": 0.45344, "eta_time": 7.997773844168242, "step": 4251 }, { "epoch": 0.45354666666666665, "grad_norm": 0.6436072618375605, "learning_rate": 5.9893196524239604e-06, "loss": 0.4414, "step": 4252 }, { "avg_step_time": 5.585798904149219, "epoch": 0.45354666666666665, "eta_time": 7.94890216276568, "step": 4252 }, { "epoch": 0.45365333333333335, "grad_norm": 2.032959109770843, "learning_rate": 5.987626267895242e-06, "loss": 0.5126, "step": 4253 }, { "avg_step_time": 5.5994057799830586, "epoch": 0.45365333333333335, "eta_time": 7.966710112520341, "step": 4253 }, { "epoch": 0.45376, "grad_norm": 1.90021937960962, "learning_rate": 5.985932765476246e-06, "loss": 0.5262, "step": 4254 }, { "avg_step_time": 5.601205346560238, "epoch": 0.45376, "eta_time": 7.967714605481938, "step": 4254 }, { "epoch": 0.45386666666666664, "grad_norm": 2.051067930948515, "learning_rate": 5.98423914536912e-06, "loss": 0.5219, "step": 4255 }, { "avg_step_time": 5.603910992843936, "epoch": 0.45386666666666664, "eta_time": 7.9700067453780425, "step": 4255 }, { "epoch": 0.45397333333333334, "grad_norm": 0.6570415271175549, "learning_rate": 5.9825454077760295e-06, "loss": 0.4458, "step": 4256 }, { "avg_step_time": 5.601313518755363, "epoch": 0.45397333333333334, "eta_time": 7.964756639585752, "step": 4256 }, { "epoch": 0.45408, "grad_norm": 2.0111211160719447, "learning_rate": 5.9808515528991486e-06, "loss": 0.4261, "step": 4257 }, { "avg_step_time": 5.6021698797592006, "epoch": 0.45408, "eta_time": 7.964418179057664, "step": 4257 }, { "epoch": 0.4541866666666667, "grad_norm": 1.8762968222290368, "learning_rate": 5.979157580940669e-06, "loss": 0.5476, "step": 4258 }, { "avg_step_time": 5.599833861745969, "epoch": 0.4541866666666667, "eta_time": 7.959541630709479, "step": 4258 }, { "epoch": 0.4542933333333333, "grad_norm": 1.9565324108766067, "learning_rate": 5.977463492102796e-06, "loss": 0.5964, "step": 4259 }, { "avg_step_time": 5.600626661319925, "epoch": 0.4542933333333333, "eta_time": 7.959112777586871, "step": 4259 }, { "epoch": 0.4544, "grad_norm": 1.8684130586380574, "learning_rate": 5.975769286587747e-06, "loss": 0.4568, "step": 4260 }, { "avg_step_time": 5.595651183465515, "epoch": 0.4544, "eta_time": 7.950487723173919, "step": 4260 }, { "epoch": 0.45450666666666667, "grad_norm": 1.982384528095474, "learning_rate": 5.974074964597759e-06, "loss": 0.5603, "step": 4261 }, { "avg_step_time": 5.59473924925833, "epoch": 0.45450666666666667, "eta_time": 7.947637922418639, "step": 4261 }, { "epoch": 0.4546133333333333, "grad_norm": 1.850492433751846, "learning_rate": 5.972380526335074e-06, "loss": 0.5308, "step": 4262 }, { "avg_step_time": 5.5962331150517315, "epoch": 0.4546133333333333, "eta_time": 7.948205532572084, "step": 4262 }, { "epoch": 0.45472, "grad_norm": 2.1272191624904653, "learning_rate": 5.970685972001953e-06, "loss": 0.5101, "step": 4263 }, { "avg_step_time": 5.584845887290107, "epoch": 0.45472, "eta_time": 7.930481159951952, "step": 4263 }, { "epoch": 0.45482666666666666, "grad_norm": 1.7928492939057905, "learning_rate": 5.968991301800674e-06, "loss": 0.4721, "step": 4264 }, { "avg_step_time": 5.580201445203839, "epoch": 0.45482666666666666, "eta_time": 7.922335996232451, "step": 4264 }, { "epoch": 0.45493333333333336, "grad_norm": 0.6306302527101313, "learning_rate": 5.967296515933519e-06, "loss": 0.4251, "step": 4265 }, { "avg_step_time": 5.54272885996886, "epoch": 0.45493333333333336, "eta_time": 7.8675956873446875, "step": 4265 }, { "epoch": 0.45504, "grad_norm": 1.9534870201545365, "learning_rate": 5.965601614602798e-06, "loss": 0.4425, "step": 4266 }, { "avg_step_time": 5.540569644985777, "epoch": 0.45504, "eta_time": 7.8629917545089825, "step": 4266 }, { "epoch": 0.45514666666666664, "grad_norm": 0.6411688579098039, "learning_rate": 5.96390659801082e-06, "loss": 0.4515, "step": 4267 }, { "avg_step_time": 5.505887925022781, "epoch": 0.45514666666666664, "eta_time": 7.812243200282323, "step": 4267 }, { "epoch": 0.45525333333333334, "grad_norm": 0.684637572992643, "learning_rate": 5.962211466359917e-06, "loss": 0.464, "step": 4268 }, { "avg_step_time": 5.503686863966663, "epoch": 0.45525333333333334, "eta_time": 7.807591337299374, "step": 4268 }, { "epoch": 0.45536, "grad_norm": 1.9889725442333388, "learning_rate": 5.960516219852433e-06, "loss": 0.5533, "step": 4269 }, { "avg_step_time": 5.552248723579176, "epoch": 0.45536, "eta_time": 7.874939439609798, "step": 4269 }, { "epoch": 0.4554666666666667, "grad_norm": 1.8898931886053814, "learning_rate": 5.958820858690724e-06, "loss": 0.5045, "step": 4270 }, { "avg_step_time": 5.601460387008359, "epoch": 0.4554666666666667, "eta_time": 7.943182021021576, "step": 4270 }, { "epoch": 0.45557333333333333, "grad_norm": 1.8304573095991137, "learning_rate": 5.95712538307716e-06, "loss": 0.5341, "step": 4271 }, { "avg_step_time": 5.597578157078136, "epoch": 0.45557333333333333, "eta_time": 7.9361219204796685, "step": 4271 }, { "epoch": 0.45568, "grad_norm": 1.8915561317289635, "learning_rate": 5.955429793214129e-06, "loss": 0.4992, "step": 4272 }, { "avg_step_time": 5.59648730778935, "epoch": 0.45568, "eta_time": 7.933020758791404, "step": 4272 }, { "epoch": 0.4557866666666667, "grad_norm": 2.0430506987282273, "learning_rate": 5.9537340893040244e-06, "loss": 0.5275, "step": 4273 }, { "avg_step_time": 5.588082445992364, "epoch": 0.4557866666666667, "eta_time": 7.919554622070289, "step": 4273 }, { "epoch": 0.4558933333333333, "grad_norm": 1.6647369672856855, "learning_rate": 5.95203827154926e-06, "loss": 0.496, "step": 4274 }, { "avg_step_time": 5.589352961742517, "epoch": 0.4558933333333333, "eta_time": 7.91980262718016, "step": 4274 }, { "epoch": 0.456, "grad_norm": 1.8062228040664847, "learning_rate": 5.950342340152261e-06, "loss": 0.5138, "step": 4275 }, { "avg_step_time": 5.589820310322925, "epoch": 0.456, "eta_time": 7.9189121062908105, "step": 4275 }, { "epoch": 0.45610666666666666, "grad_norm": 1.8318302596621963, "learning_rate": 5.9486462953154656e-06, "loss": 0.4488, "step": 4276 }, { "avg_step_time": 5.591324854378748, "epoch": 0.45610666666666666, "eta_time": 7.919490397910344, "step": 4276 }, { "epoch": 0.45621333333333336, "grad_norm": 1.9694178876310129, "learning_rate": 5.9469501372413255e-06, "loss": 0.4859, "step": 4277 }, { "avg_step_time": 5.591770747695306, "epoch": 0.45621333333333336, "eta_time": 7.918568686597409, "step": 4277 }, { "epoch": 0.45632, "grad_norm": 1.7568515637808026, "learning_rate": 5.945253866132308e-06, "loss": 0.4981, "step": 4278 }, { "avg_step_time": 5.591236179525202, "epoch": 0.45632, "eta_time": 7.916258557511099, "step": 4278 }, { "epoch": 0.45642666666666665, "grad_norm": 1.6808522969240216, "learning_rate": 5.9435574821908914e-06, "loss": 0.5538, "step": 4279 }, { "avg_step_time": 5.592173140458386, "epoch": 0.45642666666666665, "eta_time": 7.916031756604426, "step": 4279 }, { "epoch": 0.45653333333333335, "grad_norm": 1.8289779639129828, "learning_rate": 5.94186098561957e-06, "loss": 0.4417, "step": 4280 }, { "avg_step_time": 5.588910897572835, "epoch": 0.45653333333333335, "eta_time": 7.909861395314888, "step": 4280 }, { "epoch": 0.45664, "grad_norm": 1.8756162299782393, "learning_rate": 5.940164376620847e-06, "loss": 0.4837, "step": 4281 }, { "avg_step_time": 5.562644322713216, "epoch": 0.45664, "eta_time": 7.871141716639201, "step": 4281 }, { "epoch": 0.4567466666666667, "grad_norm": 1.8296778962488907, "learning_rate": 5.938467655397244e-06, "loss": 0.5306, "step": 4282 }, { "avg_step_time": 5.544632726245457, "epoch": 0.4567466666666667, "eta_time": 7.844115131880031, "step": 4282 }, { "epoch": 0.45685333333333333, "grad_norm": 1.7749544653687916, "learning_rate": 5.936770822151297e-06, "loss": 0.5049, "step": 4283 }, { "avg_step_time": 5.542672665432246, "epoch": 0.45685333333333333, "eta_time": 7.8398025589947204, "step": 4283 }, { "epoch": 0.45696, "grad_norm": 1.7900873380250688, "learning_rate": 5.935073877085546e-06, "loss": 0.4726, "step": 4284 }, { "avg_step_time": 5.565625130528152, "epoch": 0.45696, "eta_time": 7.8707215387552285, "step": 4284 }, { "epoch": 0.4570666666666667, "grad_norm": 1.7818106123984818, "learning_rate": 5.933376820402554e-06, "loss": 0.4145, "step": 4285 }, { "avg_step_time": 5.563785485546998, "epoch": 0.4570666666666667, "eta_time": 7.866574478176172, "step": 4285 }, { "epoch": 0.4571733333333333, "grad_norm": 0.6708631655656375, "learning_rate": 5.931679652304896e-06, "loss": 0.4557, "step": 4286 }, { "avg_step_time": 5.530654738647769, "epoch": 0.4571733333333333, "eta_time": 7.818194990271804, "step": 4286 }, { "epoch": 0.45728, "grad_norm": 1.7280666478256734, "learning_rate": 5.9299823729951544e-06, "loss": 0.4459, "step": 4287 }, { "avg_step_time": 5.529414123959011, "epoch": 0.45728, "eta_time": 7.814905295195403, "step": 4287 }, { "epoch": 0.45738666666666666, "grad_norm": 1.9900222542654922, "learning_rate": 5.928284982675931e-06, "loss": 0.4839, "step": 4288 }, { "avg_step_time": 5.530078507433034, "epoch": 0.45738666666666666, "eta_time": 7.814308157586623, "step": 4288 }, { "epoch": 0.4574933333333333, "grad_norm": 1.8453419711930956, "learning_rate": 5.926587481549841e-06, "loss": 0.5135, "step": 4289 }, { "avg_step_time": 5.52505538198683, "epoch": 0.4574933333333333, "eta_time": 7.805675464662505, "step": 4289 }, { "epoch": 0.4576, "grad_norm": 1.8493720201383133, "learning_rate": 5.9248898698195054e-06, "loss": 0.5092, "step": 4290 }, { "avg_step_time": 5.536343483009723, "epoch": 0.4576, "eta_time": 7.820085169751234, "step": 4290 }, { "epoch": 0.45770666666666665, "grad_norm": 1.5526185101159522, "learning_rate": 5.923192147687568e-06, "loss": 0.5043, "step": 4291 }, { "avg_step_time": 5.526361499169861, "epoch": 0.45770666666666665, "eta_time": 7.804450517160992, "step": 4291 }, { "epoch": 0.45781333333333335, "grad_norm": 1.5761287462398237, "learning_rate": 5.921494315356679e-06, "loss": 0.5482, "step": 4292 }, { "avg_step_time": 5.526325514822295, "epoch": 0.45781333333333335, "eta_time": 7.802864608844923, "step": 4292 }, { "epoch": 0.45792, "grad_norm": 1.749220506075858, "learning_rate": 5.919796373029504e-06, "loss": 0.5143, "step": 4293 }, { "avg_step_time": 5.520985957347985, "epoch": 0.45792, "eta_time": 7.793791843122906, "step": 4293 }, { "epoch": 0.4580266666666667, "grad_norm": 2.038869224572852, "learning_rate": 5.918098320908723e-06, "loss": 0.5653, "step": 4294 }, { "avg_step_time": 5.517791461462926, "epoch": 0.4580266666666667, "eta_time": 7.787749559914758, "step": 4294 }, { "epoch": 0.45813333333333334, "grad_norm": 1.6775737355666698, "learning_rate": 5.916400159197027e-06, "loss": 0.5133, "step": 4295 }, { "avg_step_time": 5.50120965880577, "epoch": 0.45813333333333334, "eta_time": 7.7628180740925865, "step": 4295 }, { "epoch": 0.45824, "grad_norm": 1.8317676273905656, "learning_rate": 5.914701888097121e-06, "loss": 0.5721, "step": 4296 }, { "avg_step_time": 5.500701634570806, "epoch": 0.45824, "eta_time": 7.760573222773645, "step": 4296 }, { "epoch": 0.4583466666666667, "grad_norm": 1.6790812823617773, "learning_rate": 5.913003507811723e-06, "loss": 0.4844, "step": 4297 }, { "avg_step_time": 5.495692378342754, "epoch": 0.4583466666666667, "eta_time": 7.751979415895695, "step": 4297 }, { "epoch": 0.4584533333333333, "grad_norm": 1.8262757245803434, "learning_rate": 5.911305018543565e-06, "loss": 0.4796, "step": 4298 }, { "avg_step_time": 5.496260864566071, "epoch": 0.4584533333333333, "eta_time": 7.751254558167206, "step": 4298 }, { "epoch": 0.45856, "grad_norm": 1.7142939463130227, "learning_rate": 5.90960642049539e-06, "loss": 0.4683, "step": 4299 }, { "avg_step_time": 5.5280527875881, "epoch": 0.45856, "eta_time": 7.794554430499221, "step": 4299 }, { "epoch": 0.45866666666666667, "grad_norm": 1.6749046416276763, "learning_rate": 5.9079077138699555e-06, "loss": 0.5566, "step": 4300 }, { "avg_step_time": 5.528454621632894, "epoch": 0.45866666666666667, "eta_time": 7.793585334663037, "step": 4300 }, { "epoch": 0.4587733333333333, "grad_norm": 1.894384478544445, "learning_rate": 5.906208898870032e-06, "loss": 0.5263, "step": 4301 }, { "avg_step_time": 5.528940138190683, "epoch": 0.4587733333333333, "eta_time": 7.792733961438758, "step": 4301 }, { "epoch": 0.45888, "grad_norm": 1.8995504777731558, "learning_rate": 5.904509975698399e-06, "loss": 0.5177, "step": 4302 }, { "avg_step_time": 5.530787761765297, "epoch": 0.45888, "eta_time": 7.793801754287598, "step": 4302 }, { "epoch": 0.45898666666666665, "grad_norm": 1.6215844135962862, "learning_rate": 5.90281094455786e-06, "loss": 0.4775, "step": 4303 }, { "avg_step_time": 5.529707853240196, "epoch": 0.45898666666666665, "eta_time": 7.790743953231742, "step": 4303 }, { "epoch": 0.45909333333333335, "grad_norm": 1.848048401588097, "learning_rate": 5.9011118056512155e-06, "loss": 0.461, "step": 4304 }, { "avg_step_time": 5.520654049786654, "epoch": 0.45909333333333335, "eta_time": 7.776454635130035, "step": 4304 }, { "epoch": 0.4592, "grad_norm": 1.8039336661179177, "learning_rate": 5.8994125591812914e-06, "loss": 0.5364, "step": 4305 }, { "avg_step_time": 5.520450295823993, "epoch": 0.4592, "eta_time": 7.77463416661879, "step": 4305 }, { "epoch": 0.45930666666666664, "grad_norm": 2.181912756981136, "learning_rate": 5.897713205350923e-06, "loss": 0.5732, "step": 4306 }, { "avg_step_time": 5.518195217305964, "epoch": 0.45930666666666664, "eta_time": 7.769925432367758, "step": 4306 }, { "epoch": 0.45941333333333334, "grad_norm": 1.7789974808853293, "learning_rate": 5.896013744362954e-06, "loss": 0.5304, "step": 4307 }, { "avg_step_time": 5.51704972681373, "epoch": 0.45941333333333334, "eta_time": 7.766780004303328, "step": 4307 }, { "epoch": 0.45952, "grad_norm": 1.6861708625519591, "learning_rate": 5.894314176420247e-06, "loss": 0.4999, "step": 4308 }, { "avg_step_time": 5.5194419682627975, "epoch": 0.45952, "eta_time": 7.768614570329888, "step": 4308 }, { "epoch": 0.4596266666666667, "grad_norm": 0.6569886203061709, "learning_rate": 5.892614501725674e-06, "loss": 0.4564, "step": 4309 }, { "avg_step_time": 5.481217781702678, "epoch": 0.4596266666666667, "eta_time": 7.713291467251602, "step": 4309 }, { "epoch": 0.4597333333333333, "grad_norm": 1.7816589070181847, "learning_rate": 5.890914720482122e-06, "loss": 0.493, "step": 4310 }, { "avg_step_time": 5.48445249807955, "epoch": 0.4597333333333333, "eta_time": 7.716319972992478, "step": 4310 }, { "epoch": 0.45984, "grad_norm": 1.963137279365929, "learning_rate": 5.889214832892489e-06, "loss": 0.5275, "step": 4311 }, { "avg_step_time": 5.51454716017752, "epoch": 0.45984, "eta_time": 7.757129671983044, "step": 4311 }, { "epoch": 0.45994666666666667, "grad_norm": 1.6714237179408296, "learning_rate": 5.887514839159683e-06, "loss": 0.453, "step": 4312 }, { "avg_step_time": 5.547004805670844, "epoch": 0.45994666666666667, "eta_time": 7.801245925308745, "step": 4312 }, { "epoch": 0.4600533333333333, "grad_norm": 1.656670421312796, "learning_rate": 5.8858147394866296e-06, "loss": 0.4844, "step": 4313 }, { "avg_step_time": 5.541220681835907, "epoch": 0.4600533333333333, "eta_time": 7.791571969848155, "step": 4313 }, { "epoch": 0.46016, "grad_norm": 1.8157835243180955, "learning_rate": 5.8841145340762665e-06, "loss": 0.5093, "step": 4314 }, { "avg_step_time": 5.535451999818436, "epoch": 0.46016, "eta_time": 7.7819229364114175, "step": 4314 }, { "epoch": 0.46026666666666666, "grad_norm": 1.8019608690536526, "learning_rate": 5.88241422313154e-06, "loss": 0.5215, "step": 4315 }, { "avg_step_time": 5.550106937235052, "epoch": 0.46026666666666666, "eta_time": 7.800983639558156, "step": 4315 }, { "epoch": 0.46037333333333336, "grad_norm": 1.8347100467245407, "learning_rate": 5.880713806855415e-06, "loss": 0.4945, "step": 4316 }, { "avg_step_time": 5.544341489522144, "epoch": 0.46037333333333336, "eta_time": 7.791339887636813, "step": 4316 }, { "epoch": 0.46048, "grad_norm": 1.6516392624188352, "learning_rate": 5.879013285450863e-06, "loss": 0.5424, "step": 4317 }, { "avg_step_time": 5.542033913159611, "epoch": 0.46048, "eta_time": 7.786557647989254, "step": 4317 }, { "epoch": 0.46058666666666664, "grad_norm": 0.653556490468547, "learning_rate": 5.877312659120871e-06, "loss": 0.4423, "step": 4318 }, { "avg_step_time": 5.516176055176089, "epoch": 0.46058666666666664, "eta_time": 7.748695086395967, "step": 4318 }, { "epoch": 0.46069333333333334, "grad_norm": 1.9107138622518367, "learning_rate": 5.875611928068439e-06, "loss": 0.5701, "step": 4319 }, { "avg_step_time": 5.517908496086044, "epoch": 0.46069333333333334, "eta_time": 7.749595932280844, "step": 4319 }, { "epoch": 0.4608, "grad_norm": 1.7506348722080085, "learning_rate": 5.873911092496577e-06, "loss": 0.5349, "step": 4320 }, { "avg_step_time": 5.5185436793047975, "epoch": 0.4608, "eta_time": 7.748955083023819, "step": 4320 }, { "epoch": 0.4609066666666667, "grad_norm": 1.9305110282643658, "learning_rate": 5.872210152608311e-06, "loss": 0.5376, "step": 4321 }, { "avg_step_time": 5.51595534459509, "epoch": 0.4609066666666667, "eta_time": 7.743788419884329, "step": 4321 }, { "epoch": 0.46101333333333333, "grad_norm": 1.7500369542966852, "learning_rate": 5.870509108606677e-06, "loss": 0.5016, "step": 4322 }, { "avg_step_time": 5.516114509466923, "epoch": 0.46101333333333333, "eta_time": 7.742479615648989, "step": 4322 }, { "epoch": 0.46112, "grad_norm": 1.8237566319270642, "learning_rate": 5.8688079606947226e-06, "loss": 0.4925, "step": 4323 }, { "avg_step_time": 5.519138892491658, "epoch": 0.46112, "eta_time": 7.745191579129961, "step": 4323 }, { "epoch": 0.4612266666666667, "grad_norm": 1.6472613038165727, "learning_rate": 5.867106709075511e-06, "loss": 0.398, "step": 4324 }, { "avg_step_time": 5.51499360257929, "epoch": 0.4612266666666667, "eta_time": 7.7378424129522205, "step": 4324 }, { "epoch": 0.4613333333333333, "grad_norm": 2.023813992466219, "learning_rate": 5.865405353952116e-06, "loss": 0.4743, "step": 4325 }, { "avg_step_time": 5.51415364670031, "epoch": 0.4613333333333333, "eta_time": 7.735132198843489, "step": 4325 }, { "epoch": 0.46144, "grad_norm": 1.784290789566817, "learning_rate": 5.8637038955276225e-06, "loss": 0.5094, "step": 4326 }, { "avg_step_time": 5.477162594747061, "epoch": 0.46144, "eta_time": 7.681720539132753, "step": 4326 }, { "epoch": 0.46154666666666666, "grad_norm": 0.6700256740278108, "learning_rate": 5.86200233400513e-06, "loss": 0.4459, "step": 4327 }, { "avg_step_time": 5.463886186330005, "epoch": 0.46154666666666666, "eta_time": 7.661582630164963, "step": 4327 }, { "epoch": 0.46165333333333336, "grad_norm": 0.6572041038996997, "learning_rate": 5.8603006695877505e-06, "loss": 0.4673, "step": 4328 }, { "avg_step_time": 5.433601771942293, "epoch": 0.46165333333333336, "eta_time": 7.617607817497986, "step": 4328 }, { "epoch": 0.46176, "grad_norm": 1.9005031212287724, "learning_rate": 5.858598902478604e-06, "loss": 0.5968, "step": 4329 }, { "avg_step_time": 5.430392508554941, "epoch": 0.46176, "eta_time": 7.611600166157842, "step": 4329 }, { "epoch": 0.46186666666666665, "grad_norm": 1.7596011859701661, "learning_rate": 5.856897032880829e-06, "loss": 0.5021, "step": 4330 }, { "avg_step_time": 5.429838125151817, "epoch": 0.46186666666666665, "eta_time": 7.609314817053033, "step": 4330 }, { "epoch": 0.46197333333333335, "grad_norm": 1.7530948449225248, "learning_rate": 5.855195060997571e-06, "loss": 0.6131, "step": 4331 }, { "avg_step_time": 5.431113729573259, "epoch": 0.46197333333333335, "eta_time": 7.6095937922132, "step": 4331 }, { "epoch": 0.46208, "grad_norm": 1.9807550855488036, "learning_rate": 5.853492987031989e-06, "loss": 0.5126, "step": 4332 }, { "avg_step_time": 5.424328428326231, "epoch": 0.46208, "eta_time": 7.598580073346996, "step": 4332 }, { "epoch": 0.4621866666666667, "grad_norm": 2.2373469814325815, "learning_rate": 5.851790811187258e-06, "loss": 0.6673, "step": 4333 }, { "avg_step_time": 5.424540873729821, "epoch": 0.4621866666666667, "eta_time": 7.597370857040489, "step": 4333 }, { "epoch": 0.46229333333333333, "grad_norm": 1.7882564682997897, "learning_rate": 5.850088533666559e-06, "loss": 0.41, "step": 4334 }, { "avg_step_time": 5.425495395756731, "epoch": 0.46229333333333333, "eta_time": 7.597200636113801, "step": 4334 }, { "epoch": 0.4624, "grad_norm": 1.758433711660775, "learning_rate": 5.8483861546730915e-06, "loss": 0.5829, "step": 4335 }, { "avg_step_time": 5.424243804180261, "epoch": 0.4624, "eta_time": 7.593941325852366, "step": 4335 }, { "epoch": 0.4625066666666667, "grad_norm": 2.140287566696435, "learning_rate": 5.846683674410061e-06, "loss": 0.4682, "step": 4336 }, { "avg_step_time": 5.434883717334632, "epoch": 0.4625066666666667, "eta_time": 7.607327514347002, "step": 4336 }, { "epoch": 0.4626133333333333, "grad_norm": 1.783707922376667, "learning_rate": 5.844981093080688e-06, "loss": 0.4894, "step": 4337 }, { "avg_step_time": 5.469008163972334, "epoch": 0.4626133333333333, "eta_time": 7.653573091692394, "step": 4337 }, { "epoch": 0.46272, "grad_norm": 1.7760193339352648, "learning_rate": 5.843278410888208e-06, "loss": 0.5198, "step": 4338 }, { "avg_step_time": 5.503354609614671, "epoch": 0.46272, "eta_time": 7.700110324619193, "step": 4338 }, { "epoch": 0.46282666666666666, "grad_norm": 1.6908033949187107, "learning_rate": 5.841575628035863e-06, "loss": 0.4639, "step": 4339 }, { "avg_step_time": 5.525448490874936, "epoch": 0.46282666666666666, "eta_time": 7.7294885000128275, "step": 4339 }, { "epoch": 0.4629333333333333, "grad_norm": 1.778399876714048, "learning_rate": 5.8398727447269084e-06, "loss": 0.5491, "step": 4340 }, { "avg_step_time": 5.561819883308026, "epoch": 0.4629333333333333, "eta_time": 7.778823086793308, "step": 4340 }, { "epoch": 0.46304, "grad_norm": 1.6690051578546732, "learning_rate": 5.838169761164616e-06, "loss": 0.4898, "step": 4341 }, { "avg_step_time": 5.550496489110619, "epoch": 0.46304, "eta_time": 7.761444257273016, "step": 4341 }, { "epoch": 0.46314666666666665, "grad_norm": 1.6289468067077957, "learning_rate": 5.836466677552266e-06, "loss": 0.433, "step": 4342 }, { "avg_step_time": 5.562164429462317, "epoch": 0.46314666666666665, "eta_time": 7.77621488152329, "step": 4342 }, { "epoch": 0.46325333333333335, "grad_norm": 1.7405511201067752, "learning_rate": 5.8347634940931494e-06, "loss": 0.5032, "step": 4343 }, { "avg_step_time": 5.585168265333079, "epoch": 0.46325333333333335, "eta_time": 7.806824086432237, "step": 4343 }, { "epoch": 0.46336, "grad_norm": 1.8194421533292888, "learning_rate": 5.83306021099057e-06, "loss": 0.4927, "step": 4344 }, { "avg_step_time": 5.580955760647552, "epoch": 0.46336, "eta_time": 7.799385675504954, "step": 4344 }, { "epoch": 0.4634666666666667, "grad_norm": 1.8484768285494817, "learning_rate": 5.831356828447847e-06, "loss": 0.5962, "step": 4345 }, { "avg_step_time": 5.552909369420523, "epoch": 0.4634666666666667, "eta_time": 7.758648368940342, "step": 4345 }, { "epoch": 0.46357333333333334, "grad_norm": 0.6912620688001327, "learning_rate": 5.829653346668305e-06, "loss": 0.452, "step": 4346 }, { "avg_step_time": 5.518596928529065, "epoch": 0.46357333333333334, "eta_time": 7.709173320436852, "step": 4346 }, { "epoch": 0.46368, "grad_norm": 1.7043728230215716, "learning_rate": 5.827949765855285e-06, "loss": 0.4603, "step": 4347 }, { "avg_step_time": 5.561664906415072, "epoch": 0.46368, "eta_time": 7.767791985959717, "step": 4347 }, { "epoch": 0.4637866666666667, "grad_norm": 1.6007885759654787, "learning_rate": 5.826246086212142e-06, "loss": 0.4137, "step": 4348 }, { "avg_step_time": 5.560609111882219, "epoch": 0.4637866666666667, "eta_time": 7.764772779286644, "step": 4348 }, { "epoch": 0.4638933333333333, "grad_norm": 2.096435568196926, "learning_rate": 5.824542307942236e-06, "loss": 0.522, "step": 4349 }, { "avg_step_time": 5.560754260631523, "epoch": 0.4638933333333333, "eta_time": 7.76343080942612, "step": 4349 }, { "epoch": 0.464, "grad_norm": 1.884372341340619, "learning_rate": 5.822838431248943e-06, "loss": 0.4727, "step": 4350 }, { "avg_step_time": 5.559352766383778, "epoch": 0.464, "eta_time": 7.759929903077357, "step": 4350 }, { "epoch": 0.46410666666666667, "grad_norm": 1.822272676987211, "learning_rate": 5.821134456335652e-06, "loss": 0.4686, "step": 4351 }, { "avg_step_time": 5.592535763075857, "epoch": 0.46410666666666667, "eta_time": 7.804694353803641, "step": 4351 }, { "epoch": 0.4642133333333333, "grad_norm": 1.6189558355025861, "learning_rate": 5.81943038340576e-06, "loss": 0.4938, "step": 4352 }, { "avg_step_time": 5.592964266285752, "epoch": 0.4642133333333333, "eta_time": 7.803738752653704, "step": 4352 }, { "epoch": 0.46432, "grad_norm": 0.671347945267479, "learning_rate": 5.817726212662678e-06, "loss": 0.4547, "step": 4353 }, { "avg_step_time": 5.55769016766789, "epoch": 0.46432, "eta_time": 7.752977783896707, "step": 4353 }, { "epoch": 0.46442666666666665, "grad_norm": 2.8243739542032733, "learning_rate": 5.816021944309828e-06, "loss": 0.5575, "step": 4354 }, { "avg_step_time": 5.558451789798158, "epoch": 0.46442666666666665, "eta_time": 7.752496232382376, "step": 4354 }, { "epoch": 0.46453333333333335, "grad_norm": 2.0699200418277557, "learning_rate": 5.8143175785506455e-06, "loss": 0.4922, "step": 4355 }, { "avg_step_time": 5.594414080032195, "epoch": 0.46453333333333335, "eta_time": 7.8010996338226715, "step": 4355 }, { "epoch": 0.46464, "grad_norm": 1.673491007756006, "learning_rate": 5.812613115588575e-06, "loss": 0.4529, "step": 4356 }, { "avg_step_time": 5.596783914951363, "epoch": 0.46464, "eta_time": 7.802849574761359, "step": 4356 }, { "epoch": 0.46474666666666664, "grad_norm": 1.6949168723448809, "learning_rate": 5.810908555627072e-06, "loss": 0.5714, "step": 4357 }, { "avg_step_time": 5.5979722726224646, "epoch": 0.46474666666666664, "eta_time": 7.802951351116535, "step": 4357 }, { "epoch": 0.46485333333333334, "grad_norm": 1.710444424613421, "learning_rate": 5.809203898869608e-06, "loss": 0.5097, "step": 4358 }, { "avg_step_time": 5.591364345165214, "epoch": 0.46485333333333334, "eta_time": 7.792187477692744, "step": 4358 }, { "epoch": 0.46496, "grad_norm": 2.1023709251387728, "learning_rate": 5.807499145519663e-06, "loss": 0.4985, "step": 4359 }, { "avg_step_time": 5.592912582435993, "epoch": 0.46496, "eta_time": 7.792791531527484, "step": 4359 }, { "epoch": 0.4650666666666667, "grad_norm": 0.6444346704486781, "learning_rate": 5.805794295780727e-06, "loss": 0.4563, "step": 4360 }, { "avg_step_time": 5.558640978553078, "epoch": 0.4650666666666667, "eta_time": 7.743495696512135, "step": 4360 }, { "epoch": 0.4651733333333333, "grad_norm": 1.7576067143182104, "learning_rate": 5.804089349856302e-06, "loss": 0.4652, "step": 4361 }, { "avg_step_time": 5.554901953899499, "epoch": 0.4651733333333333, "eta_time": 7.73674399912558, "step": 4361 }, { "epoch": 0.46528, "grad_norm": 1.8525008581958593, "learning_rate": 5.802384307949909e-06, "loss": 0.4154, "step": 4362 }, { "avg_step_time": 5.5492793550395, "epoch": 0.46528, "eta_time": 7.727371501892504, "step": 4362 }, { "epoch": 0.46538666666666667, "grad_norm": 1.961090955676538, "learning_rate": 5.800679170265067e-06, "loss": 0.4441, "step": 4363 }, { "avg_step_time": 5.546867122553816, "epoch": 0.46538666666666667, "eta_time": 7.722471671733257, "step": 4363 }, { "epoch": 0.4654933333333333, "grad_norm": 1.6977278943464194, "learning_rate": 5.798973937005319e-06, "loss": 0.4763, "step": 4364 }, { "avg_step_time": 5.584514709434124, "epoch": 0.4654933333333333, "eta_time": 7.773334224715111, "step": 4364 }, { "epoch": 0.4656, "grad_norm": 2.125581881360294, "learning_rate": 5.79726860837421e-06, "loss": 0.5147, "step": 4365 }, { "avg_step_time": 5.585981790465538, "epoch": 0.4656, "eta_time": 7.773824658397873, "step": 4365 }, { "epoch": 0.46570666666666666, "grad_norm": 1.869233092324975, "learning_rate": 5.7955631845753026e-06, "loss": 0.5419, "step": 4366 }, { "avg_step_time": 5.622814176058529, "epoch": 0.46570666666666666, "eta_time": 7.82352116885477, "step": 4366 }, { "epoch": 0.46581333333333336, "grad_norm": 1.8079722504667894, "learning_rate": 5.7938576658121705e-06, "loss": 0.5023, "step": 4367 }, { "avg_step_time": 5.658574708784469, "epoch": 0.46581333333333336, "eta_time": 7.871706150442394, "step": 4367 }, { "epoch": 0.46592, "grad_norm": 1.8267831328203838, "learning_rate": 5.792152052288391e-06, "loss": 0.4545, "step": 4368 }, { "avg_step_time": 5.622775181375369, "epoch": 0.46592, "eta_time": 7.820343148096242, "step": 4368 }, { "epoch": 0.46602666666666664, "grad_norm": 1.7347935268680883, "learning_rate": 5.7904463442075655e-06, "loss": 0.5135, "step": 4369 }, { "avg_step_time": 5.575940197164362, "epoch": 0.46602666666666664, "eta_time": 7.753654618612444, "step": 4369 }, { "epoch": 0.46613333333333334, "grad_norm": 1.7916383456451435, "learning_rate": 5.788740541773296e-06, "loss": 0.5198, "step": 4370 }, { "avg_step_time": 5.576858009954895, "epoch": 0.46613333333333334, "eta_time": 7.7533817610622915, "step": 4370 }, { "epoch": 0.46624, "grad_norm": 0.6652713259876845, "learning_rate": 5.787034645189199e-06, "loss": 0.4448, "step": 4371 }, { "avg_step_time": 5.541285565405181, "epoch": 0.46624, "eta_time": 7.702386935913202, "step": 4371 }, { "epoch": 0.4663466666666667, "grad_norm": 1.7046352306589452, "learning_rate": 5.785328654658905e-06, "loss": 0.5996, "step": 4372 }, { "avg_step_time": 5.54685284874656, "epoch": 0.4663466666666667, "eta_time": 7.708584667299733, "step": 4372 }, { "epoch": 0.46645333333333333, "grad_norm": 1.7907299786764186, "learning_rate": 5.7836225703860525e-06, "loss": 0.4976, "step": 4373 }, { "avg_step_time": 5.546190355763291, "epoch": 0.46645333333333333, "eta_time": 7.706123377646661, "step": 4373 }, { "epoch": 0.46656, "grad_norm": 1.702260558579878, "learning_rate": 5.7819163925742915e-06, "loss": 0.4673, "step": 4374 }, { "avg_step_time": 5.5287007033222855, "epoch": 0.46656, "eta_time": 7.680286727031875, "step": 4374 }, { "epoch": 0.4666666666666667, "grad_norm": 1.6808849381528768, "learning_rate": 5.780210121427286e-06, "loss": 0.5137, "step": 4375 }, { "avg_step_time": 5.529670106040107, "epoch": 0.4666666666666667, "eta_time": 7.680097369500148, "step": 4375 }, { "epoch": 0.4667733333333333, "grad_norm": 1.8339404754852877, "learning_rate": 5.778503757148706e-06, "loss": 0.504, "step": 4376 }, { "avg_step_time": 5.528190766922151, "epoch": 0.4667733333333333, "eta_time": 7.676507123289953, "step": 4376 }, { "epoch": 0.46688, "grad_norm": 1.7335765362178395, "learning_rate": 5.776797299942236e-06, "loss": 0.5784, "step": 4377 }, { "avg_step_time": 5.590585850706004, "epoch": 0.46688, "eta_time": 7.761596689396836, "step": 4377 }, { "epoch": 0.46698666666666666, "grad_norm": 1.9698785613793142, "learning_rate": 5.7750907500115735e-06, "loss": 0.5086, "step": 4378 }, { "avg_step_time": 5.591308661181517, "epoch": 0.46698666666666666, "eta_time": 7.7610470499789, "step": 4378 }, { "epoch": 0.46709333333333336, "grad_norm": 1.747103084943045, "learning_rate": 5.773384107560424e-06, "loss": 0.4792, "step": 4379 }, { "avg_step_time": 5.599109603901102, "epoch": 0.46709333333333336, "eta_time": 7.770319883636084, "step": 4379 }, { "epoch": 0.4672, "grad_norm": 0.6259363900305185, "learning_rate": 5.771677372792502e-06, "loss": 0.4337, "step": 4380 }, { "avg_step_time": 5.563424218784679, "epoch": 0.4672, "eta_time": 7.719251103563742, "step": 4380 }, { "epoch": 0.46730666666666665, "grad_norm": 1.60136873729528, "learning_rate": 5.76997054591154e-06, "loss": 0.4652, "step": 4381 }, { "avg_step_time": 5.563947571648492, "epoch": 0.46730666666666665, "eta_time": 7.7184317146701575, "step": 4381 }, { "epoch": 0.46741333333333335, "grad_norm": 0.658717658967955, "learning_rate": 5.7682636271212746e-06, "loss": 0.4765, "step": 4382 }, { "avg_step_time": 5.533008688628072, "epoch": 0.46741333333333335, "eta_time": 7.673975661755544, "step": 4382 }, { "epoch": 0.46752, "grad_norm": 1.6180358126033865, "learning_rate": 5.766556616625456e-06, "loss": 0.4339, "step": 4383 }, { "avg_step_time": 5.53572253506593, "epoch": 0.46752, "eta_time": 7.676201915291423, "step": 4383 }, { "epoch": 0.4676266666666667, "grad_norm": 2.0568099448883492, "learning_rate": 5.764849514627848e-06, "loss": 0.4836, "step": 4384 }, { "avg_step_time": 5.537422461943193, "epoch": 0.4676266666666667, "eta_time": 7.6770209743218, "step": 4384 }, { "epoch": 0.46773333333333333, "grad_norm": 1.8427422425118154, "learning_rate": 5.7631423213322195e-06, "loss": 0.5543, "step": 4385 }, { "avg_step_time": 5.573005522140349, "epoch": 0.46773333333333333, "eta_time": 7.724804876522317, "step": 4385 }, { "epoch": 0.46784, "grad_norm": 1.7200346808908549, "learning_rate": 5.7614350369423555e-06, "loss": 0.4482, "step": 4386 }, { "avg_step_time": 5.5708427164289684, "epoch": 0.46784, "eta_time": 7.720259531184478, "step": 4386 }, { "epoch": 0.4679466666666667, "grad_norm": 2.1351924155608524, "learning_rate": 5.75972766166205e-06, "loss": 0.571, "step": 4387 }, { "avg_step_time": 5.57077441071019, "epoch": 0.4679466666666667, "eta_time": 7.71861743350623, "step": 4387 }, { "epoch": 0.4680533333333333, "grad_norm": 1.7708869407737529, "learning_rate": 5.758020195695107e-06, "loss": 0.5315, "step": 4388 }, { "avg_step_time": 5.576660649945038, "epoch": 0.4680533333333333, "eta_time": 7.72522407257664, "step": 4388 }, { "epoch": 0.46816, "grad_norm": 1.7413550529738138, "learning_rate": 5.7563126392453415e-06, "loss": 0.5015, "step": 4389 }, { "avg_step_time": 5.568278565551296, "epoch": 0.46816, "eta_time": 7.712065813288545, "step": 4389 }, { "epoch": 0.46826666666666666, "grad_norm": 2.1105826426497902, "learning_rate": 5.754604992516581e-06, "loss": 0.5101, "step": 4390 }, { "avg_step_time": 5.570931950000801, "epoch": 0.46826666666666666, "eta_time": 7.7141932696538875, "step": 4390 }, { "epoch": 0.4683733333333333, "grad_norm": 2.080107541441642, "learning_rate": 5.7528972557126625e-06, "loss": 0.4926, "step": 4391 }, { "avg_step_time": 5.5707160631815595, "epoch": 0.4683733333333333, "eta_time": 7.712346905249137, "step": 4391 }, { "epoch": 0.46848, "grad_norm": 0.6329295875933777, "learning_rate": 5.751189429037435e-06, "loss": 0.4244, "step": 4392 }, { "avg_step_time": 5.53805023010331, "epoch": 0.46848, "eta_time": 7.665584526834665, "step": 4392 }, { "epoch": 0.46858666666666665, "grad_norm": 1.9911783137676122, "learning_rate": 5.749481512694755e-06, "loss": 0.5636, "step": 4393 }, { "avg_step_time": 5.538630743219395, "epoch": 0.46858666666666665, "eta_time": 7.664849545199729, "step": 4393 }, { "epoch": 0.46869333333333335, "grad_norm": 1.6709511968090445, "learning_rate": 5.747773506888492e-06, "loss": 0.4734, "step": 4394 }, { "avg_step_time": 5.535316633455681, "epoch": 0.46869333333333335, "eta_time": 7.658725597567429, "step": 4394 }, { "epoch": 0.4688, "grad_norm": 2.0358543901256048, "learning_rate": 5.746065411822528e-06, "loss": 0.6004, "step": 4395 }, { "avg_step_time": 5.539819310409854, "epoch": 0.4688, "eta_time": 7.663416712733631, "step": 4395 }, { "epoch": 0.4689066666666667, "grad_norm": 1.7633327920627242, "learning_rate": 5.744357227700752e-06, "loss": 0.4739, "step": 4396 }, { "avg_step_time": 5.541328856439302, "epoch": 0.4689066666666667, "eta_time": 7.6639656600586905, "step": 4396 }, { "epoch": 0.46901333333333334, "grad_norm": 1.8318660804517972, "learning_rate": 5.742648954727066e-06, "loss": 0.5003, "step": 4397 }, { "avg_step_time": 5.543155060874091, "epoch": 0.46901333333333334, "eta_time": 7.664951636953118, "step": 4397 }, { "epoch": 0.46912, "grad_norm": 0.6360893852485433, "learning_rate": 5.740940593105383e-06, "loss": 0.4475, "step": 4398 }, { "avg_step_time": 5.50849045888342, "epoch": 0.46912, "eta_time": 7.615488059406328, "step": 4398 }, { "epoch": 0.4692266666666667, "grad_norm": 0.6517664022671975, "learning_rate": 5.739232143039623e-06, "loss": 0.444, "step": 4399 }, { "avg_step_time": 5.474139143722226, "epoch": 0.4692266666666667, "eta_time": 7.566476771989389, "step": 4399 }, { "epoch": 0.4693333333333333, "grad_norm": 0.6477121862422007, "learning_rate": 5.737523604733719e-06, "loss": 0.4443, "step": 4400 }, { "avg_step_time": 5.443537141337539, "epoch": 0.4693333333333333, "eta_time": 7.5226659105984055, "step": 4400 }, { "epoch": 0.46944, "grad_norm": 1.534897492290511, "learning_rate": 5.73581497839162e-06, "loss": 0.4806, "step": 4401 }, { "avg_step_time": 5.441779984368218, "epoch": 0.46944, "eta_time": 7.5187260117354215, "step": 4401 }, { "epoch": 0.46954666666666667, "grad_norm": 1.6034049238490928, "learning_rate": 5.734106264217272e-06, "loss": 0.472, "step": 4402 }, { "avg_step_time": 5.440771365406538, "epoch": 0.46954666666666667, "eta_time": 7.51582111115742, "step": 4402 }, { "epoch": 0.4696533333333333, "grad_norm": 1.7028388563264005, "learning_rate": 5.732397462414645e-06, "loss": 0.4624, "step": 4403 }, { "avg_step_time": 5.441845884226789, "epoch": 0.4696533333333333, "eta_time": 7.5157938156598885, "step": 4403 }, { "epoch": 0.46976, "grad_norm": 0.6473363663680338, "learning_rate": 5.730688573187715e-06, "loss": 0.4835, "step": 4404 }, { "avg_step_time": 5.411230571342237, "epoch": 0.46976, "eta_time": 7.4720075472617395, "step": 4404 }, { "epoch": 0.46986666666666665, "grad_norm": 1.6333863634859136, "learning_rate": 5.7289795967404624e-06, "loss": 0.4382, "step": 4405 }, { "avg_step_time": 5.406766161774144, "epoch": 0.46986666666666665, "eta_time": 7.464341062227081, "step": 4405 }, { "epoch": 0.46997333333333335, "grad_norm": 1.6249506673349845, "learning_rate": 5.7272705332768865e-06, "loss": 0.4824, "step": 4406 }, { "avg_step_time": 5.410198221302996, "epoch": 0.46997333333333335, "eta_time": 7.467576378237385, "step": 4406 }, { "epoch": 0.47008, "grad_norm": 1.5638867151844353, "learning_rate": 5.725561383000994e-06, "loss": 0.5266, "step": 4407 }, { "avg_step_time": 5.407633634528729, "epoch": 0.47008, "eta_time": 7.462534415649646, "step": 4407 }, { "epoch": 0.47018666666666664, "grad_norm": 1.655354113798948, "learning_rate": 5.723852146116799e-06, "loss": 0.527, "step": 4408 }, { "avg_step_time": 5.441794096821487, "epoch": 0.47018666666666664, "eta_time": 7.508164244142312, "step": 4408 }, { "epoch": 0.47029333333333334, "grad_norm": 1.6029943531532387, "learning_rate": 5.7221428228283325e-06, "loss": 0.3962, "step": 4409 }, { "avg_step_time": 5.4333810493199515, "epoch": 0.47029333333333334, "eta_time": 7.495047303034133, "step": 4409 }, { "epoch": 0.4704, "grad_norm": 1.7737298392439904, "learning_rate": 5.720433413339627e-06, "loss": 0.4215, "step": 4410 }, { "avg_step_time": 5.438494631738374, "epoch": 0.4704, "eta_time": 7.500590512939175, "step": 4410 }, { "epoch": 0.4705066666666667, "grad_norm": 1.9781013586680267, "learning_rate": 5.718723917854733e-06, "loss": 0.5002, "step": 4411 }, { "avg_step_time": 5.468580125558256, "epoch": 0.4705066666666667, "eta_time": 7.540564373130884, "step": 4411 }, { "epoch": 0.47061333333333333, "grad_norm": 1.5954136267545893, "learning_rate": 5.717014336577709e-06, "loss": 0.4339, "step": 4412 }, { "avg_step_time": 5.476702280718871, "epoch": 0.47061333333333333, "eta_time": 7.550242616446599, "step": 4412 }, { "epoch": 0.47072, "grad_norm": 1.772319189166143, "learning_rate": 5.71530466971262e-06, "loss": 0.4682, "step": 4413 }, { "avg_step_time": 5.477035182895082, "epoch": 0.47072, "eta_time": 7.549180160423722, "step": 4413 }, { "epoch": 0.47082666666666667, "grad_norm": 1.5751073970493024, "learning_rate": 5.713594917463546e-06, "loss": 0.5207, "step": 4414 }, { "avg_step_time": 5.45750344642485, "epoch": 0.47082666666666667, "eta_time": 7.520742943809356, "step": 4414 }, { "epoch": 0.4709333333333333, "grad_norm": 1.637725534207823, "learning_rate": 5.711885080034578e-06, "loss": 0.4168, "step": 4415 }, { "avg_step_time": 5.458531726490367, "epoch": 0.4709333333333333, "eta_time": 7.520643712053395, "step": 4415 }, { "epoch": 0.47104, "grad_norm": 0.6644697671110159, "learning_rate": 5.710175157629812e-06, "loss": 0.4411, "step": 4416 }, { "avg_step_time": 5.424460290658353, "epoch": 0.47104, "eta_time": 7.472194050381882, "step": 4416 }, { "epoch": 0.47114666666666666, "grad_norm": 1.477803299759128, "learning_rate": 5.708465150453356e-06, "loss": 0.4017, "step": 4417 }, { "avg_step_time": 5.450976511444709, "epoch": 0.47114666666666666, "eta_time": 7.507205984373018, "step": 4417 }, { "epoch": 0.47125333333333336, "grad_norm": 0.6592372568675252, "learning_rate": 5.70675505870933e-06, "loss": 0.4427, "step": 4418 }, { "avg_step_time": 5.417566015262796, "epoch": 0.47125333333333336, "eta_time": 7.459687427127133, "step": 4418 }, { "epoch": 0.47136, "grad_norm": 1.866126104492125, "learning_rate": 5.705044882601862e-06, "loss": 0.4936, "step": 4419 }, { "avg_step_time": 5.421448779828621, "epoch": 0.47136, "eta_time": 7.463527820230735, "step": 4419 }, { "epoch": 0.47146666666666665, "grad_norm": 1.6256963904534083, "learning_rate": 5.703334622335096e-06, "loss": 0.4489, "step": 4420 }, { "avg_step_time": 5.4229001974818685, "epoch": 0.47146666666666665, "eta_time": 7.464019577367405, "step": 4420 }, { "epoch": 0.47157333333333334, "grad_norm": 1.7550373848931737, "learning_rate": 5.7016242781131746e-06, "loss": 0.4293, "step": 4421 }, { "avg_step_time": 5.4500062826908, "epoch": 0.47157333333333334, "eta_time": 7.499814201236172, "step": 4421 }, { "epoch": 0.47168, "grad_norm": 1.9598456565666031, "learning_rate": 5.69991385014026e-06, "loss": 0.5403, "step": 4422 }, { "avg_step_time": 5.4513241016503535, "epoch": 0.47168, "eta_time": 7.500113409853944, "step": 4422 }, { "epoch": 0.4717866666666667, "grad_norm": 1.629426367349828, "learning_rate": 5.698203338620523e-06, "loss": 0.497, "step": 4423 }, { "avg_step_time": 5.456030236350165, "epoch": 0.4717866666666667, "eta_time": 7.505072702890561, "step": 4423 }, { "epoch": 0.47189333333333333, "grad_norm": 2.128931684708137, "learning_rate": 5.696492743758138e-06, "loss": 0.5618, "step": 4424 }, { "avg_step_time": 5.45587339786568, "epoch": 0.47189333333333333, "eta_time": 7.503341442453606, "step": 4424 }, { "epoch": 0.472, "grad_norm": 1.541102578737953, "learning_rate": 5.694782065757298e-06, "loss": 0.5413, "step": 4425 }, { "avg_step_time": 5.454142782423231, "epoch": 0.472, "eta_time": 7.4994463258319435, "step": 4425 }, { "epoch": 0.4721066666666667, "grad_norm": 1.8402780737356237, "learning_rate": 5.693071304822203e-06, "loss": 0.4683, "step": 4426 }, { "avg_step_time": 5.464054208813292, "epoch": 0.4721066666666667, "eta_time": 7.511556744282495, "step": 4426 }, { "epoch": 0.4722133333333333, "grad_norm": 2.0565286925244406, "learning_rate": 5.691360461157056e-06, "loss": 0.605, "step": 4427 }, { "avg_step_time": 5.49666529713255, "epoch": 0.4722133333333333, "eta_time": 7.554861080614405, "step": 4427 }, { "epoch": 0.47232, "grad_norm": 1.6707035809597484, "learning_rate": 5.689649534966083e-06, "loss": 0.51, "step": 4428 }, { "avg_step_time": 5.50146149384855, "epoch": 0.47232, "eta_time": 7.559925002796883, "step": 4428 }, { "epoch": 0.47242666666666666, "grad_norm": 0.6571848467612043, "learning_rate": 5.687938526453507e-06, "loss": 0.4303, "step": 4429 }, { "avg_step_time": 5.488688266638554, "epoch": 0.47242666666666666, "eta_time": 7.540847824109523, "step": 4429 }, { "epoch": 0.47253333333333336, "grad_norm": 1.8374572561810871, "learning_rate": 5.6862274358235705e-06, "loss": 0.556, "step": 4430 }, { "avg_step_time": 5.493108527828949, "epoch": 0.47253333333333336, "eta_time": 7.545394908365043, "step": 4430 }, { "epoch": 0.47264, "grad_norm": 1.7397732254504938, "learning_rate": 5.684516263280519e-06, "loss": 0.55, "step": 4431 }, { "avg_step_time": 5.49426004140064, "epoch": 0.47264, "eta_time": 7.545450456856879, "step": 4431 }, { "epoch": 0.47274666666666665, "grad_norm": 1.5544190434121, "learning_rate": 5.682805009028613e-06, "loss": 0.5336, "step": 4432 }, { "avg_step_time": 5.496161256173645, "epoch": 0.47274666666666665, "eta_time": 7.546534747018424, "step": 4432 }, { "epoch": 0.47285333333333335, "grad_norm": 0.646024765727844, "learning_rate": 5.681093673272117e-06, "loss": 0.4397, "step": 4433 }, { "avg_step_time": 5.462330900057398, "epoch": 0.47285333333333335, "eta_time": 7.498566474467684, "step": 4433 }, { "epoch": 0.47296, "grad_norm": 1.6810486054596347, "learning_rate": 5.679382256215311e-06, "loss": 0.4795, "step": 4434 }, { "avg_step_time": 5.460299901287965, "epoch": 0.47296, "eta_time": 7.4942616145177325, "step": 4434 }, { "epoch": 0.4730666666666667, "grad_norm": 1.7845939685457275, "learning_rate": 5.677670758062481e-06, "loss": 0.4106, "step": 4435 }, { "avg_step_time": 5.4486568720653805, "epoch": 0.4730666666666667, "eta_time": 7.476768041111939, "step": 4435 }, { "epoch": 0.47317333333333333, "grad_norm": 2.2901738592414476, "learning_rate": 5.675959179017925e-06, "loss": 0.4321, "step": 4436 }, { "avg_step_time": 5.459863279805039, "epoch": 0.47317333333333333, "eta_time": 7.490629094154746, "step": 4436 }, { "epoch": 0.47328, "grad_norm": 1.7691713717246484, "learning_rate": 5.674247519285951e-06, "loss": 0.5388, "step": 4437 }, { "avg_step_time": 5.4568138459716184, "epoch": 0.47328, "eta_time": 7.484929658724403, "step": 4437 }, { "epoch": 0.4733866666666667, "grad_norm": 1.8517561859182075, "learning_rate": 5.67253577907087e-06, "loss": 0.4953, "step": 4438 }, { "avg_step_time": 5.4572227001190186, "epoch": 0.4733866666666667, "eta_time": 7.483974575135443, "step": 4438 }, { "epoch": 0.4734933333333333, "grad_norm": 1.662418460400235, "learning_rate": 5.670823958577012e-06, "loss": 0.436, "step": 4439 }, { "avg_step_time": 5.464762088024255, "epoch": 0.4734933333333333, "eta_time": 7.492796018468812, "step": 4439 }, { "epoch": 0.4736, "grad_norm": 1.9153812716993952, "learning_rate": 5.6691120580087126e-06, "loss": 0.4973, "step": 4440 }, { "avg_step_time": 5.4549034725536, "epoch": 0.4736, "eta_time": 7.477763510292226, "step": 4440 }, { "epoch": 0.47370666666666666, "grad_norm": 1.9667145381339655, "learning_rate": 5.667400077570314e-06, "loss": 0.4965, "step": 4441 }, { "avg_step_time": 5.465748558140764, "epoch": 0.47370666666666666, "eta_time": 7.4911120516295915, "step": 4441 }, { "epoch": 0.4738133333333333, "grad_norm": 2.0597192071562396, "learning_rate": 5.665688017466173e-06, "loss": 0.4759, "step": 4442 }, { "avg_step_time": 5.442075264574301, "epoch": 0.4738133333333333, "eta_time": 7.457154800040285, "step": 4442 }, { "epoch": 0.47392, "grad_norm": 1.7480402897716028, "learning_rate": 5.6639758779006535e-06, "loss": 0.5478, "step": 4443 }, { "avg_step_time": 5.446575434520991, "epoch": 0.47392, "eta_time": 7.461808345293758, "step": 4443 }, { "epoch": 0.47402666666666665, "grad_norm": 2.001327997796522, "learning_rate": 5.662263659078127e-06, "loss": 0.4929, "step": 4444 }, { "avg_step_time": 5.443475333127108, "epoch": 0.47402666666666665, "eta_time": 7.4560491299027145, "step": 4444 }, { "epoch": 0.47413333333333335, "grad_norm": 0.6227077172398546, "learning_rate": 5.660551361202979e-06, "loss": 0.4218, "step": 4445 }, { "avg_step_time": 5.442286758711844, "epoch": 0.47413333333333335, "eta_time": 7.452909366791498, "step": 4445 }, { "epoch": 0.47424, "grad_norm": 1.8772072213986948, "learning_rate": 5.6588389844796e-06, "loss": 0.5403, "step": 4446 }, { "avg_step_time": 5.512814904704238, "epoch": 0.47424, "eta_time": 7.54796240702422, "step": 4446 }, { "epoch": 0.4743466666666667, "grad_norm": 1.48510328037613, "learning_rate": 5.657126529112393e-06, "loss": 0.4469, "step": 4447 }, { "avg_step_time": 5.512213234949594, "epoch": 0.4743466666666667, "eta_time": 7.545607450508777, "step": 4447 }, { "epoch": 0.47445333333333334, "grad_norm": 1.723554344437202, "learning_rate": 5.655413995305769e-06, "loss": 0.5179, "step": 4448 }, { "avg_step_time": 5.512095422455759, "epoch": 0.47445333333333334, "eta_time": 7.543915040677645, "step": 4448 }, { "epoch": 0.47456, "grad_norm": 1.6649040149676921, "learning_rate": 5.653701383264147e-06, "loss": 0.4545, "step": 4449 }, { "avg_step_time": 5.514928232539784, "epoch": 0.47456, "eta_time": 7.546260131525272, "step": 4449 }, { "epoch": 0.4746666666666667, "grad_norm": 1.7655940785405941, "learning_rate": 5.651988693191958e-06, "loss": 0.5198, "step": 4450 }, { "avg_step_time": 5.519254824127814, "epoch": 0.4746666666666667, "eta_time": 7.550647224674857, "step": 4450 }, { "epoch": 0.4747733333333333, "grad_norm": 1.6111977182563637, "learning_rate": 5.6502759252936415e-06, "loss": 0.4386, "step": 4451 }, { "avg_step_time": 5.516220348049896, "epoch": 0.4747733333333333, "eta_time": 7.544963609388247, "step": 4451 }, { "epoch": 0.47488, "grad_norm": 1.7930288339163025, "learning_rate": 5.648563079773646e-06, "loss": 0.4395, "step": 4452 }, { "avg_step_time": 5.551733741856585, "epoch": 0.47488, "eta_time": 7.591995891988879, "step": 4452 }, { "epoch": 0.47498666666666667, "grad_norm": 1.707882785899101, "learning_rate": 5.646850156836427e-06, "loss": 0.4662, "step": 4453 }, { "avg_step_time": 5.552350362141927, "epoch": 0.47498666666666667, "eta_time": 7.591296800684045, "step": 4453 }, { "epoch": 0.4750933333333333, "grad_norm": 1.6706011711802586, "learning_rate": 5.645137156686455e-06, "loss": 0.4593, "step": 4454 }, { "avg_step_time": 5.551736605287802, "epoch": 0.4750933333333333, "eta_time": 7.588915509617021, "step": 4454 }, { "epoch": 0.4752, "grad_norm": 1.536721287272396, "learning_rate": 5.6434240795282045e-06, "loss": 0.4312, "step": 4455 }, { "avg_step_time": 5.5873752194221575, "epoch": 0.4752, "eta_time": 7.636079466543615, "step": 4455 }, { "epoch": 0.47530666666666666, "grad_norm": 1.6906701485599167, "learning_rate": 5.64171092556616e-06, "loss": 0.4123, "step": 4456 }, { "avg_step_time": 5.58965222281639, "epoch": 0.47530666666666666, "eta_time": 7.637638690009395, "step": 4456 }, { "epoch": 0.47541333333333335, "grad_norm": 1.7879157689006773, "learning_rate": 5.639997695004819e-06, "loss": 0.4321, "step": 4457 }, { "avg_step_time": 5.590246800220374, "epoch": 0.47541333333333335, "eta_time": 7.636898267634389, "step": 4457 }, { "epoch": 0.47552, "grad_norm": 0.6663121413942151, "learning_rate": 5.63828438804868e-06, "loss": 0.4257, "step": 4458 }, { "avg_step_time": 5.552604480223223, "epoch": 0.47552, "eta_time": 7.583932285904885, "step": 4458 }, { "epoch": 0.47562666666666664, "grad_norm": 1.8003534020612415, "learning_rate": 5.636571004902262e-06, "loss": 0.4668, "step": 4459 }, { "avg_step_time": 5.588663809227221, "epoch": 0.47562666666666664, "eta_time": 7.631630912822505, "step": 4459 }, { "epoch": 0.47573333333333334, "grad_norm": 2.287261535848039, "learning_rate": 5.634857545770083e-06, "loss": 0.4918, "step": 4460 }, { "avg_step_time": 5.5896459348274, "epoch": 0.47573333333333334, "eta_time": 7.631419380465743, "step": 4460 }, { "epoch": 0.47584, "grad_norm": 1.8285660778442208, "learning_rate": 5.6331440108566735e-06, "loss": 0.5075, "step": 4461 }, { "avg_step_time": 5.610983581253977, "epoch": 0.47584, "eta_time": 7.658992588411678, "step": 4461 }, { "epoch": 0.4759466666666667, "grad_norm": 0.6675052878724035, "learning_rate": 5.631430400366577e-06, "loss": 0.4551, "step": 4462 }, { "avg_step_time": 5.598371368466002, "epoch": 0.4759466666666667, "eta_time": 7.640221814798186, "step": 4462 }, { "epoch": 0.47605333333333333, "grad_norm": 1.7269291039213905, "learning_rate": 5.6297167145043394e-06, "loss": 0.5176, "step": 4463 }, { "avg_step_time": 5.594117819660842, "epoch": 0.47605333333333333, "eta_time": 7.632862980603904, "step": 4463 }, { "epoch": 0.47616, "grad_norm": 1.753290407591565, "learning_rate": 5.628002953474521e-06, "loss": 0.4951, "step": 4464 }, { "avg_step_time": 5.593466703337852, "epoch": 0.47616, "eta_time": 7.630420827803387, "step": 4464 }, { "epoch": 0.47626666666666667, "grad_norm": 1.6886538513439182, "learning_rate": 5.626289117481687e-06, "loss": 0.4151, "step": 4465 }, { "avg_step_time": 5.597543420213642, "epoch": 0.47626666666666667, "eta_time": 7.634427275902495, "step": 4465 }, { "epoch": 0.4763733333333333, "grad_norm": 1.75590436511362, "learning_rate": 5.624575206730413e-06, "loss": 0.5742, "step": 4466 }, { "avg_step_time": 5.599155055152045, "epoch": 0.4763733333333333, "eta_time": 7.635070046039274, "step": 4466 }, { "epoch": 0.47648, "grad_norm": 0.6800181538214504, "learning_rate": 5.622861221425286e-06, "loss": 0.4454, "step": 4467 }, { "avg_step_time": 5.551965019919655, "epoch": 0.47648, "eta_time": 7.569178977157129, "step": 4467 }, { "epoch": 0.47658666666666666, "grad_norm": 0.665343515284078, "learning_rate": 5.621147161770898e-06, "loss": 0.4409, "step": 4468 }, { "avg_step_time": 5.513979574646613, "epoch": 0.47658666666666666, "eta_time": 7.5158604924419254, "step": 4468 }, { "epoch": 0.47669333333333336, "grad_norm": 1.8235084347177286, "learning_rate": 5.619433027971854e-06, "loss": 0.5244, "step": 4469 }, { "avg_step_time": 5.516987396009041, "epoch": 0.47669333333333336, "eta_time": 7.518427823561209, "step": 4469 }, { "epoch": 0.4768, "grad_norm": 1.8741987043439667, "learning_rate": 5.617718820232762e-06, "loss": 0.4398, "step": 4470 }, { "avg_step_time": 5.555029743849629, "epoch": 0.4768, "eta_time": 7.56872802599512, "step": 4470 }, { "epoch": 0.47690666666666665, "grad_norm": 1.6681538232449398, "learning_rate": 5.6160045387582455e-06, "loss": 0.4598, "step": 4471 }, { "avg_step_time": 5.552072127660115, "epoch": 0.47690666666666665, "eta_time": 7.563156031679223, "step": 4471 }, { "epoch": 0.47701333333333334, "grad_norm": 1.9432199483045849, "learning_rate": 5.61429018375293e-06, "loss": 0.4651, "step": 4472 }, { "avg_step_time": 5.552370406160451, "epoch": 0.47701333333333334, "eta_time": 7.56202002816797, "step": 4472 }, { "epoch": 0.47712, "grad_norm": 1.5636515576860552, "learning_rate": 5.612575755421459e-06, "loss": 0.4609, "step": 4473 }, { "avg_step_time": 5.570711737931377, "epoch": 0.47712, "eta_time": 7.585452483149891, "step": 4473 }, { "epoch": 0.4772266666666667, "grad_norm": 1.7561432238635106, "learning_rate": 5.6108612539684745e-06, "loss": 0.4933, "step": 4474 }, { "avg_step_time": 5.61104682238415, "epoch": 0.4772266666666667, "eta_time": 7.638816799029089, "step": 4474 }, { "epoch": 0.47733333333333333, "grad_norm": 1.6793666911677156, "learning_rate": 5.609146679598634e-06, "loss": 0.5293, "step": 4475 }, { "avg_step_time": 5.615758623739685, "epoch": 0.47733333333333333, "eta_time": 7.643671460090127, "step": 4475 }, { "epoch": 0.47744, "grad_norm": 0.6267467042886826, "learning_rate": 5.607432032516601e-06, "loss": 0.4633, "step": 4476 }, { "avg_step_time": 5.5194151184775615, "epoch": 0.47744, "eta_time": 7.511004073728215, "step": 4476 }, { "epoch": 0.4775466666666667, "grad_norm": 1.911078278597136, "learning_rate": 5.605717312927047e-06, "loss": 0.4893, "step": 4477 }, { "avg_step_time": 5.520231307154954, "epoch": 0.4775466666666667, "eta_time": 7.510581372901379, "step": 4477 }, { "epoch": 0.4776533333333333, "grad_norm": 1.617588722938518, "learning_rate": 5.604002521034655e-06, "loss": 0.4855, "step": 4478 }, { "avg_step_time": 5.5269286560289785, "epoch": 0.4776533333333333, "eta_time": 7.518158230159418, "step": 4478 }, { "epoch": 0.47776, "grad_norm": 0.6544949311200089, "learning_rate": 5.602287657044116e-06, "loss": 0.4534, "step": 4479 }, { "avg_step_time": 5.526572521286782, "epoch": 0.47776, "eta_time": 7.5161386289500225, "step": 4479 }, { "epoch": 0.47786666666666666, "grad_norm": 1.8247642787845841, "learning_rate": 5.600572721160127e-06, "loss": 0.5638, "step": 4480 }, { "avg_step_time": 5.538163717346962, "epoch": 0.47786666666666666, "eta_time": 7.530364276781495, "step": 4480 }, { "epoch": 0.4779733333333333, "grad_norm": 0.6116419558813418, "learning_rate": 5.5988577135873954e-06, "loss": 0.4382, "step": 4481 }, { "avg_step_time": 5.537203723734075, "epoch": 0.4779733333333333, "eta_time": 7.527520839987378, "step": 4481 }, { "epoch": 0.47808, "grad_norm": 1.9642896305598903, "learning_rate": 5.597142634530639e-06, "loss": 0.5283, "step": 4482 }, { "avg_step_time": 5.514089196619361, "epoch": 0.47808, "eta_time": 7.494566233071815, "step": 4482 }, { "epoch": 0.47818666666666665, "grad_norm": 1.8341624997676123, "learning_rate": 5.595427484194578e-06, "loss": 0.5244, "step": 4483 }, { "avg_step_time": 5.512227344994593, "epoch": 0.47818666666666665, "eta_time": 7.4905044921426525, "step": 4483 }, { "epoch": 0.47829333333333335, "grad_norm": 1.5039487972994139, "learning_rate": 5.5937122627839495e-06, "loss": 0.5004, "step": 4484 }, { "avg_step_time": 5.53461404280229, "epoch": 0.47829333333333335, "eta_time": 7.519388134262778, "step": 4484 }, { "epoch": 0.4784, "grad_norm": 1.620721835247221, "learning_rate": 5.5919969705034914e-06, "loss": 0.457, "step": 4485 }, { "avg_step_time": 5.541209266643332, "epoch": 0.4784, "eta_time": 7.526809253857192, "step": 4485 }, { "epoch": 0.4785066666666667, "grad_norm": 2.0209854606751123, "learning_rate": 5.590281607557957e-06, "loss": 0.4803, "step": 4486 }, { "avg_step_time": 5.543033973135129, "epoch": 0.4785066666666667, "eta_time": 7.527748081849347, "step": 4486 }, { "epoch": 0.47861333333333334, "grad_norm": 1.8379440837522636, "learning_rate": 5.588566174152101e-06, "loss": 0.4429, "step": 4487 }, { "avg_step_time": 5.5382139995844675, "epoch": 0.47861333333333334, "eta_time": 7.519663897213577, "step": 4487 }, { "epoch": 0.47872, "grad_norm": 1.9697564536996244, "learning_rate": 5.586850670490694e-06, "loss": 0.4678, "step": 4488 }, { "avg_step_time": 5.539355644071945, "epoch": 0.47872, "eta_time": 7.519675286827665, "step": 4488 }, { "epoch": 0.4788266666666667, "grad_norm": 0.6379069690203579, "learning_rate": 5.5851350967785075e-06, "loss": 0.4454, "step": 4489 }, { "avg_step_time": 5.509712101233126, "epoch": 0.4788266666666667, "eta_time": 7.477903701840293, "step": 4489 }, { "epoch": 0.4789333333333333, "grad_norm": 2.0039819780550485, "learning_rate": 5.583419453220327e-06, "loss": 0.5317, "step": 4490 }, { "avg_step_time": 5.5102106970970075, "epoch": 0.4789333333333333, "eta_time": 7.477049793144134, "step": 4490 }, { "epoch": 0.47904, "grad_norm": 1.8189894568576557, "learning_rate": 5.581703740020943e-06, "loss": 0.5173, "step": 4491 }, { "avg_step_time": 5.545671836294309, "epoch": 0.47904, "eta_time": 7.523628124572612, "step": 4491 }, { "epoch": 0.47914666666666667, "grad_norm": 1.977377263297309, "learning_rate": 5.579987957385155e-06, "loss": 0.476, "step": 4492 }, { "avg_step_time": 5.544650077819824, "epoch": 0.47914666666666667, "eta_time": 7.520701758331723, "step": 4492 }, { "epoch": 0.4792533333333333, "grad_norm": 0.6446056248262219, "learning_rate": 5.578272105517775e-06, "loss": 0.4341, "step": 4493 }, { "avg_step_time": 5.550739579730564, "epoch": 0.4792533333333333, "eta_time": 7.527419618956838, "step": 4493 }, { "epoch": 0.47936, "grad_norm": 1.8966952484842377, "learning_rate": 5.576556184623615e-06, "loss": 0.5757, "step": 4494 }, { "avg_step_time": 5.548223471400713, "epoch": 0.47936, "eta_time": 7.522466323307467, "step": 4494 }, { "epoch": 0.47946666666666665, "grad_norm": 1.6942855219051498, "learning_rate": 5.5748401949075e-06, "loss": 0.4611, "step": 4495 }, { "avg_step_time": 5.5471548528382275, "epoch": 0.47946666666666665, "eta_time": 7.51947657829182, "step": 4495 }, { "epoch": 0.47957333333333335, "grad_norm": 1.7912867949373958, "learning_rate": 5.573124136574268e-06, "loss": 0.4396, "step": 4496 }, { "avg_step_time": 5.54580054138646, "epoch": 0.47957333333333335, "eta_time": 7.516100233729039, "step": 4496 }, { "epoch": 0.47968, "grad_norm": 1.8119138804701824, "learning_rate": 5.571408009828757e-06, "loss": 0.5124, "step": 4497 }, { "avg_step_time": 5.578050586912367, "epoch": 0.47968, "eta_time": 7.558258545266257, "step": 4497 }, { "epoch": 0.47978666666666664, "grad_norm": 1.8561536265294107, "learning_rate": 5.569691814875814e-06, "loss": 0.496, "step": 4498 }, { "avg_step_time": 5.612999280293782, "epoch": 0.47978666666666664, "eta_time": 7.6040548583313265, "step": 4498 }, { "epoch": 0.47989333333333334, "grad_norm": 1.6601831326516692, "learning_rate": 5.567975551920302e-06, "loss": 0.3979, "step": 4499 }, { "avg_step_time": 5.64376231395837, "epoch": 0.47989333333333334, "eta_time": 7.6441625119058365, "step": 4499 }, { "epoch": 0.48, "grad_norm": 0.643132468104971, "learning_rate": 5.56625922116708e-06, "loss": 0.4644, "step": 4500 }, { "avg_step_time": 5.611699694334859, "epoch": 0.48, "eta_time": 7.599176669411787, "step": 4500 }, { "epoch": 0.4801066666666667, "grad_norm": 1.784457156925599, "learning_rate": 5.5645428228210286e-06, "loss": 0.5062, "step": 4501 }, { "avg_step_time": 5.612626290080523, "epoch": 0.4801066666666667, "eta_time": 7.598872371625686, "step": 4501 }, { "epoch": 0.4802133333333333, "grad_norm": 0.6691137755488723, "learning_rate": 5.562826357087028e-06, "loss": 0.4262, "step": 4502 }, { "avg_step_time": 5.582793190021707, "epoch": 0.4802133333333333, "eta_time": 7.556930893048827, "step": 4502 }, { "epoch": 0.48032, "grad_norm": 1.8221434769151958, "learning_rate": 5.561109824169962e-06, "loss": 0.5005, "step": 4503 }, { "avg_step_time": 5.614796997320773, "epoch": 0.48032, "eta_time": 7.598691936374112, "step": 4503 }, { "epoch": 0.48042666666666667, "grad_norm": 1.7881929471206777, "learning_rate": 5.5593932242747365e-06, "loss": 0.466, "step": 4504 }, { "avg_step_time": 5.616554970693106, "epoch": 0.48042666666666667, "eta_time": 7.599510906179478, "step": 4504 }, { "epoch": 0.4805333333333333, "grad_norm": 1.7272436544840897, "learning_rate": 5.557676557606252e-06, "loss": 0.4776, "step": 4505 }, { "avg_step_time": 5.62161367830604, "epoch": 0.4805333333333333, "eta_time": 7.6047940592640035, "step": 4505 }, { "epoch": 0.48064, "grad_norm": 1.5940494234913671, "learning_rate": 5.555959824369426e-06, "loss": 0.4274, "step": 4506 }, { "avg_step_time": 5.624287730515605, "epoch": 0.48064, "eta_time": 7.606849155522356, "step": 4506 }, { "epoch": 0.48074666666666666, "grad_norm": 1.5697934189160554, "learning_rate": 5.554243024769177e-06, "loss": 0.4484, "step": 4507 }, { "avg_step_time": 5.623781753308846, "epoch": 0.48074666666666666, "eta_time": 7.604602659752072, "step": 4507 }, { "epoch": 0.48085333333333335, "grad_norm": 1.655064122928055, "learning_rate": 5.5525261590104375e-06, "loss": 0.4367, "step": 4508 }, { "avg_step_time": 5.620677278499411, "epoch": 0.48085333333333335, "eta_time": 7.598843420682398, "step": 4508 }, { "epoch": 0.48096, "grad_norm": 1.7457629036142892, "learning_rate": 5.550809227298144e-06, "loss": 0.4905, "step": 4509 }, { "avg_step_time": 5.6147456674864795, "epoch": 0.48096, "eta_time": 7.589264560552558, "step": 4509 }, { "epoch": 0.48106666666666664, "grad_norm": 0.6186555433878831, "learning_rate": 5.549092229837242e-06, "loss": 0.4407, "step": 4510 }, { "avg_step_time": 5.554541279571225, "epoch": 0.48106666666666664, "eta_time": 7.506345368087225, "step": 4510 }, { "epoch": 0.48117333333333334, "grad_norm": 0.659833267104589, "learning_rate": 5.5473751668326846e-06, "loss": 0.466, "step": 4511 }, { "avg_step_time": 5.510909164794768, "epoch": 0.48117333333333334, "eta_time": 7.445850604878264, "step": 4511 }, { "epoch": 0.48128, "grad_norm": 1.8401278376640755, "learning_rate": 5.545658038489433e-06, "loss": 0.5106, "step": 4512 }, { "avg_step_time": 5.513248202776668, "epoch": 0.48128, "eta_time": 7.447479447250816, "step": 4512 }, { "epoch": 0.4813866666666667, "grad_norm": 0.6380114555159433, "learning_rate": 5.543940845012457e-06, "loss": 0.4452, "step": 4513 }, { "avg_step_time": 5.498888661163022, "epoch": 0.4813866666666667, "eta_time": 7.42655463071517, "step": 4513 }, { "epoch": 0.48149333333333333, "grad_norm": 2.073246593816451, "learning_rate": 5.542223586606732e-06, "loss": 0.5463, "step": 4514 }, { "avg_step_time": 5.498799138598972, "epoch": 0.48149333333333333, "eta_time": 7.4249062813137785, "step": 4514 }, { "epoch": 0.4816, "grad_norm": 0.6409524134470018, "learning_rate": 5.540506263477243e-06, "loss": 0.4682, "step": 4515 }, { "avg_step_time": 5.510787636342675, "epoch": 0.4816, "eta_time": 7.439563309062612, "step": 4515 }, { "epoch": 0.48170666666666667, "grad_norm": 1.7888377288605404, "learning_rate": 5.538788875828983e-06, "loss": 0.5042, "step": 4516 }, { "avg_step_time": 5.51204367599102, "epoch": 0.48170666666666667, "eta_time": 7.439727839344546, "step": 4516 }, { "epoch": 0.4818133333333333, "grad_norm": 1.8857375111511843, "learning_rate": 5.53707142386695e-06, "loss": 0.4972, "step": 4517 }, { "avg_step_time": 5.545038897581775, "epoch": 0.4818133333333333, "eta_time": 7.4827219345700735, "step": 4517 }, { "epoch": 0.48192, "grad_norm": 2.299449300849076, "learning_rate": 5.535353907796155e-06, "loss": 0.5551, "step": 4518 }, { "avg_step_time": 5.541294880587645, "epoch": 0.48192, "eta_time": 7.4761303430594985, "step": 4518 }, { "epoch": 0.48202666666666666, "grad_norm": 1.8746270447520388, "learning_rate": 5.533636327821611e-06, "loss": 0.4901, "step": 4519 }, { "avg_step_time": 5.54157742346176, "epoch": 0.48202666666666666, "eta_time": 7.474972213425086, "step": 4519 }, { "epoch": 0.48213333333333336, "grad_norm": 1.5028428517724481, "learning_rate": 5.531918684148338e-06, "loss": 0.4747, "step": 4520 }, { "avg_step_time": 5.513227496484314, "epoch": 0.48213333333333336, "eta_time": 7.435199859842039, "step": 4520 }, { "epoch": 0.48224, "grad_norm": 1.7320013823059413, "learning_rate": 5.530200976981375e-06, "loss": 0.3879, "step": 4521 }, { "avg_step_time": 5.507851530807187, "epoch": 0.48224, "eta_time": 7.426419814038357, "step": 4521 }, { "epoch": 0.48234666666666665, "grad_norm": 1.7937918835821887, "learning_rate": 5.52848320652575e-06, "loss": 0.4896, "step": 4522 }, { "avg_step_time": 5.506188134954433, "epoch": 0.48234666666666665, "eta_time": 7.422647505259406, "step": 4522 }, { "epoch": 0.48245333333333335, "grad_norm": 2.034490741946443, "learning_rate": 5.526765372986514e-06, "loss": 0.496, "step": 4523 }, { "avg_step_time": 5.502516811544245, "epoch": 0.48245333333333335, "eta_time": 7.416169880447966, "step": 4523 }, { "epoch": 0.48256, "grad_norm": 1.9093829449726414, "learning_rate": 5.525047476568722e-06, "loss": 0.5209, "step": 4524 }, { "avg_step_time": 5.517815483940972, "epoch": 0.48256, "eta_time": 7.43525636461046, "step": 4524 }, { "epoch": 0.4826666666666667, "grad_norm": 1.5090127668595577, "learning_rate": 5.52332951747743e-06, "loss": 0.4495, "step": 4525 }, { "avg_step_time": 5.522302880431667, "epoch": 0.4826666666666667, "eta_time": 7.439769158359329, "step": 4525 }, { "epoch": 0.48277333333333333, "grad_norm": 1.5985376937548237, "learning_rate": 5.521611495917707e-06, "loss": 0.4669, "step": 4526 }, { "avg_step_time": 5.519930690225928, "epoch": 0.48277333333333333, "eta_time": 7.435039976918202, "step": 4526 }, { "epoch": 0.48288, "grad_norm": 1.8027775363034801, "learning_rate": 5.519893412094631e-06, "loss": 0.516, "step": 4527 }, { "avg_step_time": 5.516399674945408, "epoch": 0.48288, "eta_time": 7.428751562259816, "step": 4527 }, { "epoch": 0.4829866666666667, "grad_norm": 1.7882208012065783, "learning_rate": 5.518175266213284e-06, "loss": 0.5087, "step": 4528 }, { "avg_step_time": 5.5302585881165784, "epoch": 0.4829866666666667, "eta_time": 7.4458787157225155, "step": 4528 }, { "epoch": 0.4830933333333333, "grad_norm": 1.6055013200627342, "learning_rate": 5.516457058478757e-06, "loss": 0.4335, "step": 4529 }, { "avg_step_time": 5.52607432037893, "epoch": 0.4830933333333333, "eta_time": 7.43871004348786, "step": 4529 }, { "epoch": 0.4832, "grad_norm": 1.6436724547563308, "learning_rate": 5.514738789096146e-06, "loss": 0.4582, "step": 4530 }, { "avg_step_time": 5.527236849370629, "epoch": 0.4832, "eta_time": 7.438739593111305, "step": 4530 }, { "epoch": 0.48330666666666666, "grad_norm": 0.6569648303737375, "learning_rate": 5.5130204582705574e-06, "loss": 0.4487, "step": 4531 }, { "avg_step_time": 5.489491874521429, "epoch": 0.48330666666666666, "eta_time": 7.386416288939389, "step": 4531 }, { "epoch": 0.4834133333333333, "grad_norm": 0.5990681657861155, "learning_rate": 5.5113020662071035e-06, "loss": 0.4253, "step": 4532 }, { "avg_step_time": 5.513453895395452, "epoch": 0.4834133333333333, "eta_time": 7.417127004277826, "step": 4532 }, { "epoch": 0.48352, "grad_norm": 0.6289650604916053, "learning_rate": 5.509583613110904e-06, "loss": 0.4404, "step": 4533 }, { "avg_step_time": 5.476665333063916, "epoch": 0.48352, "eta_time": 7.366114872970967, "step": 4533 }, { "epoch": 0.48362666666666665, "grad_norm": 1.7050450521004326, "learning_rate": 5.507865099187085e-06, "loss": 0.3986, "step": 4534 }, { "avg_step_time": 5.474386870258987, "epoch": 0.48362666666666665, "eta_time": 7.361529677478821, "step": 4534 }, { "epoch": 0.48373333333333335, "grad_norm": 1.6124253865813336, "learning_rate": 5.506146524640784e-06, "loss": 0.5084, "step": 4535 }, { "avg_step_time": 5.4661024507850104, "epoch": 0.48373333333333335, "eta_time": 7.34887107272207, "step": 4535 }, { "epoch": 0.48384, "grad_norm": 1.8259865881374486, "learning_rate": 5.504427889677141e-06, "loss": 0.4809, "step": 4536 }, { "avg_step_time": 5.4623865021599665, "epoch": 0.48384, "eta_time": 7.342357856653354, "step": 4536 }, { "epoch": 0.4839466666666667, "grad_norm": 1.6118394737835908, "learning_rate": 5.502709194501301e-06, "loss": 0.4925, "step": 4537 }, { "avg_step_time": 5.462535747373947, "epoch": 0.4839466666666667, "eta_time": 7.341041096054209, "step": 4537 }, { "epoch": 0.48405333333333334, "grad_norm": 1.5275163483067473, "learning_rate": 5.500990439318427e-06, "loss": 0.4815, "step": 4538 }, { "avg_step_time": 5.453181729172215, "epoch": 0.48405333333333334, "eta_time": 7.32695556222389, "step": 4538 }, { "epoch": 0.48416, "grad_norm": 0.6561999783315373, "learning_rate": 5.499271624333676e-06, "loss": 0.4432, "step": 4539 }, { "avg_step_time": 5.417882998784383, "epoch": 0.48416, "eta_time": 7.278022828367021, "step": 4539 }, { "epoch": 0.4842666666666667, "grad_norm": 1.8469914502661007, "learning_rate": 5.497552749752222e-06, "loss": 0.5277, "step": 4540 }, { "avg_step_time": 5.405496881465719, "epoch": 0.4842666666666667, "eta_time": 7.259882617190764, "step": 4540 }, { "epoch": 0.4843733333333333, "grad_norm": 1.6827762297648723, "learning_rate": 5.495833815779243e-06, "loss": 0.5334, "step": 4541 }, { "avg_step_time": 5.406405176779236, "epoch": 0.4843733333333333, "eta_time": 7.259600729041897, "step": 4541 }, { "epoch": 0.48448, "grad_norm": 0.6451730141941233, "learning_rate": 5.494114822619918e-06, "loss": 0.4666, "step": 4542 }, { "avg_step_time": 5.369245704978403, "epoch": 0.48448, "eta_time": 7.208212358933506, "step": 4542 }, { "epoch": 0.48458666666666667, "grad_norm": 0.64291768752901, "learning_rate": 5.492395770479444e-06, "loss": 0.4168, "step": 4543 }, { "avg_step_time": 5.332455861448038, "epoch": 0.48458666666666667, "eta_time": 7.157340756254699, "step": 4543 }, { "epoch": 0.4846933333333333, "grad_norm": 1.9204304851841068, "learning_rate": 5.490676659563018e-06, "loss": 0.5178, "step": 4544 }, { "avg_step_time": 5.370091423843846, "epoch": 0.4846933333333333, "eta_time": 7.2063643523860055, "step": 4544 }, { "epoch": 0.4848, "grad_norm": 0.6450829844006145, "learning_rate": 5.488957490075846e-06, "loss": 0.4427, "step": 4545 }, { "avg_step_time": 5.257274849246246, "epoch": 0.4848, "eta_time": 7.053510422738714, "step": 4545 }, { "epoch": 0.48490666666666665, "grad_norm": 1.6536060702520141, "learning_rate": 5.4872382622231405e-06, "loss": 0.5438, "step": 4546 }, { "avg_step_time": 5.257311871557524, "epoch": 0.48490666666666665, "eta_time": 7.052099729930912, "step": 4546 }, { "epoch": 0.48501333333333335, "grad_norm": 1.5180595923770355, "learning_rate": 5.485518976210119e-06, "loss": 0.5019, "step": 4547 }, { "avg_step_time": 5.258674566191856, "epoch": 0.48501333333333335, "eta_time": 7.052466890437301, "step": 4547 }, { "epoch": 0.48512, "grad_norm": 1.7340518175150808, "learning_rate": 5.483799632242012e-06, "loss": 0.5357, "step": 4548 }, { "avg_step_time": 5.254371358890726, "epoch": 0.48512, "eta_time": 7.045236263712649, "step": 4548 }, { "epoch": 0.48522666666666664, "grad_norm": 1.8833461247599064, "learning_rate": 5.482080230524048e-06, "loss": 0.5167, "step": 4549 }, { "avg_step_time": 5.249230045260805, "epoch": 0.48522666666666664, "eta_time": 7.036884499563512, "step": 4549 }, { "epoch": 0.48533333333333334, "grad_norm": 1.914520262847097, "learning_rate": 5.4803607712614725e-06, "loss": 0.5494, "step": 4550 }, { "avg_step_time": 5.25127006299568, "epoch": 0.48533333333333334, "eta_time": 7.0381605705428205, "step": 4550 }, { "epoch": 0.48544, "grad_norm": 1.8655383917961468, "learning_rate": 5.478641254659528e-06, "loss": 0.5608, "step": 4551 }, { "avg_step_time": 5.284978433088823, "epoch": 0.48544, "eta_time": 7.081871100339023, "step": 4551 }, { "epoch": 0.4855466666666667, "grad_norm": 0.685886700690898, "learning_rate": 5.476921680923474e-06, "loss": 0.4624, "step": 4552 }, { "avg_step_time": 5.251965732285471, "epoch": 0.4855466666666667, "eta_time": 7.036175201892451, "step": 4552 }, { "epoch": 0.4856533333333333, "grad_norm": 1.4827813477405911, "learning_rate": 5.475202050258565e-06, "loss": 0.4135, "step": 4553 }, { "avg_step_time": 5.255630153598207, "epoch": 0.4856533333333333, "eta_time": 7.039624611291821, "step": 4553 }, { "epoch": 0.48576, "grad_norm": 1.8074030923388484, "learning_rate": 5.473482362870073e-06, "loss": 0.4572, "step": 4554 }, { "avg_step_time": 5.213795859404285, "epoch": 0.48576, "eta_time": 6.982141621718904, "step": 4554 }, { "epoch": 0.48586666666666667, "grad_norm": 1.77040009655569, "learning_rate": 5.4717626189632725e-06, "loss": 0.5292, "step": 4555 }, { "avg_step_time": 5.2134939058862555, "epoch": 0.48586666666666667, "eta_time": 6.980289062881043, "step": 4555 }, { "epoch": 0.4859733333333333, "grad_norm": 1.72835134824999, "learning_rate": 5.470042818743441e-06, "loss": 0.4493, "step": 4556 }, { "avg_step_time": 5.2375228573577575, "epoch": 0.4859733333333333, "eta_time": 7.01100629155751, "step": 4556 }, { "epoch": 0.48608, "grad_norm": 1.6146258111800496, "learning_rate": 5.468322962415871e-06, "loss": 0.5499, "step": 4557 }, { "avg_step_time": 5.3145458915016865, "epoch": 0.48608, "eta_time": 7.112633918126424, "step": 4557 }, { "epoch": 0.48618666666666666, "grad_norm": 1.9002585671777854, "learning_rate": 5.4666030501858544e-06, "loss": 0.4442, "step": 4558 }, { "avg_step_time": 5.31180562395038, "epoch": 0.48618666666666666, "eta_time": 7.10749102515805, "step": 4558 }, { "epoch": 0.48629333333333336, "grad_norm": 1.5910926632728881, "learning_rate": 5.464883082258692e-06, "loss": 0.4403, "step": 4559 }, { "avg_step_time": 5.310271528032091, "epoch": 0.48629333333333336, "eta_time": 7.1039632441673755, "step": 4559 }, { "epoch": 0.4864, "grad_norm": 1.623718252781963, "learning_rate": 5.463163058839694e-06, "loss": 0.5194, "step": 4560 }, { "avg_step_time": 5.322312379124189, "epoch": 0.4864, "eta_time": 7.118592807078603, "step": 4560 }, { "epoch": 0.48650666666666664, "grad_norm": 2.2201170030292467, "learning_rate": 5.461442980134173e-06, "loss": 0.6243, "step": 4561 }, { "avg_step_time": 5.334775821127073, "epoch": 0.48650666666666664, "eta_time": 7.133780778584924, "step": 4561 }, { "epoch": 0.48661333333333334, "grad_norm": 1.7454845037938773, "learning_rate": 5.459722846347451e-06, "loss": 0.4698, "step": 4562 }, { "avg_step_time": 5.337882533217922, "epoch": 0.48661333333333334, "eta_time": 7.136452397882738, "step": 4562 }, { "epoch": 0.48672, "grad_norm": 1.633465228324499, "learning_rate": 5.4580026576848565e-06, "loss": 0.4592, "step": 4563 }, { "avg_step_time": 5.344459059262516, "epoch": 0.48672, "eta_time": 7.143760275880896, "step": 4563 }, { "epoch": 0.4868266666666667, "grad_norm": 1.7958960059942697, "learning_rate": 5.456282414351722e-06, "loss": 0.5256, "step": 4564 }, { "avg_step_time": 5.338113158640235, "epoch": 0.4868266666666667, "eta_time": 7.1337951128383805, "step": 4564 }, { "epoch": 0.48693333333333333, "grad_norm": 1.689804335491112, "learning_rate": 5.454562116553388e-06, "loss": 0.5004, "step": 4565 }, { "avg_step_time": 5.334284926905776, "epoch": 0.48693333333333333, "eta_time": 7.12719736067133, "step": 4565 }, { "epoch": 0.48704, "grad_norm": 1.6110759665551675, "learning_rate": 5.452841764495203e-06, "loss": 0.4993, "step": 4566 }, { "avg_step_time": 5.3714865578545465, "epoch": 0.48704, "eta_time": 7.175410793534032, "step": 4566 }, { "epoch": 0.4871466666666667, "grad_norm": 1.8634265701932415, "learning_rate": 5.451121358382523e-06, "loss": 0.4187, "step": 4567 }, { "avg_step_time": 5.408368505612768, "epoch": 0.4871466666666667, "eta_time": 7.2231766041628305, "step": 4567 }, { "epoch": 0.4872533333333333, "grad_norm": 0.6571610904689101, "learning_rate": 5.449400898420705e-06, "loss": 0.45, "step": 4568 }, { "avg_step_time": 5.369134214189318, "epoch": 0.4872533333333333, "eta_time": 7.169285602113347, "step": 4568 }, { "epoch": 0.48736, "grad_norm": 1.7262578638147161, "learning_rate": 5.4476803848151146e-06, "loss": 0.5153, "step": 4569 }, { "avg_step_time": 5.365964106839113, "epoch": 0.48736, "eta_time": 7.163562082630215, "step": 4569 }, { "epoch": 0.48746666666666666, "grad_norm": 1.963208898043947, "learning_rate": 5.445959817771129e-06, "loss": 0.4843, "step": 4570 }, { "avg_step_time": 5.365206737710972, "epoch": 0.48746666666666666, "eta_time": 7.161060659639228, "step": 4570 }, { "epoch": 0.48757333333333336, "grad_norm": 1.798849733787309, "learning_rate": 5.444239197494125e-06, "loss": 0.53, "step": 4571 }, { "avg_step_time": 5.373503461028591, "epoch": 0.48757333333333336, "eta_time": 7.170641840772597, "step": 4571 }, { "epoch": 0.48768, "grad_norm": 2.133106466839484, "learning_rate": 5.442518524189489e-06, "loss": 0.4783, "step": 4572 }, { "avg_step_time": 5.354546809437299, "epoch": 0.48768, "eta_time": 7.143857868257597, "step": 4572 }, { "epoch": 0.48778666666666665, "grad_norm": 0.6293730701047484, "learning_rate": 5.440797798062611e-06, "loss": 0.4376, "step": 4573 }, { "avg_step_time": 5.277858356032708, "epoch": 0.48778666666666665, "eta_time": 7.0400766182414065, "step": 4573 }, { "epoch": 0.48789333333333335, "grad_norm": 1.788116892908199, "learning_rate": 5.439077019318894e-06, "loss": 0.5724, "step": 4574 }, { "avg_step_time": 5.28611895532319, "epoch": 0.48789333333333335, "eta_time": 7.049626973474066, "step": 4574 }, { "epoch": 0.488, "grad_norm": 0.6254864919868223, "learning_rate": 5.4373561881637405e-06, "loss": 0.43, "step": 4575 }, { "avg_step_time": 5.28804533168523, "epoch": 0.488, "eta_time": 7.05072710891364, "step": 4575 }, { "epoch": 0.4881066666666667, "grad_norm": 1.7028028322739568, "learning_rate": 5.435635304802558e-06, "loss": 0.5018, "step": 4576 }, { "avg_step_time": 5.286991393927372, "epoch": 0.4881066666666667, "eta_time": 7.047853249849294, "step": 4576 }, { "epoch": 0.48821333333333333, "grad_norm": 1.957663909341027, "learning_rate": 5.43391436944077e-06, "loss": 0.4897, "step": 4577 }, { "avg_step_time": 5.272152260096386, "epoch": 0.48821333333333333, "eta_time": 7.02660737331735, "step": 4577 }, { "epoch": 0.48832, "grad_norm": 1.865160661221178, "learning_rate": 5.432193382283794e-06, "loss": 0.5103, "step": 4578 }, { "avg_step_time": 5.366129578966083, "epoch": 0.48832, "eta_time": 7.150367663972306, "step": 4578 }, { "epoch": 0.4884266666666667, "grad_norm": 1.543766346326547, "learning_rate": 5.430472343537065e-06, "loss": 0.4754, "step": 4579 }, { "avg_step_time": 5.37523608255868, "epoch": 0.4884266666666667, "eta_time": 7.161008958875397, "step": 4579 }, { "epoch": 0.4885333333333333, "grad_norm": 1.8813249993832546, "learning_rate": 5.428751253406015e-06, "loss": 0.57, "step": 4580 }, { "avg_step_time": 5.414869994828195, "epoch": 0.4885333333333333, "eta_time": 7.212306007000332, "step": 4580 }, { "epoch": 0.48864, "grad_norm": 0.6738290259975355, "learning_rate": 5.4270301120960856e-06, "loss": 0.4441, "step": 4581 }, { "avg_step_time": 5.383362929026286, "epoch": 0.48864, "eta_time": 7.168844967153337, "step": 4581 }, { "epoch": 0.48874666666666666, "grad_norm": 1.8651894194531236, "learning_rate": 5.425308919812726e-06, "loss": 0.5535, "step": 4582 }, { "avg_step_time": 5.382598048508769, "epoch": 0.48874666666666666, "eta_time": 7.166331235139592, "step": 4582 }, { "epoch": 0.4888533333333333, "grad_norm": 1.7344611062657573, "learning_rate": 5.423587676761392e-06, "loss": 0.4581, "step": 4583 }, { "avg_step_time": 5.35697047156517, "epoch": 0.4888533333333333, "eta_time": 7.130722916594526, "step": 4583 }, { "epoch": 0.48896, "grad_norm": 1.759462978600276, "learning_rate": 5.421866383147541e-06, "loss": 0.4157, "step": 4584 }, { "avg_step_time": 5.353134461123534, "epoch": 0.48896, "eta_time": 7.12412977867857, "step": 4584 }, { "epoch": 0.48906666666666665, "grad_norm": 2.03158245895236, "learning_rate": 5.420145039176641e-06, "loss": 0.5261, "step": 4585 }, { "avg_step_time": 5.354150569800175, "epoch": 0.48906666666666665, "eta_time": 7.123994785928566, "step": 4585 }, { "epoch": 0.48917333333333335, "grad_norm": 1.719664974765697, "learning_rate": 5.4184236450541624e-06, "loss": 0.4863, "step": 4586 }, { "avg_step_time": 5.356184545189444, "epoch": 0.48917333333333335, "eta_time": 7.125213274142291, "step": 4586 }, { "epoch": 0.48928, "grad_norm": 1.643772116434378, "learning_rate": 5.416702200985585e-06, "loss": 0.4105, "step": 4587 }, { "avg_step_time": 5.357650412453546, "epoch": 0.48928, "eta_time": 7.125675048563216, "step": 4587 }, { "epoch": 0.4893866666666667, "grad_norm": 1.8225604366697359, "learning_rate": 5.414980707176392e-06, "loss": 0.5099, "step": 4588 }, { "avg_step_time": 5.387556998416631, "epoch": 0.4893866666666667, "eta_time": 7.163954264283449, "step": 4588 }, { "epoch": 0.48949333333333334, "grad_norm": 1.8615139163039711, "learning_rate": 5.413259163832074e-06, "loss": 0.5079, "step": 4589 }, { "avg_step_time": 5.387740828774192, "epoch": 0.48949333333333334, "eta_time": 7.162702112920357, "step": 4589 }, { "epoch": 0.4896, "grad_norm": 1.7565809676747008, "learning_rate": 5.411537571158127e-06, "loss": 0.4362, "step": 4590 }, { "avg_step_time": 5.3879562002239805, "epoch": 0.4896, "eta_time": 7.161491782797707, "step": 4590 }, { "epoch": 0.4897066666666667, "grad_norm": 2.122890543264463, "learning_rate": 5.4098159293600525e-06, "loss": 0.4877, "step": 4591 }, { "avg_step_time": 5.3920597139031, "epoch": 0.4897066666666667, "eta_time": 7.16544824203123, "step": 4591 }, { "epoch": 0.4898133333333333, "grad_norm": 1.7279955024972244, "learning_rate": 5.408094238643359e-06, "loss": 0.4605, "step": 4592 }, { "avg_step_time": 5.388954119248823, "epoch": 0.4898133333333333, "eta_time": 7.159824320101978, "step": 4592 }, { "epoch": 0.48992, "grad_norm": 1.9213001992236978, "learning_rate": 5.406372499213557e-06, "loss": 0.5356, "step": 4593 }, { "avg_step_time": 5.404819688411674, "epoch": 0.48992, "eta_time": 7.179402152773507, "step": 4593 }, { "epoch": 0.49002666666666667, "grad_norm": 2.0083226902419256, "learning_rate": 5.4046507112761714e-06, "loss": 0.5302, "step": 4594 }, { "avg_step_time": 5.402959139660151, "epoch": 0.49002666666666667, "eta_time": 7.1754299018653285, "step": 4594 }, { "epoch": 0.4901333333333333, "grad_norm": 1.6899275322948497, "learning_rate": 5.402928875036722e-06, "loss": 0.5227, "step": 4595 }, { "avg_step_time": 5.404304186503093, "epoch": 0.4901333333333333, "eta_time": 7.175715003190217, "step": 4595 }, { "epoch": 0.49024, "grad_norm": 1.9543248602733017, "learning_rate": 5.401206990700741e-06, "loss": 0.5766, "step": 4596 }, { "avg_step_time": 5.404314050770769, "epoch": 0.49024, "eta_time": 7.174226902398196, "step": 4596 }, { "epoch": 0.49034666666666665, "grad_norm": 1.6204531415870862, "learning_rate": 5.3994850584737705e-06, "loss": 0.5326, "step": 4597 }, { "avg_step_time": 5.428578357503872, "epoch": 0.49034666666666665, "eta_time": 7.204929831153749, "step": 4597 }, { "epoch": 0.49045333333333335, "grad_norm": 1.8814232767766794, "learning_rate": 5.397763078561344e-06, "loss": 0.5016, "step": 4598 }, { "avg_step_time": 5.4270922270688144, "epoch": 0.49045333333333335, "eta_time": 7.2014498801965905, "step": 4598 }, { "epoch": 0.49056, "grad_norm": 1.548648437538893, "learning_rate": 5.396041051169016e-06, "loss": 0.4603, "step": 4599 }, { "avg_step_time": 5.488515639545942, "epoch": 0.49056, "eta_time": 7.281430748464284, "step": 4599 }, { "epoch": 0.49066666666666664, "grad_norm": 1.7121322136810337, "learning_rate": 5.3943189765023375e-06, "loss": 0.5695, "step": 4600 }, { "avg_step_time": 5.49135098794494, "epoch": 0.49066666666666664, "eta_time": 7.283666935399191, "step": 4600 }, { "epoch": 0.49077333333333334, "grad_norm": 1.7671760061852286, "learning_rate": 5.392596854766869e-06, "loss": 0.4766, "step": 4601 }, { "avg_step_time": 5.520382245381673, "epoch": 0.49077333333333334, "eta_time": 7.320640233181141, "step": 4601 }, { "epoch": 0.49088, "grad_norm": 1.7114286838542605, "learning_rate": 5.390874686168176e-06, "loss": 0.4856, "step": 4602 }, { "avg_step_time": 5.519996296275746, "epoch": 0.49088, "eta_time": 7.318595089478928, "step": 4602 }, { "epoch": 0.4909866666666667, "grad_norm": 1.4326899880313138, "learning_rate": 5.389152470911828e-06, "loss": 0.5373, "step": 4603 }, { "avg_step_time": 5.529459067065306, "epoch": 0.4909866666666667, "eta_time": 7.329605185565456, "step": 4603 }, { "epoch": 0.4910933333333333, "grad_norm": 1.944020532330247, "learning_rate": 5.3874302092034015e-06, "loss": 0.5619, "step": 4604 }, { "avg_step_time": 5.521878873459016, "epoch": 0.4910933333333333, "eta_time": 7.318023362575824, "step": 4604 }, { "epoch": 0.4912, "grad_norm": 1.6556536604690504, "learning_rate": 5.385707901248478e-06, "loss": 0.4115, "step": 4605 }, { "avg_step_time": 5.523168082189078, "epoch": 0.4912, "eta_time": 7.318197708900528, "step": 4605 }, { "epoch": 0.49130666666666667, "grad_norm": 1.7019119214276808, "learning_rate": 5.383985547252645e-06, "loss": 0.5612, "step": 4606 }, { "avg_step_time": 5.526350775150338, "epoch": 0.49130666666666667, "eta_time": 7.320879679636655, "step": 4606 }, { "epoch": 0.4914133333333333, "grad_norm": 1.7943749279553445, "learning_rate": 5.382263147421495e-06, "loss": 0.524, "step": 4607 }, { "avg_step_time": 5.529885600311587, "epoch": 0.4914133333333333, "eta_time": 7.324026261746013, "step": 4607 }, { "epoch": 0.49152, "grad_norm": 1.5684706054879678, "learning_rate": 5.380540701960627e-06, "loss": 0.4686, "step": 4608 }, { "avg_step_time": 5.539673318766584, "epoch": 0.49152, "eta_time": 7.3354507529334185, "step": 4608 }, { "epoch": 0.49162666666666666, "grad_norm": 1.5706015478078654, "learning_rate": 5.378818211075644e-06, "loss": 0.5023, "step": 4609 }, { "avg_step_time": 5.573807068545409, "epoch": 0.49162666666666666, "eta_time": 7.3791012468576165, "step": 4609 }, { "epoch": 0.49173333333333336, "grad_norm": 1.7793474222357293, "learning_rate": 5.377095674972155e-06, "loss": 0.4554, "step": 4610 }, { "avg_step_time": 5.6150974842033, "epoch": 0.49173333333333336, "eta_time": 7.432205420063535, "step": 4610 }, { "epoch": 0.49184, "grad_norm": 1.6220711935047194, "learning_rate": 5.375373093855774e-06, "loss": 0.3803, "step": 4611 }, { "avg_step_time": 5.613627896164402, "epoch": 0.49184, "eta_time": 7.428700915924226, "step": 4611 }, { "epoch": 0.49194666666666664, "grad_norm": 1.5777980582027713, "learning_rate": 5.373650467932122e-06, "loss": 0.4652, "step": 4612 }, { "avg_step_time": 5.627514843988901, "epoch": 0.49194666666666664, "eta_time": 7.44551477831087, "step": 4612 }, { "epoch": 0.49205333333333334, "grad_norm": 1.6986265933977227, "learning_rate": 5.371927797406824e-06, "loss": 0.4675, "step": 4613 }, { "avg_step_time": 5.6391339904130104, "epoch": 0.49205333333333334, "eta_time": 7.459321128429655, "step": 4613 }, { "epoch": 0.49216, "grad_norm": 1.7668491022017918, "learning_rate": 5.37020508248551e-06, "loss": 0.4744, "step": 4614 }, { "avg_step_time": 5.664458934706871, "epoch": 0.49216, "eta_time": 7.491246941149837, "step": 4614 }, { "epoch": 0.4922666666666667, "grad_norm": 1.5614899886463882, "learning_rate": 5.368482323373815e-06, "loss": 0.4286, "step": 4615 }, { "avg_step_time": 5.664493587281969, "epoch": 0.4922666666666667, "eta_time": 7.489719298739492, "step": 4615 }, { "epoch": 0.49237333333333333, "grad_norm": 1.7015253449936254, "learning_rate": 5.3667595202773835e-06, "loss": 0.4991, "step": 4616 }, { "avg_step_time": 5.6646353379644525, "epoch": 0.49237333333333333, "eta_time": 7.4883332148257855, "step": 4616 }, { "epoch": 0.49248, "grad_norm": 1.9514352929665675, "learning_rate": 5.365036673401857e-06, "loss": 0.4801, "step": 4617 }, { "avg_step_time": 5.6637656038457695, "epoch": 0.49248, "eta_time": 7.485610206416158, "step": 4617 }, { "epoch": 0.4925866666666667, "grad_norm": 1.5999868980068153, "learning_rate": 5.36331378295289e-06, "loss": 0.4847, "step": 4618 }, { "avg_step_time": 5.6609216868275345, "epoch": 0.4925866666666667, "eta_time": 7.48027901784405, "step": 4618 }, { "epoch": 0.4926933333333333, "grad_norm": 2.1033945137377374, "learning_rate": 5.361590849136141e-06, "loss": 0.505, "step": 4619 }, { "avg_step_time": 5.6681700908776484, "epoch": 0.4926933333333333, "eta_time": 7.4882824867261375, "step": 4619 }, { "epoch": 0.4928, "grad_norm": 1.835387488152026, "learning_rate": 5.359867872157267e-06, "loss": 0.5272, "step": 4620 }, { "avg_step_time": 5.680927857004031, "epoch": 0.4928, "eta_time": 7.503558877792825, "step": 4620 }, { "epoch": 0.49290666666666666, "grad_norm": 0.6510788024714267, "learning_rate": 5.3581448522219405e-06, "loss": 0.4754, "step": 4621 }, { "avg_step_time": 5.646137935946686, "epoch": 0.49290666666666666, "eta_time": 7.456038818747373, "step": 4621 }, { "epoch": 0.49301333333333336, "grad_norm": 1.9249911820835033, "learning_rate": 5.35642178953583e-06, "loss": 0.4936, "step": 4622 }, { "avg_step_time": 5.686668475468953, "epoch": 0.49301333333333336, "eta_time": 7.507982017751093, "step": 4622 }, { "epoch": 0.49312, "grad_norm": 1.5849464888695053, "learning_rate": 5.354698684304613e-06, "loss": 0.5124, "step": 4623 }, { "avg_step_time": 5.670661251954358, "epoch": 0.49312, "eta_time": 7.485272852579753, "step": 4623 }, { "epoch": 0.49322666666666665, "grad_norm": 1.8554753981046528, "learning_rate": 5.352975536733974e-06, "loss": 0.5371, "step": 4624 }, { "avg_step_time": 5.668728202280372, "epoch": 0.49322666666666665, "eta_time": 7.481146580287235, "step": 4624 }, { "epoch": 0.49333333333333335, "grad_norm": 0.6657254890353583, "learning_rate": 5.3512523470295995e-06, "loss": 0.4357, "step": 4625 }, { "avg_step_time": 5.632281532191267, "epoch": 0.49333333333333335, "eta_time": 7.43148257719681, "step": 4625 }, { "epoch": 0.49344, "grad_norm": 1.8934179644199132, "learning_rate": 5.3495291153971806e-06, "loss": 0.6457, "step": 4626 }, { "avg_step_time": 5.634325311641501, "epoch": 0.49344, "eta_time": 7.432614140273746, "step": 4626 }, { "epoch": 0.4935466666666667, "grad_norm": 1.9829840434155304, "learning_rate": 5.347805842042417e-06, "loss": 0.4841, "step": 4627 }, { "avg_step_time": 5.631349151784724, "epoch": 0.4935466666666667, "eta_time": 7.427123825742741, "step": 4627 }, { "epoch": 0.49365333333333333, "grad_norm": 1.7931600603609774, "learning_rate": 5.34608252717101e-06, "loss": 0.501, "step": 4628 }, { "avg_step_time": 5.631411899219859, "epoch": 0.49365333333333333, "eta_time": 7.425642301554631, "step": 4628 }, { "epoch": 0.49376, "grad_norm": 1.6048483101105067, "learning_rate": 5.344359170988668e-06, "loss": 0.5161, "step": 4629 }, { "avg_step_time": 5.631468845136238, "epoch": 0.49376, "eta_time": 7.424153094171274, "step": 4629 }, { "epoch": 0.4938666666666667, "grad_norm": 1.6283159519463646, "learning_rate": 5.342635773701102e-06, "loss": 0.5428, "step": 4630 }, { "avg_step_time": 5.67657816771305, "epoch": 0.4938666666666667, "eta_time": 7.482045390499561, "step": 4630 }, { "epoch": 0.4939733333333333, "grad_norm": 1.6821322654228206, "learning_rate": 5.34091233551403e-06, "loss": 0.5287, "step": 4631 }, { "avg_step_time": 5.688849781498765, "epoch": 0.4939733333333333, "eta_time": 7.496639823175038, "step": 4631 }, { "epoch": 0.49408, "grad_norm": 0.6280701996623479, "learning_rate": 5.339188856633173e-06, "loss": 0.4288, "step": 4632 }, { "avg_step_time": 5.692545286332718, "epoch": 0.49408, "eta_time": 7.499928414743357, "step": 4632 }, { "epoch": 0.49418666666666666, "grad_norm": 1.3981567212026624, "learning_rate": 5.337465337264262e-06, "loss": 0.437, "step": 4633 }, { "avg_step_time": 5.698751502566868, "epoch": 0.49418666666666666, "eta_time": 7.506522118103358, "step": 4633 }, { "epoch": 0.4942933333333333, "grad_norm": 1.7765497110224933, "learning_rate": 5.335741777613023e-06, "loss": 0.3827, "step": 4634 }, { "avg_step_time": 5.6965316329339535, "epoch": 0.4942933333333333, "eta_time": 7.50201568659441, "step": 4634 }, { "epoch": 0.4944, "grad_norm": 1.8546328383033674, "learning_rate": 5.3340181778851954e-06, "loss": 0.5481, "step": 4635 }, { "avg_step_time": 5.699040056479098, "epoch": 0.4944, "eta_time": 7.503736074364146, "step": 4635 }, { "epoch": 0.49450666666666665, "grad_norm": 1.8171971771007913, "learning_rate": 5.332294538286523e-06, "loss": 0.5106, "step": 4636 }, { "avg_step_time": 5.6948110310718265, "epoch": 0.49450666666666665, "eta_time": 7.4965859656248295, "step": 4636 }, { "epoch": 0.49461333333333335, "grad_norm": 1.8087147074500634, "learning_rate": 5.330570859022748e-06, "loss": 0.5324, "step": 4637 }, { "avg_step_time": 5.695111539628771, "epoch": 0.49461333333333335, "eta_time": 7.495399576322532, "step": 4637 }, { "epoch": 0.49472, "grad_norm": 1.5641416814649665, "learning_rate": 5.328847140299624e-06, "loss": 0.4725, "step": 4638 }, { "avg_step_time": 5.729607957782167, "epoch": 0.49472, "eta_time": 7.539209137781701, "step": 4638 }, { "epoch": 0.4948266666666667, "grad_norm": 1.7184642453992645, "learning_rate": 5.3271233823229064e-06, "loss": 0.5615, "step": 4639 }, { "avg_step_time": 5.736329690374509, "epoch": 0.4948266666666667, "eta_time": 7.546460392670466, "step": 4639 }, { "epoch": 0.49493333333333334, "grad_norm": 0.674861904421432, "learning_rate": 5.325399585298354e-06, "loss": 0.4615, "step": 4640 }, { "avg_step_time": 5.701432820522424, "epoch": 0.49493333333333334, "eta_time": 7.498967890326021, "step": 4640 }, { "epoch": 0.49504, "grad_norm": 1.5098104677707527, "learning_rate": 5.323675749431732e-06, "loss": 0.4806, "step": 4641 }, { "avg_step_time": 5.741730225206625, "epoch": 0.49504, "eta_time": 7.550375246146713, "step": 4641 }, { "epoch": 0.4951466666666667, "grad_norm": 1.7385504555826417, "learning_rate": 5.321951874928812e-06, "loss": 0.4502, "step": 4642 }, { "avg_step_time": 5.77886323013691, "epoch": 0.4951466666666667, "eta_time": 7.597599907843887, "step": 4642 }, { "epoch": 0.4952533333333333, "grad_norm": 1.8981319369915817, "learning_rate": 5.3202279619953675e-06, "loss": 0.49, "step": 4643 }, { "avg_step_time": 5.779434632773351, "epoch": 0.4952533333333333, "eta_time": 7.596745745078749, "step": 4643 }, { "epoch": 0.49536, "grad_norm": 1.6378055141931493, "learning_rate": 5.318504010837175e-06, "loss": 0.5061, "step": 4644 }, { "avg_step_time": 5.81481584394821, "epoch": 0.49536, "eta_time": 7.6416371549219395, "step": 4644 }, { "epoch": 0.49546666666666667, "grad_norm": 1.9315043338658942, "learning_rate": 5.3167800216600215e-06, "loss": 0.5602, "step": 4645 }, { "avg_step_time": 5.817868550618489, "epoch": 0.49546666666666667, "eta_time": 7.644032845673737, "step": 4645 }, { "epoch": 0.4955733333333333, "grad_norm": 2.0089511312219748, "learning_rate": 5.3150559946696934e-06, "loss": 0.5108, "step": 4646 }, { "avg_step_time": 5.817499057211057, "epoch": 0.4955733333333333, "eta_time": 7.641931400430858, "step": 4646 }, { "epoch": 0.49568, "grad_norm": 1.7186993377158093, "learning_rate": 5.313331930071981e-06, "loss": 0.5344, "step": 4647 }, { "avg_step_time": 5.820052363655784, "epoch": 0.49568, "eta_time": 7.643668770934597, "step": 4647 }, { "epoch": 0.49578666666666665, "grad_norm": 1.9750502540664616, "learning_rate": 5.311607828072685e-06, "loss": 0.5738, "step": 4648 }, { "avg_step_time": 5.823683538822213, "epoch": 0.49578666666666665, "eta_time": 7.646820024447944, "step": 4648 }, { "epoch": 0.49589333333333335, "grad_norm": 0.6183183586073081, "learning_rate": 5.309883688877601e-06, "loss": 0.4219, "step": 4649 }, { "avg_step_time": 5.7874090864200785, "epoch": 0.49589333333333335, "eta_time": 7.59758203956147, "step": 4649 }, { "epoch": 0.496, "grad_norm": 1.8715805018505043, "learning_rate": 5.308159512692544e-06, "loss": 0.532, "step": 4650 }, { "avg_step_time": 5.751442873116695, "epoch": 0.496, "eta_time": 7.548768770965663, "step": 4650 }, { "epoch": 0.49610666666666664, "grad_norm": 1.603218083704767, "learning_rate": 5.306435299723317e-06, "loss": 0.4313, "step": 4651 }, { "avg_step_time": 5.783125306620742, "epoch": 0.49610666666666664, "eta_time": 7.588745541243441, "step": 4651 }, { "epoch": 0.49621333333333334, "grad_norm": 1.5614257343732247, "learning_rate": 5.304711050175735e-06, "loss": 0.5165, "step": 4652 }, { "avg_step_time": 5.780928590080955, "epoch": 0.49621333333333334, "eta_time": 7.584257147486764, "step": 4652 }, { "epoch": 0.49632, "grad_norm": 1.6485803592129895, "learning_rate": 5.302986764255621e-06, "loss": 0.5255, "step": 4653 }, { "avg_step_time": 5.786315710857661, "epoch": 0.49632, "eta_time": 7.589717440741632, "step": 4653 }, { "epoch": 0.4964266666666667, "grad_norm": 1.7608515034060566, "learning_rate": 5.3012624421687945e-06, "loss": 0.459, "step": 4654 }, { "avg_step_time": 5.78660559413409, "epoch": 0.4964266666666667, "eta_time": 7.588490280529734, "step": 4654 }, { "epoch": 0.4965333333333333, "grad_norm": 1.7089291894993293, "learning_rate": 5.2995380841210845e-06, "loss": 0.4844, "step": 4655 }, { "avg_step_time": 5.767664625187113, "epoch": 0.4965333333333333, "eta_time": 7.562049175245325, "step": 4655 }, { "epoch": 0.49664, "grad_norm": 1.7156480948456574, "learning_rate": 5.297813690318325e-06, "loss": 0.4828, "step": 4656 }, { "avg_step_time": 5.728714979056156, "epoch": 0.49664, "eta_time": 7.5093905517127775, "step": 4656 }, { "epoch": 0.49674666666666667, "grad_norm": 2.149918388817693, "learning_rate": 5.296089260966347e-06, "loss": 0.6159, "step": 4657 }, { "avg_step_time": 5.745624149688567, "epoch": 0.49674666666666667, "eta_time": 7.529959649508516, "step": 4657 }, { "epoch": 0.4968533333333333, "grad_norm": 1.834858526523664, "learning_rate": 5.2943647962709975e-06, "loss": 0.4643, "step": 4658 }, { "avg_step_time": 5.744509694552181, "epoch": 0.4968533333333333, "eta_time": 7.5269033970007335, "step": 4658 }, { "epoch": 0.49696, "grad_norm": 1.721271088665187, "learning_rate": 5.292640296438116e-06, "loss": 0.4904, "step": 4659 }, { "avg_step_time": 5.715332556252528, "epoch": 0.49696, "eta_time": 7.487085648690811, "step": 4659 }, { "epoch": 0.49706666666666666, "grad_norm": 2.1260445460033552, "learning_rate": 5.290915761673554e-06, "loss": 0.4503, "step": 4660 }, { "avg_step_time": 5.713047860848783, "epoch": 0.49706666666666666, "eta_time": 7.482505739972781, "step": 4660 }, { "epoch": 0.49717333333333336, "grad_norm": 1.8391973561720003, "learning_rate": 5.289191192183165e-06, "loss": 0.4907, "step": 4661 }, { "avg_step_time": 5.711861128758902, "epoch": 0.49717333333333336, "eta_time": 7.479364822491518, "step": 4661 }, { "epoch": 0.49728, "grad_norm": 1.7142362192021225, "learning_rate": 5.287466588172804e-06, "loss": 0.5506, "step": 4662 }, { "avg_step_time": 5.704245615487147, "epoch": 0.49728, "eta_time": 7.467808218275256, "step": 4662 }, { "epoch": 0.49738666666666664, "grad_norm": 1.8578701940734965, "learning_rate": 5.2857419498483345e-06, "loss": 0.4833, "step": 4663 }, { "avg_step_time": 5.702837977746521, "epoch": 0.49738666666666664, "eta_time": 7.4643812642060015, "step": 4663 }, { "epoch": 0.49749333333333334, "grad_norm": 1.6877784333117274, "learning_rate": 5.284017277415619e-06, "loss": 0.5092, "step": 4664 }, { "avg_step_time": 5.702860861113577, "epoch": 0.49749333333333334, "eta_time": 7.462827087973906, "step": 4664 }, { "epoch": 0.4976, "grad_norm": 1.7181288317862589, "learning_rate": 5.2822925710805305e-06, "loss": 0.4704, "step": 4665 }, { "avg_step_time": 5.701116340328949, "epoch": 0.4976, "eta_time": 7.458960545263708, "step": 4665 }, { "epoch": 0.4977066666666667, "grad_norm": 1.8614429251346278, "learning_rate": 5.2805678310489405e-06, "loss": 0.5179, "step": 4666 }, { "avg_step_time": 5.7021354761990635, "epoch": 0.4977066666666667, "eta_time": 7.458709988172608, "step": 4666 }, { "epoch": 0.49781333333333333, "grad_norm": 1.6098506517424451, "learning_rate": 5.2788430575267266e-06, "loss": 0.495, "step": 4667 }, { "avg_step_time": 5.744101326875012, "epoch": 0.49781333333333333, "eta_time": 7.512008068590988, "step": 4667 }, { "epoch": 0.49792, "grad_norm": 0.6485695577356442, "learning_rate": 5.27711825071977e-06, "loss": 0.4717, "step": 4668 }, { "avg_step_time": 5.733291445356427, "epoch": 0.49792, "eta_time": 7.496278564803529, "step": 4668 }, { "epoch": 0.4980266666666667, "grad_norm": 1.8387725886248554, "learning_rate": 5.275393410833959e-06, "loss": 0.4472, "step": 4669 }, { "avg_step_time": 5.732199548470853, "epoch": 0.4980266666666667, "eta_time": 7.493258631973288, "step": 4669 }, { "epoch": 0.4981333333333333, "grad_norm": 1.7080805523776568, "learning_rate": 5.273668538075179e-06, "loss": 0.4808, "step": 4670 }, { "avg_step_time": 5.727627188268334, "epoch": 0.4981333333333333, "eta_time": 7.485690533556253, "step": 4670 }, { "epoch": 0.49824, "grad_norm": 1.6409222772870795, "learning_rate": 5.2719436326493255e-06, "loss": 0.4742, "step": 4671 }, { "avg_step_time": 5.747017826696839, "epoch": 0.49824, "eta_time": 7.509436626883869, "step": 4671 }, { "epoch": 0.49834666666666666, "grad_norm": 1.7284302962224642, "learning_rate": 5.270218694762297e-06, "loss": 0.6127, "step": 4672 }, { "avg_step_time": 5.78498317737772, "epoch": 0.49834666666666666, "eta_time": 7.557437745335394, "step": 4672 }, { "epoch": 0.49845333333333336, "grad_norm": 0.6222752308707609, "learning_rate": 5.268493724619993e-06, "loss": 0.4048, "step": 4673 }, { "avg_step_time": 5.739382271814828, "epoch": 0.49845333333333336, "eta_time": 7.496270956131479, "step": 4673 }, { "epoch": 0.49856, "grad_norm": 1.9838082914523458, "learning_rate": 5.266768722428318e-06, "loss": 0.5014, "step": 4674 }, { "avg_step_time": 5.769916929379858, "epoch": 0.49856, "eta_time": 7.53454985694853, "step": 4674 }, { "epoch": 0.49866666666666665, "grad_norm": 1.724954605451491, "learning_rate": 5.265043688393183e-06, "loss": 0.5548, "step": 4675 }, { "avg_step_time": 5.772089023782749, "epoch": 0.49866666666666665, "eta_time": 7.535782892160811, "step": 4675 }, { "epoch": 0.49877333333333335, "grad_norm": 1.9649160403608, "learning_rate": 5.263318622720498e-06, "loss": 0.5248, "step": 4676 }, { "avg_step_time": 5.771527962251143, "epoch": 0.49877333333333335, "eta_time": 7.5334471929494775, "step": 4676 }, { "epoch": 0.49888, "grad_norm": 1.988393682368824, "learning_rate": 5.261593525616181e-06, "loss": 0.4699, "step": 4677 }, { "avg_step_time": 5.715465232579395, "epoch": 0.49888, "eta_time": 7.45868212851611, "step": 4677 }, { "epoch": 0.4989866666666667, "grad_norm": 1.844076224363625, "learning_rate": 5.259868397286154e-06, "loss": 0.5117, "step": 4678 }, { "avg_step_time": 5.697474099168874, "epoch": 0.4989866666666667, "eta_time": 7.433621067721166, "step": 4678 }, { "epoch": 0.49909333333333333, "grad_norm": 1.7300468089412953, "learning_rate": 5.258143237936336e-06, "loss": 0.4141, "step": 4679 }, { "avg_step_time": 5.695649200015598, "epoch": 0.49909333333333333, "eta_time": 7.4296579564647915, "step": 4679 }, { "epoch": 0.4992, "grad_norm": 1.507988834637886, "learning_rate": 5.256418047772659e-06, "loss": 0.4426, "step": 4680 }, { "avg_step_time": 5.725498970108803, "epoch": 0.4992, "eta_time": 7.467004906850231, "step": 4680 }, { "epoch": 0.4993066666666667, "grad_norm": 1.6719390476669265, "learning_rate": 5.254692827001053e-06, "loss": 0.4152, "step": 4681 }, { "avg_step_time": 5.727847918115481, "epoch": 0.4993066666666667, "eta_time": 7.46847725767613, "step": 4681 }, { "epoch": 0.4994133333333333, "grad_norm": 1.679118307302695, "learning_rate": 5.252967575827452e-06, "loss": 0.4897, "step": 4682 }, { "avg_step_time": 5.736082127600005, "epoch": 0.4994133333333333, "eta_time": 7.4776203957852285, "step": 4682 }, { "epoch": 0.49952, "grad_norm": 1.8149194324748046, "learning_rate": 5.251242294457796e-06, "loss": 0.616, "step": 4683 }, { "avg_step_time": 5.7351066945779205, "epoch": 0.49952, "eta_time": 7.474755725266556, "step": 4683 }, { "epoch": 0.49962666666666666, "grad_norm": 0.6536637299416349, "learning_rate": 5.249516983098026e-06, "loss": 0.4167, "step": 4684 }, { "avg_step_time": 5.699082945332383, "epoch": 0.49962666666666666, "eta_time": 7.42622169348728, "step": 4684 }, { "epoch": 0.4997333333333333, "grad_norm": 1.6222267134874833, "learning_rate": 5.247791641954089e-06, "loss": 0.4017, "step": 4685 }, { "avg_step_time": 5.697331650088532, "epoch": 0.4997333333333333, "eta_time": 7.422357066365337, "step": 4685 }, { "epoch": 0.49984, "grad_norm": 0.649542059310105, "learning_rate": 5.2460662712319335e-06, "loss": 0.4378, "step": 4686 }, { "avg_step_time": 5.664482839179762, "epoch": 0.49984, "eta_time": 7.3779888980316395, "step": 4686 }, { "epoch": 0.49994666666666665, "grad_norm": 0.6317257306809266, "learning_rate": 5.244340871137511e-06, "loss": 0.4458, "step": 4687 }, { "avg_step_time": 5.6367957664258554, "epoch": 0.49994666666666665, "eta_time": 7.340360709167892, "step": 4687 }, { "epoch": 0.5000533333333333, "grad_norm": 1.7663263529623894, "learning_rate": 5.242615441876779e-06, "loss": 0.3886, "step": 4688 }, { "avg_step_time": 5.637525096084133, "epoch": 0.5000533333333333, "eta_time": 7.339744479262869, "step": 4688 }, { "epoch": 0.50016, "grad_norm": 1.7333706257774162, "learning_rate": 5.240889983655701e-06, "loss": 0.5056, "step": 4689 }, { "avg_step_time": 5.643296456096148, "epoch": 0.50016, "eta_time": 7.345690887018486, "step": 4689 }, { "epoch": 0.5002666666666666, "grad_norm": 1.8027979781662273, "learning_rate": 5.239164496680233e-06, "loss": 0.5679, "step": 4690 }, { "avg_step_time": 5.641737306960906, "epoch": 0.5002666666666666, "eta_time": 7.342094245308846, "step": 4690 }, { "epoch": 0.5003733333333333, "grad_norm": 0.6922151118138893, "learning_rate": 5.237438981156346e-06, "loss": 0.4641, "step": 4691 }, { "avg_step_time": 5.607448905405372, "epoch": 0.5003733333333333, "eta_time": 7.295914075810766, "step": 4691 }, { "epoch": 0.50048, "grad_norm": 1.688936225791596, "learning_rate": 5.235713437290012e-06, "loss": 0.5175, "step": 4692 }, { "avg_step_time": 5.589959619021175, "epoch": 0.50048, "eta_time": 7.271605804410045, "step": 4692 }, { "epoch": 0.5005866666666666, "grad_norm": 1.8810915523103449, "learning_rate": 5.2339878652872e-06, "loss": 0.4906, "step": 4693 }, { "avg_step_time": 5.591277743830825, "epoch": 0.5005866666666666, "eta_time": 7.2717673323933125, "step": 4693 }, { "epoch": 0.5006933333333333, "grad_norm": 1.7579691131501833, "learning_rate": 5.232262265353889e-06, "loss": 0.4552, "step": 4694 }, { "avg_step_time": 5.591030778306903, "epoch": 0.5006933333333333, "eta_time": 7.26989307590406, "step": 4694 }, { "epoch": 0.5008, "grad_norm": 1.6183988955283661, "learning_rate": 5.230536637696062e-06, "loss": 0.5067, "step": 4695 }, { "avg_step_time": 5.60585091812442, "epoch": 0.5008, "eta_time": 7.287606193561746, "step": 4695 }, { "epoch": 0.5009066666666666, "grad_norm": 1.8616128723775367, "learning_rate": 5.228810982519696e-06, "loss": 0.5409, "step": 4696 }, { "avg_step_time": 5.583858429783523, "epoch": 0.5009066666666666, "eta_time": 7.257464886932528, "step": 4696 }, { "epoch": 0.5010133333333333, "grad_norm": 1.6673703180276371, "learning_rate": 5.2270853000307845e-06, "loss": 0.4439, "step": 4697 }, { "avg_step_time": 5.584804732390125, "epoch": 0.5010133333333333, "eta_time": 7.25714348281139, "step": 4697 }, { "epoch": 0.50112, "grad_norm": 1.5151760369226934, "learning_rate": 5.225359590435312e-06, "loss": 0.4497, "step": 4698 }, { "avg_step_time": 5.562001057345458, "epoch": 0.50112, "eta_time": 7.225966373667974, "step": 4698 }, { "epoch": 0.5012266666666667, "grad_norm": 1.95400639548823, "learning_rate": 5.223633853939276e-06, "loss": 0.5074, "step": 4699 }, { "avg_step_time": 5.56306181531964, "epoch": 0.5012266666666667, "eta_time": 7.225799180120732, "step": 4699 }, { "epoch": 0.5013333333333333, "grad_norm": 2.053270162504566, "learning_rate": 5.2219080907486715e-06, "loss": 0.5264, "step": 4700 }, { "avg_step_time": 5.573207652930058, "epoch": 0.5013333333333333, "eta_time": 7.23742938262445, "step": 4700 }, { "epoch": 0.50144, "grad_norm": 1.8577234223669021, "learning_rate": 5.220182301069499e-06, "loss": 0.5152, "step": 4701 }, { "avg_step_time": 5.574208110269874, "epoch": 0.50144, "eta_time": 7.237180196500386, "step": 4701 }, { "epoch": 0.5015466666666667, "grad_norm": 1.7122948945600076, "learning_rate": 5.2184564851077575e-06, "loss": 0.5058, "step": 4702 }, { "avg_step_time": 5.562813298870819, "epoch": 0.5015466666666667, "eta_time": 7.220840707117593, "step": 4702 }, { "epoch": 0.5016533333333333, "grad_norm": 1.6699053574659113, "learning_rate": 5.216730643069458e-06, "loss": 0.4225, "step": 4703 }, { "avg_step_time": 5.571050268231017, "epoch": 0.5016533333333333, "eta_time": 7.229985236993141, "step": 4703 }, { "epoch": 0.50176, "grad_norm": 1.8840636055831055, "learning_rate": 5.215004775160608e-06, "loss": 0.4663, "step": 4704 }, { "avg_step_time": 5.568137530124549, "epoch": 0.50176, "eta_time": 7.224658445336602, "step": 4704 }, { "epoch": 0.5018666666666667, "grad_norm": 1.919274727584166, "learning_rate": 5.213278881587217e-06, "loss": 0.5401, "step": 4705 }, { "avg_step_time": 5.574134395580099, "epoch": 0.5018666666666667, "eta_time": 7.23089100759974, "step": 4705 }, { "epoch": 0.5019733333333334, "grad_norm": 1.9110460529608682, "learning_rate": 5.211552962555305e-06, "loss": 0.5364, "step": 4706 }, { "avg_step_time": 5.572273223087041, "epoch": 0.5019733333333334, "eta_time": 7.2269287996092775, "step": 4706 }, { "epoch": 0.50208, "grad_norm": 1.697775847603666, "learning_rate": 5.209827018270886e-06, "loss": 0.5028, "step": 4707 }, { "avg_step_time": 5.584951860736115, "epoch": 0.50208, "eta_time": 7.241820912754496, "step": 4707 }, { "epoch": 0.5021866666666667, "grad_norm": 0.6528636088484502, "learning_rate": 5.208101048939984e-06, "loss": 0.4468, "step": 4708 }, { "avg_step_time": 5.548156483004791, "epoch": 0.5021866666666667, "eta_time": 7.192568418384267, "step": 4708 }, { "epoch": 0.5022933333333334, "grad_norm": 1.8402525337016657, "learning_rate": 5.2063750547686224e-06, "loss": 0.49, "step": 4709 }, { "avg_step_time": 5.544361726202146, "epoch": 0.5022933333333334, "eta_time": 7.1861088373497815, "step": 4709 }, { "epoch": 0.5024, "grad_norm": 1.814079376440607, "learning_rate": 5.204649035962825e-06, "loss": 0.5046, "step": 4710 }, { "avg_step_time": 5.547580849040639, "epoch": 0.5024, "eta_time": 7.188740183548494, "step": 4710 }, { "epoch": 0.5025066666666667, "grad_norm": 1.6866798861426506, "learning_rate": 5.202922992728631e-06, "loss": 0.4814, "step": 4711 }, { "avg_step_time": 5.551995067885428, "epoch": 0.5025066666666667, "eta_time": 7.192918054616009, "step": 4711 }, { "epoch": 0.5026133333333334, "grad_norm": 0.639947220530362, "learning_rate": 5.201196925272064e-06, "loss": 0.4571, "step": 4712 }, { "avg_step_time": 5.505960459661002, "epoch": 0.5026133333333334, "eta_time": 7.131748228722015, "step": 4712 }, { "epoch": 0.50272, "grad_norm": 1.7134885612949622, "learning_rate": 5.199470833799164e-06, "loss": 0.5004, "step": 4713 }, { "avg_step_time": 5.541587343119612, "epoch": 0.50272, "eta_time": 7.176355609339898, "step": 4713 }, { "epoch": 0.5028266666666666, "grad_norm": 2.0545130525543653, "learning_rate": 5.197744718515973e-06, "loss": 0.5524, "step": 4714 }, { "avg_step_time": 5.539359490076701, "epoch": 0.5028266666666666, "eta_time": 7.171931828679862, "step": 4714 }, { "epoch": 0.5029333333333333, "grad_norm": 1.8723148845230877, "learning_rate": 5.196018579628526e-06, "loss": 0.5397, "step": 4715 }, { "avg_step_time": 5.537375043136905, "epoch": 0.5029333333333333, "eta_time": 7.167824361393882, "step": 4715 }, { "epoch": 0.50304, "grad_norm": 1.614900110700274, "learning_rate": 5.1942924173428725e-06, "loss": 0.4609, "step": 4716 }, { "avg_step_time": 5.547999644520307, "epoch": 0.50304, "eta_time": 7.180036206616697, "step": 4716 }, { "epoch": 0.5031466666666666, "grad_norm": 0.6456094051414482, "learning_rate": 5.192566231865058e-06, "loss": 0.4596, "step": 4717 }, { "avg_step_time": 5.518657238796504, "epoch": 0.5031466666666666, "eta_time": 7.140529282865031, "step": 4717 }, { "epoch": 0.5032533333333333, "grad_norm": 1.87437391532884, "learning_rate": 5.190840023401132e-06, "loss": 0.4829, "step": 4718 }, { "avg_step_time": 5.512808289190735, "epoch": 0.5032533333333333, "eta_time": 7.1314300563225705, "step": 4718 }, { "epoch": 0.50336, "grad_norm": 1.8255931827895293, "learning_rate": 5.18911379215715e-06, "loss": 0.5813, "step": 4719 }, { "avg_step_time": 5.505325837568804, "epoch": 0.50336, "eta_time": 7.120221416588985, "step": 4719 }, { "epoch": 0.5034666666666666, "grad_norm": 1.7549294219300322, "learning_rate": 5.1873875383391655e-06, "loss": 0.498, "step": 4720 }, { "avg_step_time": 5.5368581516574125, "epoch": 0.5034666666666666, "eta_time": 7.1594651933236815, "step": 4720 }, { "epoch": 0.5035733333333333, "grad_norm": 1.7990900708581548, "learning_rate": 5.185661262153236e-06, "loss": 0.5174, "step": 4721 }, { "avg_step_time": 5.511864683844826, "epoch": 0.5035733333333333, "eta_time": 7.125616177392729, "step": 4721 }, { "epoch": 0.50368, "grad_norm": 1.6653930070541796, "learning_rate": 5.1839349638054245e-06, "loss": 0.5253, "step": 4722 }, { "avg_step_time": 5.51499078972171, "epoch": 0.50368, "eta_time": 7.128125595715311, "step": 4722 }, { "epoch": 0.5037866666666667, "grad_norm": 1.6472912686475731, "learning_rate": 5.1822086435017936e-06, "loss": 0.5344, "step": 4723 }, { "avg_step_time": 5.514819540158666, "epoch": 0.5037866666666667, "eta_time": 7.126372361338365, "step": 4723 }, { "epoch": 0.5038933333333333, "grad_norm": 1.7183777373602724, "learning_rate": 5.18048230144841e-06, "loss": 0.4722, "step": 4724 }, { "avg_step_time": 5.553252097332116, "epoch": 0.5038933333333333, "eta_time": 7.174493195747687, "step": 4724 }, { "epoch": 0.504, "grad_norm": 1.765790366608751, "learning_rate": 5.178755937851341e-06, "loss": 0.4387, "step": 4725 }, { "avg_step_time": 5.5489968025323115, "epoch": 0.504, "eta_time": 7.1674542032709025, "step": 4725 }, { "epoch": 0.5041066666666667, "grad_norm": 0.6824486735896325, "learning_rate": 5.177029552916659e-06, "loss": 0.4775, "step": 4726 }, { "avg_step_time": 5.515688652944083, "epoch": 0.5041066666666667, "eta_time": 7.122899040982511, "step": 4726 }, { "epoch": 0.5042133333333333, "grad_norm": 1.4954164242490546, "learning_rate": 5.175303146850439e-06, "loss": 0.4875, "step": 4727 }, { "avg_step_time": 5.513785716259118, "epoch": 0.5042133333333333, "eta_time": 7.118910002547884, "step": 4727 }, { "epoch": 0.50432, "grad_norm": 1.86129803683697, "learning_rate": 5.173576719858755e-06, "loss": 0.4959, "step": 4728 }, { "avg_step_time": 5.516510828576907, "epoch": 0.50432, "eta_time": 7.120896061221357, "step": 4728 }, { "epoch": 0.5044266666666667, "grad_norm": 1.6236666946103342, "learning_rate": 5.171850272147687e-06, "loss": 0.4541, "step": 4729 }, { "avg_step_time": 5.505595286687215, "epoch": 0.5044266666666667, "eta_time": 7.105276583874667, "step": 4729 }, { "epoch": 0.5045333333333333, "grad_norm": 1.5895236414200082, "learning_rate": 5.170123803923316e-06, "loss": 0.4594, "step": 4730 }, { "avg_step_time": 5.5266469102917295, "epoch": 0.5045333333333333, "eta_time": 7.130909693973635, "step": 4730 }, { "epoch": 0.50464, "grad_norm": 1.7525236073613533, "learning_rate": 5.168397315391729e-06, "loss": 0.4586, "step": 4731 }, { "avg_step_time": 5.562067503880972, "epoch": 0.50464, "eta_time": 7.175067080006454, "step": 4731 }, { "epoch": 0.5047466666666667, "grad_norm": 1.7756836108942349, "learning_rate": 5.166670806759007e-06, "loss": 0.5344, "step": 4732 }, { "avg_step_time": 5.560063903981989, "epoch": 0.5047466666666667, "eta_time": 7.170937973941216, "step": 4732 }, { "epoch": 0.5048533333333334, "grad_norm": 1.5272757509355115, "learning_rate": 5.164944278231242e-06, "loss": 0.4714, "step": 4733 }, { "avg_step_time": 5.559315445447209, "epoch": 0.5048533333333334, "eta_time": 7.168428416046095, "step": 4733 }, { "epoch": 0.50496, "grad_norm": 1.85759599032923, "learning_rate": 5.1632177300145255e-06, "loss": 0.4552, "step": 4734 }, { "avg_step_time": 5.568401690685388, "epoch": 0.50496, "eta_time": 7.178597846241912, "step": 4734 }, { "epoch": 0.5050666666666667, "grad_norm": 2.114201803641418, "learning_rate": 5.161491162314949e-06, "loss": 0.4052, "step": 4735 }, { "avg_step_time": 5.570127243947501, "epoch": 0.5050666666666667, "eta_time": 7.179275114421223, "step": 4735 }, { "epoch": 0.5051733333333334, "grad_norm": 0.6505550975844728, "learning_rate": 5.159764575338608e-06, "loss": 0.4688, "step": 4736 }, { "avg_step_time": 5.546461760395705, "epoch": 0.5051733333333334, "eta_time": 7.1472322517987985, "step": 4736 }, { "epoch": 0.50528, "grad_norm": 1.7989756843300522, "learning_rate": 5.1580379692916025e-06, "loss": 0.4275, "step": 4737 }, { "avg_step_time": 5.548090419383964, "epoch": 0.50528, "eta_time": 7.147789823639673, "step": 4737 }, { "epoch": 0.5053866666666667, "grad_norm": 2.0896301038570444, "learning_rate": 5.156311344380033e-06, "loss": 0.5519, "step": 4738 }, { "avg_step_time": 5.543447234413841, "epoch": 0.5053866666666667, "eta_time": 7.140268007215827, "step": 4738 }, { "epoch": 0.5054933333333334, "grad_norm": 2.0073802587928133, "learning_rate": 5.1545847008099995e-06, "loss": 0.5205, "step": 4739 }, { "avg_step_time": 5.586934260647706, "epoch": 0.5054933333333334, "eta_time": 7.194729786767435, "step": 4739 }, { "epoch": 0.5056, "grad_norm": 1.5741842216117028, "learning_rate": 5.152858038787608e-06, "loss": 0.4226, "step": 4740 }, { "avg_step_time": 5.583566899251456, "epoch": 0.5056, "eta_time": 7.18884238278625, "step": 4740 }, { "epoch": 0.5057066666666666, "grad_norm": 1.9304575062669596, "learning_rate": 5.151131358518966e-06, "loss": 0.504, "step": 4741 }, { "avg_step_time": 5.583291227167303, "epoch": 0.5057066666666666, "eta_time": 7.186936540748134, "step": 4741 }, { "epoch": 0.5058133333333333, "grad_norm": 2.1764594168081492, "learning_rate": 5.1494046602101825e-06, "loss": 0.5477, "step": 4742 }, { "avg_step_time": 5.5818486358180195, "epoch": 0.5058133333333333, "eta_time": 7.183529091595801, "step": 4742 }, { "epoch": 0.50592, "grad_norm": 1.7619401075182815, "learning_rate": 5.147677944067368e-06, "loss": 0.5057, "step": 4743 }, { "avg_step_time": 5.583774593141344, "epoch": 0.50592, "eta_time": 7.184456643175196, "step": 4743 }, { "epoch": 0.5060266666666666, "grad_norm": 1.5985326087738527, "learning_rate": 5.145951210296637e-06, "loss": 0.4426, "step": 4744 }, { "avg_step_time": 5.5830492515756625, "epoch": 0.5060266666666666, "eta_time": 7.181972523346359, "step": 4744 }, { "epoch": 0.5061333333333333, "grad_norm": 1.8088113076636303, "learning_rate": 5.144224459104104e-06, "loss": 0.5691, "step": 4745 }, { "avg_step_time": 5.593099957764751, "epoch": 0.5061333333333333, "eta_time": 7.193348001236332, "step": 4745 }, { "epoch": 0.50624, "grad_norm": 2.046678424629239, "learning_rate": 5.142497690695888e-06, "loss": 0.6212, "step": 4746 }, { "avg_step_time": 5.594263312792537, "epoch": 0.50624, "eta_time": 7.193290243032404, "step": 4746 }, { "epoch": 0.5063466666666666, "grad_norm": 1.9203167488067672, "learning_rate": 5.140770905278106e-06, "loss": 0.5068, "step": 4747 }, { "avg_step_time": 5.594394421336626, "epoch": 0.5063466666666666, "eta_time": 7.191904828318307, "step": 4747 }, { "epoch": 0.5064533333333333, "grad_norm": 1.9277212010699576, "learning_rate": 5.139044103056885e-06, "loss": 0.4991, "step": 4748 }, { "avg_step_time": 5.6286298169030085, "epoch": 0.5064533333333333, "eta_time": 7.234352823002839, "step": 4748 }, { "epoch": 0.50656, "grad_norm": 1.6502660375962237, "learning_rate": 5.137317284238344e-06, "loss": 0.419, "step": 4749 }, { "avg_step_time": 5.62711387451249, "epoch": 0.50656, "eta_time": 7.230841328748549, "step": 4749 }, { "epoch": 0.5066666666666667, "grad_norm": 2.0302390428763153, "learning_rate": 5.135590449028608e-06, "loss": 0.5042, "step": 4750 }, { "avg_step_time": 5.626802259021336, "epoch": 0.5066666666666667, "eta_time": 7.2288779022149106, "step": 4750 }, { "epoch": 0.5067733333333333, "grad_norm": 1.6314077903969821, "learning_rate": 5.133863597633809e-06, "loss": 0.4904, "step": 4751 }, { "avg_step_time": 5.643970788127244, "epoch": 0.5067733333333333, "eta_time": 7.249366923416771, "step": 4751 }, { "epoch": 0.50688, "grad_norm": 1.8225148741001493, "learning_rate": 5.1321367302600726e-06, "loss": 0.5183, "step": 4752 }, { "avg_step_time": 5.645334501459141, "epoch": 0.50688, "eta_time": 7.249550388957114, "step": 4752 }, { "epoch": 0.5069866666666667, "grad_norm": 2.022142209269023, "learning_rate": 5.130409847113532e-06, "loss": 0.5187, "step": 4753 }, { "avg_step_time": 5.644001688620056, "epoch": 0.5069866666666667, "eta_time": 7.246271056889417, "step": 4753 }, { "epoch": 0.5070933333333333, "grad_norm": 1.9649123090586669, "learning_rate": 5.128682948400321e-06, "loss": 0.5464, "step": 4754 }, { "avg_step_time": 5.639142990112305, "epoch": 0.5070933333333333, "eta_time": 7.238466599252489, "step": 4754 }, { "epoch": 0.5072, "grad_norm": 2.091741035194643, "learning_rate": 5.126956034326573e-06, "loss": 0.4869, "step": 4755 }, { "avg_step_time": 5.646124456868027, "epoch": 0.5072, "eta_time": 7.245859719647301, "step": 4755 }, { "epoch": 0.5073066666666667, "grad_norm": 1.7990944799847453, "learning_rate": 5.125229105098429e-06, "loss": 0.5578, "step": 4756 }, { "avg_step_time": 5.6398472545122855, "epoch": 0.5073066666666667, "eta_time": 7.236237352386736, "step": 4756 }, { "epoch": 0.5074133333333334, "grad_norm": 1.7507227119589392, "learning_rate": 5.123502160922024e-06, "loss": 0.4937, "step": 4757 }, { "avg_step_time": 5.640515483991064, "epoch": 0.5074133333333334, "eta_time": 7.235527918075203, "step": 4757 }, { "epoch": 0.50752, "grad_norm": 1.7357572878588279, "learning_rate": 5.121775202003499e-06, "loss": 0.4896, "step": 4758 }, { "avg_step_time": 5.6473243308789804, "epoch": 0.50752, "eta_time": 7.242693454352292, "step": 4758 }, { "epoch": 0.5076266666666667, "grad_norm": 1.5974342332999663, "learning_rate": 5.120048228548999e-06, "loss": 0.4848, "step": 4759 }, { "avg_step_time": 5.648542596836283, "epoch": 0.5076266666666667, "eta_time": 7.242686840832301, "step": 4759 }, { "epoch": 0.5077333333333334, "grad_norm": 1.9301914593707916, "learning_rate": 5.1183212407646655e-06, "loss": 0.4988, "step": 4760 }, { "avg_step_time": 5.648835372443151, "epoch": 0.5077333333333334, "eta_time": 7.241493123284762, "step": 4760 }, { "epoch": 0.50784, "grad_norm": 1.7995695333874266, "learning_rate": 5.116594238856645e-06, "loss": 0.4997, "step": 4761 }, { "avg_step_time": 5.648030803661154, "epoch": 0.50784, "eta_time": 7.238892813359046, "step": 4761 }, { "epoch": 0.5079466666666667, "grad_norm": 0.6905794258681859, "learning_rate": 5.114867223031086e-06, "loss": 0.4625, "step": 4762 }, { "avg_step_time": 5.6160453883084385, "epoch": 0.5079466666666667, "eta_time": 7.196338160074118, "step": 4762 }, { "epoch": 0.5080533333333334, "grad_norm": 1.9769666136997965, "learning_rate": 5.113140193494136e-06, "loss": 0.4728, "step": 4763 }, { "avg_step_time": 5.6173644186270355, "epoch": 0.5080533333333334, "eta_time": 7.196467971863302, "step": 4763 }, { "epoch": 0.50816, "grad_norm": 1.8698092202402727, "learning_rate": 5.111413150451948e-06, "loss": 0.5112, "step": 4764 }, { "avg_step_time": 5.6223282886273935, "epoch": 0.50816, "eta_time": 7.20126548301692, "step": 4764 }, { "epoch": 0.5082666666666666, "grad_norm": 1.827315450565231, "learning_rate": 5.109686094110674e-06, "loss": 0.4652, "step": 4765 }, { "avg_step_time": 5.621119894162573, "epoch": 0.5082666666666666, "eta_time": 7.198156308913739, "step": 4765 }, { "epoch": 0.5083733333333333, "grad_norm": 2.0845486284293098, "learning_rate": 5.107959024676466e-06, "loss": 0.5318, "step": 4766 }, { "avg_step_time": 5.61171062546547, "epoch": 0.5083733333333333, "eta_time": 7.184548409102875, "step": 4766 }, { "epoch": 0.50848, "grad_norm": 0.618703654572184, "learning_rate": 5.1062319423554815e-06, "loss": 0.4137, "step": 4767 }, { "avg_step_time": 5.6125141201597275, "epoch": 0.50848, "eta_time": 7.1840180738044515, "step": 4767 }, { "epoch": 0.5085866666666666, "grad_norm": 1.935523648256344, "learning_rate": 5.104504847353878e-06, "loss": 0.4287, "step": 4768 }, { "avg_step_time": 5.615518112375279, "epoch": 0.5085866666666666, "eta_time": 7.18630331769803, "step": 4768 }, { "epoch": 0.5086933333333333, "grad_norm": 1.651273623511976, "learning_rate": 5.102777739877812e-06, "loss": 0.4712, "step": 4769 }, { "avg_step_time": 5.613758380966957, "epoch": 0.5086933333333333, "eta_time": 7.182491972981612, "step": 4769 }, { "epoch": 0.5088, "grad_norm": 1.8454776278293499, "learning_rate": 5.101050620133447e-06, "loss": 0.4536, "step": 4770 }, { "avg_step_time": 5.6226851675245495, "epoch": 0.5088, "eta_time": 7.192351443458486, "step": 4770 }, { "epoch": 0.5089066666666666, "grad_norm": 1.9514457157264662, "learning_rate": 5.099323488326941e-06, "loss": 0.434, "step": 4771 }, { "avg_step_time": 5.619861398080383, "epoch": 0.5089066666666666, "eta_time": 7.187178299100578, "step": 4771 }, { "epoch": 0.5090133333333333, "grad_norm": 1.4693001229876406, "learning_rate": 5.097596344664458e-06, "loss": 0.4711, "step": 4772 }, { "avg_step_time": 5.65556033211525, "epoch": 0.5090133333333333, "eta_time": 7.231262280201805, "step": 4772 }, { "epoch": 0.50912, "grad_norm": 1.9101310213477989, "learning_rate": 5.095869189352166e-06, "loss": 0.4691, "step": 4773 }, { "avg_step_time": 5.656323006658843, "epoch": 0.50912, "eta_time": 7.23066624351222, "step": 4773 }, { "epoch": 0.5092266666666667, "grad_norm": 1.8813736947415292, "learning_rate": 5.094142022596224e-06, "loss": 0.5698, "step": 4774 }, { "avg_step_time": 5.653902720923376, "epoch": 0.5092266666666667, "eta_time": 7.226001783046792, "step": 4774 }, { "epoch": 0.5093333333333333, "grad_norm": 0.6585607004348174, "learning_rate": 5.092414844602807e-06, "loss": 0.4453, "step": 4775 }, { "avg_step_time": 5.622215762282863, "epoch": 0.5093333333333333, "eta_time": 7.183942362916992, "step": 4775 }, { "epoch": 0.50944, "grad_norm": 0.6304039732126936, "learning_rate": 5.090687655578078e-06, "loss": 0.428, "step": 4776 }, { "avg_step_time": 5.5871777004665795, "epoch": 0.50944, "eta_time": 7.137619512346056, "step": 4776 }, { "epoch": 0.5095466666666667, "grad_norm": 1.7879961429602702, "learning_rate": 5.088960455728209e-06, "loss": 0.4934, "step": 4777 }, { "avg_step_time": 5.5847658846113415, "epoch": 0.5095466666666667, "eta_time": 7.132987093734153, "step": 4777 }, { "epoch": 0.5096533333333333, "grad_norm": 1.6024895113320943, "learning_rate": 5.087233245259371e-06, "loss": 0.4568, "step": 4778 }, { "avg_step_time": 5.582016232037785, "epoch": 0.5096533333333333, "eta_time": 7.12792461629936, "step": 4778 }, { "epoch": 0.50976, "grad_norm": 1.5487060751499926, "learning_rate": 5.0855060243777366e-06, "loss": 0.4721, "step": 4779 }, { "avg_step_time": 5.594062347604771, "epoch": 0.50976, "eta_time": 7.141752930442091, "step": 4779 }, { "epoch": 0.5098666666666667, "grad_norm": 1.7056784364883544, "learning_rate": 5.0837787932894786e-06, "loss": 0.4736, "step": 4780 }, { "avg_step_time": 5.5941165071545225, "epoch": 0.5098666666666667, "eta_time": 7.140268152881953, "step": 4780 }, { "epoch": 0.5099733333333333, "grad_norm": 1.9147988933509066, "learning_rate": 5.082051552200773e-06, "loss": 0.4702, "step": 4781 }, { "avg_step_time": 5.589451599602747, "epoch": 0.5099733333333333, "eta_time": 7.13276129127084, "step": 4781 }, { "epoch": 0.51008, "grad_norm": 1.698348248868519, "learning_rate": 5.080324301317795e-06, "loss": 0.4931, "step": 4782 }, { "avg_step_time": 5.6076021820607815, "epoch": 0.51008, "eta_time": 7.15436578394588, "step": 4782 }, { "epoch": 0.5101866666666667, "grad_norm": 1.7115236886780125, "learning_rate": 5.078597040846723e-06, "loss": 0.4515, "step": 4783 }, { "avg_step_time": 5.639232897999311, "epoch": 0.5101866666666667, "eta_time": 7.193154852114677, "step": 4783 }, { "epoch": 0.5102933333333334, "grad_norm": 1.8504599013951408, "learning_rate": 5.076869770993734e-06, "loss": 0.411, "step": 4784 }, { "avg_step_time": 5.639271731328482, "epoch": 0.5102933333333334, "eta_time": 7.191637921813628, "step": 4784 }, { "epoch": 0.5104, "grad_norm": 1.8485462064574636, "learning_rate": 5.0751424919650085e-06, "loss": 0.5123, "step": 4785 }, { "avg_step_time": 5.6694195101959535, "epoch": 0.5104, "eta_time": 7.2285098754998405, "step": 4785 }, { "epoch": 0.5105066666666667, "grad_norm": 1.7592536410455017, "learning_rate": 5.073415203966726e-06, "loss": 0.5434, "step": 4786 }, { "avg_step_time": 5.695169174309933, "epoch": 0.5105066666666667, "eta_time": 7.259758705807855, "step": 4786 }, { "epoch": 0.5106133333333334, "grad_norm": 1.6888531610371111, "learning_rate": 5.0716879072050704e-06, "loss": 0.4753, "step": 4787 }, { "avg_step_time": 5.69551074143612, "epoch": 0.5106133333333334, "eta_time": 7.258612022696922, "step": 4787 }, { "epoch": 0.51072, "grad_norm": 1.6368682335305451, "learning_rate": 5.069960601886224e-06, "loss": 0.4999, "step": 4788 }, { "avg_step_time": 5.691827959484524, "epoch": 0.51072, "eta_time": 7.25233745837653, "step": 4788 }, { "epoch": 0.5108266666666667, "grad_norm": 2.095496584908539, "learning_rate": 5.068233288216367e-06, "loss": 0.4795, "step": 4789 }, { "avg_step_time": 5.702818564694337, "epoch": 0.5108266666666667, "eta_time": 7.264757204913397, "step": 4789 }, { "epoch": 0.5109333333333334, "grad_norm": 1.6342587206288626, "learning_rate": 5.066505966401689e-06, "loss": 0.5548, "step": 4790 }, { "avg_step_time": 5.734868088153878, "epoch": 0.5109333333333334, "eta_time": 7.303991717829313, "step": 4790 }, { "epoch": 0.51104, "grad_norm": 0.7229862503670487, "learning_rate": 5.064778636648371e-06, "loss": 0.4417, "step": 4791 }, { "avg_step_time": 5.700847582383589, "epoch": 0.51104, "eta_time": 7.25907925490177, "step": 4791 }, { "epoch": 0.5111466666666666, "grad_norm": 1.9962209379107665, "learning_rate": 5.063051299162604e-06, "loss": 0.4702, "step": 4792 }, { "avg_step_time": 5.701416533402722, "epoch": 0.5111466666666666, "eta_time": 7.258219992384633, "step": 4792 }, { "epoch": 0.5112533333333333, "grad_norm": 0.6537271293931538, "learning_rate": 5.061323954150576e-06, "loss": 0.4488, "step": 4793 }, { "avg_step_time": 5.689123387288565, "epoch": 0.5112533333333333, "eta_time": 7.240989822376724, "step": 4793 }, { "epoch": 0.51136, "grad_norm": 0.6435939313055613, "learning_rate": 5.05959660181847e-06, "loss": 0.4613, "step": 4794 }, { "avg_step_time": 5.646939051271689, "epoch": 0.51136, "eta_time": 7.185729942743224, "step": 4794 }, { "epoch": 0.5114666666666666, "grad_norm": 1.6192386973881163, "learning_rate": 5.057869242372479e-06, "loss": 0.465, "step": 4795 }, { "avg_step_time": 5.646980605944239, "epoch": 0.5114666666666666, "eta_time": 7.184214215340171, "step": 4795 }, { "epoch": 0.5115733333333333, "grad_norm": 1.8441181051262596, "learning_rate": 5.0561418760187944e-06, "loss": 0.5089, "step": 4796 }, { "avg_step_time": 5.646291080147329, "epoch": 0.5115733333333333, "eta_time": 7.181768571109616, "step": 4796 }, { "epoch": 0.51168, "grad_norm": 1.6144875672400936, "learning_rate": 5.054414502963605e-06, "loss": 0.4288, "step": 4797 }, { "avg_step_time": 5.640576755157625, "epoch": 0.51168, "eta_time": 7.172933440308779, "step": 4797 }, { "epoch": 0.5117866666666666, "grad_norm": 2.0742018554574617, "learning_rate": 5.052687123413104e-06, "loss": 0.5592, "step": 4798 }, { "avg_step_time": 5.635112242265181, "epoch": 0.5117866666666666, "eta_time": 7.164419092457703, "step": 4798 }, { "epoch": 0.5118933333333333, "grad_norm": 1.8578313339612544, "learning_rate": 5.050959737573483e-06, "loss": 0.5608, "step": 4799 }, { "avg_step_time": 5.62595188256466, "epoch": 0.5118933333333333, "eta_time": 7.151209948504413, "step": 4799 }, { "epoch": 0.512, "grad_norm": 2.166187672464196, "learning_rate": 5.049232345650936e-06, "loss": 0.5557, "step": 4800 }, { "avg_step_time": 5.625425649411751, "epoch": 0.512, "eta_time": 7.148978429460767, "step": 4800 }, { "epoch": 0.5121066666666667, "grad_norm": 2.1162003533456235, "learning_rate": 5.047504947851657e-06, "loss": 0.5242, "step": 4801 }, { "avg_step_time": 5.630229032400883, "epoch": 0.5121066666666667, "eta_time": 7.153518776167122, "step": 4801 }, { "epoch": 0.5122133333333333, "grad_norm": 1.7003579259497805, "learning_rate": 5.0457775443818415e-06, "loss": 0.4884, "step": 4802 }, { "avg_step_time": 5.624202078038996, "epoch": 0.5122133333333333, "eta_time": 7.144298917464536, "step": 4802 }, { "epoch": 0.51232, "grad_norm": 1.7609225268592164, "learning_rate": 5.044050135447682e-06, "loss": 0.4733, "step": 4803 }, { "avg_step_time": 5.6245284875233965, "epoch": 0.51232, "eta_time": 7.143151179154714, "step": 4803 }, { "epoch": 0.5124266666666667, "grad_norm": 1.6728470571301972, "learning_rate": 5.042322721255379e-06, "loss": 0.5373, "step": 4804 }, { "avg_step_time": 5.615382052431203, "epoch": 0.5124266666666667, "eta_time": 7.12997537823973, "step": 4804 }, { "epoch": 0.5125333333333333, "grad_norm": 1.6527650201511614, "learning_rate": 5.040595302011127e-06, "loss": 0.5093, "step": 4805 }, { "avg_step_time": 5.618800189759996, "epoch": 0.5125333333333333, "eta_time": 7.132754685334218, "step": 4805 }, { "epoch": 0.51264, "grad_norm": 1.9871220696085525, "learning_rate": 5.038867877921124e-06, "loss": 0.5911, "step": 4806 }, { "avg_step_time": 5.596966365371087, "epoch": 0.51264, "eta_time": 7.103483145383471, "step": 4806 }, { "epoch": 0.5127466666666667, "grad_norm": 1.7842472825216071, "learning_rate": 5.037140449191567e-06, "loss": 0.4472, "step": 4807 }, { "avg_step_time": 5.6323952048715915, "epoch": 0.5127466666666667, "eta_time": 7.14688369329262, "step": 4807 }, { "epoch": 0.5128533333333334, "grad_norm": 2.1906764104999126, "learning_rate": 5.035413016028653e-06, "loss": 0.5624, "step": 4808 }, { "avg_step_time": 5.629803041015008, "epoch": 0.5128533333333334, "eta_time": 7.142030691198762, "step": 4808 }, { "epoch": 0.51296, "grad_norm": 1.5965888216762938, "learning_rate": 5.033685578638586e-06, "loss": 0.3957, "step": 4809 }, { "avg_step_time": 5.6274875920228284, "epoch": 0.51296, "eta_time": 7.137530095882288, "step": 4809 }, { "epoch": 0.5130666666666667, "grad_norm": 1.5937262458793044, "learning_rate": 5.031958137227562e-06, "loss": 0.465, "step": 4810 }, { "avg_step_time": 5.625683119802764, "epoch": 0.5130666666666667, "eta_time": 7.133678733861005, "step": 4810 }, { "epoch": 0.5131733333333334, "grad_norm": 0.6492985730371159, "learning_rate": 5.030230692001779e-06, "loss": 0.4027, "step": 4811 }, { "avg_step_time": 5.62747447659271, "epoch": 0.5131733333333334, "eta_time": 7.1343870864358685, "step": 4811 }, { "epoch": 0.51328, "grad_norm": 2.0785305132752785, "learning_rate": 5.028503243167443e-06, "loss": 0.4299, "step": 4812 }, { "avg_step_time": 5.58941416547756, "epoch": 0.51328, "eta_time": 7.084582454742808, "step": 4812 }, { "epoch": 0.5133866666666667, "grad_norm": 1.7638789216937354, "learning_rate": 5.02677579093075e-06, "loss": 0.4705, "step": 4813 }, { "avg_step_time": 5.5894925064510765, "epoch": 0.5133866666666667, "eta_time": 7.083129115119392, "step": 4813 }, { "epoch": 0.5134933333333334, "grad_norm": 1.6940272527824216, "learning_rate": 5.0250483354979045e-06, "loss": 0.5604, "step": 4814 }, { "avg_step_time": 5.589732109898269, "epoch": 0.5134933333333334, "eta_time": 7.081880042568335, "step": 4814 }, { "epoch": 0.5136, "grad_norm": 2.2512164676261173, "learning_rate": 5.023320877075107e-06, "loss": 0.5968, "step": 4815 }, { "avg_step_time": 5.5817082048666595, "epoch": 0.5136, "eta_time": 7.070163726164435, "step": 4815 }, { "epoch": 0.5137066666666666, "grad_norm": 1.7579563673687315, "learning_rate": 5.021593415868558e-06, "loss": 0.4808, "step": 4816 }, { "avg_step_time": 5.614547151507753, "epoch": 0.5137066666666666, "eta_time": 7.110200128812179, "step": 4816 }, { "epoch": 0.5138133333333333, "grad_norm": 1.4692979302883131, "learning_rate": 5.019865952084462e-06, "loss": 0.4192, "step": 4817 }, { "avg_step_time": 5.612784756554498, "epoch": 0.5138133333333333, "eta_time": 7.1064091445487225, "step": 4817 }, { "epoch": 0.51392, "grad_norm": 1.884055375529731, "learning_rate": 5.0181384859290215e-06, "loss": 0.5211, "step": 4818 }, { "avg_step_time": 5.609631940571949, "epoch": 0.51392, "eta_time": 7.100859098107326, "step": 4818 }, { "epoch": 0.5140266666666666, "grad_norm": 1.8677902466544216, "learning_rate": 5.016411017608438e-06, "loss": 0.4842, "step": 4819 }, { "avg_step_time": 5.627176896490232, "epoch": 0.5140266666666666, "eta_time": 7.121504983447083, "step": 4819 }, { "epoch": 0.5141333333333333, "grad_norm": 1.908006770385482, "learning_rate": 5.014683547328917e-06, "loss": 0.5699, "step": 4820 }, { "avg_step_time": 5.617207358581851, "epoch": 0.5141333333333333, "eta_time": 7.107327643983425, "step": 4820 }, { "epoch": 0.51424, "grad_norm": 1.5412574693615397, "learning_rate": 5.01295607529666e-06, "loss": 0.459, "step": 4821 }, { "avg_step_time": 5.6114925736128685, "epoch": 0.51424, "eta_time": 7.098538105620278, "step": 4821 }, { "epoch": 0.5143466666666666, "grad_norm": 1.499158612002257, "learning_rate": 5.011228601717871e-06, "loss": 0.4162, "step": 4822 }, { "avg_step_time": 5.609665685229832, "epoch": 0.5143466666666666, "eta_time": 7.094668851347618, "step": 4822 }, { "epoch": 0.5144533333333333, "grad_norm": 2.069716814121638, "learning_rate": 5.009501126798755e-06, "loss": 0.5981, "step": 4823 }, { "avg_step_time": 5.611442647799097, "epoch": 0.5144533333333333, "eta_time": 7.095357481328192, "step": 4823 }, { "epoch": 0.51456, "grad_norm": 0.6660092854511488, "learning_rate": 5.007773650745514e-06, "loss": 0.4371, "step": 4824 }, { "avg_step_time": 5.578466605658483, "epoch": 0.51456, "eta_time": 7.052111533986599, "step": 4824 }, { "epoch": 0.5146666666666667, "grad_norm": 1.881050597791784, "learning_rate": 5.006046173764353e-06, "loss": 0.547, "step": 4825 }, { "avg_step_time": 5.61181045060206, "epoch": 0.5146666666666667, "eta_time": 7.0927048750664925, "step": 4825 }, { "epoch": 0.5147733333333333, "grad_norm": 1.760388685699957, "learning_rate": 5.004318696061479e-06, "loss": 0.5012, "step": 4826 }, { "avg_step_time": 5.616456761504665, "epoch": 0.5147733333333333, "eta_time": 7.097017168912422, "step": 4826 }, { "epoch": 0.51488, "grad_norm": 1.784428709196491, "learning_rate": 5.0025912178430925e-06, "loss": 0.4996, "step": 4827 }, { "avg_step_time": 5.613539777620875, "epoch": 0.51488, "eta_time": 7.091771919061038, "step": 4827 }, { "epoch": 0.5149866666666667, "grad_norm": 1.7289420367258213, "learning_rate": 5.000863739315398e-06, "loss": 0.4414, "step": 4828 }, { "avg_step_time": 5.615710041739724, "epoch": 0.5149866666666667, "eta_time": 7.0929537666084785, "step": 4828 }, { "epoch": 0.5150933333333333, "grad_norm": 1.866287318342104, "learning_rate": 4.9991362606846025e-06, "loss": 0.5132, "step": 4829 }, { "avg_step_time": 5.59566296230663, "epoch": 0.5150933333333333, "eta_time": 7.066078840734983, "step": 4829 }, { "epoch": 0.5152, "grad_norm": 0.6523402921526807, "learning_rate": 4.997408782156909e-06, "loss": 0.4469, "step": 4830 }, { "avg_step_time": 5.562086271517204, "epoch": 0.5152, "eta_time": 7.0221339177904705, "step": 4830 }, { "epoch": 0.5153066666666667, "grad_norm": 1.845230190907492, "learning_rate": 4.995681303938523e-06, "loss": 0.5019, "step": 4831 }, { "avg_step_time": 5.565507814137622, "epoch": 0.5153066666666667, "eta_time": 7.024907640955933, "step": 4831 }, { "epoch": 0.5154133333333333, "grad_norm": 2.0255348108898428, "learning_rate": 4.993953826235649e-06, "loss": 0.5591, "step": 4832 }, { "avg_step_time": 5.569752303036776, "epoch": 0.5154133333333333, "eta_time": 7.0287179757489096, "step": 4832 }, { "epoch": 0.51552, "grad_norm": 2.012672510651117, "learning_rate": 4.9922263492544885e-06, "loss": 0.446, "step": 4833 }, { "avg_step_time": 5.556820989859225, "epoch": 0.51552, "eta_time": 7.010855815539056, "step": 4833 }, { "epoch": 0.5156266666666667, "grad_norm": 2.0088122871415997, "learning_rate": 4.990498873201247e-06, "loss": 0.4649, "step": 4834 }, { "avg_step_time": 5.557716882590092, "epoch": 0.5156266666666667, "eta_time": 7.010442323289335, "step": 4834 }, { "epoch": 0.5157333333333334, "grad_norm": 1.97884198202895, "learning_rate": 4.988771398282131e-06, "loss": 0.5943, "step": 4835 }, { "avg_step_time": 5.5831069970371745, "epoch": 0.5157333333333334, "eta_time": 7.04091826848577, "step": 4835 }, { "epoch": 0.51584, "grad_norm": 2.0523833875253827, "learning_rate": 4.987043924703342e-06, "loss": 0.5031, "step": 4836 }, { "avg_step_time": 5.582853789281363, "epoch": 0.51584, "eta_time": 7.039048152652252, "step": 4836 }, { "epoch": 0.5159466666666667, "grad_norm": 1.7607914482972251, "learning_rate": 4.985316452671084e-06, "loss": 0.4404, "step": 4837 }, { "avg_step_time": 5.579213823934998, "epoch": 0.5159466666666667, "eta_time": 7.032908981393617, "step": 4837 }, { "epoch": 0.5160533333333334, "grad_norm": 1.8392818946187433, "learning_rate": 4.983588982391564e-06, "loss": 0.503, "step": 4838 }, { "avg_step_time": 5.570828895376186, "epoch": 0.5160533333333334, "eta_time": 7.020791860644932, "step": 4838 }, { "epoch": 0.51616, "grad_norm": 2.098151823884818, "learning_rate": 4.981861514070979e-06, "loss": 0.4883, "step": 4839 }, { "avg_step_time": 5.569054138780844, "epoch": 0.51616, "eta_time": 7.017008214863864, "step": 4839 }, { "epoch": 0.5162666666666667, "grad_norm": 1.747183836063322, "learning_rate": 4.980134047915539e-06, "loss": 0.5241, "step": 4840 }, { "avg_step_time": 5.56656148457768, "epoch": 0.5162666666666667, "eta_time": 7.012321203488828, "step": 4840 }, { "epoch": 0.5163733333333334, "grad_norm": 1.630858499982988, "learning_rate": 4.978406584131443e-06, "loss": 0.463, "step": 4841 }, { "avg_step_time": 5.571700233401674, "epoch": 0.5163733333333334, "eta_time": 7.0172469050675526, "step": 4841 }, { "epoch": 0.51648, "grad_norm": 0.6429185330012793, "learning_rate": 4.976679122924896e-06, "loss": 0.4877, "step": 4842 }, { "avg_step_time": 5.53342718307418, "epoch": 0.51648, "eta_time": 6.9675070613542385, "step": 4842 }, { "epoch": 0.5165866666666666, "grad_norm": 1.587662296737965, "learning_rate": 4.974951664502097e-06, "loss": 0.5182, "step": 4843 }, { "avg_step_time": 5.532577608570908, "epoch": 0.5165866666666666, "eta_time": 6.964900478345377, "step": 4843 }, { "epoch": 0.5166933333333333, "grad_norm": 1.7963669578272756, "learning_rate": 4.97322420906925e-06, "loss": 0.4214, "step": 4844 }, { "avg_step_time": 5.521937647251168, "epoch": 0.5166933333333333, "eta_time": 6.949972077693066, "step": 4844 }, { "epoch": 0.5168, "grad_norm": 1.4999367753786064, "learning_rate": 4.971496756832557e-06, "loss": 0.4364, "step": 4845 }, { "avg_step_time": 5.529959996541341, "epoch": 0.5168, "eta_time": 6.958532995647854, "step": 4845 }, { "epoch": 0.5169066666666666, "grad_norm": 1.6561435287246555, "learning_rate": 4.9697693079982215e-06, "loss": 0.4664, "step": 4846 }, { "avg_step_time": 5.528374655078156, "epoch": 0.5169066666666666, "eta_time": 6.955002448013602, "step": 4846 }, { "epoch": 0.5170133333333333, "grad_norm": 2.1936220353108604, "learning_rate": 4.968041862772441e-06, "loss": 0.4746, "step": 4847 }, { "avg_step_time": 5.530691515315663, "epoch": 0.5170133333333333, "eta_time": 6.956380883708145, "step": 4847 }, { "epoch": 0.51712, "grad_norm": 1.7915106464172343, "learning_rate": 4.966314421361416e-06, "loss": 0.5107, "step": 4848 }, { "avg_step_time": 5.55507589349843, "epoch": 0.51712, "eta_time": 6.985507936074276, "step": 4848 }, { "epoch": 0.5172266666666666, "grad_norm": 1.8573720937162348, "learning_rate": 4.964586983971347e-06, "loss": 0.4411, "step": 4849 }, { "avg_step_time": 5.55262365004029, "epoch": 0.5172266666666666, "eta_time": 6.980881844467319, "step": 4849 }, { "epoch": 0.5173333333333333, "grad_norm": 1.6294195960151094, "learning_rate": 4.962859550808435e-06, "loss": 0.4247, "step": 4850 }, { "avg_step_time": 5.5350148003510755, "epoch": 0.5173333333333333, "eta_time": 6.95720610321906, "step": 4850 }, { "epoch": 0.51744, "grad_norm": 1.4585862946013444, "learning_rate": 4.9611321220788775e-06, "loss": 0.4304, "step": 4851 }, { "avg_step_time": 5.530691532173542, "epoch": 0.51744, "eta_time": 6.950235692098085, "step": 4851 }, { "epoch": 0.5175466666666667, "grad_norm": 1.7708587215126526, "learning_rate": 4.959404697988875e-06, "loss": 0.4511, "step": 4852 }, { "avg_step_time": 5.5297752799409805, "epoch": 0.5175466666666667, "eta_time": 6.947548219770293, "step": 4852 }, { "epoch": 0.5176533333333333, "grad_norm": 1.6652759193491204, "learning_rate": 4.957677278744621e-06, "loss": 0.4914, "step": 4853 }, { "avg_step_time": 5.561194701628252, "epoch": 0.5176533333333333, "eta_time": 6.985478455767487, "step": 4853 }, { "epoch": 0.51776, "grad_norm": 1.837624006956697, "learning_rate": 4.955949864552318e-06, "loss": 0.6048, "step": 4854 }, { "avg_step_time": 5.55466910805365, "epoch": 0.51776, "eta_time": 6.9757386215307084, "step": 4854 }, { "epoch": 0.5178666666666667, "grad_norm": 1.7962871384113541, "learning_rate": 4.954222455618161e-06, "loss": 0.5227, "step": 4855 }, { "avg_step_time": 5.543848288179648, "epoch": 0.5178666666666667, "eta_time": 6.960609517381113, "step": 4855 }, { "epoch": 0.5179733333333333, "grad_norm": 1.501778175494386, "learning_rate": 4.952495052148344e-06, "loss": 0.4465, "step": 4856 }, { "avg_step_time": 5.546528035944158, "epoch": 0.5179733333333333, "eta_time": 6.962433387342125, "step": 4856 }, { "epoch": 0.51808, "grad_norm": 1.8345415720673128, "learning_rate": 4.950767654349067e-06, "loss": 0.4482, "step": 4857 }, { "avg_step_time": 5.536274067079178, "epoch": 0.51808, "eta_time": 6.948023954184369, "step": 4857 }, { "epoch": 0.5181866666666667, "grad_norm": 1.8601672333616044, "learning_rate": 4.949040262426518e-06, "loss": 0.5052, "step": 4858 }, { "avg_step_time": 5.536305817690763, "epoch": 0.5181866666666667, "eta_time": 6.946525938474771, "step": 4858 }, { "epoch": 0.5182933333333334, "grad_norm": 1.9137311683448333, "learning_rate": 4.947312876586898e-06, "loss": 0.5975, "step": 4859 }, { "avg_step_time": 5.539406978722774, "epoch": 0.5182933333333334, "eta_time": 6.948878309975569, "step": 4859 }, { "epoch": 0.5184, "grad_norm": 1.965995870230507, "learning_rate": 4.945585497036396e-06, "loss": 0.4451, "step": 4860 }, { "avg_step_time": 5.542477051417033, "epoch": 0.5184, "eta_time": 6.951189968652195, "step": 4860 }, { "epoch": 0.5185066666666667, "grad_norm": 1.6896775822228156, "learning_rate": 4.943858123981208e-06, "loss": 0.5235, "step": 4861 }, { "avg_step_time": 5.574906421430184, "epoch": 0.5185066666666667, "eta_time": 6.990313218426625, "step": 4861 }, { "epoch": 0.5186133333333334, "grad_norm": 2.1330949368291, "learning_rate": 4.942130757627522e-06, "loss": 0.5073, "step": 4862 }, { "avg_step_time": 5.573783775772712, "epoch": 0.5186133333333334, "eta_time": 6.987357272239513, "step": 4862 }, { "epoch": 0.51872, "grad_norm": 1.7759302595758202, "learning_rate": 4.940403398181531e-06, "loss": 0.5131, "step": 4863 }, { "avg_step_time": 5.571543587578668, "epoch": 0.51872, "eta_time": 6.98300129643193, "step": 4863 }, { "epoch": 0.5188266666666667, "grad_norm": 1.795959472493246, "learning_rate": 4.938676045849427e-06, "loss": 0.5161, "step": 4864 }, { "avg_step_time": 5.573373919785625, "epoch": 0.5188266666666667, "eta_time": 6.983747153375821, "step": 4864 }, { "epoch": 0.5189333333333334, "grad_norm": 1.78749938816453, "learning_rate": 4.936948700837397e-06, "loss": 0.5034, "step": 4865 }, { "avg_step_time": 5.582785936317059, "epoch": 0.5189333333333334, "eta_time": 6.993990159108315, "step": 4865 }, { "epoch": 0.51904, "grad_norm": 1.9713733966624316, "learning_rate": 4.935221363351631e-06, "loss": 0.4847, "step": 4866 }, { "avg_step_time": 5.61964476951445, "epoch": 0.51904, "eta_time": 7.038605073816848, "step": 4866 }, { "epoch": 0.5191466666666666, "grad_norm": 1.7816694154192747, "learning_rate": 4.933494033598314e-06, "loss": 0.4136, "step": 4867 }, { "avg_step_time": 5.6162512446894794, "epoch": 0.5191466666666666, "eta_time": 7.0327946141833815, "step": 4867 }, { "epoch": 0.5192533333333333, "grad_norm": 1.9723499957855513, "learning_rate": 4.931766711783633e-06, "loss": 0.5574, "step": 4868 }, { "avg_step_time": 5.615573389361603, "epoch": 0.5192533333333333, "eta_time": 7.0303859071813175, "step": 4868 }, { "epoch": 0.51936, "grad_norm": 1.5788221847401709, "learning_rate": 4.930039398113779e-06, "loss": 0.4847, "step": 4869 }, { "avg_step_time": 5.5878001126376065, "epoch": 0.51936, "eta_time": 6.994063140984737, "step": 4869 }, { "epoch": 0.5194666666666666, "grad_norm": 1.964923494832596, "learning_rate": 4.92831209279493e-06, "loss": 0.4856, "step": 4870 }, { "avg_step_time": 5.624461354631366, "epoch": 0.5194666666666666, "eta_time": 7.03838844517064, "step": 4870 }, { "epoch": 0.5195733333333333, "grad_norm": 0.7026016241255275, "learning_rate": 4.9265847960332756e-06, "loss": 0.4755, "step": 4871 }, { "avg_step_time": 5.587582277529167, "epoch": 0.5195733333333333, "eta_time": 6.990686271664269, "step": 4871 }, { "epoch": 0.51968, "grad_norm": 1.867883845371157, "learning_rate": 4.924857508034994e-06, "loss": 0.522, "step": 4872 }, { "avg_step_time": 5.588508329006157, "epoch": 0.51968, "eta_time": 6.990292501531868, "step": 4872 }, { "epoch": 0.5197866666666666, "grad_norm": 1.6764581933222604, "learning_rate": 4.923130229006267e-06, "loss": 0.4445, "step": 4873 }, { "avg_step_time": 5.589258083189376, "epoch": 0.5197866666666666, "eta_time": 6.98967774736627, "step": 4873 }, { "epoch": 0.5198933333333333, "grad_norm": 1.537531999542684, "learning_rate": 4.9214029591532785e-06, "loss": 0.522, "step": 4874 }, { "avg_step_time": 5.635017900755911, "epoch": 0.5198933333333333, "eta_time": 7.045337658695099, "step": 4874 }, { "epoch": 0.52, "grad_norm": 1.9076192482409229, "learning_rate": 4.919675698682206e-06, "loss": 0.4949, "step": 4875 }, { "avg_step_time": 5.670249488618639, "epoch": 0.52, "eta_time": 7.087811860773298, "step": 4875 }, { "epoch": 0.5201066666666667, "grad_norm": 1.7461856957276585, "learning_rate": 4.917948447799228e-06, "loss": 0.5186, "step": 4876 }, { "avg_step_time": 5.67114229394932, "epoch": 0.5201066666666667, "eta_time": 7.087352550132775, "step": 4876 }, { "epoch": 0.5202133333333333, "grad_norm": 1.8849094337863124, "learning_rate": 4.916221206710524e-06, "loss": 0.4903, "step": 4877 }, { "avg_step_time": 5.67554099632032, "epoch": 0.5202133333333333, "eta_time": 7.091273167069111, "step": 4877 }, { "epoch": 0.52032, "grad_norm": 1.542513555529614, "learning_rate": 4.914493975622263e-06, "loss": 0.4485, "step": 4878 }, { "avg_step_time": 5.664829157819652, "epoch": 0.52032, "eta_time": 7.0763157563097145, "step": 4878 }, { "epoch": 0.5204266666666667, "grad_norm": 2.1754062268040184, "learning_rate": 4.91276675474063e-06, "loss": 0.5252, "step": 4879 }, { "avg_step_time": 5.671189209427497, "epoch": 0.5204266666666667, "eta_time": 7.0826851904405626, "step": 4879 }, { "epoch": 0.5205333333333333, "grad_norm": 1.551820316156456, "learning_rate": 4.911039544271792e-06, "loss": 0.4522, "step": 4880 }, { "avg_step_time": 5.669558498594496, "epoch": 0.5205333333333333, "eta_time": 7.079073736439517, "step": 4880 }, { "epoch": 0.52064, "grad_norm": 1.7596871140942623, "learning_rate": 4.909312344421923e-06, "loss": 0.4877, "step": 4881 }, { "avg_step_time": 5.6534283979974616, "epoch": 0.52064, "eta_time": 7.057363116833498, "step": 4881 }, { "epoch": 0.5207466666666667, "grad_norm": 2.0770270811299048, "learning_rate": 4.907585155397195e-06, "loss": 0.4883, "step": 4882 }, { "avg_step_time": 5.652621777370722, "epoch": 0.5207466666666667, "eta_time": 7.054786012701849, "step": 4882 }, { "epoch": 0.5208533333333333, "grad_norm": 1.8980614092477062, "learning_rate": 4.905857977403775e-06, "loss": 0.5541, "step": 4883 }, { "avg_step_time": 5.655685347740096, "epoch": 0.5208533333333333, "eta_time": 7.057038495013476, "step": 4883 }, { "epoch": 0.52096, "grad_norm": 1.8325358335983508, "learning_rate": 4.904130810647836e-06, "loss": 0.5546, "step": 4884 }, { "avg_step_time": 5.653599440449416, "epoch": 0.52096, "eta_time": 7.052865301960647, "step": 4884 }, { "epoch": 0.5210666666666667, "grad_norm": 1.6868217724052252, "learning_rate": 4.902403655335543e-06, "loss": 0.461, "step": 4885 }, { "avg_step_time": 5.659866727963842, "epoch": 0.5210666666666667, "eta_time": 7.059111557932681, "step": 4885 }, { "epoch": 0.5211733333333334, "grad_norm": 1.8568016851953533, "learning_rate": 4.900676511673061e-06, "loss": 0.4988, "step": 4886 }, { "avg_step_time": 5.657993102314497, "epoch": 0.5211733333333334, "eta_time": 7.055203065636049, "step": 4886 }, { "epoch": 0.52128, "grad_norm": 1.8989366814564694, "learning_rate": 4.898949379866556e-06, "loss": 0.6138, "step": 4887 }, { "avg_step_time": 5.652565419071853, "epoch": 0.52128, "eta_time": 7.046864889109576, "step": 4887 }, { "epoch": 0.5213866666666667, "grad_norm": 1.765754307329535, "learning_rate": 4.897222260122189e-06, "loss": 0.5022, "step": 4888 }, { "avg_step_time": 5.638956712953972, "epoch": 0.5213866666666667, "eta_time": 7.028332991951242, "step": 4888 }, { "epoch": 0.5214933333333334, "grad_norm": 2.1631427312099842, "learning_rate": 4.895495152646124e-06, "loss": 0.5954, "step": 4889 }, { "avg_step_time": 5.636921718867138, "epoch": 0.5214933333333334, "eta_time": 7.024230786343884, "step": 4889 }, { "epoch": 0.5216, "grad_norm": 1.9625468837690736, "learning_rate": 4.893768057644519e-06, "loss": 0.4454, "step": 4890 }, { "avg_step_time": 5.67948628916885, "epoch": 0.5216, "eta_time": 7.075693335256192, "step": 4890 }, { "epoch": 0.5217066666666667, "grad_norm": 1.9488912052327556, "learning_rate": 4.892040975323536e-06, "loss": 0.6257, "step": 4891 }, { "avg_step_time": 5.677887757619222, "epoch": 0.5217066666666667, "eta_time": 7.072124640323497, "step": 4891 }, { "epoch": 0.5218133333333334, "grad_norm": 1.751659765404671, "learning_rate": 4.890313905889329e-06, "loss": 0.4169, "step": 4892 }, { "avg_step_time": 5.6894950071970625, "epoch": 0.5218133333333334, "eta_time": 7.08500169924012, "step": 4892 }, { "epoch": 0.52192, "grad_norm": 1.499679864044572, "learning_rate": 4.888586849548053e-06, "loss": 0.4142, "step": 4893 }, { "avg_step_time": 5.716236338470921, "epoch": 0.52192, "eta_time": 7.116714241396297, "step": 4893 }, { "epoch": 0.5220266666666666, "grad_norm": 1.6146161305563536, "learning_rate": 4.886859806505865e-06, "loss": 0.4637, "step": 4894 }, { "avg_step_time": 5.719368356646913, "epoch": 0.5220266666666666, "eta_time": 7.119024890593005, "step": 4894 }, { "epoch": 0.5221333333333333, "grad_norm": 1.6548017773940977, "learning_rate": 4.885132776968915e-06, "loss": 0.4276, "step": 4895 }, { "avg_step_time": 5.724240180217858, "epoch": 0.5221333333333333, "eta_time": 7.12349889093778, "step": 4895 }, { "epoch": 0.52224, "grad_norm": 1.928248836126057, "learning_rate": 4.883405761143357e-06, "loss": 0.535, "step": 4896 }, { "avg_step_time": 5.72541668920806, "epoch": 0.52224, "eta_time": 7.123372597489694, "step": 4896 }, { "epoch": 0.5223466666666666, "grad_norm": 1.7435764275521997, "learning_rate": 4.881678759235335e-06, "loss": 0.4757, "step": 4897 }, { "avg_step_time": 5.733827537960476, "epoch": 0.5223466666666666, "eta_time": 7.13224436527417, "step": 4897 }, { "epoch": 0.5224533333333333, "grad_norm": 1.827364904806116, "learning_rate": 4.879951771451002e-06, "loss": 0.4556, "step": 4898 }, { "avg_step_time": 5.73469956234248, "epoch": 0.5224533333333333, "eta_time": 7.131736094613134, "step": 4898 }, { "epoch": 0.52256, "grad_norm": 2.1171494102749944, "learning_rate": 4.878224797996502e-06, "loss": 0.5288, "step": 4899 }, { "avg_step_time": 5.732462150881989, "epoch": 0.52256, "eta_time": 7.127361274263273, "step": 4899 }, { "epoch": 0.5226666666666666, "grad_norm": 1.852066380039131, "learning_rate": 4.876497839077978e-06, "loss": 0.5309, "step": 4900 }, { "avg_step_time": 5.732577400978165, "epoch": 0.5226666666666666, "eta_time": 7.1259121859381365, "step": 4900 }, { "epoch": 0.5227733333333333, "grad_norm": 1.8511366622394985, "learning_rate": 4.8747708949015725e-06, "loss": 0.4954, "step": 4901 }, { "avg_step_time": 5.729696285845053, "epoch": 0.5227733333333333, "eta_time": 7.120739217464102, "step": 4901 }, { "epoch": 0.52288, "grad_norm": 1.9807882168648387, "learning_rate": 4.873043965673427e-06, "loss": 0.4726, "step": 4902 }, { "avg_step_time": 5.744283770069932, "epoch": 0.52288, "eta_time": 7.13727258431189, "step": 4902 }, { "epoch": 0.5229866666666667, "grad_norm": 0.6628073402730091, "learning_rate": 4.87131705159968e-06, "loss": 0.4568, "step": 4903 }, { "avg_step_time": 5.713357381146364, "epoch": 0.5229866666666667, "eta_time": 7.097259502357372, "step": 4903 }, { "epoch": 0.5230933333333333, "grad_norm": 1.6266058872963216, "learning_rate": 4.86959015288647e-06, "loss": 0.5277, "step": 4904 }, { "avg_step_time": 5.721142301655779, "epoch": 0.5230933333333333, "eta_time": 7.105340897417497, "step": 4904 }, { "epoch": 0.5232, "grad_norm": 1.6706795817609184, "learning_rate": 4.86786326973993e-06, "loss": 0.5138, "step": 4905 }, { "avg_step_time": 5.721928601313119, "epoch": 0.5232, "eta_time": 7.104728013297123, "step": 4905 }, { "epoch": 0.5233066666666667, "grad_norm": 1.8670237147957318, "learning_rate": 4.866136402366194e-06, "loss": 0.4679, "step": 4906 }, { "avg_step_time": 5.731939479558155, "epoch": 0.5233066666666667, "eta_time": 7.1155659817070545, "step": 4906 }, { "epoch": 0.5234133333333333, "grad_norm": 1.7518433348147089, "learning_rate": 4.864409550971393e-06, "loss": 0.5, "step": 4907 }, { "avg_step_time": 5.731357776757442, "epoch": 0.5234133333333333, "eta_time": 7.113251818486737, "step": 4907 }, { "epoch": 0.52352, "grad_norm": 1.5493160871683223, "learning_rate": 4.862682715761658e-06, "loss": 0.499, "step": 4908 }, { "avg_step_time": 5.7318330822568955, "epoch": 0.52352, "eta_time": 7.112249549567098, "step": 4908 }, { "epoch": 0.5236266666666667, "grad_norm": 1.6186162007126188, "learning_rate": 4.860955896943117e-06, "loss": 0.4342, "step": 4909 }, { "avg_step_time": 5.732314540882303, "epoch": 0.5236266666666667, "eta_time": 7.111254649883435, "step": 4909 }, { "epoch": 0.5237333333333334, "grad_norm": 1.903953614412898, "learning_rate": 4.859229094721895e-06, "loss": 0.4998, "step": 4910 }, { "avg_step_time": 5.766987526055538, "epoch": 0.5237333333333334, "eta_time": 7.152666473288328, "step": 4910 }, { "epoch": 0.52384, "grad_norm": 1.8491439760036021, "learning_rate": 4.857502309304114e-06, "loss": 0.4826, "step": 4911 }, { "avg_step_time": 5.770055180848247, "epoch": 0.52384, "eta_time": 7.154868424251825, "step": 4911 }, { "epoch": 0.5239466666666667, "grad_norm": 2.1593855527913823, "learning_rate": 4.8557755408958965e-06, "loss": 0.5039, "step": 4912 }, { "avg_step_time": 5.787125589871647, "epoch": 0.5239466666666667, "eta_time": 7.174428196554768, "step": 4912 }, { "epoch": 0.5240533333333334, "grad_norm": 1.7700427017203424, "learning_rate": 4.854048789703364e-06, "loss": 0.4642, "step": 4913 }, { "avg_step_time": 5.792117949688073, "epoch": 0.5240533333333334, "eta_time": 7.1790084143078285, "step": 4913 }, { "epoch": 0.52416, "grad_norm": 1.6552415485303837, "learning_rate": 4.852322055932633e-06, "loss": 0.4964, "step": 4914 }, { "avg_step_time": 5.808364882613674, "epoch": 0.52416, "eta_time": 7.197532150372111, "step": 4914 }, { "epoch": 0.5242666666666667, "grad_norm": 1.8095418644855858, "learning_rate": 4.850595339789819e-06, "loss": 0.5888, "step": 4915 }, { "avg_step_time": 5.805072661602136, "epoch": 0.5242666666666667, "eta_time": 7.191840019651535, "step": 4915 }, { "epoch": 0.5243733333333334, "grad_norm": 1.9553784622486026, "learning_rate": 4.848868641481036e-06, "loss": 0.5069, "step": 4916 }, { "avg_step_time": 5.808355430159906, "epoch": 0.5243733333333334, "eta_time": 7.194293573078616, "step": 4916 }, { "epoch": 0.52448, "grad_norm": 1.707440209080303, "learning_rate": 4.8471419612123925e-06, "loss": 0.5841, "step": 4917 }, { "avg_step_time": 5.807544616737751, "epoch": 0.52448, "eta_time": 7.1916760837269145, "step": 4917 }, { "epoch": 0.5245866666666666, "grad_norm": 1.835261681049114, "learning_rate": 4.845415299190002e-06, "loss": 0.44, "step": 4918 }, { "avg_step_time": 5.82669273530594, "epoch": 0.5245866666666666, "eta_time": 7.213769311460715, "step": 4918 }, { "epoch": 0.5246933333333333, "grad_norm": 1.968214203312404, "learning_rate": 4.843688655619969e-06, "loss": 0.5766, "step": 4919 }, { "avg_step_time": 5.820479501377452, "epoch": 0.5246933333333333, "eta_time": 7.204460182816091, "step": 4919 }, { "epoch": 0.5248, "grad_norm": 1.710099197432326, "learning_rate": 4.841962030708398e-06, "loss": 0.4034, "step": 4920 }, { "avg_step_time": 5.823182329987034, "epoch": 0.5248, "eta_time": 7.206188133358954, "step": 4920 }, { "epoch": 0.5249066666666666, "grad_norm": 1.6318975385653756, "learning_rate": 4.840235424661393e-06, "loss": 0.4878, "step": 4921 }, { "avg_step_time": 5.826006217436357, "epoch": 0.5249066666666666, "eta_time": 7.208064359017094, "step": 4921 }, { "epoch": 0.5250133333333333, "grad_norm": 0.6508278329246324, "learning_rate": 4.8385088376850516e-06, "loss": 0.447, "step": 4922 }, { "avg_step_time": 5.788863627597539, "epoch": 0.5250133333333333, "eta_time": 7.16050270380329, "step": 4922 }, { "epoch": 0.52512, "grad_norm": 1.9764524017563256, "learning_rate": 4.836782269985475e-06, "loss": 0.4766, "step": 4923 }, { "avg_step_time": 5.82378736409274, "epoch": 0.52512, "eta_time": 7.202083706928022, "step": 4923 }, { "epoch": 0.5252266666666666, "grad_norm": 0.6659057182995493, "learning_rate": 4.83505572176876e-06, "loss": 0.4215, "step": 4924 }, { "avg_step_time": 5.813036497193154, "epoch": 0.5252266666666666, "eta_time": 7.187173735835202, "step": 4924 }, { "epoch": 0.5253333333333333, "grad_norm": 1.7285859594889605, "learning_rate": 4.833329193240995e-06, "loss": 0.4864, "step": 4925 }, { "avg_step_time": 5.808948201362533, "epoch": 0.5253333333333333, "eta_time": 7.180505415573131, "step": 4925 }, { "epoch": 0.52544, "grad_norm": 1.713627516965011, "learning_rate": 4.831602684608274e-06, "loss": 0.4602, "step": 4926 }, { "avg_step_time": 5.808995150556468, "epoch": 0.52544, "eta_time": 7.178949840229368, "step": 4926 }, { "epoch": 0.5255466666666667, "grad_norm": 1.7143176079003748, "learning_rate": 4.829876196076684e-06, "loss": 0.4324, "step": 4927 }, { "avg_step_time": 5.809500128331811, "epoch": 0.5255466666666667, "eta_time": 7.177960158561081, "step": 4927 }, { "epoch": 0.5256533333333333, "grad_norm": 1.9435306568642823, "learning_rate": 4.828149727852314e-06, "loss": 0.4792, "step": 4928 }, { "avg_step_time": 5.807482497860687, "epoch": 0.5256533333333333, "eta_time": 7.173854074440687, "step": 4928 }, { "epoch": 0.52576, "grad_norm": 1.7718917979173932, "learning_rate": 4.826423280141247e-06, "loss": 0.4981, "step": 4929 }, { "avg_step_time": 5.8364102527348685, "epoch": 0.52576, "eta_time": 7.207966662127562, "step": 4929 }, { "epoch": 0.5258666666666667, "grad_norm": 1.9559227887123654, "learning_rate": 4.824696853149564e-06, "loss": 0.5149, "step": 4930 }, { "avg_step_time": 5.827920747525765, "epoch": 0.5258666666666667, "eta_time": 7.195863256320007, "step": 4930 }, { "epoch": 0.5259733333333333, "grad_norm": 1.9320618409605137, "learning_rate": 4.822970447083343e-06, "loss": 0.5731, "step": 4931 }, { "avg_step_time": 5.8262070911099215, "epoch": 0.5259733333333333, "eta_time": 7.19212897580347, "step": 4931 }, { "epoch": 0.52608, "grad_norm": 1.779737990306079, "learning_rate": 4.82124406214866e-06, "loss": 0.5219, "step": 4932 }, { "avg_step_time": 5.829219688068736, "epoch": 0.52608, "eta_time": 7.194228631691499, "step": 4932 }, { "epoch": 0.5261866666666667, "grad_norm": 1.6645968425318394, "learning_rate": 4.819517698551592e-06, "loss": 0.4281, "step": 4933 }, { "avg_step_time": 5.868219604395857, "epoch": 0.5261866666666667, "eta_time": 7.240730967423999, "step": 4933 }, { "epoch": 0.5262933333333333, "grad_norm": 1.6721231146175781, "learning_rate": 4.817791356498207e-06, "loss": 0.423, "step": 4934 }, { "avg_step_time": 5.86610499776975, "epoch": 0.5262933333333333, "eta_time": 7.236492304193184, "step": 4934 }, { "epoch": 0.5264, "grad_norm": 1.771098339576382, "learning_rate": 4.816065036194576e-06, "loss": 0.5371, "step": 4935 }, { "avg_step_time": 5.86632741340483, "epoch": 0.5264, "eta_time": 7.2351371431992915, "step": 4935 }, { "epoch": 0.5265066666666667, "grad_norm": 1.4672415956457967, "learning_rate": 4.814338737846766e-06, "loss": 0.5258, "step": 4936 }, { "avg_step_time": 5.87104748716258, "epoch": 0.5265066666666667, "eta_time": 7.239327720976305, "step": 4936 }, { "epoch": 0.5266133333333334, "grad_norm": 1.694006397796538, "learning_rate": 4.812612461660835e-06, "loss": 0.4431, "step": 4937 }, { "avg_step_time": 5.869049382932259, "epoch": 0.5266133333333334, "eta_time": 7.235233655959268, "step": 4937 }, { "epoch": 0.52672, "grad_norm": 1.7849616243617514, "learning_rate": 4.810886207842852e-06, "loss": 0.4745, "step": 4938 }, { "avg_step_time": 5.867321780233672, "epoch": 0.52672, "eta_time": 7.231474094138, "step": 4938 }, { "epoch": 0.5268266666666667, "grad_norm": 3.1600233926017047, "learning_rate": 4.8091599765988685e-06, "loss": 0.5236, "step": 4939 }, { "avg_step_time": 5.870458282605566, "epoch": 0.5268266666666667, "eta_time": 7.2337091504550814, "step": 4939 }, { "epoch": 0.5269333333333334, "grad_norm": 0.6814935183451961, "learning_rate": 4.807433768134944e-06, "loss": 0.4678, "step": 4940 }, { "avg_step_time": 5.827951450540562, "epoch": 0.5269333333333334, "eta_time": 7.179712411985387, "step": 4940 }, { "epoch": 0.52704, "grad_norm": 2.0198770882180646, "learning_rate": 4.80570758265713e-06, "loss": 0.513, "step": 4941 }, { "avg_step_time": 5.866030375162761, "epoch": 0.52704, "eta_time": 7.224994078742133, "step": 4941 }, { "epoch": 0.5271466666666667, "grad_norm": 2.033533212072876, "learning_rate": 4.803981420371475e-06, "loss": 0.4622, "step": 4942 }, { "avg_step_time": 5.868523556776721, "epoch": 0.5271466666666667, "eta_time": 7.226434701997557, "step": 4942 }, { "epoch": 0.5272533333333334, "grad_norm": 2.0047355804245837, "learning_rate": 4.802255281484029e-06, "loss": 0.4406, "step": 4943 }, { "avg_step_time": 5.866241101062659, "epoch": 0.5272533333333334, "eta_time": 7.221994599974918, "step": 4943 }, { "epoch": 0.52736, "grad_norm": 1.6390272595156166, "learning_rate": 4.800529166200837e-06, "loss": 0.4308, "step": 4944 }, { "avg_step_time": 5.858977180538756, "epoch": 0.52736, "eta_time": 7.211424413046452, "step": 4944 }, { "epoch": 0.5274666666666666, "grad_norm": 1.6356988603708658, "learning_rate": 4.798803074727938e-06, "loss": 0.4988, "step": 4945 }, { "avg_step_time": 5.858415081043436, "epoch": 0.5274666666666666, "eta_time": 7.20910522472845, "step": 4945 }, { "epoch": 0.5275733333333333, "grad_norm": 1.676186667435413, "learning_rate": 4.797077007271371e-06, "loss": 0.5826, "step": 4946 }, { "avg_step_time": 5.8564504637862695, "epoch": 0.5275733333333333, "eta_time": 7.205060862252608, "step": 4946 }, { "epoch": 0.52768, "grad_norm": 1.811652524036664, "learning_rate": 4.795350964037174e-06, "loss": 0.4771, "step": 4947 }, { "avg_step_time": 5.833169968441279, "epoch": 0.52768, "eta_time": 7.174799061182774, "step": 4947 }, { "epoch": 0.5277866666666666, "grad_norm": 1.707182512974503, "learning_rate": 4.79362494523138e-06, "loss": 0.5354, "step": 4948 }, { "avg_step_time": 5.837968031565349, "epoch": 0.5277866666666666, "eta_time": 7.1790790210388336, "step": 4948 }, { "epoch": 0.5278933333333333, "grad_norm": 0.6930783670146791, "learning_rate": 4.791898951060018e-06, "loss": 0.4826, "step": 4949 }, { "avg_step_time": 5.8035843853998665, "epoch": 0.5278933333333333, "eta_time": 7.135184580494392, "step": 4949 }, { "epoch": 0.528, "grad_norm": 1.6135594720797042, "learning_rate": 4.790172981729116e-06, "loss": 0.4662, "step": 4950 }, { "avg_step_time": 5.809162710652207, "epoch": 0.528, "eta_time": 7.140429165176672, "step": 4950 }, { "epoch": 0.5281066666666666, "grad_norm": 1.6905893729049244, "learning_rate": 4.788447037444696e-06, "loss": 0.5282, "step": 4951 }, { "avg_step_time": 5.8205226768146865, "epoch": 0.5281066666666666, "eta_time": 7.1527756450633815, "step": 4951 }, { "epoch": 0.5282133333333333, "grad_norm": 0.6540402285604674, "learning_rate": 4.786721118412784e-06, "loss": 0.4638, "step": 4952 }, { "avg_step_time": 5.754367693506106, "epoch": 0.5282133333333333, "eta_time": 7.069880085660419, "step": 4952 }, { "epoch": 0.52832, "grad_norm": 1.8051765093348218, "learning_rate": 4.784995224839394e-06, "loss": 0.5899, "step": 4953 }, { "avg_step_time": 5.754447094117753, "epoch": 0.52832, "eta_time": 7.068379180607972, "step": 4953 }, { "epoch": 0.5284266666666667, "grad_norm": 1.6842487908790986, "learning_rate": 4.783269356930543e-06, "loss": 0.5059, "step": 4954 }, { "avg_step_time": 5.75529988365944, "epoch": 0.5284266666666667, "eta_time": 7.067827996016217, "step": 4954 }, { "epoch": 0.5285333333333333, "grad_norm": 1.673354452088518, "learning_rate": 4.781543514892244e-06, "loss": 0.558, "step": 4955 }, { "avg_step_time": 5.752916728607332, "epoch": 0.5285333333333333, "eta_time": 7.063303316790113, "step": 4955 }, { "epoch": 0.52864, "grad_norm": 1.7563902798789726, "learning_rate": 4.779817698930502e-06, "loss": 0.4514, "step": 4956 }, { "avg_step_time": 5.776606029934353, "epoch": 0.52864, "eta_time": 7.090783901744419, "step": 4956 }, { "epoch": 0.5287466666666667, "grad_norm": 1.5152767035616763, "learning_rate": 4.778091909251329e-06, "loss": 0.471, "step": 4957 }, { "avg_step_time": 5.773441278573238, "epoch": 0.5287466666666667, "eta_time": 7.085295435760158, "step": 4957 }, { "epoch": 0.5288533333333333, "grad_norm": 1.8021226424028447, "learning_rate": 4.776366146060725e-06, "loss": 0.4844, "step": 4958 }, { "avg_step_time": 5.770591165080215, "epoch": 0.5288533333333333, "eta_time": 7.080194771155364, "step": 4958 }, { "epoch": 0.52896, "grad_norm": 1.73793368057997, "learning_rate": 4.774640409564688e-06, "loss": 0.4203, "step": 4959 }, { "avg_step_time": 5.767402974042025, "epoch": 0.52896, "eta_time": 7.074680981491551, "step": 4959 }, { "epoch": 0.5290666666666667, "grad_norm": 1.7023334668122525, "learning_rate": 4.772914699969218e-06, "loss": 0.5292, "step": 4960 }, { "avg_step_time": 5.769908856863927, "epoch": 0.5290666666666667, "eta_time": 7.076152111959511, "step": 4960 }, { "epoch": 0.5291733333333334, "grad_norm": 2.0011657356710386, "learning_rate": 4.771189017480304e-06, "loss": 0.4934, "step": 4961 }, { "avg_step_time": 5.769084020094438, "epoch": 0.5291733333333334, "eta_time": 7.073538017971347, "step": 4961 }, { "epoch": 0.52928, "grad_norm": 0.656577941569708, "learning_rate": 4.76946336230394e-06, "loss": 0.439, "step": 4962 }, { "avg_step_time": 5.7332540642131455, "epoch": 0.52928, "eta_time": 7.028013940381281, "step": 4962 }, { "epoch": 0.5293866666666667, "grad_norm": 1.726415889111696, "learning_rate": 4.767737734646112e-06, "loss": 0.3956, "step": 4963 }, { "avg_step_time": 5.73520168391141, "epoch": 0.5293866666666667, "eta_time": 7.028808285949206, "step": 4963 }, { "epoch": 0.5294933333333334, "grad_norm": 0.6474966852712002, "learning_rate": 4.766012134712802e-06, "loss": 0.4268, "step": 4964 }, { "avg_step_time": 5.717590055080375, "epoch": 0.5294933333333334, "eta_time": 7.005636036933205, "step": 4964 }, { "epoch": 0.5296, "grad_norm": 0.6462694583011357, "learning_rate": 4.76428656270999e-06, "loss": 0.4486, "step": 4965 }, { "avg_step_time": 5.659690339155872, "epoch": 0.5296, "eta_time": 6.933120665465943, "step": 4965 }, { "epoch": 0.5297066666666667, "grad_norm": 1.744047609678646, "learning_rate": 4.762561018843655e-06, "loss": 0.479, "step": 4966 }, { "avg_step_time": 5.658647811774052, "epoch": 0.5297066666666667, "eta_time": 6.930271722808832, "step": 4966 }, { "epoch": 0.5298133333333334, "grad_norm": 1.8609200097033394, "learning_rate": 4.7608355033197684e-06, "loss": 0.4985, "step": 4967 }, { "avg_step_time": 5.659998821489738, "epoch": 0.5298133333333334, "eta_time": 6.930354112535213, "step": 4967 }, { "epoch": 0.52992, "grad_norm": 2.075597141649548, "learning_rate": 4.759110016344302e-06, "loss": 0.462, "step": 4968 }, { "avg_step_time": 5.660460953760629, "epoch": 0.52992, "eta_time": 6.9293476175619695, "step": 4968 }, { "epoch": 0.5300266666666666, "grad_norm": 2.0031881140513828, "learning_rate": 4.757384558123223e-06, "loss": 0.5494, "step": 4969 }, { "avg_step_time": 5.688753824041347, "epoch": 0.5300266666666666, "eta_time": 6.962402596868382, "step": 4969 }, { "epoch": 0.5301333333333333, "grad_norm": 1.7223342641527497, "learning_rate": 4.755659128862491e-06, "loss": 0.4787, "step": 4970 }, { "avg_step_time": 5.726622971621427, "epoch": 0.5301333333333333, "eta_time": 7.0071594972201074, "step": 4970 }, { "epoch": 0.53024, "grad_norm": 1.6950824115225724, "learning_rate": 4.753933728768069e-06, "loss": 0.4478, "step": 4971 }, { "avg_step_time": 5.727006996520842, "epoch": 0.53024, "eta_time": 7.006038559077163, "step": 4971 }, { "epoch": 0.5303466666666666, "grad_norm": 1.733992381696226, "learning_rate": 4.752208358045913e-06, "loss": 0.4808, "step": 4972 }, { "avg_step_time": 5.728965198150789, "epoch": 0.5303466666666666, "eta_time": 7.006842713182756, "step": 4972 }, { "epoch": 0.5304533333333333, "grad_norm": 1.8653247487705673, "learning_rate": 4.750483016901975e-06, "loss": 0.4862, "step": 4973 }, { "avg_step_time": 5.716036324549203, "epoch": 0.5304533333333333, "eta_time": 6.989442194629332, "step": 4973 }, { "epoch": 0.53056, "grad_norm": 0.6790998503946301, "learning_rate": 4.748757705542205e-06, "loss": 0.4597, "step": 4974 }, { "avg_step_time": 5.679516652617791, "epoch": 0.53056, "eta_time": 6.94320910782525, "step": 4974 }, { "epoch": 0.5306666666666666, "grad_norm": 1.7277126345090599, "learning_rate": 4.74703242417255e-06, "loss": 0.5582, "step": 4975 }, { "avg_step_time": 5.6811220260581585, "epoch": 0.5306666666666666, "eta_time": 6.943593587404416, "step": 4975 }, { "epoch": 0.5307733333333333, "grad_norm": 2.155755727243655, "learning_rate": 4.745307172998948e-06, "loss": 0.4941, "step": 4976 }, { "avg_step_time": 5.739774207876186, "epoch": 0.5307733333333333, "eta_time": 7.013685205679818, "step": 4976 }, { "epoch": 0.53088, "grad_norm": 1.624963168240931, "learning_rate": 4.743581952227342e-06, "loss": 0.4517, "step": 4977 }, { "avg_step_time": 5.73824822782266, "epoch": 0.53088, "eta_time": 7.010226584990016, "step": 4977 }, { "epoch": 0.5309866666666667, "grad_norm": 0.6613630316262339, "learning_rate": 4.7418567620636655e-06, "loss": 0.4335, "step": 4978 }, { "avg_step_time": 5.702472407408435, "epoch": 0.5309866666666667, "eta_time": 6.964936437604136, "step": 4978 }, { "epoch": 0.5310933333333333, "grad_norm": 1.8737539472597937, "learning_rate": 4.740131602713849e-06, "loss": 0.5227, "step": 4979 }, { "avg_step_time": 5.70233830538663, "epoch": 0.5310933333333333, "eta_time": 6.963188664022118, "step": 4979 }, { "epoch": 0.5312, "grad_norm": 1.6258571693260593, "learning_rate": 4.73840647438382e-06, "loss": 0.5189, "step": 4980 }, { "avg_step_time": 5.704661583659624, "epoch": 0.5312, "eta_time": 6.9644410167177915, "step": 4980 }, { "epoch": 0.5313066666666667, "grad_norm": 1.854702398793258, "learning_rate": 4.736681377279503e-06, "loss": 0.5018, "step": 4981 }, { "avg_step_time": 5.730093811497544, "epoch": 0.5313066666666667, "eta_time": 6.993897835477835, "step": 4981 }, { "epoch": 0.5314133333333333, "grad_norm": 1.836021539442618, "learning_rate": 4.734956311606818e-06, "loss": 0.5174, "step": 4982 }, { "avg_step_time": 5.725848684407244, "epoch": 0.5314133333333333, "eta_time": 6.987125908500284, "step": 4982 }, { "epoch": 0.53152, "grad_norm": 1.8379598746454964, "learning_rate": 4.733231277571683e-06, "loss": 0.3992, "step": 4983 }, { "avg_step_time": 5.733011537128025, "epoch": 0.53152, "eta_time": 6.99427407529619, "step": 4983 }, { "epoch": 0.5316266666666667, "grad_norm": 1.642801815968099, "learning_rate": 4.73150627538001e-06, "loss": 0.4902, "step": 4984 }, { "avg_step_time": 5.732296303065136, "epoch": 0.5316266666666667, "eta_time": 6.991809185210837, "step": 4984 }, { "epoch": 0.5317333333333333, "grad_norm": 0.654638748977351, "learning_rate": 4.729781305237705e-06, "loss": 0.4506, "step": 4985 }, { "avg_step_time": 5.696768411482223, "epoch": 0.5317333333333333, "eta_time": 6.946892590668599, "step": 4985 }, { "epoch": 0.53184, "grad_norm": 1.9857724496563638, "learning_rate": 4.7280563673506745e-06, "loss": 0.4939, "step": 4986 }, { "avg_step_time": 5.699459933271312, "epoch": 0.53184, "eta_time": 6.9485915686466075, "step": 4986 }, { "epoch": 0.5319466666666667, "grad_norm": 0.6586917552724291, "learning_rate": 4.7263314619248215e-06, "loss": 0.4649, "step": 4987 }, { "avg_step_time": 5.665063944729892, "epoch": 0.5319466666666667, "eta_time": 6.9050834970763235, "step": 4987 }, { "epoch": 0.5320533333333334, "grad_norm": 1.6475827319382694, "learning_rate": 4.724606589166043e-06, "loss": 0.4245, "step": 4988 }, { "avg_step_time": 5.667352832929052, "epoch": 0.5320533333333334, "eta_time": 6.906299132794375, "step": 4988 }, { "epoch": 0.53216, "grad_norm": 1.821281042008075, "learning_rate": 4.722881749280232e-06, "loss": 0.5128, "step": 4989 }, { "avg_step_time": 5.6600188342007725, "epoch": 0.53216, "eta_time": 6.895789613001274, "step": 4989 }, { "epoch": 0.5322666666666667, "grad_norm": 1.560464632522817, "learning_rate": 4.721156942473274e-06, "loss": 0.4473, "step": 4990 }, { "avg_step_time": 5.659913291834822, "epoch": 0.5322666666666667, "eta_time": 6.894088829082136, "step": 4990 }, { "epoch": 0.5323733333333334, "grad_norm": 1.9373067599529543, "learning_rate": 4.719432168951061e-06, "loss": 0.6078, "step": 4991 }, { "avg_step_time": 5.662851752656879, "epoch": 0.5323733333333334, "eta_time": 6.896095023235488, "step": 4991 }, { "epoch": 0.53248, "grad_norm": 2.042573957660739, "learning_rate": 4.717707428919471e-06, "loss": 0.5238, "step": 4992 }, { "avg_step_time": 5.667408976892029, "epoch": 0.53248, "eta_time": 6.900070429366045, "step": 4992 }, { "epoch": 0.5325866666666667, "grad_norm": 1.8469293673992186, "learning_rate": 4.715982722584382e-06, "loss": 0.493, "step": 4993 }, { "avg_step_time": 5.6609630127145785, "epoch": 0.5325866666666667, "eta_time": 6.890649978254245, "step": 4993 }, { "epoch": 0.5326933333333334, "grad_norm": 2.136271333062049, "learning_rate": 4.714258050151668e-06, "loss": 0.5329, "step": 4994 }, { "avg_step_time": 5.668722367045855, "epoch": 0.5326933333333334, "eta_time": 6.8985201916744145, "step": 4994 }, { "epoch": 0.5328, "grad_norm": 1.9883319210575965, "learning_rate": 4.712533411827197e-06, "loss": 0.5279, "step": 4995 }, { "avg_step_time": 5.671739770908548, "epoch": 0.5328, "eta_time": 6.900616721272067, "step": 4995 }, { "epoch": 0.5329066666666666, "grad_norm": 2.1046848355215055, "learning_rate": 4.7108088078168355e-06, "loss": 0.5157, "step": 4996 }, { "avg_step_time": 5.668920220750751, "epoch": 0.5329066666666666, "eta_time": 6.895611568518761, "step": 4996 }, { "epoch": 0.5330133333333333, "grad_norm": 1.7582611186421158, "learning_rate": 4.709084238326447e-06, "loss": 0.5922, "step": 4997 }, { "avg_step_time": 5.685425755953548, "epoch": 0.5330133333333333, "eta_time": 6.914109433212398, "step": 4997 }, { "epoch": 0.53312, "grad_norm": 2.0372131832394973, "learning_rate": 4.707359703561885e-06, "loss": 0.4593, "step": 4998 }, { "avg_step_time": 5.68953444740989, "epoch": 0.53312, "eta_time": 6.917525632309191, "step": 4998 }, { "epoch": 0.5332266666666666, "grad_norm": 1.6547968240245854, "learning_rate": 4.705635203729004e-06, "loss": 0.4851, "step": 4999 }, { "avg_step_time": 5.68993734590935, "epoch": 0.5332266666666666, "eta_time": 6.916434951583143, "step": 4999 }, { "epoch": 0.5333333333333333, "grad_norm": 1.7720578953238408, "learning_rate": 4.703910739033653e-06, "loss": 0.4564, "step": 5000 }, { "avg_step_time": 6.188889681690871, "epoch": 0.5333333333333333, "eta_time": 7.521220099277101, "step": 5000 }, { "epoch": 0.53344, "grad_norm": 1.8514409437136412, "learning_rate": 4.702186309681677e-06, "loss": 0.5251, "step": 5001 }, { "avg_step_time": 6.175024627435087, "epoch": 0.53344, "eta_time": 7.5026549223336305, "step": 5001 }, { "epoch": 0.5335466666666666, "grad_norm": 2.2205414806559673, "learning_rate": 4.700461915878917e-06, "loss": 0.5611, "step": 5002 }, { "avg_step_time": 6.216427367142956, "epoch": 0.5335466666666666, "eta_time": 7.551232465698931, "step": 5002 }, { "epoch": 0.5336533333333333, "grad_norm": 1.9145144950244464, "learning_rate": 4.698737557831208e-06, "loss": 0.4965, "step": 5003 }, { "avg_step_time": 6.2058862917351, "epoch": 0.5336533333333333, "eta_time": 7.536704129851627, "step": 5003 }, { "epoch": 0.53376, "grad_norm": 1.5832054284788455, "learning_rate": 4.697013235744382e-06, "loss": 0.5053, "step": 5004 }, { "avg_step_time": 6.205064462892937, "epoch": 0.53376, "eta_time": 7.533982435362508, "step": 5004 }, { "epoch": 0.5338666666666667, "grad_norm": 1.8107490780603677, "learning_rate": 4.695288949824266e-06, "loss": 0.5075, "step": 5005 }, { "avg_step_time": 6.235148338356403, "epoch": 0.5338666666666667, "eta_time": 7.568777288504855, "step": 5005 }, { "epoch": 0.5339733333333333, "grad_norm": 1.7783090299967488, "learning_rate": 4.693564700276685e-06, "loss": 0.4717, "step": 5006 }, { "avg_step_time": 6.238090883601796, "epoch": 0.5339733333333333, "eta_time": 7.570616408460068, "step": 5006 }, { "epoch": 0.53408, "grad_norm": 2.1510299182990176, "learning_rate": 4.6918404873074574e-06, "loss": 0.5022, "step": 5007 }, { "avg_step_time": 6.236940899280587, "epoch": 0.53408, "eta_time": 7.567488291127112, "step": 5007 }, { "epoch": 0.5341866666666667, "grad_norm": 1.6512146891971764, "learning_rate": 4.690116311122399e-06, "loss": 0.4576, "step": 5008 }, { "avg_step_time": 6.234547848653311, "epoch": 0.5341866666666667, "eta_time": 7.562852904185836, "step": 5008 }, { "epoch": 0.5342933333333333, "grad_norm": 1.8663476778773038, "learning_rate": 4.6883921719273185e-06, "loss": 0.5825, "step": 5009 }, { "avg_step_time": 6.234815705906261, "epoch": 0.5342933333333333, "eta_time": 7.561445936662983, "step": 5009 }, { "epoch": 0.5344, "grad_norm": 2.0901897759456767, "learning_rate": 4.68666806992802e-06, "loss": 0.633, "step": 5010 }, { "avg_step_time": 6.240104157515247, "epoch": 0.5344, "eta_time": 7.566126290987237, "step": 5010 }, { "epoch": 0.5345066666666667, "grad_norm": 1.8158844443947664, "learning_rate": 4.684944005330308e-06, "loss": 0.5089, "step": 5011 }, { "avg_step_time": 6.224973293265911, "epoch": 0.5345066666666667, "eta_time": 7.546050958836788, "step": 5011 }, { "epoch": 0.5346133333333334, "grad_norm": 1.7866351585300804, "learning_rate": 4.683219978339979e-06, "loss": 0.5232, "step": 5012 }, { "avg_step_time": 6.272107285682601, "epoch": 0.5346133333333334, "eta_time": 7.601445579842553, "step": 5012 }, { "epoch": 0.53472, "grad_norm": 1.7512359890361369, "learning_rate": 4.681495989162826e-06, "loss": 0.5509, "step": 5013 }, { "avg_step_time": 6.256747570904818, "epoch": 0.53472, "eta_time": 7.581092473413006, "step": 5013 }, { "epoch": 0.5348266666666667, "grad_norm": 1.6579635813615305, "learning_rate": 4.679772038004635e-06, "loss": 0.5653, "step": 5014 }, { "avg_step_time": 6.257614480124579, "epoch": 0.5348266666666667, "eta_time": 7.580404652173136, "step": 5014 }, { "epoch": 0.5349333333333334, "grad_norm": 1.8203116638808376, "learning_rate": 4.678048125071188e-06, "loss": 0.4194, "step": 5015 }, { "avg_step_time": 6.2936158589642455, "epoch": 0.5349333333333334, "eta_time": 7.622268095856697, "step": 5015 }, { "epoch": 0.53504, "grad_norm": 2.215888907259528, "learning_rate": 4.676324250568269e-06, "loss": 0.5719, "step": 5016 }, { "avg_step_time": 6.294297984152129, "epoch": 0.53504, "eta_time": 7.621345809144202, "step": 5016 }, { "epoch": 0.5351466666666667, "grad_norm": 1.9333033345733386, "learning_rate": 4.6746004147016475e-06, "loss": 0.4523, "step": 5017 }, { "avg_step_time": 6.258311009166216, "epoch": 0.5351466666666667, "eta_time": 7.576033160540659, "step": 5017 }, { "epoch": 0.5352533333333334, "grad_norm": 1.6624112095158068, "learning_rate": 4.672876617677096e-06, "loss": 0.5108, "step": 5018 }, { "avg_step_time": 6.2609457728838676, "epoch": 0.5352533333333334, "eta_time": 7.577483536793059, "step": 5018 }, { "epoch": 0.53536, "grad_norm": 1.6455662195937735, "learning_rate": 4.671152859700377e-06, "loss": 0.4899, "step": 5019 }, { "avg_step_time": 6.262635707855225, "epoch": 0.53536, "eta_time": 7.577789206504821, "step": 5019 }, { "epoch": 0.5354666666666666, "grad_norm": 1.7216493153207304, "learning_rate": 4.669429140977252e-06, "loss": 0.5305, "step": 5020 }, { "avg_step_time": 6.2620898208232845, "epoch": 0.5354666666666666, "eta_time": 7.5753892138015, "step": 5020 }, { "epoch": 0.5355733333333333, "grad_norm": 1.9793006944608733, "learning_rate": 4.667705461713478e-06, "loss": 0.4299, "step": 5021 }, { "avg_step_time": 6.2961678360447735, "epoch": 0.5355733333333333, "eta_time": 7.614865210594151, "step": 5021 }, { "epoch": 0.53568, "grad_norm": 1.6999152677235592, "learning_rate": 4.665981822114805e-06, "loss": 0.4748, "step": 5022 }, { "avg_step_time": 6.304716656906436, "epoch": 0.53568, "eta_time": 7.623453224309365, "step": 5022 }, { "epoch": 0.5357866666666666, "grad_norm": 1.5759836033405878, "learning_rate": 4.6642582223869795e-06, "loss": 0.4805, "step": 5023 }, { "avg_step_time": 6.329696120637836, "epoch": 0.5357866666666666, "eta_time": 7.651899310282184, "step": 5023 }, { "epoch": 0.5358933333333333, "grad_norm": 1.4681112823665334, "learning_rate": 4.662534662735742e-06, "loss": 0.4253, "step": 5024 }, { "avg_step_time": 6.330799738566081, "epoch": 0.5358933333333333, "eta_time": 7.651474906250283, "step": 5024 }, { "epoch": 0.536, "grad_norm": 1.7491676366151223, "learning_rate": 4.660811143366828e-06, "loss": 0.473, "step": 5025 }, { "avg_step_time": 6.32788395640826, "epoch": 0.536, "eta_time": 7.646193113993314, "step": 5025 }, { "epoch": 0.5361066666666666, "grad_norm": 1.7717513380938772, "learning_rate": 4.659087664485972e-06, "loss": 0.5207, "step": 5026 }, { "avg_step_time": 6.330853556141709, "epoch": 0.5361066666666666, "eta_time": 7.648022809905637, "step": 5026 }, { "epoch": 0.5362133333333333, "grad_norm": 1.9942537639735054, "learning_rate": 4.657364226298899e-06, "loss": 0.5492, "step": 5027 }, { "avg_step_time": 6.333493914267029, "epoch": 0.5362133333333333, "eta_time": 7.649453205342511, "step": 5027 }, { "epoch": 0.53632, "grad_norm": 1.7631329264963735, "learning_rate": 4.655640829011335e-06, "loss": 0.4783, "step": 5028 }, { "avg_step_time": 6.372447184842042, "epoch": 0.53632, "eta_time": 7.694729975696766, "step": 5028 }, { "epoch": 0.5364266666666667, "grad_norm": 1.9386269357753725, "learning_rate": 4.653917472828992e-06, "loss": 0.5684, "step": 5029 }, { "avg_step_time": 6.373832777293042, "epoch": 0.5364266666666667, "eta_time": 7.694632569476544, "step": 5029 }, { "epoch": 0.5365333333333333, "grad_norm": 1.861095855566054, "learning_rate": 4.652194157957584e-06, "loss": 0.4714, "step": 5030 }, { "avg_step_time": 6.393386628892687, "epoch": 0.5365333333333333, "eta_time": 7.716462472927423, "step": 5030 }, { "epoch": 0.53664, "grad_norm": 0.6505205429503692, "learning_rate": 4.65047088460282e-06, "loss": 0.4547, "step": 5031 }, { "avg_step_time": 6.357707681077899, "epoch": 0.53664, "eta_time": 7.671633935167332, "step": 5031 }, { "epoch": 0.5367466666666667, "grad_norm": 0.6553877018288761, "learning_rate": 4.648747652970402e-06, "loss": 0.4587, "step": 5032 }, { "avg_step_time": 6.287101779321228, "epoch": 0.5367466666666667, "eta_time": 7.584689729886692, "step": 5032 }, { "epoch": 0.5368533333333333, "grad_norm": 1.996123504991444, "learning_rate": 4.647024463266027e-06, "loss": 0.458, "step": 5033 }, { "avg_step_time": 6.289033198597456, "epoch": 0.5368533333333333, "eta_time": 7.585272818975042, "step": 5033 }, { "epoch": 0.53696, "grad_norm": 1.7470871573865676, "learning_rate": 4.645301315695387e-06, "loss": 0.462, "step": 5034 }, { "avg_step_time": 6.2912700079908275, "epoch": 0.53696, "eta_time": 7.5862230846356065, "step": 5034 }, { "epoch": 0.5370666666666667, "grad_norm": 1.757505556021, "learning_rate": 4.643578210464171e-06, "loss": 0.4133, "step": 5035 }, { "avg_step_time": 6.290013017076435, "epoch": 0.5370666666666667, "eta_time": 7.582960137253257, "step": 5035 }, { "epoch": 0.5371733333333333, "grad_norm": 1.8129812283446956, "learning_rate": 4.641855147778061e-06, "loss": 0.4418, "step": 5036 }, { "avg_step_time": 6.291657464672821, "epoch": 0.5371733333333333, "eta_time": 7.583194927559825, "step": 5036 }, { "epoch": 0.53728, "grad_norm": 1.5761144270260488, "learning_rate": 4.6401321278427334e-06, "loss": 0.5141, "step": 5037 }, { "avg_step_time": 6.295092113090284, "epoch": 0.53728, "eta_time": 7.585585996273792, "step": 5037 }, { "epoch": 0.5373866666666667, "grad_norm": 0.6266857444235445, "learning_rate": 4.638409150863861e-06, "loss": 0.4307, "step": 5038 }, { "avg_step_time": 6.262797425491641, "epoch": 0.5373866666666667, "eta_time": 7.5449312317659025, "step": 5038 }, { "epoch": 0.5374933333333334, "grad_norm": 1.818721094943749, "learning_rate": 4.63668621704711e-06, "loss": 0.4378, "step": 5039 }, { "avg_step_time": 6.298207752632372, "epoch": 0.5374933333333334, "eta_time": 7.5858413376149905, "step": 5039 }, { "epoch": 0.5376, "grad_norm": 1.9349562060349343, "learning_rate": 4.634963326598143e-06, "loss": 0.5358, "step": 5040 }, { "avg_step_time": 6.295820481849439, "epoch": 0.5376, "eta_time": 7.581217163560368, "step": 5040 }, { "epoch": 0.5377066666666667, "grad_norm": 2.4158930498923508, "learning_rate": 4.633240479722618e-06, "loss": 0.649, "step": 5041 }, { "avg_step_time": 6.29372961111743, "epoch": 0.5377066666666667, "eta_time": 7.576951148495262, "step": 5041 }, { "epoch": 0.5378133333333334, "grad_norm": 1.8443919083365163, "learning_rate": 4.631517676626186e-06, "loss": 0.5608, "step": 5042 }, { "avg_step_time": 6.295210077305033, "epoch": 0.5378133333333334, "eta_time": 7.576984795822974, "step": 5042 }, { "epoch": 0.53792, "grad_norm": 1.8464845988118799, "learning_rate": 4.629794917514492e-06, "loss": 0.4956, "step": 5043 }, { "avg_step_time": 6.292545884546607, "epoch": 0.53792, "eta_time": 7.572030214404418, "step": 5043 }, { "epoch": 0.5380266666666667, "grad_norm": 1.8290545499455868, "learning_rate": 4.6280722025931776e-06, "loss": 0.4682, "step": 5044 }, { "avg_step_time": 6.294287794768208, "epoch": 0.5380266666666667, "eta_time": 7.5723778997614195, "step": 5044 }, { "epoch": 0.5381333333333334, "grad_norm": 2.184479444307398, "learning_rate": 4.626349532067879e-06, "loss": 0.5654, "step": 5045 }, { "avg_step_time": 6.293467692654542, "epoch": 0.5381333333333334, "eta_time": 7.569643085887269, "step": 5045 }, { "epoch": 0.53824, "grad_norm": 1.5878604784525374, "learning_rate": 4.624626906144227e-06, "loss": 0.495, "step": 5046 }, { "avg_step_time": 6.295223871866862, "epoch": 0.53824, "eta_time": 7.570006705919901, "step": 5046 }, { "epoch": 0.5383466666666666, "grad_norm": 1.9867643805587258, "learning_rate": 4.622904325027847e-06, "loss": 0.4882, "step": 5047 }, { "avg_step_time": 6.293723713267934, "epoch": 0.5383466666666666, "eta_time": 7.566454508617671, "step": 5047 }, { "epoch": 0.5384533333333333, "grad_norm": 0.6569381658710022, "learning_rate": 4.621181788924359e-06, "loss": 0.4543, "step": 5048 }, { "avg_step_time": 6.2969517683742025, "epoch": 0.5384533333333333, "eta_time": 7.568586194931993, "step": 5048 }, { "epoch": 0.53856, "grad_norm": 2.1798609619320484, "learning_rate": 4.619459298039373e-06, "loss": 0.5596, "step": 5049 }, { "avg_step_time": 6.292502957161027, "epoch": 0.53856, "eta_time": 7.561491053521833, "step": 5049 }, { "epoch": 0.5386666666666666, "grad_norm": 1.8015771210886407, "learning_rate": 4.617736852578506e-06, "loss": 0.4424, "step": 5050 }, { "avg_step_time": 6.2851683154250635, "epoch": 0.5386666666666666, "eta_time": 7.5509313789481665, "step": 5050 }, { "epoch": 0.5387733333333333, "grad_norm": 1.747771071514473, "learning_rate": 4.6160144527473565e-06, "loss": 0.4533, "step": 5051 }, { "avg_step_time": 6.322212703300245, "epoch": 0.5387733333333333, "eta_time": 7.593679924741739, "step": 5051 }, { "epoch": 0.53888, "grad_norm": 1.9000734629696054, "learning_rate": 4.614292098751524e-06, "loss": 0.447, "step": 5052 }, { "avg_step_time": 6.3291991937040075, "epoch": 0.53888, "eta_time": 7.600313365106229, "step": 5052 }, { "epoch": 0.5389866666666666, "grad_norm": 1.6456389244879794, "learning_rate": 4.612569790796601e-06, "loss": 0.4363, "step": 5053 }, { "avg_step_time": 6.327471415201823, "epoch": 0.5389866666666666, "eta_time": 7.596480960139522, "step": 5053 }, { "epoch": 0.5390933333333333, "grad_norm": 1.6470116430352346, "learning_rate": 4.610847529088172e-06, "loss": 0.5157, "step": 5054 }, { "avg_step_time": 6.329096962707212, "epoch": 0.5390933333333333, "eta_time": 7.596674437738295, "step": 5054 }, { "epoch": 0.5392, "grad_norm": 0.6738966711295207, "learning_rate": 4.609125313831826e-06, "loss": 0.4386, "step": 5055 }, { "avg_step_time": 6.270289406631932, "epoch": 0.5392, "eta_time": 7.524347287958318, "step": 5055 }, { "epoch": 0.5393066666666667, "grad_norm": 1.69012351882694, "learning_rate": 4.607403145233132e-06, "loss": 0.4949, "step": 5056 }, { "avg_step_time": 6.274766731743861, "epoch": 0.5393066666666667, "eta_time": 7.527977087333815, "step": 5056 }, { "epoch": 0.5394133333333333, "grad_norm": 1.8051005719684643, "learning_rate": 4.605681023497663e-06, "loss": 0.5001, "step": 5057 }, { "avg_step_time": 6.276374491778287, "epoch": 0.5394133333333333, "eta_time": 7.528162515416289, "step": 5057 }, { "epoch": 0.53952, "grad_norm": 1.6525969971502936, "learning_rate": 4.603958948830985e-06, "loss": 0.4769, "step": 5058 }, { "avg_step_time": 6.282618414271962, "epoch": 0.53952, "eta_time": 7.533906581781127, "step": 5058 }, { "epoch": 0.5396266666666667, "grad_norm": 1.76708994935811, "learning_rate": 4.6022369214386565e-06, "loss": 0.5138, "step": 5059 }, { "avg_step_time": 6.287207393935232, "epoch": 0.5396266666666667, "eta_time": 7.537663086729018, "step": 5059 }, { "epoch": 0.5397333333333333, "grad_norm": 1.9795731547090851, "learning_rate": 4.600514941526232e-06, "loss": 0.5437, "step": 5060 }, { "avg_step_time": 6.290090014236142, "epoch": 0.5397333333333333, "eta_time": 7.539371780952487, "step": 5060 }, { "epoch": 0.53984, "grad_norm": 1.7447191773197777, "learning_rate": 4.5987930092992596e-06, "loss": 0.5009, "step": 5061 }, { "avg_step_time": 6.358999758055716, "epoch": 0.53984, "eta_time": 7.620201376736766, "step": 5061 }, { "epoch": 0.5399466666666667, "grad_norm": 1.6403148479676348, "learning_rate": 4.59707112496328e-06, "loss": 0.4501, "step": 5062 }, { "avg_step_time": 6.353969099545719, "epoch": 0.5399466666666667, "eta_time": 7.61240797953908, "step": 5062 }, { "epoch": 0.5400533333333334, "grad_norm": 1.9031631078668756, "learning_rate": 4.595349288723832e-06, "loss": 0.4914, "step": 5063 }, { "avg_step_time": 6.38274045183201, "epoch": 0.5400533333333334, "eta_time": 7.6451046745276745, "step": 5063 }, { "epoch": 0.54016, "grad_norm": 1.544434470838591, "learning_rate": 4.593627500786444e-06, "loss": 0.454, "step": 5064 }, { "avg_step_time": 6.443198524340235, "epoch": 0.54016, "eta_time": 7.715730232897431, "step": 5064 }, { "epoch": 0.5402666666666667, "grad_norm": 1.937600557901737, "learning_rate": 4.591905761356643e-06, "loss": 0.5192, "step": 5065 }, { "avg_step_time": 6.442748488801898, "epoch": 0.5402666666666667, "eta_time": 7.713401662982273, "step": 5065 }, { "epoch": 0.5403733333333334, "grad_norm": 1.7505628729122598, "learning_rate": 4.590184070639948e-06, "loss": 0.4355, "step": 5066 }, { "avg_step_time": 6.440637875084925, "epoch": 0.5403733333333334, "eta_time": 7.7090857232613725, "step": 5066 }, { "epoch": 0.54048, "grad_norm": 1.8292990731751686, "learning_rate": 4.588462428841875e-06, "loss": 0.5415, "step": 5067 }, { "avg_step_time": 6.445192382793234, "epoch": 0.54048, "eta_time": 7.712746884742571, "step": 5067 }, { "epoch": 0.5405866666666667, "grad_norm": 1.86428581481427, "learning_rate": 4.586740836167928e-06, "loss": 0.471, "step": 5068 }, { "avg_step_time": 6.382961217803184, "epoch": 0.5405866666666667, "eta_time": 7.636503879188421, "step": 5068 }, { "epoch": 0.5406933333333334, "grad_norm": 0.6749553054181822, "learning_rate": 4.585019292823609e-06, "loss": 0.4409, "step": 5069 }, { "avg_step_time": 6.347066180874603, "epoch": 0.5406933333333334, "eta_time": 7.591796381901678, "step": 5069 }, { "epoch": 0.5408, "grad_norm": 1.8842069330040419, "learning_rate": 4.5832977990144165e-06, "loss": 0.5218, "step": 5070 }, { "avg_step_time": 6.347471863332421, "epoch": 0.5408, "eta_time": 7.590518436568353, "step": 5070 }, { "epoch": 0.5409066666666666, "grad_norm": 2.0729235572381794, "learning_rate": 4.581576354945838e-06, "loss": 0.5353, "step": 5071 }, { "avg_step_time": 6.349421070079611, "epoch": 0.5409066666666666, "eta_time": 7.59108563489518, "step": 5071 }, { "epoch": 0.5410133333333333, "grad_norm": 1.7251850965615285, "learning_rate": 4.579854960823361e-06, "loss": 0.452, "step": 5072 }, { "avg_step_time": 6.400635403816146, "epoch": 0.5410133333333333, "eta_time": 7.6505372618391325, "step": 5072 }, { "epoch": 0.54112, "grad_norm": 1.6180026393484164, "learning_rate": 4.578133616852462e-06, "loss": 0.4651, "step": 5073 }, { "avg_step_time": 6.458742348834722, "epoch": 0.54112, "eta_time": 7.718197106857493, "step": 5073 }, { "epoch": 0.5412266666666666, "grad_norm": 2.031661138025121, "learning_rate": 4.576412323238609e-06, "loss": 0.6111, "step": 5074 }, { "avg_step_time": 6.465667377818715, "epoch": 0.5412266666666666, "eta_time": 7.7246764977773035, "step": 5074 }, { "epoch": 0.5413333333333333, "grad_norm": 1.8606510725624374, "learning_rate": 4.574691080187275e-06, "loss": 0.4757, "step": 5075 }, { "avg_step_time": 6.404338133455527, "epoch": 0.5413333333333333, "eta_time": 7.6496261038496565, "step": 5075 }, { "epoch": 0.54144, "grad_norm": 2.2388966435690154, "learning_rate": 4.572969887903916e-06, "loss": 0.5354, "step": 5076 }, { "avg_step_time": 6.4045813661633115, "epoch": 0.54144, "eta_time": 7.648137581426688, "step": 5076 }, { "epoch": 0.5415466666666666, "grad_norm": 1.687365389269295, "learning_rate": 4.571248746593988e-06, "loss": 0.4722, "step": 5077 }, { "avg_step_time": 6.433802684148152, "epoch": 0.5415466666666666, "eta_time": 7.681245537907988, "step": 5077 }, { "epoch": 0.5416533333333333, "grad_norm": 1.4510115647706998, "learning_rate": 4.569527656462936e-06, "loss": 0.4581, "step": 5078 }, { "avg_step_time": 6.434597554832998, "epoch": 0.5416533333333333, "eta_time": 7.6804071369770535, "step": 5078 }, { "epoch": 0.54176, "grad_norm": 1.9722804023715383, "learning_rate": 4.5678066177162065e-06, "loss": 0.4719, "step": 5079 }, { "avg_step_time": 6.433179722891913, "epoch": 0.54176, "eta_time": 7.676927802651017, "step": 5079 }, { "epoch": 0.5418666666666667, "grad_norm": 0.6329887362987291, "learning_rate": 4.5660856305592314e-06, "loss": 0.431, "step": 5080 }, { "avg_step_time": 6.374653825856218, "epoch": 0.5418666666666667, "eta_time": 7.605316161681238, "step": 5080 }, { "epoch": 0.5419733333333333, "grad_norm": 1.8817214255177233, "learning_rate": 4.564364695197443e-06, "loss": 0.4342, "step": 5081 }, { "avg_step_time": 6.37544254100684, "epoch": 0.5419733333333333, "eta_time": 7.604486186412047, "step": 5081 }, { "epoch": 0.54208, "grad_norm": 2.0987202089709602, "learning_rate": 4.562643811836263e-06, "loss": 0.4543, "step": 5082 }, { "avg_step_time": 6.372442500759857, "epoch": 0.54208, "eta_time": 7.59913768215613, "step": 5082 }, { "epoch": 0.5421866666666667, "grad_norm": 1.9912833934831113, "learning_rate": 4.5609229806811066e-06, "loss": 0.4918, "step": 5083 }, { "avg_step_time": 6.36897791756524, "epoch": 0.5421866666666667, "eta_time": 7.593237006163891, "step": 5083 }, { "epoch": 0.5422933333333333, "grad_norm": 1.8684332383259568, "learning_rate": 4.559202201937389e-06, "loss": 0.4908, "step": 5084 }, { "avg_step_time": 6.414804848757657, "epoch": 0.5422933333333333, "eta_time": 7.646091001671975, "step": 5084 }, { "epoch": 0.5424, "grad_norm": 0.6416318354008702, "learning_rate": 4.557481475810512e-06, "loss": 0.4596, "step": 5085 }, { "avg_step_time": 6.379168597134677, "epoch": 0.5424, "eta_time": 7.601842578252157, "step": 5085 }, { "epoch": 0.5425066666666667, "grad_norm": 1.916498128868851, "learning_rate": 4.555760802505876e-06, "loss": 0.5423, "step": 5086 }, { "avg_step_time": 6.416202918447629, "epoch": 0.5425066666666667, "eta_time": 7.644192865894968, "step": 5086 }, { "epoch": 0.5426133333333333, "grad_norm": 1.6286695278907743, "learning_rate": 4.554040182228874e-06, "loss": 0.514, "step": 5087 }, { "avg_step_time": 6.5147852704982565, "epoch": 0.5426133333333333, "eta_time": 7.759833122193479, "step": 5087 }, { "epoch": 0.54272, "grad_norm": 1.7799768529716462, "learning_rate": 4.5523196151848846e-06, "loss": 0.5051, "step": 5088 }, { "avg_step_time": 6.513198450358227, "epoch": 0.54272, "eta_time": 7.756133821301589, "step": 5088 }, { "epoch": 0.5428266666666667, "grad_norm": 1.688525943735827, "learning_rate": 4.550599101579297e-06, "loss": 0.5272, "step": 5089 }, { "avg_step_time": 6.513969243174851, "epoch": 0.5428266666666667, "eta_time": 7.755242271179837, "step": 5089 }, { "epoch": 0.5429333333333334, "grad_norm": 1.800524825879229, "learning_rate": 4.548878641617479e-06, "loss": 0.5726, "step": 5090 }, { "avg_step_time": 6.512210012686373, "epoch": 0.5429333333333334, "eta_time": 7.75133886232253, "step": 5090 }, { "epoch": 0.54304, "grad_norm": 0.6456677824852243, "learning_rate": 4.547158235504797e-06, "loss": 0.4589, "step": 5091 }, { "avg_step_time": 6.4743316438463, "epoch": 0.54304, "eta_time": 7.704454656177097, "step": 5091 }, { "epoch": 0.5431466666666667, "grad_norm": 1.7882751853633914, "learning_rate": 4.545437883446613e-06, "loss": 0.536, "step": 5092 }, { "avg_step_time": 6.474605548261392, "epoch": 0.5431466666666667, "eta_time": 7.702982100889873, "step": 5092 }, { "epoch": 0.5432533333333334, "grad_norm": 1.9726520906606206, "learning_rate": 4.543717585648279e-06, "loss": 0.5349, "step": 5093 }, { "avg_step_time": 6.467660667920353, "epoch": 0.5432533333333334, "eta_time": 7.692923050009709, "step": 5093 }, { "epoch": 0.54336, "grad_norm": 1.645314450635027, "learning_rate": 4.541997342315145e-06, "loss": 0.4762, "step": 5094 }, { "avg_step_time": 6.463208420108063, "epoch": 0.54336, "eta_time": 7.685832012911838, "step": 5094 }, { "epoch": 0.5434666666666667, "grad_norm": 1.7382084212685136, "learning_rate": 4.540277153652551e-06, "loss": 0.496, "step": 5095 }, { "avg_step_time": 6.458158045104056, "epoch": 0.5434666666666667, "eta_time": 7.678032342512599, "step": 5095 }, { "epoch": 0.5435733333333334, "grad_norm": 1.7091827928885193, "learning_rate": 4.538557019865829e-06, "loss": 0.5281, "step": 5096 }, { "avg_step_time": 6.440181891123454, "epoch": 0.5435733333333334, "eta_time": 7.654871753365906, "step": 5096 }, { "epoch": 0.54368, "grad_norm": 1.894686448965077, "learning_rate": 4.536836941160308e-06, "loss": 0.5269, "step": 5097 }, { "avg_step_time": 6.452561024463538, "epoch": 0.54368, "eta_time": 7.667793350737504, "step": 5097 }, { "epoch": 0.5437866666666666, "grad_norm": 1.5561350131799287, "learning_rate": 4.535116917741308e-06, "loss": 0.4605, "step": 5098 }, { "avg_step_time": 6.449520698701493, "epoch": 0.5437866666666666, "eta_time": 7.662388896762857, "step": 5098 }, { "epoch": 0.5438933333333333, "grad_norm": 1.8750405275687574, "learning_rate": 4.533396949814146e-06, "loss": 0.5158, "step": 5099 }, { "avg_step_time": 5.951945820240059, "epoch": 0.5438933333333333, "eta_time": 7.06958897981847, "step": 5099 }, { "epoch": 0.544, "grad_norm": 1.8606340053456372, "learning_rate": 4.5316770375841315e-06, "loss": 0.4335, "step": 5100 }, { "avg_step_time": 5.953750208170727, "epoch": 0.544, "eta_time": 7.0700783722027385, "step": 5100 }, { "epoch": 0.5441066666666666, "grad_norm": 1.6001386881006183, "learning_rate": 4.52995718125656e-06, "loss": 0.4559, "step": 5101 }, { "avg_step_time": 5.942642739324858, "epoch": 0.5441066666666666, "eta_time": 7.055237518854012, "step": 5101 }, { "epoch": 0.5442133333333333, "grad_norm": 2.1495360622895343, "learning_rate": 4.52823738103673e-06, "loss": 0.5066, "step": 5102 }, { "avg_step_time": 5.944437496589892, "epoch": 0.5442133333333333, "eta_time": 7.0557170619246135, "step": 5102 }, { "epoch": 0.54432, "grad_norm": 1.7827675909780558, "learning_rate": 4.526517637129927e-06, "loss": 0.5234, "step": 5103 }, { "avg_step_time": 5.977061647357362, "epoch": 0.54432, "eta_time": 7.092779821530736, "step": 5103 }, { "epoch": 0.5444266666666666, "grad_norm": 2.0679845145548548, "learning_rate": 4.524797949741435e-06, "loss": 0.5551, "step": 5104 }, { "avg_step_time": 5.940160573130906, "epoch": 0.5444266666666666, "eta_time": 7.047340502178361, "step": 5104 }, { "epoch": 0.5445333333333333, "grad_norm": 1.8077780234177325, "learning_rate": 4.523078319076528e-06, "loss": 0.4943, "step": 5105 }, { "avg_step_time": 5.940740226495145, "epoch": 0.5445333333333333, "eta_time": 7.0463779908706305, "step": 5105 }, { "epoch": 0.54464, "grad_norm": 2.014377402088984, "learning_rate": 4.5213587453404736e-06, "loss": 0.4687, "step": 5106 }, { "avg_step_time": 5.940983377321802, "epoch": 0.54464, "eta_time": 7.045016121607437, "step": 5106 }, { "epoch": 0.5447466666666667, "grad_norm": 1.7992597954948235, "learning_rate": 4.51963922873853e-06, "loss": 0.4594, "step": 5107 }, { "avg_step_time": 5.94235451534541, "epoch": 0.5447466666666667, "eta_time": 7.044991408748391, "step": 5107 }, { "epoch": 0.5448533333333333, "grad_norm": 2.009915297619701, "learning_rate": 4.5179197694759525e-06, "loss": 0.5502, "step": 5108 }, { "avg_step_time": 5.942495052260582, "epoch": 0.5448533333333333, "eta_time": 7.043507329998861, "step": 5108 }, { "epoch": 0.54496, "grad_norm": 1.9006507920012206, "learning_rate": 4.5162003677579905e-06, "loss": 0.5104, "step": 5109 }, { "avg_step_time": 5.9469739066229925, "epoch": 0.54496, "eta_time": 7.047164079348247, "step": 5109 }, { "epoch": 0.5450666666666667, "grad_norm": 1.9416201724223303, "learning_rate": 4.514481023789882e-06, "loss": 0.4525, "step": 5110 }, { "avg_step_time": 5.946131985596936, "epoch": 0.5450666666666667, "eta_time": 7.044514699603036, "step": 5110 }, { "epoch": 0.5451733333333333, "grad_norm": 0.6637808611195434, "learning_rate": 4.512761737776862e-06, "loss": 0.4314, "step": 5111 }, { "avg_step_time": 5.864881496236782, "epoch": 0.5451733333333333, "eta_time": 6.946626305542677, "step": 5111 }, { "epoch": 0.54528, "grad_norm": 1.8707705473629601, "learning_rate": 4.511042509924157e-06, "loss": 0.4875, "step": 5112 }, { "avg_step_time": 5.858427252432312, "epoch": 0.54528, "eta_time": 6.937354271421929, "step": 5112 }, { "epoch": 0.5453866666666667, "grad_norm": 1.6965880436579963, "learning_rate": 4.5093233404369815e-06, "loss": 0.4583, "step": 5113 }, { "avg_step_time": 5.858679313852329, "epoch": 0.5453866666666667, "eta_time": 6.936025343232952, "step": 5113 }, { "epoch": 0.5454933333333334, "grad_norm": 1.7949445694876196, "learning_rate": 4.5076042295205575e-06, "loss": 0.45, "step": 5114 }, { "avg_step_time": 5.819501294030084, "epoch": 0.5454933333333334, "eta_time": 6.888026392739497, "step": 5114 }, { "epoch": 0.5456, "grad_norm": 1.8295056488003834, "learning_rate": 4.505885177380083e-06, "loss": 0.4874, "step": 5115 }, { "avg_step_time": 5.855896415132465, "epoch": 0.5456, "eta_time": 6.929477424573418, "step": 5115 }, { "epoch": 0.5457066666666667, "grad_norm": 1.6513709586115022, "learning_rate": 4.504166184220761e-06, "loss": 0.4636, "step": 5116 }, { "avg_step_time": 5.85813337865502, "epoch": 0.5457066666666667, "eta_time": 6.930497238803258, "step": 5116 }, { "epoch": 0.5458133333333334, "grad_norm": 0.6490218076252026, "learning_rate": 4.5024472502477795e-06, "loss": 0.4331, "step": 5117 }, { "avg_step_time": 5.822261241951374, "epoch": 0.5458133333333334, "eta_time": 6.88644121339693, "step": 5117 }, { "epoch": 0.54592, "grad_norm": 1.8569027223203325, "learning_rate": 4.5007283756663245e-06, "loss": 0.5377, "step": 5118 }, { "avg_step_time": 5.824445999029911, "epoch": 0.54592, "eta_time": 6.88740739385287, "step": 5118 }, { "epoch": 0.5460266666666667, "grad_norm": 1.7822573162573356, "learning_rate": 4.499009560681574e-06, "loss": 0.4467, "step": 5119 }, { "avg_step_time": 5.8236193849582865, "epoch": 0.5460266666666667, "eta_time": 6.884812250661796, "step": 5119 }, { "epoch": 0.5461333333333334, "grad_norm": 1.5200248502380573, "learning_rate": 4.4972908054987005e-06, "loss": 0.4625, "step": 5120 }, { "avg_step_time": 5.822765468346952, "epoch": 0.5461333333333334, "eta_time": 6.882185296615634, "step": 5120 }, { "epoch": 0.54624, "grad_norm": 1.6915858628843947, "learning_rate": 4.495572110322862e-06, "loss": 0.4614, "step": 5121 }, { "avg_step_time": 5.8371341734221485, "epoch": 0.54624, "eta_time": 6.897546881593839, "step": 5121 }, { "epoch": 0.5463466666666666, "grad_norm": 1.8658448562697414, "learning_rate": 4.493853475359217e-06, "loss": 0.4768, "step": 5122 }, { "avg_step_time": 5.823385269954951, "epoch": 0.5463466666666666, "eta_time": 6.879682653644002, "step": 5122 }, { "epoch": 0.5464533333333333, "grad_norm": 1.853585714825418, "learning_rate": 4.492134900812915e-06, "loss": 0.5095, "step": 5123 }, { "avg_step_time": 5.823458445192587, "epoch": 0.5464533333333333, "eta_time": 6.8781514747108, "step": 5123 }, { "epoch": 0.54656, "grad_norm": 1.8008389268067437, "learning_rate": 4.490416386889097e-06, "loss": 0.5104, "step": 5124 }, { "avg_step_time": 5.860739110696195, "epoch": 0.54656, "eta_time": 6.920556099880424, "step": 5124 }, { "epoch": 0.5466666666666666, "grad_norm": 1.8841230129807736, "learning_rate": 4.488697933792897e-06, "loss": 0.4442, "step": 5125 }, { "avg_step_time": 5.8596161254728685, "epoch": 0.5466666666666666, "eta_time": 6.917602370349914, "step": 5125 }, { "epoch": 0.5467733333333333, "grad_norm": 0.6922544135684177, "learning_rate": 4.486979541729445e-06, "loss": 0.4596, "step": 5126 }, { "avg_step_time": 5.822403724747475, "epoch": 0.5467733333333333, "eta_time": 6.8720537295700055, "step": 5126 }, { "epoch": 0.54688, "grad_norm": 1.943803774119915, "learning_rate": 4.485261210903854e-06, "loss": 0.5493, "step": 5127 }, { "avg_step_time": 5.784025442720663, "epoch": 0.54688, "eta_time": 6.825150022410384, "step": 5127 }, { "epoch": 0.5469866666666666, "grad_norm": 1.9924581062254207, "learning_rate": 4.483542941521245e-06, "loss": 0.5681, "step": 5128 }, { "avg_step_time": 5.785769262699166, "epoch": 0.5469866666666666, "eta_time": 6.825600571856488, "step": 5128 }, { "epoch": 0.5470933333333333, "grad_norm": 1.6906386837523133, "learning_rate": 4.481824733786716e-06, "loss": 0.4763, "step": 5129 }, { "avg_step_time": 5.767895414371683, "epoch": 0.5470933333333333, "eta_time": 6.802912202617269, "step": 5129 }, { "epoch": 0.5472, "grad_norm": 1.7736069378233628, "learning_rate": 4.48010658790537e-06, "loss": 0.4911, "step": 5130 }, { "avg_step_time": 5.816427454803929, "epoch": 0.5472, "eta_time": 6.858537373789632, "step": 5130 }, { "epoch": 0.5473066666666667, "grad_norm": 1.544582887603353, "learning_rate": 4.4783885040822935e-06, "loss": 0.4354, "step": 5131 }, { "avg_step_time": 5.849870874424173, "epoch": 0.5473066666666667, "eta_time": 6.896347775293386, "step": 5131 }, { "epoch": 0.5474133333333333, "grad_norm": 1.979037698301372, "learning_rate": 4.476670482522571e-06, "loss": 0.5265, "step": 5132 }, { "avg_step_time": 5.849116351869371, "epoch": 0.5474133333333333, "eta_time": 6.893833522494928, "step": 5132 }, { "epoch": 0.54752, "grad_norm": 1.6683248995197255, "learning_rate": 4.47495252343128e-06, "loss": 0.395, "step": 5133 }, { "avg_step_time": 5.845179964797666, "epoch": 0.54752, "eta_time": 6.88757039185325, "step": 5133 }, { "epoch": 0.5476266666666667, "grad_norm": 1.7837853132987826, "learning_rate": 4.473234627013487e-06, "loss": 0.5043, "step": 5134 }, { "avg_step_time": 5.846594333648682, "epoch": 0.5476266666666667, "eta_time": 6.88761293583446, "step": 5134 }, { "epoch": 0.5477333333333333, "grad_norm": 2.0928273241357673, "learning_rate": 4.471516793474252e-06, "loss": 0.4772, "step": 5135 }, { "avg_step_time": 5.8501463345807005, "epoch": 0.5477333333333333, "eta_time": 6.89017234961727, "step": 5135 }, { "epoch": 0.54784, "grad_norm": 0.6587608055203571, "learning_rate": 4.469799023018628e-06, "loss": 0.454, "step": 5136 }, { "avg_step_time": 5.812814772731126, "epoch": 0.54784, "eta_time": 6.8445893948909005, "step": 5136 }, { "epoch": 0.5479466666666667, "grad_norm": 1.781345095365432, "learning_rate": 4.468081315851661e-06, "loss": 0.498, "step": 5137 }, { "avg_step_time": 5.843012034290969, "epoch": 0.5479466666666667, "eta_time": 6.878523611479202, "step": 5137 }, { "epoch": 0.5480533333333333, "grad_norm": 2.2646203934522307, "learning_rate": 4.466363672178391e-06, "loss": 0.5735, "step": 5138 }, { "avg_step_time": 5.845110411595816, "epoch": 0.5480533333333333, "eta_time": 6.879370226092076, "step": 5138 }, { "epoch": 0.54816, "grad_norm": 2.0874536184776225, "learning_rate": 4.464646092203846e-06, "loss": 0.6514, "step": 5139 }, { "avg_step_time": 5.847243154891814, "epoch": 0.54816, "eta_time": 6.880256112256034, "step": 5139 }, { "epoch": 0.5482666666666667, "grad_norm": 1.7885184110513273, "learning_rate": 4.4629285761330515e-06, "loss": 0.4436, "step": 5140 }, { "avg_step_time": 5.844397376282046, "epoch": 0.5482666666666667, "eta_time": 6.875284135709574, "step": 5140 }, { "epoch": 0.5483733333333334, "grad_norm": 1.9618286419077107, "learning_rate": 4.46121112417102e-06, "loss": 0.4782, "step": 5141 }, { "avg_step_time": 5.8534270223945075, "epoch": 0.5483733333333334, "eta_time": 6.884280559116207, "step": 5141 }, { "epoch": 0.54848, "grad_norm": 1.5649552272046692, "learning_rate": 4.459493736522759e-06, "loss": 0.4626, "step": 5142 }, { "avg_step_time": 5.8574647494036745, "epoch": 0.54848, "eta_time": 6.887402301173821, "step": 5142 }, { "epoch": 0.5485866666666667, "grad_norm": 1.7808508195795356, "learning_rate": 4.4577764133932696e-06, "loss": 0.4737, "step": 5143 }, { "avg_step_time": 5.855914323016851, "epoch": 0.5485866666666667, "eta_time": 6.883952615279809, "step": 5143 }, { "epoch": 0.5486933333333334, "grad_norm": 0.6592650720985561, "learning_rate": 4.456059154987545e-06, "loss": 0.4573, "step": 5144 }, { "avg_step_time": 5.826381127039592, "epoch": 0.5486933333333334, "eta_time": 6.847616263473475, "step": 5144 }, { "epoch": 0.5488, "grad_norm": 1.7026385944277802, "learning_rate": 4.4543419615105685e-06, "loss": 0.4555, "step": 5145 }, { "avg_step_time": 5.823020790562485, "epoch": 0.5488, "eta_time": 6.8420494289109195, "step": 5145 }, { "epoch": 0.5489066666666667, "grad_norm": 1.6857585535069042, "learning_rate": 4.452624833167318e-06, "loss": 0.5692, "step": 5146 }, { "avg_step_time": 5.822693641739662, "epoch": 0.5489066666666667, "eta_time": 6.84004761414362, "step": 5146 }, { "epoch": 0.5490133333333334, "grad_norm": 1.756687091348436, "learning_rate": 4.450907770162758e-06, "loss": 0.4785, "step": 5147 }, { "avg_step_time": 5.857112634061563, "epoch": 0.5490133333333334, "eta_time": 6.878853393558969, "step": 5147 }, { "epoch": 0.54912, "grad_norm": 1.7684315423465546, "learning_rate": 4.449190772701857e-06, "loss": 0.397, "step": 5148 }, { "avg_step_time": 5.856281396114465, "epoch": 0.54912, "eta_time": 6.876250405937734, "step": 5148 }, { "epoch": 0.5492266666666666, "grad_norm": 1.6990566583179594, "learning_rate": 4.447473840989563e-06, "loss": 0.4269, "step": 5149 }, { "avg_step_time": 5.85074700249566, "epoch": 0.5492266666666666, "eta_time": 6.868126897929628, "step": 5149 }, { "epoch": 0.5493333333333333, "grad_norm": 1.8295733967390073, "learning_rate": 4.445756975230823e-06, "loss": 0.5168, "step": 5150 }, { "avg_step_time": 5.848547367134479, "epoch": 0.5493333333333333, "eta_time": 6.863920173928659, "step": 5150 }, { "epoch": 0.54944, "grad_norm": 1.6594337788924307, "learning_rate": 4.444040175630577e-06, "loss": 0.4248, "step": 5151 }, { "avg_step_time": 5.851897586475719, "epoch": 0.54944, "eta_time": 6.866226501464844, "step": 5151 }, { "epoch": 0.5495466666666666, "grad_norm": 0.6902284523794351, "learning_rate": 4.4423234423937474e-06, "loss": 0.4833, "step": 5152 }, { "avg_step_time": 5.818175226751, "epoch": 0.5495466666666666, "eta_time": 6.825042772935965, "step": 5152 }, { "epoch": 0.5496533333333333, "grad_norm": 1.617161313020566, "learning_rate": 4.440606775725265e-06, "loss": 0.394, "step": 5153 }, { "avg_step_time": 5.817634442839959, "epoch": 0.5496533333333333, "eta_time": 6.822792393797308, "step": 5153 }, { "epoch": 0.54976, "grad_norm": 1.7541366766475939, "learning_rate": 4.438890175830039e-06, "loss": 0.3937, "step": 5154 }, { "avg_step_time": 5.852434921746302, "epoch": 0.54976, "eta_time": 6.861979945747539, "step": 5154 }, { "epoch": 0.5498666666666666, "grad_norm": 1.7199841711379502, "learning_rate": 4.437173642912976e-06, "loss": 0.458, "step": 5155 }, { "avg_step_time": 5.854633822585598, "epoch": 0.5498666666666666, "eta_time": 6.862931869808673, "step": 5155 }, { "epoch": 0.5499733333333333, "grad_norm": 2.0824774721540527, "learning_rate": 4.435457177178972e-06, "loss": 0.5643, "step": 5156 }, { "avg_step_time": 5.851651902150626, "epoch": 0.5499733333333333, "eta_time": 6.857810937548192, "step": 5156 }, { "epoch": 0.55008, "grad_norm": 1.9137335241283884, "learning_rate": 4.433740778832919e-06, "loss": 0.5732, "step": 5157 }, { "avg_step_time": 5.848219777598525, "epoch": 0.55008, "eta_time": 6.852164172752939, "step": 5157 }, { "epoch": 0.5501866666666667, "grad_norm": 1.722468190356908, "learning_rate": 4.432024448079699e-06, "loss": 0.569, "step": 5158 }, { "avg_step_time": 5.840362440456044, "epoch": 0.5501866666666667, "eta_time": 6.841335669834205, "step": 5158 }, { "epoch": 0.5502933333333333, "grad_norm": 1.9964842386435118, "learning_rate": 4.430308185124187e-06, "loss": 0.5428, "step": 5159 }, { "avg_step_time": 5.839652574423588, "epoch": 0.5502933333333333, "eta_time": 6.838882014936069, "step": 5159 }, { "epoch": 0.5504, "grad_norm": 1.8398546310578106, "learning_rate": 4.428591990171246e-06, "loss": 0.5109, "step": 5160 }, { "avg_step_time": 5.802322907881304, "epoch": 0.5504, "eta_time": 6.793553071311027, "step": 5160 }, { "epoch": 0.5505066666666667, "grad_norm": 1.6766681607443272, "learning_rate": 4.426875863425733e-06, "loss": 0.478, "step": 5161 }, { "avg_step_time": 5.803351012143222, "epoch": 0.5505066666666667, "eta_time": 6.793144768103204, "step": 5161 }, { "epoch": 0.5506133333333333, "grad_norm": 2.0109704724250257, "learning_rate": 4.4251598050925e-06, "loss": 0.5424, "step": 5162 }, { "avg_step_time": 5.7841841259388005, "epoch": 0.5506133333333333, "eta_time": 6.769102145161158, "step": 5162 }, { "epoch": 0.55072, "grad_norm": 1.9324457728849873, "learning_rate": 4.423443815376387e-06, "loss": 0.5695, "step": 5163 }, { "avg_step_time": 5.758653643155339, "epoch": 0.55072, "eta_time": 6.7376247624917465, "step": 5163 }, { "epoch": 0.5508266666666667, "grad_norm": 1.6032354200173344, "learning_rate": 4.421727894482227e-06, "loss": 0.4833, "step": 5164 }, { "avg_step_time": 5.759210338496199, "epoch": 0.5508266666666667, "eta_time": 6.7366763153909694, "step": 5164 }, { "epoch": 0.5509333333333334, "grad_norm": 1.6122867984401577, "learning_rate": 4.420012042614847e-06, "loss": 0.4108, "step": 5165 }, { "avg_step_time": 5.785126994354556, "epoch": 0.5509333333333334, "eta_time": 6.765384623953523, "step": 5165 }, { "epoch": 0.55104, "grad_norm": 0.6736254610630776, "learning_rate": 4.41829625997906e-06, "loss": 0.4569, "step": 5166 }, { "avg_step_time": 5.751755509713684, "epoch": 0.55104, "eta_time": 6.724760816773582, "step": 5166 }, { "epoch": 0.5511466666666667, "grad_norm": 1.765805088293832, "learning_rate": 4.416580546779675e-06, "loss": 0.533, "step": 5167 }, { "avg_step_time": 5.749240429714472, "epoch": 0.5511466666666667, "eta_time": 6.720223257844028, "step": 5167 }, { "epoch": 0.5512533333333334, "grad_norm": 1.6903151631246314, "learning_rate": 4.414864903221493e-06, "loss": 0.4541, "step": 5168 }, { "avg_step_time": 5.786569966210259, "epoch": 0.5512533333333334, "eta_time": 6.762249957735157, "step": 5168 }, { "epoch": 0.55136, "grad_norm": 1.8832272579330598, "learning_rate": 4.413149329509307e-06, "loss": 0.5269, "step": 5169 }, { "avg_step_time": 5.809045346096308, "epoch": 0.55136, "eta_time": 6.786901312689187, "step": 5169 }, { "epoch": 0.5514666666666667, "grad_norm": 1.9597285511874227, "learning_rate": 4.4114338258478995e-06, "loss": 0.5141, "step": 5170 }, { "avg_step_time": 5.806342938933709, "epoch": 0.5514666666666667, "eta_time": 6.782131127282291, "step": 5170 }, { "epoch": 0.5515733333333334, "grad_norm": 1.8213049655583444, "learning_rate": 4.409718392442044e-06, "loss": 0.5021, "step": 5171 }, { "avg_step_time": 5.762492996273619, "epoch": 0.5515733333333334, "eta_time": 6.729311265648414, "step": 5171 }, { "epoch": 0.55168, "grad_norm": 1.597659158222635, "learning_rate": 4.4080030294965085e-06, "loss": 0.4667, "step": 5172 }, { "avg_step_time": 5.738121627557157, "epoch": 0.55168, "eta_time": 6.699257000172981, "step": 5172 }, { "epoch": 0.5517866666666666, "grad_norm": 1.9057665971889293, "learning_rate": 4.406287737216053e-06, "loss": 0.5564, "step": 5173 }, { "avg_step_time": 5.727009705822877, "epoch": 0.5517866666666666, "eta_time": 6.684692995518814, "step": 5173 }, { "epoch": 0.5518933333333333, "grad_norm": 1.610465170846607, "learning_rate": 4.404572515805424e-06, "loss": 0.475, "step": 5174 }, { "avg_step_time": 5.729815923806393, "epoch": 0.5518933333333333, "eta_time": 6.686376859975182, "step": 5174 }, { "epoch": 0.552, "grad_norm": 0.6548910568960563, "learning_rate": 4.402857365469364e-06, "loss": 0.4434, "step": 5175 }, { "avg_step_time": 5.699866530871151, "epoch": 0.552, "eta_time": 6.649844286016342, "step": 5175 }, { "epoch": 0.5521066666666666, "grad_norm": 1.5075767430450397, "learning_rate": 4.401142286412605e-06, "loss": 0.4822, "step": 5176 }, { "avg_step_time": 5.700658502000751, "epoch": 0.5521066666666666, "eta_time": 6.649184736083654, "step": 5176 }, { "epoch": 0.5522133333333333, "grad_norm": 1.8040113050451587, "learning_rate": 4.399427278839874e-06, "loss": 0.4691, "step": 5177 }, { "avg_step_time": 5.699561355089901, "epoch": 0.5522133333333333, "eta_time": 6.646321824629834, "step": 5177 }, { "epoch": 0.55232, "grad_norm": 1.788452517080467, "learning_rate": 4.397712342955885e-06, "loss": 0.4455, "step": 5178 }, { "avg_step_time": 5.699192271088108, "epoch": 0.55232, "eta_time": 6.644308322710219, "step": 5178 }, { "epoch": 0.5524266666666666, "grad_norm": 1.5593628066987981, "learning_rate": 4.395997478965347e-06, "loss": 0.533, "step": 5179 }, { "avg_step_time": 5.739429943489306, "epoch": 0.5524266666666666, "eta_time": 6.689624456355869, "step": 5179 }, { "epoch": 0.5525333333333333, "grad_norm": 1.8981279618359288, "learning_rate": 4.394282687072955e-06, "loss": 0.4659, "step": 5180 }, { "avg_step_time": 5.740660395285095, "epoch": 0.5525333333333333, "eta_time": 6.689463988394715, "step": 5180 }, { "epoch": 0.55264, "grad_norm": 1.7648495110989582, "learning_rate": 4.392567967483401e-06, "loss": 0.5419, "step": 5181 }, { "avg_step_time": 5.7380943635497434, "epoch": 0.55264, "eta_time": 6.684879933535451, "step": 5181 }, { "epoch": 0.5527466666666667, "grad_norm": 1.7506193641837031, "learning_rate": 4.390853320401367e-06, "loss": 0.4202, "step": 5182 }, { "avg_step_time": 5.739628428160542, "epoch": 0.5527466666666667, "eta_time": 6.685072777576988, "step": 5182 }, { "epoch": 0.5528533333333333, "grad_norm": 1.8873103362241617, "learning_rate": 4.389138746031526e-06, "loss": 0.4929, "step": 5183 }, { "avg_step_time": 5.765066036070236, "epoch": 0.5528533333333333, "eta_time": 6.713099117557341, "step": 5183 }, { "epoch": 0.55296, "grad_norm": 1.8656244209648825, "learning_rate": 4.387424244578543e-06, "loss": 0.5395, "step": 5184 }, { "avg_step_time": 5.808560703739976, "epoch": 0.55296, "eta_time": 6.7621327526039545, "step": 5184 }, { "epoch": 0.5530666666666667, "grad_norm": 1.7212369642392633, "learning_rate": 4.385709816247071e-06, "loss": 0.4423, "step": 5185 }, { "avg_step_time": 5.807227262342819, "epoch": 0.5530666666666667, "eta_time": 6.758967285893447, "step": 5185 }, { "epoch": 0.5531733333333333, "grad_norm": 1.6976396649666328, "learning_rate": 4.383995461241755e-06, "loss": 0.4588, "step": 5186 }, { "avg_step_time": 5.708463367789682, "epoch": 0.5531733333333333, "eta_time": 6.6424314021308275, "step": 5186 }, { "epoch": 0.55328, "grad_norm": 1.7897095271723051, "learning_rate": 4.38228117976724e-06, "loss": 0.4692, "step": 5187 }, { "avg_step_time": 5.709827338806306, "epoch": 0.55328, "eta_time": 6.642432470811336, "step": 5187 }, { "epoch": 0.5533866666666667, "grad_norm": 1.646186754050416, "learning_rate": 4.380566972028149e-06, "loss": 0.4599, "step": 5188 }, { "avg_step_time": 5.708114479527329, "epoch": 0.5533866666666667, "eta_time": 6.638854257161368, "step": 5188 }, { "epoch": 0.5534933333333333, "grad_norm": 1.9204493202066582, "learning_rate": 4.378852838229104e-06, "loss": 0.4947, "step": 5189 }, { "avg_step_time": 5.706188779888731, "epoch": 0.5534933333333333, "eta_time": 6.635029509059509, "step": 5189 }, { "epoch": 0.5536, "grad_norm": 1.716025516004005, "learning_rate": 4.377138778574716e-06, "loss": 0.5143, "step": 5190 }, { "avg_step_time": 5.7430826341262975, "epoch": 0.5536, "eta_time": 6.676333562171821, "step": 5190 }, { "epoch": 0.5537066666666667, "grad_norm": 1.7837957476952078, "learning_rate": 4.375424793269588e-06, "loss": 0.4709, "step": 5191 }, { "avg_step_time": 5.750337730754506, "epoch": 0.5537066666666667, "eta_time": 6.683170295965792, "step": 5191 }, { "epoch": 0.5538133333333334, "grad_norm": 1.9196376777493982, "learning_rate": 4.373710882518314e-06, "loss": 0.5222, "step": 5192 }, { "avg_step_time": 5.7485093901855775, "epoch": 0.5538133333333334, "eta_time": 6.679448549762853, "step": 5192 }, { "epoch": 0.55392, "grad_norm": 1.825925259779766, "learning_rate": 4.371997046525481e-06, "loss": 0.5196, "step": 5193 }, { "avg_step_time": 5.750386389819059, "epoch": 0.55392, "eta_time": 6.680032189506473, "step": 5193 }, { "epoch": 0.5540266666666667, "grad_norm": 2.145598258190166, "learning_rate": 4.370283285495662e-06, "loss": 0.4696, "step": 5194 }, { "avg_step_time": 5.752950637027471, "epoch": 0.5540266666666667, "eta_time": 6.681412948169959, "step": 5194 }, { "epoch": 0.5541333333333334, "grad_norm": 1.8212224672155972, "learning_rate": 4.368569599633425e-06, "loss": 0.4335, "step": 5195 }, { "avg_step_time": 5.7570000080147175, "epoch": 0.5541333333333334, "eta_time": 6.684516675972644, "step": 5195 }, { "epoch": 0.55424, "grad_norm": 0.6490275999918675, "learning_rate": 4.366855989143326e-06, "loss": 0.4481, "step": 5196 }, { "avg_step_time": 5.713278755997166, "epoch": 0.55424, "eta_time": 6.63216442258671, "step": 5196 }, { "epoch": 0.5543466666666667, "grad_norm": 1.807819626087995, "learning_rate": 4.365142454229918e-06, "loss": 0.4973, "step": 5197 }, { "avg_step_time": 5.7128152582380505, "epoch": 0.5543466666666667, "eta_time": 6.630039485810715, "step": 5197 }, { "epoch": 0.5544533333333334, "grad_norm": 1.866089737007458, "learning_rate": 4.363428995097741e-06, "loss": 0.4531, "step": 5198 }, { "avg_step_time": 5.817165615582707, "epoch": 0.5544533333333334, "eta_time": 6.749527993413602, "step": 5198 }, { "epoch": 0.55456, "grad_norm": 1.707908441872813, "learning_rate": 4.3617156119513206e-06, "loss": 0.4962, "step": 5199 }, { "avg_step_time": 5.819264305962457, "epoch": 0.55456, "eta_time": 6.75034659491645, "step": 5199 }, { "epoch": 0.5546666666666666, "grad_norm": 1.5062742378055054, "learning_rate": 4.360002304995184e-06, "loss": 0.4306, "step": 5200 }, { "avg_step_time": 5.817303525076972, "epoch": 0.5546666666666666, "eta_time": 6.746456171443433, "step": 5200 }, { "epoch": 0.5547733333333333, "grad_norm": 0.6239940860249541, "learning_rate": 4.35828907443384e-06, "loss": 0.4227, "step": 5201 }, { "avg_step_time": 5.786725684849903, "epoch": 0.5547733333333333, "eta_time": 6.709386946823193, "step": 5201 }, { "epoch": 0.55488, "grad_norm": 1.7923406465894227, "learning_rate": 4.356575920471796e-06, "loss": 0.4876, "step": 5202 }, { "avg_step_time": 5.758351162226513, "epoch": 0.55488, "eta_time": 6.6748887222142335, "step": 5202 }, { "epoch": 0.5549866666666666, "grad_norm": 1.767688558333168, "learning_rate": 4.354862843313547e-06, "loss": 0.4656, "step": 5203 }, { "avg_step_time": 5.757349096163355, "epoch": 0.5549866666666666, "eta_time": 6.6721278969982, "step": 5203 }, { "epoch": 0.5550933333333333, "grad_norm": 2.0739496737282757, "learning_rate": 4.353149843163575e-06, "loss": 0.5164, "step": 5204 }, { "avg_step_time": 5.753812765834307, "epoch": 0.5550933333333333, "eta_time": 6.666431401748581, "step": 5204 }, { "epoch": 0.5552, "grad_norm": 1.8200457638347416, "learning_rate": 4.351436920226357e-06, "loss": 0.5183, "step": 5205 }, { "avg_step_time": 5.756199099800804, "epoch": 0.5552, "eta_time": 6.667597290602597, "step": 5205 }, { "epoch": 0.5553066666666666, "grad_norm": 1.9109614385976528, "learning_rate": 4.34972407470636e-06, "loss": 0.5218, "step": 5206 }, { "avg_step_time": 5.754284870744955, "epoch": 0.5553066666666666, "eta_time": 6.663781562815478, "step": 5206 }, { "epoch": 0.5554133333333333, "grad_norm": 0.6581243117505408, "learning_rate": 4.348011306808044e-06, "loss": 0.4332, "step": 5207 }, { "avg_step_time": 5.717227856318156, "epoch": 0.5554133333333333, "eta_time": 6.6192793625372435, "step": 5207 }, { "epoch": 0.55552, "grad_norm": 0.6247558810001704, "learning_rate": 4.346298616735855e-06, "loss": 0.4311, "step": 5208 }, { "avg_step_time": 5.673381005874788, "epoch": 0.55552, "eta_time": 6.566938514300067, "step": 5208 }, { "epoch": 0.5556266666666667, "grad_norm": 1.9753232568764159, "learning_rate": 4.344586004694234e-06, "loss": 0.4101, "step": 5209 }, { "avg_step_time": 5.671174480457498, "epoch": 0.5556266666666667, "eta_time": 6.562809134884983, "step": 5209 }, { "epoch": 0.5557333333333333, "grad_norm": 1.948203768705028, "learning_rate": 4.342873470887609e-06, "loss": 0.5415, "step": 5210 }, { "avg_step_time": 5.704458624425561, "epoch": 0.5557333333333333, "eta_time": 6.59974171409235, "step": 5210 }, { "epoch": 0.55584, "grad_norm": 1.7980664991456612, "learning_rate": 4.3411610155204e-06, "loss": 0.4709, "step": 5211 }, { "avg_step_time": 5.709294287845342, "epoch": 0.55584, "eta_time": 6.603750392941112, "step": 5211 }, { "epoch": 0.5559466666666667, "grad_norm": 2.006726801577701, "learning_rate": 4.339448638797022e-06, "loss": 0.5169, "step": 5212 }, { "avg_step_time": 5.708141134242819, "epoch": 0.5559466666666667, "eta_time": 6.600830983848015, "step": 5212 }, { "epoch": 0.5560533333333333, "grad_norm": 1.8516181611159706, "learning_rate": 4.337736340921874e-06, "loss": 0.4773, "step": 5213 }, { "avg_step_time": 5.707572537239152, "epoch": 0.5560533333333333, "eta_time": 6.598588027774819, "step": 5213 }, { "epoch": 0.55616, "grad_norm": 1.8242485453035104, "learning_rate": 4.336024122099348e-06, "loss": 0.4571, "step": 5214 }, { "avg_step_time": 5.671780150346081, "epoch": 0.55616, "eta_time": 6.555632557108346, "step": 5214 }, { "epoch": 0.5562666666666667, "grad_norm": 1.9020722187626333, "learning_rate": 4.334311982533827e-06, "loss": 0.4917, "step": 5215 }, { "avg_step_time": 5.674962997436523, "epoch": 0.5562666666666667, "eta_time": 6.557735019259983, "step": 5215 }, { "epoch": 0.5563733333333334, "grad_norm": 0.6352710099834397, "learning_rate": 4.3325999224296864e-06, "loss": 0.4462, "step": 5216 }, { "avg_step_time": 5.676074935932352, "epoch": 0.5563733333333334, "eta_time": 6.55744323848407, "step": 5216 }, { "epoch": 0.55648, "grad_norm": 1.957661033971559, "learning_rate": 4.330887941991288e-06, "loss": 0.575, "step": 5217 }, { "avg_step_time": 5.671081750079839, "epoch": 0.55648, "eta_time": 6.550099421342214, "step": 5217 }, { "epoch": 0.5565866666666667, "grad_norm": 1.61061041687358, "learning_rate": 4.32917604142299e-06, "loss": 0.4936, "step": 5218 }, { "avg_step_time": 5.672940535978838, "epoch": 0.5565866666666667, "eta_time": 6.550670502240008, "step": 5218 }, { "epoch": 0.5566933333333334, "grad_norm": 1.6084304565316299, "learning_rate": 4.327464220929132e-06, "loss": 0.4852, "step": 5219 }, { "avg_step_time": 5.673615282232111, "epoch": 0.5566933333333334, "eta_time": 6.54987364248796, "step": 5219 }, { "epoch": 0.5568, "grad_norm": 2.058184617433424, "learning_rate": 4.325752480714052e-06, "loss": 0.6062, "step": 5220 }, { "avg_step_time": 5.653316278650303, "epoch": 0.5568, "eta_time": 6.524869204942224, "step": 5220 }, { "epoch": 0.5569066666666667, "grad_norm": 0.6712905761438994, "learning_rate": 4.324040820982076e-06, "loss": 0.4524, "step": 5221 }, { "avg_step_time": 5.629034104973379, "epoch": 0.5569066666666667, "eta_time": 6.4952799089053945, "step": 5221 }, { "epoch": 0.5570133333333334, "grad_norm": 1.8224308174371737, "learning_rate": 4.3223292419375196e-06, "loss": 0.4927, "step": 5222 }, { "avg_step_time": 5.626738406190968, "epoch": 0.5570133333333334, "eta_time": 6.491067944697526, "step": 5222 }, { "epoch": 0.55712, "grad_norm": 1.9522115301198597, "learning_rate": 4.320617743784691e-06, "loss": 0.5026, "step": 5223 }, { "avg_step_time": 5.595004792165274, "epoch": 0.55712, "eta_time": 6.452905526963949, "step": 5223 }, { "epoch": 0.5572266666666666, "grad_norm": 1.971553309195286, "learning_rate": 4.318906326727886e-06, "loss": 0.4288, "step": 5224 }, { "avg_step_time": 5.590734433646154, "epoch": 0.5572266666666666, "eta_time": 6.44642739835144, "step": 5224 }, { "epoch": 0.5573333333333333, "grad_norm": 1.823001284450471, "learning_rate": 4.317194990971388e-06, "loss": 0.5002, "step": 5225 }, { "avg_step_time": 5.627588854895698, "epoch": 0.5573333333333333, "eta_time": 6.487359374393652, "step": 5225 }, { "epoch": 0.55744, "grad_norm": 1.6780108385745274, "learning_rate": 4.315483736719482e-06, "loss": 0.5067, "step": 5226 }, { "avg_step_time": 5.629591188045463, "epoch": 0.55744, "eta_time": 6.488103844222397, "step": 5226 }, { "epoch": 0.5575466666666666, "grad_norm": 1.8827137133964185, "learning_rate": 4.313772564176431e-06, "loss": 0.4896, "step": 5227 }, { "avg_step_time": 5.748302286321467, "epoch": 0.5575466666666666, "eta_time": 6.623321634350401, "step": 5227 }, { "epoch": 0.5576533333333333, "grad_norm": 1.701979308052241, "learning_rate": 4.312061473546494e-06, "loss": 0.4741, "step": 5228 }, { "avg_step_time": 5.745643331546976, "epoch": 0.5576533333333333, "eta_time": 6.618661915534808, "step": 5228 }, { "epoch": 0.55776, "grad_norm": 1.7397329346141606, "learning_rate": 4.310350465033919e-06, "loss": 0.5011, "step": 5229 }, { "avg_step_time": 5.730214140631936, "epoch": 0.55776, "eta_time": 6.599296618627779, "step": 5229 }, { "epoch": 0.5578666666666666, "grad_norm": 1.7586437825520556, "learning_rate": 4.308639538842943e-06, "loss": 0.461, "step": 5230 }, { "avg_step_time": 5.735715302554044, "epoch": 0.5578666666666666, "eta_time": 6.604038869190698, "step": 5230 }, { "epoch": 0.5579733333333333, "grad_norm": 1.8568524404748155, "learning_rate": 4.306928695177799e-06, "loss": 0.4474, "step": 5231 }, { "avg_step_time": 5.735667479158652, "epoch": 0.5579733333333333, "eta_time": 6.602390564898181, "step": 5231 }, { "epoch": 0.55808, "grad_norm": 1.8238740384789105, "learning_rate": 4.305217934242703e-06, "loss": 0.4886, "step": 5232 }, { "avg_step_time": 5.737271754428594, "epoch": 0.55808, "eta_time": 6.60264357738824, "step": 5232 }, { "epoch": 0.5581866666666667, "grad_norm": 1.692563014292949, "learning_rate": 4.303507256241863e-06, "loss": 0.4629, "step": 5233 }, { "avg_step_time": 5.731518921225962, "epoch": 0.5581866666666667, "eta_time": 6.5944309365883145, "step": 5233 }, { "epoch": 0.5582933333333333, "grad_norm": 2.649170505712972, "learning_rate": 4.30179666137948e-06, "loss": 0.5514, "step": 5234 }, { "avg_step_time": 5.729170440423368, "epoch": 0.5582933333333333, "eta_time": 6.590137442720324, "step": 5234 }, { "epoch": 0.5584, "grad_norm": 1.4796948615058527, "learning_rate": 4.30008614985974e-06, "loss": 0.448, "step": 5235 }, { "avg_step_time": 5.761718983602042, "epoch": 0.5584, "eta_time": 6.625976831142348, "step": 5235 }, { "epoch": 0.5585066666666667, "grad_norm": 1.8168397310347821, "learning_rate": 4.298375721886826e-06, "loss": 0.486, "step": 5236 }, { "avg_step_time": 5.7618238901851155, "epoch": 0.5585066666666667, "eta_time": 6.624496967076721, "step": 5236 }, { "epoch": 0.5586133333333333, "grad_norm": 1.7743571266388283, "learning_rate": 4.2966653776649056e-06, "loss": 0.5142, "step": 5237 }, { "avg_step_time": 5.759672270880805, "epoch": 0.5586133333333333, "eta_time": 6.620423293584659, "step": 5237 }, { "epoch": 0.55872, "grad_norm": 1.7520780351941379, "learning_rate": 4.294955117398139e-06, "loss": 0.4653, "step": 5238 }, { "avg_step_time": 5.756351256611372, "epoch": 0.55872, "eta_time": 6.615006985722569, "step": 5238 }, { "epoch": 0.5588266666666667, "grad_norm": 1.6167751867417848, "learning_rate": 4.293244941290672e-06, "loss": 0.4197, "step": 5239 }, { "avg_step_time": 5.758955808600994, "epoch": 0.5588266666666667, "eta_time": 6.616400340103809, "step": 5239 }, { "epoch": 0.5589333333333333, "grad_norm": 1.8937987850681874, "learning_rate": 4.2915348495466454e-06, "loss": 0.525, "step": 5240 }, { "avg_step_time": 5.7519054942660865, "epoch": 0.5589333333333333, "eta_time": 6.606702560775075, "step": 5240 }, { "epoch": 0.55904, "grad_norm": 2.215444295357681, "learning_rate": 4.28982484237019e-06, "loss": 0.5442, "step": 5241 }, { "avg_step_time": 5.749509190068101, "epoch": 0.55904, "eta_time": 6.6023530532615355, "step": 5241 }, { "epoch": 0.5591466666666667, "grad_norm": 1.8310826629865764, "learning_rate": 4.288114919965423e-06, "loss": 0.5379, "step": 5242 }, { "avg_step_time": 5.74912675221761, "epoch": 0.5591466666666667, "eta_time": 6.600316907476495, "step": 5242 }, { "epoch": 0.5592533333333334, "grad_norm": 0.6249715672786337, "learning_rate": 4.286405082536455e-06, "loss": 0.4532, "step": 5243 }, { "avg_step_time": 5.768671553544324, "epoch": 0.5592533333333334, "eta_time": 6.621153016456985, "step": 5243 }, { "epoch": 0.55936, "grad_norm": 1.740225937722015, "learning_rate": 4.284695330287383e-06, "loss": 0.5227, "step": 5244 }, { "avg_step_time": 5.78121356530623, "epoch": 0.55936, "eta_time": 6.6339425661888995, "step": 5244 }, { "epoch": 0.5594666666666667, "grad_norm": 1.8094449835820654, "learning_rate": 4.282985663422292e-06, "loss": 0.5237, "step": 5245 }, { "avg_step_time": 5.785037493464922, "epoch": 0.5594666666666667, "eta_time": 6.636723568891703, "step": 5245 }, { "epoch": 0.5595733333333334, "grad_norm": 1.842422155002838, "learning_rate": 4.281276082145268e-06, "loss": 0.4583, "step": 5246 }, { "avg_step_time": 5.780107912391123, "epoch": 0.5595733333333334, "eta_time": 6.629462658406373, "step": 5246 }, { "epoch": 0.55968, "grad_norm": 1.7567143542863422, "learning_rate": 4.279566586660375e-06, "loss": 0.4834, "step": 5247 }, { "avg_step_time": 5.778761861300228, "epoch": 0.55968, "eta_time": 6.626313600957595, "step": 5247 }, { "epoch": 0.5597866666666667, "grad_norm": 1.8021684878838053, "learning_rate": 4.27785717717167e-06, "loss": 0.4968, "step": 5248 }, { "avg_step_time": 5.779961802742698, "epoch": 0.5597866666666667, "eta_time": 6.626083988866421, "step": 5248 }, { "epoch": 0.5598933333333334, "grad_norm": 1.798834690622014, "learning_rate": 4.276147853883203e-06, "loss": 0.4649, "step": 5249 }, { "avg_step_time": 5.779645686197763, "epoch": 0.5598933333333334, "eta_time": 6.6241161392366585, "step": 5249 }, { "epoch": 0.56, "grad_norm": 1.6748225572741107, "learning_rate": 4.274438616999007e-06, "loss": 0.5132, "step": 5250 }, { "avg_step_time": 5.770587810362228, "epoch": 0.56, "eta_time": 6.612131866040053, "step": 5250 }, { "epoch": 0.5601066666666666, "grad_norm": 1.9533540420029478, "learning_rate": 4.272729466723114e-06, "loss": 0.4651, "step": 5251 }, { "avg_step_time": 5.805208338631524, "epoch": 0.5601066666666666, "eta_time": 6.650188663476779, "step": 5251 }, { "epoch": 0.5602133333333333, "grad_norm": 1.7655109515518534, "learning_rate": 4.271020403259539e-06, "loss": 0.4667, "step": 5252 }, { "avg_step_time": 5.811522792084048, "epoch": 0.5602133333333333, "eta_time": 6.655807908822925, "step": 5252 }, { "epoch": 0.56032, "grad_norm": 1.7895325867375895, "learning_rate": 4.269311426812287e-06, "loss": 0.4612, "step": 5253 }, { "avg_step_time": 5.811622333044958, "epoch": 0.56032, "eta_time": 6.654307571336477, "step": 5253 }, { "epoch": 0.5604266666666666, "grad_norm": 0.6143380739838168, "learning_rate": 4.2676025375853555e-06, "loss": 0.4281, "step": 5254 }, { "avg_step_time": 5.778471816669811, "epoch": 0.5604266666666666, "eta_time": 6.614745099026747, "step": 5254 }, { "epoch": 0.5605333333333333, "grad_norm": 1.9769815333190186, "learning_rate": 4.265893735782729e-06, "loss": 0.4713, "step": 5255 }, { "avg_step_time": 5.782024566573326, "epoch": 0.5605333333333333, "eta_time": 6.6172058928561395, "step": 5255 }, { "epoch": 0.56064, "grad_norm": 1.7797087746264248, "learning_rate": 4.264185021608382e-06, "loss": 0.4933, "step": 5256 }, { "avg_step_time": 5.781677308708731, "epoch": 0.56064, "eta_time": 6.615202454047573, "step": 5256 }, { "epoch": 0.5607466666666666, "grad_norm": 0.6884899323585392, "learning_rate": 4.262476395266282e-06, "loss": 0.4543, "step": 5257 }, { "avg_step_time": 5.7479577979656185, "epoch": 0.5607466666666666, "eta_time": 6.575025058895116, "step": 5257 }, { "epoch": 0.5608533333333333, "grad_norm": 2.0207764085993993, "learning_rate": 4.26076785696038e-06, "loss": 0.468, "step": 5258 }, { "avg_step_time": 5.746394256148675, "epoch": 0.5608533333333333, "eta_time": 6.5716403201566935, "step": 5258 }, { "epoch": 0.56096, "grad_norm": 2.1039331799421883, "learning_rate": 4.259059406894619e-06, "loss": 0.5494, "step": 5259 }, { "avg_step_time": 5.746815493612578, "epoch": 0.56096, "eta_time": 6.570525714363715, "step": 5259 }, { "epoch": 0.5610666666666667, "grad_norm": 1.8396332819862802, "learning_rate": 4.257351045272935e-06, "loss": 0.5151, "step": 5260 }, { "avg_step_time": 5.745792798321657, "epoch": 0.5610666666666667, "eta_time": 6.567760379192672, "step": 5260 }, { "epoch": 0.5611733333333333, "grad_norm": 1.7451378946044194, "learning_rate": 4.255642772299249e-06, "loss": 0.4553, "step": 5261 }, { "avg_step_time": 5.743881307467066, "epoch": 0.5611733333333333, "eta_time": 6.563979916366531, "step": 5261 }, { "epoch": 0.56128, "grad_norm": 1.7315340059333049, "learning_rate": 4.253934588177473e-06, "loss": 0.5047, "step": 5262 }, { "avg_step_time": 5.743549980298437, "epoch": 0.56128, "eta_time": 6.562005852490964, "step": 5262 }, { "epoch": 0.5613866666666667, "grad_norm": 0.6470386846762857, "learning_rate": 4.25222649311151e-06, "loss": 0.4231, "step": 5263 }, { "avg_step_time": 5.709867043928667, "epoch": 0.5613866666666667, "eta_time": 6.521937023509633, "step": 5263 }, { "epoch": 0.5614933333333333, "grad_norm": 0.6408517602199661, "learning_rate": 4.250518487305246e-06, "loss": 0.4614, "step": 5264 }, { "avg_step_time": 5.6472714404867155, "epoch": 0.5614933333333333, "eta_time": 6.44887024773358, "step": 5264 }, { "epoch": 0.5616, "grad_norm": 1.9282788870979883, "learning_rate": 4.248810570962567e-06, "loss": 0.4696, "step": 5265 }, { "avg_step_time": 5.750695129837653, "epoch": 0.5616, "eta_time": 6.5653769398979875, "step": 5265 }, { "epoch": 0.5617066666666667, "grad_norm": 0.6628825952023969, "learning_rate": 4.247102744287338e-06, "loss": 0.45, "step": 5266 }, { "avg_step_time": 5.717747596779255, "epoch": 0.5617066666666667, "eta_time": 6.526173576434988, "step": 5266 }, { "epoch": 0.5618133333333334, "grad_norm": 1.8009329194739385, "learning_rate": 4.245395007483421e-06, "loss": 0.4746, "step": 5267 }, { "avg_step_time": 5.7144149457565465, "epoch": 0.5618133333333334, "eta_time": 6.520782388102193, "step": 5267 }, { "epoch": 0.56192, "grad_norm": 1.6305746497779066, "learning_rate": 4.24368736075466e-06, "loss": 0.4328, "step": 5268 }, { "avg_step_time": 5.690118589786568, "epoch": 0.56192, "eta_time": 6.491476957848176, "step": 5268 }, { "epoch": 0.5620266666666667, "grad_norm": 2.1439791384747555, "learning_rate": 4.241979804304894e-06, "loss": 0.4741, "step": 5269 }, { "avg_step_time": 5.684600189478711, "epoch": 0.5620266666666667, "eta_time": 6.4836023272221075, "step": 5269 }, { "epoch": 0.5621333333333334, "grad_norm": 2.244558564629208, "learning_rate": 4.240272338337951e-06, "loss": 0.49, "step": 5270 }, { "avg_step_time": 5.67901810491928, "epoch": 0.5621333333333334, "eta_time": 6.475658144637124, "step": 5270 }, { "epoch": 0.56224, "grad_norm": 1.640979209183881, "learning_rate": 4.238564963057646e-06, "loss": 0.4707, "step": 5271 }, { "avg_step_time": 5.67891875421158, "epoch": 0.56224, "eta_time": 6.473967379801201, "step": 5271 }, { "epoch": 0.5623466666666667, "grad_norm": 0.6398644192531612, "learning_rate": 4.236857678667782e-06, "loss": 0.4479, "step": 5272 }, { "avg_step_time": 5.644441732252487, "epoch": 0.5623466666666667, "eta_time": 6.433095674286654, "step": 5272 }, { "epoch": 0.5624533333333334, "grad_norm": 1.401885490578745, "learning_rate": 4.2351504853721545e-06, "loss": 0.454, "step": 5273 }, { "avg_step_time": 5.640784600768426, "epoch": 0.5624533333333334, "eta_time": 6.427360675653357, "step": 5273 }, { "epoch": 0.56256, "grad_norm": 1.762460983058254, "learning_rate": 4.233443383374545e-06, "loss": 0.4423, "step": 5274 }, { "avg_step_time": 5.673603110843235, "epoch": 0.56256, "eta_time": 6.463179543768919, "step": 5274 }, { "epoch": 0.5626666666666666, "grad_norm": 2.0445456939872924, "learning_rate": 4.231736372878726e-06, "loss": 0.4607, "step": 5275 }, { "avg_step_time": 5.672107366600422, "epoch": 0.5626666666666666, "eta_time": 6.459900056406036, "step": 5275 }, { "epoch": 0.5627733333333333, "grad_norm": 1.6336011793663034, "learning_rate": 4.230029454088461e-06, "loss": 0.4422, "step": 5276 }, { "avg_step_time": 5.67068719141411, "epoch": 0.5627733333333333, "eta_time": 6.456707443779566, "step": 5276 }, { "epoch": 0.56288, "grad_norm": 1.8296066138531752, "learning_rate": 4.228322627207499e-06, "loss": 0.4602, "step": 5277 }, { "avg_step_time": 5.668745500872833, "epoch": 0.56288, "eta_time": 6.452921961826909, "step": 5277 }, { "epoch": 0.5629866666666666, "grad_norm": 1.942307357796919, "learning_rate": 4.2266158924395796e-06, "loss": 0.452, "step": 5278 }, { "avg_step_time": 5.664170036412249, "epoch": 0.5629866666666666, "eta_time": 6.446140177550273, "step": 5278 }, { "epoch": 0.5630933333333333, "grad_norm": 1.8318320159151649, "learning_rate": 4.224909249988427e-06, "loss": 0.4127, "step": 5279 }, { "avg_step_time": 5.663888750654278, "epoch": 0.5630933333333333, "eta_time": 6.444246756299979, "step": 5279 }, { "epoch": 0.5632, "grad_norm": 2.0259258512198213, "learning_rate": 4.223202700057765e-06, "loss": 0.529, "step": 5280 }, { "avg_step_time": 5.664837093064279, "epoch": 0.5632, "eta_time": 6.443752193360618, "step": 5280 }, { "epoch": 0.5633066666666666, "grad_norm": 0.6541788620468065, "learning_rate": 4.221496242851296e-06, "loss": 0.43, "step": 5281 }, { "avg_step_time": 5.628474312599259, "epoch": 0.5633066666666666, "eta_time": 6.400826065494824, "step": 5281 }, { "epoch": 0.5634133333333333, "grad_norm": 1.3101917021073175, "learning_rate": 4.219789878572717e-06, "loss": 0.4188, "step": 5282 }, { "avg_step_time": 5.59379559815532, "epoch": 0.5634133333333333, "eta_time": 6.35983482868048, "step": 5282 }, { "epoch": 0.56352, "grad_norm": 1.9633817844667711, "learning_rate": 4.21808360742571e-06, "loss": 0.4806, "step": 5283 }, { "avg_step_time": 5.65438309582797, "epoch": 0.56352, "eta_time": 6.427148785591125, "step": 5283 }, { "epoch": 0.5636266666666667, "grad_norm": 1.6708058181781043, "learning_rate": 4.2163774296139474e-06, "loss": 0.4557, "step": 5284 }, { "avg_step_time": 5.652494452216408, "epoch": 0.5636266666666667, "eta_time": 6.423431890004813, "step": 5284 }, { "epoch": 0.5637333333333333, "grad_norm": 1.7861958692897981, "learning_rate": 4.214671345341096e-06, "loss": 0.5215, "step": 5285 }, { "avg_step_time": 5.667706713531956, "epoch": 0.5637333333333333, "eta_time": 6.439144571762695, "step": 5285 }, { "epoch": 0.56384, "grad_norm": 0.6371014167651801, "learning_rate": 4.212965354810802e-06, "loss": 0.4612, "step": 5286 }, { "avg_step_time": 5.631375088836208, "epoch": 0.56384, "eta_time": 6.396303538403126, "step": 5286 }, { "epoch": 0.5639466666666667, "grad_norm": 0.663902254068992, "learning_rate": 4.211259458226706e-06, "loss": 0.4361, "step": 5287 }, { "avg_step_time": 5.6008042253629124, "epoch": 0.5639466666666667, "eta_time": 6.360024353689885, "step": 5287 }, { "epoch": 0.5640533333333333, "grad_norm": 1.7127576005955614, "learning_rate": 4.209553655792436e-06, "loss": 0.4598, "step": 5288 }, { "avg_step_time": 5.612981618052781, "epoch": 0.5640533333333333, "eta_time": 6.372293298050477, "step": 5288 }, { "epoch": 0.56416, "grad_norm": 1.9136117523807572, "learning_rate": 4.207847947711609e-06, "loss": 0.5618, "step": 5289 }, { "avg_step_time": 5.618548735223635, "epoch": 0.56416, "eta_time": 6.3770528144788265, "step": 5289 }, { "epoch": 0.5642666666666667, "grad_norm": 2.002998086688145, "learning_rate": 4.206142334187832e-06, "loss": 0.554, "step": 5290 }, { "avg_step_time": 5.610130353407427, "epoch": 0.5642666666666667, "eta_time": 6.365939581574816, "step": 5290 }, { "epoch": 0.5643733333333333, "grad_norm": 1.8461446340929046, "learning_rate": 4.204436815424699e-06, "loss": 0.5074, "step": 5291 }, { "avg_step_time": 5.615098955655339, "epoch": 0.5643733333333333, "eta_time": 6.370017815249001, "step": 5291 }, { "epoch": 0.56448, "grad_norm": 0.642686027119575, "learning_rate": 4.202731391625793e-06, "loss": 0.4582, "step": 5292 }, { "avg_step_time": 5.602026409573025, "epoch": 0.56448, "eta_time": 6.353631619524072, "step": 5292 }, { "epoch": 0.5645866666666667, "grad_norm": 1.786101033646903, "learning_rate": 4.201026062994684e-06, "loss": 0.4809, "step": 5293 }, { "avg_step_time": 5.602014348964499, "epoch": 0.5645866666666667, "eta_time": 6.352061825686968, "step": 5293 }, { "epoch": 0.5646933333333334, "grad_norm": 1.8134651083424909, "learning_rate": 4.199320829734934e-06, "loss": 0.4927, "step": 5294 }, { "avg_step_time": 5.603450652324792, "epoch": 0.5646933333333334, "eta_time": 6.352133920038188, "step": 5294 }, { "epoch": 0.5648, "grad_norm": 1.9243598238430846, "learning_rate": 4.1976156920500935e-06, "loss": 0.434, "step": 5295 }, { "avg_step_time": 5.644340883601796, "epoch": 0.5648, "eta_time": 6.396919668082035, "step": 5295 }, { "epoch": 0.5649066666666667, "grad_norm": 0.6492812411093475, "learning_rate": 4.1959106501436985e-06, "loss": 0.4443, "step": 5296 }, { "avg_step_time": 5.610783227766403, "epoch": 0.5649066666666667, "eta_time": 6.357329107238654, "step": 5296 }, { "epoch": 0.5650133333333334, "grad_norm": 2.2197524181667907, "learning_rate": 4.194205704219276e-06, "loss": 0.6429, "step": 5297 }, { "avg_step_time": 5.506036267136082, "epoch": 0.5650133333333334, "eta_time": 6.237115527050262, "step": 5297 }, { "epoch": 0.56512, "grad_norm": 1.4444633186995146, "learning_rate": 4.19250085448034e-06, "loss": 0.4093, "step": 5298 }, { "avg_step_time": 5.501598078795154, "epoch": 0.56512, "eta_time": 6.230559824235511, "step": 5298 }, { "epoch": 0.5652266666666667, "grad_norm": 2.036400981871531, "learning_rate": 4.190796101130392e-06, "loss": 0.5554, "step": 5299 }, { "avg_step_time": 5.50417955716451, "epoch": 0.5652266666666667, "eta_time": 6.231954409722928, "step": 5299 }, { "epoch": 0.5653333333333334, "grad_norm": 1.932426433426067, "learning_rate": 4.189091444372928e-06, "loss": 0.5109, "step": 5300 }, { "avg_step_time": 5.532320179120458, "epoch": 0.5653333333333334, "eta_time": 6.262279091643297, "step": 5300 }, { "epoch": 0.56544, "grad_norm": 1.8034638700454253, "learning_rate": 4.187386884411426e-06, "loss": 0.561, "step": 5301 }, { "avg_step_time": 5.532651773606888, "epoch": 0.56544, "eta_time": 6.261117590465128, "step": 5301 }, { "epoch": 0.5655466666666666, "grad_norm": 1.7632597121318019, "learning_rate": 4.185682421449356e-06, "loss": 0.4513, "step": 5302 }, { "avg_step_time": 5.550130916364266, "epoch": 0.5655466666666666, "eta_time": 6.279356450653237, "step": 5302 }, { "epoch": 0.5656533333333333, "grad_norm": 2.056922130661601, "learning_rate": 4.1839780556901716e-06, "loss": 0.4889, "step": 5303 }, { "avg_step_time": 5.5705314573615485, "epoch": 0.5656533333333333, "eta_time": 6.300890026215618, "step": 5303 }, { "epoch": 0.56576, "grad_norm": 1.8287167293895479, "learning_rate": 4.182273787337323e-06, "loss": 0.5165, "step": 5304 }, { "avg_step_time": 5.569660822550456, "epoch": 0.56576, "eta_time": 6.298358113500807, "step": 5304 }, { "epoch": 0.5658666666666666, "grad_norm": 1.7443600920661488, "learning_rate": 4.180569616594242e-06, "loss": 0.5307, "step": 5305 }, { "avg_step_time": 5.576257231259587, "epoch": 0.5658666666666666, "eta_time": 6.304268592007366, "step": 5305 }, { "epoch": 0.5659733333333333, "grad_norm": 2.287074576096073, "learning_rate": 4.17886554366435e-06, "loss": 0.6301, "step": 5306 }, { "avg_step_time": 5.639837361345387, "epoch": 0.5659733333333333, "eta_time": 6.37458283980955, "step": 5306 }, { "epoch": 0.56608, "grad_norm": 1.6178188527848785, "learning_rate": 4.177161568751058e-06, "loss": 0.4705, "step": 5307 }, { "avg_step_time": 5.672131942980217, "epoch": 0.56608, "eta_time": 6.409509095567645, "step": 5307 }, { "epoch": 0.5661866666666666, "grad_norm": 1.734368994236022, "learning_rate": 4.175457692057765e-06, "loss": 0.3803, "step": 5308 }, { "avg_step_time": 5.674994042425444, "epoch": 0.5661866666666666, "eta_time": 6.411166880706745, "step": 5308 }, { "epoch": 0.5662933333333333, "grad_norm": 2.162927842675569, "learning_rate": 4.173753913787859e-06, "loss": 0.588, "step": 5309 }, { "avg_step_time": 5.677017517764159, "epoch": 0.5662933333333333, "eta_time": 6.4118758964525195, "step": 5309 }, { "epoch": 0.5664, "grad_norm": 0.6422936944344726, "learning_rate": 4.172050234144716e-06, "loss": 0.426, "step": 5310 }, { "avg_step_time": 5.64381097783946, "epoch": 0.5664, "eta_time": 6.372803229143724, "step": 5310 }, { "epoch": 0.5665066666666667, "grad_norm": 1.7221492980078268, "learning_rate": 4.1703466533316975e-06, "loss": 0.4641, "step": 5311 }, { "avg_step_time": 5.665905294996319, "epoch": 0.5665066666666667, "eta_time": 6.396177533018068, "step": 5311 }, { "epoch": 0.5666133333333333, "grad_norm": 1.7657875497900564, "learning_rate": 4.168643171552156e-06, "loss": 0.4042, "step": 5312 }, { "avg_step_time": 5.666120717019746, "epoch": 0.5666133333333333, "eta_time": 6.394846798125341, "step": 5312 }, { "epoch": 0.56672, "grad_norm": 1.767999492099267, "learning_rate": 4.16693978900943e-06, "loss": 0.4724, "step": 5313 }, { "avg_step_time": 5.6712256031807025, "epoch": 0.56672, "eta_time": 6.3990328889222265, "step": 5313 }, { "epoch": 0.5668266666666667, "grad_norm": 1.9814484711507383, "learning_rate": 4.165236505906851e-06, "loss": 0.5163, "step": 5314 }, { "avg_step_time": 5.695048765702681, "epoch": 0.5668266666666667, "eta_time": 6.424331399310718, "step": 5314 }, { "epoch": 0.5669333333333333, "grad_norm": 1.6076318858504797, "learning_rate": 4.163533322447734e-06, "loss": 0.4597, "step": 5315 }, { "avg_step_time": 5.728166252675683, "epoch": 0.5669333333333333, "eta_time": 6.460098607184242, "step": 5315 }, { "epoch": 0.56704, "grad_norm": 1.8381046577182825, "learning_rate": 4.161830238835386e-06, "loss": 0.4479, "step": 5316 }, { "avg_step_time": 5.731566501386238, "epoch": 0.56704, "eta_time": 6.462341230312983, "step": 5316 }, { "epoch": 0.5671466666666667, "grad_norm": 1.7771880868373227, "learning_rate": 4.160127255273093e-06, "loss": 0.4294, "step": 5317 }, { "avg_step_time": 5.738572679384791, "epoch": 0.5671466666666667, "eta_time": 6.468646648039855, "step": 5317 }, { "epoch": 0.5672533333333334, "grad_norm": 1.8945725442848198, "learning_rate": 4.158424371964139e-06, "loss": 0.4661, "step": 5318 }, { "avg_step_time": 5.73647831907176, "epoch": 0.5672533333333334, "eta_time": 6.464692372353925, "step": 5318 }, { "epoch": 0.56736, "grad_norm": 1.574985617930084, "learning_rate": 4.156721589111794e-06, "loss": 0.479, "step": 5319 }, { "avg_step_time": 5.73485569761257, "epoch": 0.56736, "eta_time": 6.461270752643495, "step": 5319 }, { "epoch": 0.5674666666666667, "grad_norm": 1.799969937512356, "learning_rate": 4.1550189069193134e-06, "loss": 0.522, "step": 5320 }, { "avg_step_time": 5.759014543860849, "epoch": 0.5674666666666667, "eta_time": 6.486889993154373, "step": 5320 }, { "epoch": 0.5675733333333334, "grad_norm": 1.6707478806752638, "learning_rate": 4.153316325589941e-06, "loss": 0.4566, "step": 5321 }, { "avg_step_time": 5.76757479195643, "epoch": 0.5675733333333334, "eta_time": 6.494930057386491, "step": 5321 }, { "epoch": 0.56768, "grad_norm": 2.0176986186577337, "learning_rate": 4.151613845326912e-06, "loss": 0.5466, "step": 5322 }, { "avg_step_time": 5.762922660268918, "epoch": 0.56768, "eta_time": 6.488090428352757, "step": 5322 }, { "epoch": 0.5677866666666667, "grad_norm": 1.9354971177511824, "learning_rate": 4.149911466333441e-06, "loss": 0.5351, "step": 5323 }, { "avg_step_time": 5.763516187667847, "epoch": 0.5677866666666667, "eta_time": 6.487157664563921, "step": 5323 }, { "epoch": 0.5678933333333334, "grad_norm": 2.9343422044575203, "learning_rate": 4.1482091888127444e-06, "loss": 0.4724, "step": 5324 }, { "avg_step_time": 5.763040595584446, "epoch": 0.5678933333333334, "eta_time": 6.485021514642386, "step": 5324 }, { "epoch": 0.568, "grad_norm": 1.983849632581401, "learning_rate": 4.146507012968013e-06, "loss": 0.4976, "step": 5325 }, { "avg_step_time": 5.761206600401136, "epoch": 0.568, "eta_time": 6.481357425451279, "step": 5325 }, { "epoch": 0.5681066666666666, "grad_norm": 1.8769605107130258, "learning_rate": 4.144804939002432e-06, "loss": 0.5775, "step": 5326 }, { "avg_step_time": 5.640479564666748, "epoch": 0.5681066666666666, "eta_time": 6.343972710371017, "step": 5326 }, { "epoch": 0.5682133333333333, "grad_norm": 1.9968909250221896, "learning_rate": 4.143102967119173e-06, "loss": 0.5318, "step": 5327 }, { "avg_step_time": 5.686165154582322, "epoch": 0.5682133333333333, "eta_time": 6.393776818263677, "step": 5327 }, { "epoch": 0.56832, "grad_norm": 1.588046893567044, "learning_rate": 4.141401097521396e-06, "loss": 0.55, "step": 5328 }, { "avg_step_time": 5.689317573200572, "epoch": 0.56832, "eta_time": 6.395741171872977, "step": 5328 }, { "epoch": 0.5684266666666666, "grad_norm": 1.902980605753584, "learning_rate": 4.13969933041225e-06, "loss": 0.5539, "step": 5329 }, { "avg_step_time": 5.681385430422696, "epoch": 0.5684266666666666, "eta_time": 6.385245958747286, "step": 5329 }, { "epoch": 0.5685333333333333, "grad_norm": 1.5121800095586415, "learning_rate": 4.137997665994871e-06, "loss": 0.4258, "step": 5330 }, { "avg_step_time": 5.681218436270049, "epoch": 0.5685333333333333, "eta_time": 6.383480159642319, "step": 5330 }, { "epoch": 0.56864, "grad_norm": 2.037811941455646, "learning_rate": 4.136296104472378e-06, "loss": 0.5387, "step": 5331 }, { "avg_step_time": 5.682831913533837, "epoch": 0.56864, "eta_time": 6.3837145162030104, "step": 5331 }, { "epoch": 0.5687466666666666, "grad_norm": 1.6069410914456133, "learning_rate": 4.134594646047886e-06, "loss": 0.3653, "step": 5332 }, { "avg_step_time": 5.685599435459483, "epoch": 0.5687466666666666, "eta_time": 6.385244032656303, "step": 5332 }, { "epoch": 0.5688533333333333, "grad_norm": 1.8955119443543706, "learning_rate": 4.13289329092449e-06, "loss": 0.5704, "step": 5333 }, { "avg_step_time": 5.686969819695059, "epoch": 0.5688533333333333, "eta_time": 6.385203336446508, "step": 5333 }, { "epoch": 0.56896, "grad_norm": 2.179106430090959, "learning_rate": 4.131192039305278e-06, "loss": 0.4872, "step": 5334 }, { "avg_step_time": 5.6911340458224515, "epoch": 0.56896, "eta_time": 6.388297966435702, "step": 5334 }, { "epoch": 0.5690666666666667, "grad_norm": 1.765978452221394, "learning_rate": 4.129490891393325e-06, "loss": 0.5243, "step": 5335 }, { "avg_step_time": 5.691835687618063, "epoch": 0.5690666666666667, "eta_time": 6.387504493882493, "step": 5335 }, { "epoch": 0.5691733333333333, "grad_norm": 1.7415103698114491, "learning_rate": 4.127789847391692e-06, "loss": 0.4295, "step": 5336 }, { "avg_step_time": 5.694849204535436, "epoch": 0.5691733333333333, "eta_time": 6.389304426977397, "step": 5336 }, { "epoch": 0.56928, "grad_norm": 0.6690674966282719, "learning_rate": 4.1260889075034254e-06, "loss": 0.4561, "step": 5337 }, { "avg_step_time": 5.665475669533316, "epoch": 0.56928, "eta_time": 6.354775209326536, "step": 5337 }, { "epoch": 0.5693866666666667, "grad_norm": 1.686852867810426, "learning_rate": 4.124388071931563e-06, "loss": 0.4819, "step": 5338 }, { "avg_step_time": 5.663583266614664, "epoch": 0.5693866666666667, "eta_time": 6.351079346478722, "step": 5338 }, { "epoch": 0.5694933333333333, "grad_norm": 0.6342128408247214, "learning_rate": 4.122687340879131e-06, "loss": 0.4181, "step": 5339 }, { "avg_step_time": 5.625568293561839, "epoch": 0.5694933333333333, "eta_time": 6.306887120226551, "step": 5339 }, { "epoch": 0.5696, "grad_norm": 1.874656414742722, "learning_rate": 4.120986714549139e-06, "loss": 0.4481, "step": 5340 }, { "avg_step_time": 5.651300153346977, "epoch": 0.5696, "eta_time": 6.33416558854307, "step": 5340 }, { "epoch": 0.5697066666666667, "grad_norm": 1.8481672052212257, "learning_rate": 4.119286193144587e-06, "loss": 0.5346, "step": 5341 }, { "avg_step_time": 5.65008725060357, "epoch": 0.5697066666666667, "eta_time": 6.331236658037445, "step": 5341 }, { "epoch": 0.5698133333333333, "grad_norm": 2.06837513616586, "learning_rate": 4.1175857768684614e-06, "loss": 0.5626, "step": 5342 }, { "avg_step_time": 5.660699637249262, "epoch": 0.5698133333333333, "eta_time": 6.3415560102850765, "step": 5342 }, { "epoch": 0.56992, "grad_norm": 1.8439250587139406, "learning_rate": 4.115885465923734e-06, "loss": 0.5404, "step": 5343 }, { "avg_step_time": 5.649033385093766, "epoch": 0.56992, "eta_time": 6.326917391305018, "step": 5343 }, { "epoch": 0.5700266666666667, "grad_norm": 1.6569882920882302, "learning_rate": 4.114185260513371e-06, "loss": 0.4477, "step": 5344 }, { "avg_step_time": 5.643546126105568, "epoch": 0.5700266666666667, "eta_time": 6.3192040095365405, "step": 5344 }, { "epoch": 0.5701333333333334, "grad_norm": 1.574115246725941, "learning_rate": 4.11248516084032e-06, "loss": 0.512, "step": 5345 }, { "avg_step_time": 5.644023536431669, "epoch": 0.5701333333333334, "eta_time": 6.3181707921721175, "step": 5345 }, { "epoch": 0.57024, "grad_norm": 1.6183901158251066, "learning_rate": 4.110785167107514e-06, "loss": 0.4327, "step": 5346 }, { "avg_step_time": 5.646893368826972, "epoch": 0.57024, "eta_time": 6.319814828612187, "step": 5346 }, { "epoch": 0.5703466666666667, "grad_norm": 1.9402814749065196, "learning_rate": 4.109085279517878e-06, "loss": 0.5156, "step": 5347 }, { "avg_step_time": 5.6553225252363415, "epoch": 0.5703466666666667, "eta_time": 6.327677536569995, "step": 5347 }, { "epoch": 0.5704533333333334, "grad_norm": 2.034230155336728, "learning_rate": 4.1073854982743256e-06, "loss": 0.4633, "step": 5348 }, { "avg_step_time": 5.65410030731047, "epoch": 0.5704533333333334, "eta_time": 6.32473942709424, "step": 5348 }, { "epoch": 0.57056, "grad_norm": 1.6952689594106984, "learning_rate": 4.1056858235797545e-06, "loss": 0.4982, "step": 5349 }, { "avg_step_time": 5.6493841542137995, "epoch": 0.57056, "eta_time": 6.317894612462433, "step": 5349 }, { "epoch": 0.5706666666666667, "grad_norm": 1.8956133083233915, "learning_rate": 4.103986255637048e-06, "loss": 0.5125, "step": 5350 }, { "avg_step_time": 5.650009268462056, "epoch": 0.5706666666666667, "eta_time": 6.317024251544382, "step": 5350 }, { "epoch": 0.5707733333333334, "grad_norm": 1.6080992698157115, "learning_rate": 4.1022867946490795e-06, "loss": 0.4771, "step": 5351 }, { "avg_step_time": 5.644231078600643, "epoch": 0.5707733333333334, "eta_time": 6.308996072302497, "step": 5351 }, { "epoch": 0.57088, "grad_norm": 1.7399843961042398, "learning_rate": 4.100587440818709e-06, "loss": 0.5113, "step": 5352 }, { "avg_step_time": 5.647690233558115, "epoch": 0.57088, "eta_time": 6.311293836001194, "step": 5352 }, { "epoch": 0.5709866666666666, "grad_norm": 1.7553835088229235, "learning_rate": 4.098888194348785e-06, "loss": 0.529, "step": 5353 }, { "avg_step_time": 5.679382362751046, "epoch": 0.5709866666666666, "eta_time": 6.345132184162418, "step": 5353 }, { "epoch": 0.5710933333333333, "grad_norm": 1.7070391455764757, "learning_rate": 4.097189055442142e-06, "loss": 0.6162, "step": 5354 }, { "avg_step_time": 5.675670985019568, "epoch": 0.5710933333333333, "eta_time": 6.339409175212134, "step": 5354 }, { "epoch": 0.5712, "grad_norm": 1.794519734830796, "learning_rate": 4.0954900243016016e-06, "loss": 0.5403, "step": 5355 }, { "avg_step_time": 5.685061946059719, "epoch": 0.5712, "eta_time": 6.348319173100019, "step": 5355 }, { "epoch": 0.5713066666666666, "grad_norm": 1.5078362201504332, "learning_rate": 4.093791101129972e-06, "loss": 0.4244, "step": 5356 }, { "avg_step_time": 5.775659751410436, "epoch": 0.5713066666666666, "eta_time": 6.447882372477373, "step": 5356 }, { "epoch": 0.5714133333333333, "grad_norm": 1.7581668033142874, "learning_rate": 4.092092286130046e-06, "loss": 0.5404, "step": 5357 }, { "avg_step_time": 5.803263276514381, "epoch": 0.5714133333333333, "eta_time": 6.477086623620772, "step": 5357 }, { "epoch": 0.57152, "grad_norm": 1.6952004205133293, "learning_rate": 4.090393579504612e-06, "loss": 0.5358, "step": 5358 }, { "avg_step_time": 5.804376012147075, "epoch": 0.57152, "eta_time": 6.476716233554111, "step": 5358 }, { "epoch": 0.5716266666666666, "grad_norm": 1.7236519399134318, "learning_rate": 4.088694981456437e-06, "loss": 0.4812, "step": 5359 }, { "avg_step_time": 5.805722503951102, "epoch": 0.5716266666666666, "eta_time": 6.476605993296562, "step": 5359 }, { "epoch": 0.5717333333333333, "grad_norm": 1.7122013415043138, "learning_rate": 4.086996492188279e-06, "loss": 0.5709, "step": 5360 }, { "avg_step_time": 5.821863725931958, "epoch": 0.5717333333333333, "eta_time": 6.492995238782448, "step": 5360 }, { "epoch": 0.57184, "grad_norm": 1.985945305076025, "learning_rate": 4.085298111902882e-06, "loss": 0.5729, "step": 5361 }, { "avg_step_time": 5.818651370327882, "epoch": 0.57184, "eta_time": 6.487796277915589, "step": 5361 }, { "epoch": 0.5719466666666667, "grad_norm": 1.7608180082667266, "learning_rate": 4.083599840802974e-06, "loss": 0.5089, "step": 5362 }, { "avg_step_time": 5.852496385574341, "epoch": 0.5719466666666667, "eta_time": 6.523907776474953, "step": 5362 }, { "epoch": 0.5720533333333333, "grad_norm": 0.6463772797820588, "learning_rate": 4.081901679091279e-06, "loss": 0.4092, "step": 5363 }, { "avg_step_time": 5.853389034367571, "epoch": 0.5720533333333333, "eta_time": 6.523276890522971, "step": 5363 }, { "epoch": 0.57216, "grad_norm": 0.6324638809014977, "learning_rate": 4.080203626970498e-06, "loss": 0.4383, "step": 5364 }, { "avg_step_time": 5.7651965618133545, "epoch": 0.57216, "eta_time": 6.423389835953713, "step": 5364 }, { "epoch": 0.5722666666666667, "grad_norm": 1.8357926400546065, "learning_rate": 4.078505684643323e-06, "loss": 0.5134, "step": 5365 }, { "avg_step_time": 5.797169235017565, "epoch": 0.5722666666666667, "eta_time": 6.457402397894565, "step": 5365 }, { "epoch": 0.5723733333333333, "grad_norm": 1.794192741960668, "learning_rate": 4.076807852312434e-06, "loss": 0.4355, "step": 5366 }, { "avg_step_time": 5.796568711598714, "epoch": 0.5723733333333333, "eta_time": 6.455123323555346, "step": 5366 }, { "epoch": 0.57248, "grad_norm": 1.9380688335517011, "learning_rate": 4.0751101301804945e-06, "loss": 0.4361, "step": 5367 }, { "avg_step_time": 5.795639093476113, "epoch": 0.57248, "eta_time": 6.452478190736739, "step": 5367 }, { "epoch": 0.5725866666666667, "grad_norm": 1.7905241879785323, "learning_rate": 4.0734125184501605e-06, "loss": 0.4259, "step": 5368 }, { "avg_step_time": 5.798874351713392, "epoch": 0.5725866666666667, "eta_time": 6.454469313143211, "step": 5368 }, { "epoch": 0.5726933333333334, "grad_norm": 1.4275394521556544, "learning_rate": 4.07171501732407e-06, "loss": 0.4739, "step": 5369 }, { "avg_step_time": 5.796875683948247, "epoch": 0.5726933333333334, "eta_time": 6.450634441637966, "step": 5369 }, { "epoch": 0.5728, "grad_norm": 1.926741294754767, "learning_rate": 4.070017627004847e-06, "loss": 0.5511, "step": 5370 }, { "avg_step_time": 5.800365623801645, "epoch": 0.5728, "eta_time": 6.45290675647933, "step": 5370 }, { "epoch": 0.5729066666666667, "grad_norm": 1.819043676696803, "learning_rate": 4.0683203476951065e-06, "loss": 0.5131, "step": 5371 }, { "avg_step_time": 5.836825040855793, "epoch": 0.5729066666666667, "eta_time": 6.4918465176629425, "step": 5371 }, { "epoch": 0.5730133333333334, "grad_norm": 1.7252282481313945, "learning_rate": 4.066623179597447e-06, "loss": 0.5649, "step": 5372 }, { "avg_step_time": 5.834769610202674, "epoch": 0.5730133333333334, "eta_time": 6.48793965267814, "step": 5372 }, { "epoch": 0.57312, "grad_norm": 0.6495978361076893, "learning_rate": 4.0649261229144554e-06, "loss": 0.4405, "step": 5373 }, { "avg_step_time": 5.797211288201688, "epoch": 0.57312, "eta_time": 6.444566548717543, "step": 5373 }, { "epoch": 0.5732266666666667, "grad_norm": 0.6509280529188208, "learning_rate": 4.063229177848706e-06, "loss": 0.4455, "step": 5374 }, { "avg_step_time": 5.785625638383808, "epoch": 0.5732266666666667, "eta_time": 6.4300800497704484, "step": 5374 }, { "epoch": 0.5733333333333334, "grad_norm": 1.7173101510351403, "learning_rate": 4.061532344602757e-06, "loss": 0.4727, "step": 5375 }, { "avg_step_time": 5.798184033596154, "epoch": 0.5733333333333334, "eta_time": 6.442426703995727, "step": 5375 }, { "epoch": 0.57344, "grad_norm": 1.6525086381303913, "learning_rate": 4.059835623379155e-06, "loss": 0.5093, "step": 5376 }, { "avg_step_time": 5.798590508374301, "epoch": 0.57344, "eta_time": 6.441267623052453, "step": 5376 }, { "epoch": 0.5735466666666666, "grad_norm": 1.9510896829557995, "learning_rate": 4.058139014380432e-06, "loss": 0.5276, "step": 5377 }, { "avg_step_time": 5.801876205386537, "epoch": 0.5735466666666666, "eta_time": 6.443305852537605, "step": 5377 }, { "epoch": 0.5736533333333333, "grad_norm": 1.7592397556849972, "learning_rate": 4.056442517809109e-06, "loss": 0.4455, "step": 5378 }, { "avg_step_time": 5.8082579868008395, "epoch": 0.5736533333333333, "eta_time": 6.448779770345266, "step": 5378 }, { "epoch": 0.57376, "grad_norm": 1.865856826712245, "learning_rate": 4.054746133867693e-06, "loss": 0.5025, "step": 5379 }, { "avg_step_time": 5.824998060862224, "epoch": 0.57376, "eta_time": 6.4657478475570676, "step": 5379 }, { "epoch": 0.5738666666666666, "grad_norm": 1.7268552537003412, "learning_rate": 4.053049862758675e-06, "loss": 0.5356, "step": 5380 }, { "avg_step_time": 5.891550786567457, "epoch": 0.5738666666666666, "eta_time": 6.53798483120472, "step": 5380 }, { "epoch": 0.5739733333333333, "grad_norm": 1.7059712686335788, "learning_rate": 4.051353704684538e-06, "loss": 0.4288, "step": 5381 }, { "avg_step_time": 5.8944443620816624, "epoch": 0.5739733333333333, "eta_time": 6.539558550598377, "step": 5381 }, { "epoch": 0.57408, "grad_norm": 1.8631853218501753, "learning_rate": 4.0496576598477396e-06, "loss": 0.4968, "step": 5382 }, { "avg_step_time": 5.823294165158512, "epoch": 0.57408, "eta_time": 6.4590037781883165, "step": 5382 }, { "epoch": 0.5741866666666666, "grad_norm": 1.8237418761138562, "learning_rate": 4.047961728450742e-06, "loss": 0.5488, "step": 5383 }, { "avg_step_time": 5.825955530609748, "epoch": 0.5741866666666666, "eta_time": 6.4603373550539205, "step": 5383 }, { "epoch": 0.5742933333333333, "grad_norm": 1.5704870152817811, "learning_rate": 4.046265910695977e-06, "loss": 0.3985, "step": 5384 }, { "avg_step_time": 5.808526559309526, "epoch": 0.5742933333333333, "eta_time": 6.439397082834533, "step": 5384 }, { "epoch": 0.5744, "grad_norm": 1.931116306225193, "learning_rate": 4.044570206785874e-06, "loss": 0.5694, "step": 5385 }, { "avg_step_time": 5.847231465156632, "epoch": 0.5744, "eta_time": 6.480681540548601, "step": 5385 }, { "epoch": 0.5745066666666667, "grad_norm": 1.9011423600593538, "learning_rate": 4.042874616922841e-06, "loss": 0.5051, "step": 5386 }, { "avg_step_time": 5.8802286181787045, "epoch": 0.5745066666666667, "eta_time": 6.515619988309681, "step": 5386 }, { "epoch": 0.5746133333333333, "grad_norm": 1.8168127095388806, "learning_rate": 4.041179141309276e-06, "loss": 0.5672, "step": 5387 }, { "avg_step_time": 5.867239518599077, "epoch": 0.5746133333333333, "eta_time": 6.499597555603644, "step": 5387 }, { "epoch": 0.57472, "grad_norm": 1.922182390852504, "learning_rate": 4.039483780147568e-06, "loss": 0.5073, "step": 5388 }, { "avg_step_time": 5.859666070552787, "epoch": 0.57472, "eta_time": 6.489580173137212, "step": 5388 }, { "epoch": 0.5748266666666667, "grad_norm": 1.5914734330995428, "learning_rate": 4.0377885336400845e-06, "loss": 0.433, "step": 5389 }, { "avg_step_time": 5.868811592911229, "epoch": 0.5748266666666667, "eta_time": 6.498078613706711, "step": 5389 }, { "epoch": 0.5749333333333333, "grad_norm": 1.6766332824612171, "learning_rate": 4.036093401989182e-06, "loss": 0.52, "step": 5390 }, { "avg_step_time": 5.871378270062533, "epoch": 0.5749333333333333, "eta_time": 6.499289557277554, "step": 5390 }, { "epoch": 0.57504, "grad_norm": 1.8346519039826248, "learning_rate": 4.0343983853972045e-06, "loss": 0.534, "step": 5391 }, { "avg_step_time": 5.882228579184021, "epoch": 0.57504, "eta_time": 6.509666294296983, "step": 5391 }, { "epoch": 0.5751466666666667, "grad_norm": 2.4035304266824227, "learning_rate": 4.03270348406648e-06, "loss": 0.5046, "step": 5392 }, { "avg_step_time": 5.881175479503593, "epoch": 0.5751466666666667, "eta_time": 6.506867204128558, "step": 5392 }, { "epoch": 0.5752533333333333, "grad_norm": 2.0946830410632904, "learning_rate": 4.031008698199328e-06, "loss": 0.498, "step": 5393 }, { "avg_step_time": 5.877287238535255, "epoch": 0.5752533333333333, "eta_time": 6.500932717735384, "step": 5393 }, { "epoch": 0.57536, "grad_norm": 1.816543780077368, "learning_rate": 4.029314027998049e-06, "loss": 0.5375, "step": 5394 }, { "avg_step_time": 5.864029906012795, "epoch": 0.57536, "eta_time": 6.484639737732483, "step": 5394 }, { "epoch": 0.5754666666666667, "grad_norm": 1.6385420591537814, "learning_rate": 4.0276194736649285e-06, "loss": 0.5223, "step": 5395 }, { "avg_step_time": 5.903185403708256, "epoch": 0.5754666666666667, "eta_time": 6.526299418544127, "step": 5395 }, { "epoch": 0.5755733333333334, "grad_norm": 1.5855576536779585, "learning_rate": 4.025925035402242e-06, "loss": 0.4534, "step": 5396 }, { "avg_step_time": 5.910159534878201, "epoch": 0.5755733333333334, "eta_time": 6.532367997022322, "step": 5396 }, { "epoch": 0.57568, "grad_norm": 1.7901381920258577, "learning_rate": 4.024230713412253e-06, "loss": 0.4842, "step": 5397 }, { "avg_step_time": 5.910956963144168, "epoch": 0.57568, "eta_time": 6.5316074442743055, "step": 5397 }, { "epoch": 0.5757866666666667, "grad_norm": 1.6158022868824982, "learning_rate": 4.022536507897206e-06, "loss": 0.5557, "step": 5398 }, { "avg_step_time": 5.909020780312894, "epoch": 0.5757866666666667, "eta_time": 6.52782656758455, "step": 5398 }, { "epoch": 0.5758933333333334, "grad_norm": 1.6440463090358926, "learning_rate": 4.0208424190593325e-06, "loss": 0.5432, "step": 5399 }, { "avg_step_time": 5.91333083672957, "epoch": 0.5758933333333334, "eta_time": 6.530945390787992, "step": 5399 }, { "epoch": 0.576, "grad_norm": 1.7126588651488501, "learning_rate": 4.019148447100855e-06, "loss": 0.4805, "step": 5400 }, { "avg_step_time": 5.963503611208212, "epoch": 0.576, "eta_time": 6.584701904042401, "step": 5400 }, { "epoch": 0.5761066666666667, "grad_norm": 1.9927175497849843, "learning_rate": 4.017454592223971e-06, "loss": 0.4393, "step": 5401 }, { "avg_step_time": 5.946706863364788, "epoch": 0.5761066666666667, "eta_time": 6.564503631947686, "step": 5401 }, { "epoch": 0.5762133333333334, "grad_norm": 1.7592988437131232, "learning_rate": 4.015760854630881e-06, "loss": 0.4986, "step": 5402 }, { "avg_step_time": 5.9279139475388964, "epoch": 0.5762133333333334, "eta_time": 6.5421116982144545, "step": 5402 }, { "epoch": 0.57632, "grad_norm": 2.0484864684877526, "learning_rate": 4.014067234523756e-06, "loss": 0.4653, "step": 5403 }, { "avg_step_time": 5.9273890533832585, "epoch": 0.57632, "eta_time": 6.5398859222328625, "step": 5403 }, { "epoch": 0.5764266666666666, "grad_norm": 1.7109997731370903, "learning_rate": 4.012373732104759e-06, "loss": 0.4528, "step": 5404 }, { "avg_step_time": 5.928280835199838, "epoch": 0.5764266666666666, "eta_time": 6.539223110160711, "step": 5404 }, { "epoch": 0.5765333333333333, "grad_norm": 1.6436402755254849, "learning_rate": 4.010680347576041e-06, "loss": 0.4432, "step": 5405 }, { "avg_step_time": 5.903235599248096, "epoch": 0.5765333333333333, "eta_time": 6.509957035837483, "step": 5405 }, { "epoch": 0.57664, "grad_norm": 2.0151884694634425, "learning_rate": 4.008987081139734e-06, "loss": 0.5147, "step": 5406 }, { "avg_step_time": 5.898126248157386, "epoch": 0.57664, "eta_time": 6.502684188593518, "step": 5406 }, { "epoch": 0.5767466666666666, "grad_norm": 1.7645057356049898, "learning_rate": 4.007293932997962e-06, "loss": 0.4842, "step": 5407 }, { "avg_step_time": 5.935570584403144, "epoch": 0.5767466666666666, "eta_time": 6.542317799697687, "step": 5407 }, { "epoch": 0.5768533333333333, "grad_norm": 2.0321613739994797, "learning_rate": 4.00560090335283e-06, "loss": 0.5141, "step": 5408 }, { "avg_step_time": 5.9346391745287965, "epoch": 0.5768533333333333, "eta_time": 6.539642668154372, "step": 5408 }, { "epoch": 0.57696, "grad_norm": 2.050328545105859, "learning_rate": 4.0039079924064285e-06, "loss": 0.4713, "step": 5409 }, { "avg_step_time": 5.966751327418318, "epoch": 0.57696, "eta_time": 6.573371045705846, "step": 5409 }, { "epoch": 0.5770666666666666, "grad_norm": 1.7224594132654583, "learning_rate": 4.002215200360838e-06, "loss": 0.5082, "step": 5410 }, { "avg_step_time": 5.9492661447236035, "epoch": 0.5770666666666666, "eta_time": 6.552455628841413, "step": 5410 }, { "epoch": 0.5771733333333333, "grad_norm": 1.7546901292577095, "learning_rate": 4.000522527418121e-06, "loss": 0.4055, "step": 5411 }, { "avg_step_time": 5.951901252823647, "epoch": 0.5771733333333333, "eta_time": 6.55370460172026, "step": 5411 }, { "epoch": 0.57728, "grad_norm": 1.9580672582142338, "learning_rate": 3.998829973780329e-06, "loss": 0.5731, "step": 5412 }, { "avg_step_time": 5.9498483628937695, "epoch": 0.57728, "eta_time": 6.549791406152225, "step": 5412 }, { "epoch": 0.5773866666666667, "grad_norm": 0.6259291048193927, "learning_rate": 3.9971375396494965e-06, "loss": 0.4163, "step": 5413 }, { "avg_step_time": 5.8863519731194085, "epoch": 0.5773866666666667, "eta_time": 6.478257365971971, "step": 5413 }, { "epoch": 0.5774933333333333, "grad_norm": 1.841266537072878, "learning_rate": 3.995445225227646e-06, "loss": 0.5782, "step": 5414 }, { "avg_step_time": 5.889983757577761, "epoch": 0.5774933333333333, "eta_time": 6.480618239934865, "step": 5414 }, { "epoch": 0.5776, "grad_norm": 1.8666594854687935, "learning_rate": 3.993753030716783e-06, "loss": 0.4897, "step": 5415 }, { "avg_step_time": 5.919991673845233, "epoch": 0.5776, "eta_time": 6.511990841229757, "step": 5415 }, { "epoch": 0.5777066666666667, "grad_norm": 0.637597311774503, "learning_rate": 3.992060956318898e-06, "loss": 0.4679, "step": 5416 }, { "avg_step_time": 5.879764679706458, "epoch": 0.5777066666666667, "eta_time": 6.466107879710519, "step": 5416 }, { "epoch": 0.5778133333333333, "grad_norm": 1.7268129722290761, "learning_rate": 3.990369002235975e-06, "loss": 0.4819, "step": 5417 }, { "avg_step_time": 5.881718710215405, "epoch": 0.5778133333333333, "eta_time": 6.46662295973127, "step": 5417 }, { "epoch": 0.57792, "grad_norm": 1.7496752048849986, "learning_rate": 3.988677168669974e-06, "loss": 0.4168, "step": 5418 }, { "avg_step_time": 5.881557712651262, "epoch": 0.57792, "eta_time": 6.464812185822512, "step": 5418 }, { "epoch": 0.5780266666666667, "grad_norm": 1.9346415521604063, "learning_rate": 3.9869854558228455e-06, "loss": 0.527, "step": 5419 }, { "avg_step_time": 5.882783952385489, "epoch": 0.5780266666666667, "eta_time": 6.464525921010276, "step": 5419 }, { "epoch": 0.5781333333333334, "grad_norm": 1.6365260681163407, "learning_rate": 3.985293863896525e-06, "loss": 0.5399, "step": 5420 }, { "avg_step_time": 5.877241052762426, "epoch": 0.5781333333333334, "eta_time": 6.456802323243165, "step": 5420 }, { "epoch": 0.57824, "grad_norm": 1.899177197799008, "learning_rate": 3.983602393092931e-06, "loss": 0.4636, "step": 5421 }, { "avg_step_time": 5.880782009375216, "epoch": 0.57824, "eta_time": 6.4590589069637785, "step": 5421 }, { "epoch": 0.5783466666666667, "grad_norm": 2.0103103723282723, "learning_rate": 3.9819110436139755e-06, "loss": 0.4959, "step": 5422 }, { "avg_step_time": 5.882904621085736, "epoch": 0.5783466666666667, "eta_time": 6.459756101986643, "step": 5422 }, { "epoch": 0.5784533333333334, "grad_norm": 2.0030238831118408, "learning_rate": 3.980219815661545e-06, "loss": 0.5433, "step": 5423 }, { "avg_step_time": 5.880664950669414, "epoch": 0.5784533333333334, "eta_time": 6.455663301401534, "step": 5423 }, { "epoch": 0.57856, "grad_norm": 0.6463397082865088, "learning_rate": 3.978528709437518e-06, "loss": 0.4499, "step": 5424 }, { "avg_step_time": 5.846703512500031, "epoch": 0.57856, "eta_time": 6.416757104968784, "step": 5424 }, { "epoch": 0.5786666666666667, "grad_norm": 1.6405321324026778, "learning_rate": 3.976837725143758e-06, "loss": 0.4306, "step": 5425 }, { "avg_step_time": 5.848782076980129, "epoch": 0.5786666666666667, "eta_time": 6.417413667797642, "step": 5425 }, { "epoch": 0.5787733333333334, "grad_norm": 1.8159411266264305, "learning_rate": 3.975146862982111e-06, "loss": 0.6162, "step": 5426 }, { "avg_step_time": 5.804160395053902, "epoch": 0.5787733333333334, "eta_time": 6.36684150001885, "step": 5426 }, { "epoch": 0.57888, "grad_norm": 1.952206492170381, "learning_rate": 3.973456123154415e-06, "loss": 0.4718, "step": 5427 }, { "avg_step_time": 5.80016663339403, "epoch": 0.57888, "eta_time": 6.3608494079554525, "step": 5427 }, { "epoch": 0.5789866666666666, "grad_norm": 1.8451761940756233, "learning_rate": 3.9717655058624874e-06, "loss": 0.4492, "step": 5428 }, { "avg_step_time": 5.80316394266456, "epoch": 0.5789866666666666, "eta_time": 6.362524467138061, "step": 5428 }, { "epoch": 0.5790933333333333, "grad_norm": 1.6328777954260134, "learning_rate": 3.97007501130813e-06, "loss": 0.4372, "step": 5429 }, { "avg_step_time": 5.80317988540187, "epoch": 0.5790933333333333, "eta_time": 6.3609299521654945, "step": 5429 }, { "epoch": 0.5792, "grad_norm": 2.0737425380544634, "learning_rate": 3.9683846396931345e-06, "loss": 0.5371, "step": 5430 }, { "avg_step_time": 5.7997761278441455, "epoch": 0.5792, "eta_time": 6.3555880067625425, "step": 5430 }, { "epoch": 0.5793066666666666, "grad_norm": 1.8241844823289202, "learning_rate": 3.966694391219276e-06, "loss": 0.4768, "step": 5431 }, { "avg_step_time": 5.825895812776354, "epoch": 0.5793066666666666, "eta_time": 6.382592523774983, "step": 5431 }, { "epoch": 0.5794133333333333, "grad_norm": 1.7869995935958494, "learning_rate": 3.965004266088315e-06, "loss": 0.4736, "step": 5432 }, { "avg_step_time": 5.822110633657436, "epoch": 0.5794133333333333, "eta_time": 6.376828396808686, "step": 5432 }, { "epoch": 0.57952, "grad_norm": 1.8844893333264316, "learning_rate": 3.9633142645019965e-06, "loss": 0.4699, "step": 5433 }, { "avg_step_time": 5.8168659282453135, "epoch": 0.57952, "eta_time": 6.369468191428618, "step": 5433 }, { "epoch": 0.5796266666666666, "grad_norm": 1.8781481762266785, "learning_rate": 3.961624386662053e-06, "loss": 0.5287, "step": 5434 }, { "avg_step_time": 5.82236813535594, "epoch": 0.5796266666666666, "eta_time": 6.373875783732711, "step": 5434 }, { "epoch": 0.5797333333333333, "grad_norm": 2.0442144957583794, "learning_rate": 3.9599346327702e-06, "loss": 0.4259, "step": 5435 }, { "avg_step_time": 5.818744375248148, "epoch": 0.5797333333333333, "eta_time": 6.368292455132695, "step": 5435 }, { "epoch": 0.57984, "grad_norm": 1.613344964826883, "learning_rate": 3.958245003028136e-06, "loss": 0.4741, "step": 5436 }, { "avg_step_time": 5.849243183328648, "epoch": 0.57984, "eta_time": 6.4000469164254286, "step": 5436 }, { "epoch": 0.5799466666666667, "grad_norm": 1.9660996509924307, "learning_rate": 3.956555497637551e-06, "loss": 0.5356, "step": 5437 }, { "avg_step_time": 5.849264359233355, "epoch": 0.5799466666666667, "eta_time": 6.398445290739153, "step": 5437 }, { "epoch": 0.5800533333333333, "grad_norm": 1.71988130265877, "learning_rate": 3.954866116800115e-06, "loss": 0.4589, "step": 5438 }, { "avg_step_time": 5.8857296259716305, "epoch": 0.5800533333333333, "eta_time": 6.436699315958419, "step": 5438 }, { "epoch": 0.58016, "grad_norm": 1.9542855328235116, "learning_rate": 3.953176860717488e-06, "loss": 0.4837, "step": 5439 }, { "avg_step_time": 5.859566662046644, "epoch": 0.58016, "eta_time": 6.406459550504331, "step": 5439 }, { "epoch": 0.5802666666666667, "grad_norm": 1.9868389436142306, "learning_rate": 3.951487729591305e-06, "loss": 0.5365, "step": 5440 }, { "avg_step_time": 5.859404200255269, "epoch": 0.5802666666666667, "eta_time": 6.404654313334579, "step": 5440 }, { "epoch": 0.5803733333333333, "grad_norm": 1.7098178046291637, "learning_rate": 3.949798723623201e-06, "loss": 0.4476, "step": 5441 }, { "avg_step_time": 5.857734094966542, "epoch": 0.5803733333333333, "eta_time": 6.4012016471106605, "step": 5441 }, { "epoch": 0.58048, "grad_norm": 2.2442281897873495, "learning_rate": 3.948109843014784e-06, "loss": 0.5587, "step": 5442 }, { "avg_step_time": 5.863169051179982, "epoch": 0.58048, "eta_time": 6.40551218841413, "step": 5442 }, { "epoch": 0.5805866666666667, "grad_norm": 1.8542977797781788, "learning_rate": 3.94642108796765e-06, "loss": 0.557, "step": 5443 }, { "avg_step_time": 5.865001866311738, "epoch": 0.5805866666666667, "eta_time": 6.405885371760487, "step": 5443 }, { "epoch": 0.5806933333333333, "grad_norm": 1.7349595924174173, "learning_rate": 3.944732458683385e-06, "loss": 0.5155, "step": 5444 }, { "avg_step_time": 5.8656978294102835, "epoch": 0.5806933333333333, "eta_time": 6.405016157614396, "step": 5444 }, { "epoch": 0.5808, "grad_norm": 0.6656149310579307, "learning_rate": 3.9430439553635504e-06, "loss": 0.4585, "step": 5445 }, { "avg_step_time": 5.852882968054877, "epoch": 0.5808, "eta_time": 6.389397240126574, "step": 5445 }, { "epoch": 0.5809066666666667, "grad_norm": 1.7000191194927243, "learning_rate": 3.941355578209704e-06, "loss": 0.5121, "step": 5446 }, { "avg_step_time": 5.848807057949028, "epoch": 0.5809066666666667, "eta_time": 6.383323036300481, "step": 5446 }, { "epoch": 0.5810133333333334, "grad_norm": 1.5658931701365455, "learning_rate": 3.939667327423381e-06, "loss": 0.4338, "step": 5447 }, { "avg_step_time": 5.852881467703617, "epoch": 0.5810133333333334, "eta_time": 6.386144001427724, "step": 5447 }, { "epoch": 0.58112, "grad_norm": 2.1341552888936013, "learning_rate": 3.937979203206103e-06, "loss": 0.5539, "step": 5448 }, { "avg_step_time": 5.861582941479153, "epoch": 0.58112, "eta_time": 6.394010058663509, "step": 5448 }, { "epoch": 0.5812266666666667, "grad_norm": 2.245611920157429, "learning_rate": 3.936291205759375e-06, "loss": 0.5262, "step": 5449 }, { "avg_step_time": 5.859821830132995, "epoch": 0.5812266666666667, "eta_time": 6.390461251417261, "step": 5449 }, { "epoch": 0.5813333333333334, "grad_norm": 1.5041308081573437, "learning_rate": 3.93460333528469e-06, "loss": 0.4963, "step": 5450 }, { "avg_step_time": 5.861413962913282, "epoch": 0.5813333333333334, "eta_time": 6.3905693901207306, "step": 5450 }, { "epoch": 0.58144, "grad_norm": 2.1636653448559358, "learning_rate": 3.932915591983526e-06, "loss": 0.4767, "step": 5451 }, { "avg_step_time": 5.858858496251733, "epoch": 0.58144, "eta_time": 6.386155760914388, "step": 5451 }, { "epoch": 0.5815466666666667, "grad_norm": 0.6510463979669301, "learning_rate": 3.931227976057344e-06, "loss": 0.4543, "step": 5452 }, { "avg_step_time": 5.827625672022502, "epoch": 0.5815466666666667, "eta_time": 6.3504931975956325, "step": 5452 }, { "epoch": 0.5816533333333334, "grad_norm": 1.8879599290843512, "learning_rate": 3.929540487707589e-06, "loss": 0.4241, "step": 5453 }, { "avg_step_time": 5.8281149189881605, "epoch": 0.5816533333333334, "eta_time": 6.349407420075435, "step": 5453 }, { "epoch": 0.58176, "grad_norm": 1.9846768557622885, "learning_rate": 3.927853127135692e-06, "loss": 0.4535, "step": 5454 }, { "avg_step_time": 5.819844120680684, "epoch": 0.58176, "eta_time": 6.338780221441378, "step": 5454 }, { "epoch": 0.5818666666666666, "grad_norm": 1.8327664881200487, "learning_rate": 3.9261658945430675e-06, "loss": 0.4811, "step": 5455 }, { "avg_step_time": 5.796855461717856, "epoch": 0.5818666666666666, "eta_time": 6.312131502759443, "step": 5455 }, { "epoch": 0.5819733333333333, "grad_norm": 1.7418424749296104, "learning_rate": 3.924478790131119e-06, "loss": 0.4098, "step": 5456 }, { "avg_step_time": 5.7713045640425245, "epoch": 0.5819733333333333, "eta_time": 6.28270627402296, "step": 5456 }, { "epoch": 0.58208, "grad_norm": 1.6611796773418122, "learning_rate": 3.92279181410123e-06, "loss": 0.4342, "step": 5457 }, { "avg_step_time": 5.803014133915757, "epoch": 0.58208, "eta_time": 6.315613715744981, "step": 5457 }, { "epoch": 0.5821866666666666, "grad_norm": 1.9718435095731954, "learning_rate": 3.921104966654769e-06, "loss": 0.4573, "step": 5458 }, { "avg_step_time": 5.803242546139342, "epoch": 0.5821866666666666, "eta_time": 6.314250292563278, "step": 5458 }, { "epoch": 0.5822933333333333, "grad_norm": 1.75188613373447, "learning_rate": 3.919418247993094e-06, "loss": 0.432, "step": 5459 }, { "avg_step_time": 5.806715433043663, "epoch": 0.5822933333333333, "eta_time": 6.316416009944161, "step": 5459 }, { "epoch": 0.5824, "grad_norm": 1.794768128943469, "learning_rate": 3.917731658317538e-06, "loss": 0.5239, "step": 5460 }, { "avg_step_time": 5.80526386607777, "epoch": 0.5824, "eta_time": 6.313224454359575, "step": 5460 }, { "epoch": 0.5825066666666666, "grad_norm": 1.8779591087559564, "learning_rate": 3.916045197829431e-06, "loss": 0.4518, "step": 5461 }, { "avg_step_time": 5.80652713293981, "epoch": 0.5825066666666666, "eta_time": 6.3129853328684495, "step": 5461 }, { "epoch": 0.5826133333333333, "grad_norm": 1.9087659543780788, "learning_rate": 3.9143588667300795e-06, "loss": 0.5407, "step": 5462 }, { "avg_step_time": 5.840229439012932, "epoch": 0.5826133333333333, "eta_time": 6.348004943016, "step": 5462 }, { "epoch": 0.58272, "grad_norm": 1.6395543543500948, "learning_rate": 3.912672665220773e-06, "loss": 0.5051, "step": 5463 }, { "avg_step_time": 5.857503190185085, "epoch": 0.58272, "eta_time": 6.365153466667792, "step": 5463 }, { "epoch": 0.5828266666666667, "grad_norm": 1.8784447237682946, "learning_rate": 3.910986593502793e-06, "loss": 0.4369, "step": 5464 }, { "avg_step_time": 5.857580093422321, "epoch": 0.5828266666666667, "eta_time": 6.3636099292707495, "step": 5464 }, { "epoch": 0.5829333333333333, "grad_norm": 1.8368445377183056, "learning_rate": 3.909300651777398e-06, "loss": 0.4705, "step": 5465 }, { "avg_step_time": 5.880346411406392, "epoch": 0.5829333333333333, "eta_time": 6.3867095746108316, "step": 5465 }, { "epoch": 0.58304, "grad_norm": 2.0387498473299743, "learning_rate": 3.907614840245836e-06, "loss": 0.5414, "step": 5466 }, { "avg_step_time": 5.879727195007632, "epoch": 0.58304, "eta_time": 6.384403779245788, "step": 5466 }, { "epoch": 0.5831466666666667, "grad_norm": 1.8616151290166914, "learning_rate": 3.90592915910934e-06, "loss": 0.4602, "step": 5467 }, { "avg_step_time": 5.881101649216931, "epoch": 0.5831466666666667, "eta_time": 6.38426256809438, "step": 5467 }, { "epoch": 0.5832533333333333, "grad_norm": 0.6016387218685166, "learning_rate": 3.90424360856912e-06, "loss": 0.4186, "step": 5468 }, { "avg_step_time": 5.848286031472562, "epoch": 0.5832533333333333, "eta_time": 6.3470148680453615, "step": 5468 }, { "epoch": 0.58336, "grad_norm": 1.9501981959296617, "learning_rate": 3.90255818882638e-06, "loss": 0.4888, "step": 5469 }, { "avg_step_time": 5.881569727502688, "epoch": 0.58336, "eta_time": 6.381503154340416, "step": 5469 }, { "epoch": 0.5834666666666667, "grad_norm": 1.6027783706325047, "learning_rate": 3.9008729000823e-06, "loss": 0.4066, "step": 5470 }, { "avg_step_time": 5.883287499649356, "epoch": 0.5834666666666667, "eta_time": 6.381732690591871, "step": 5470 }, { "epoch": 0.5835733333333334, "grad_norm": 1.8312370533597013, "learning_rate": 3.899187742538053e-06, "loss": 0.469, "step": 5471 }, { "avg_step_time": 5.887182122529155, "epoch": 0.5835733333333334, "eta_time": 6.384321946209395, "step": 5471 }, { "epoch": 0.58368, "grad_norm": 1.982068760275594, "learning_rate": 3.897502716394789e-06, "loss": 0.5973, "step": 5472 }, { "avg_step_time": 5.926528215408325, "epoch": 0.58368, "eta_time": 6.425344340205193, "step": 5472 }, { "epoch": 0.5837866666666667, "grad_norm": 1.729625068433466, "learning_rate": 3.895817821853646e-06, "loss": 0.4543, "step": 5473 }, { "avg_step_time": 5.937020824413107, "epoch": 0.5837866666666667, "eta_time": 6.435070904683317, "step": 5473 }, { "epoch": 0.5838933333333334, "grad_norm": 1.7380081569978516, "learning_rate": 3.894133059115745e-06, "loss": 0.4566, "step": 5474 }, { "avg_step_time": 5.924225063034982, "epoch": 0.5838933333333334, "eta_time": 6.41955610302763, "step": 5474 }, { "epoch": 0.584, "grad_norm": 1.661739664218353, "learning_rate": 3.892448428382189e-06, "loss": 0.5171, "step": 5475 }, { "avg_step_time": 5.92361782777189, "epoch": 0.584, "eta_time": 6.417252646752881, "step": 5475 }, { "epoch": 0.5841066666666667, "grad_norm": 1.7773653027449614, "learning_rate": 3.890763929854071e-06, "loss": 0.4914, "step": 5476 }, { "avg_step_time": 5.95212544816913, "epoch": 0.5841066666666667, "eta_time": 6.446482534003177, "step": 5476 }, { "epoch": 0.5842133333333334, "grad_norm": 1.9021164062963423, "learning_rate": 3.889079563732465e-06, "loss": 0.5151, "step": 5477 }, { "avg_step_time": 5.947867528356687, "epoch": 0.5842133333333334, "eta_time": 6.440218784870657, "step": 5477 }, { "epoch": 0.58432, "grad_norm": 1.7143422181047399, "learning_rate": 3.887395330218429e-06, "loss": 0.4508, "step": 5478 }, { "avg_step_time": 5.943077879722672, "epoch": 0.58432, "eta_time": 6.433381804799793, "step": 5478 }, { "epoch": 0.5844266666666666, "grad_norm": 1.6304666864101258, "learning_rate": 3.885711229513005e-06, "loss": 0.457, "step": 5479 }, { "avg_step_time": 5.915192900281964, "epoch": 0.5844266666666666, "eta_time": 6.401553205416259, "step": 5479 }, { "epoch": 0.5845333333333333, "grad_norm": 1.5909091672566777, "learning_rate": 3.884027261817216e-06, "loss": 0.4874, "step": 5480 }, { "avg_step_time": 5.910502441001661, "epoch": 0.5845333333333333, "eta_time": 6.394835279917075, "step": 5480 }, { "epoch": 0.58464, "grad_norm": 1.851972978710114, "learning_rate": 3.8823434273320794e-06, "loss": 0.5695, "step": 5481 }, { "avg_step_time": 5.910964387835878, "epoch": 0.58464, "eta_time": 6.393693146175808, "step": 5481 }, { "epoch": 0.5847466666666666, "grad_norm": 1.6801000612739283, "learning_rate": 3.880659726258586e-06, "loss": 0.4772, "step": 5482 }, { "avg_step_time": 5.909962348263673, "epoch": 0.5847466666666666, "eta_time": 6.390967617164022, "step": 5482 }, { "epoch": 0.5848533333333333, "grad_norm": 1.7703998866123614, "learning_rate": 3.878976158797715e-06, "loss": 0.4983, "step": 5483 }, { "avg_step_time": 5.911124239064226, "epoch": 0.5848533333333333, "eta_time": 6.390582094010546, "step": 5483 }, { "epoch": 0.58496, "grad_norm": 1.9197025440671074, "learning_rate": 3.877292725150429e-06, "loss": 0.5313, "step": 5484 }, { "avg_step_time": 5.913481127132069, "epoch": 0.58496, "eta_time": 6.391487518241912, "step": 5484 }, { "epoch": 0.5850666666666666, "grad_norm": 1.8682128179533555, "learning_rate": 3.875609425517676e-06, "loss": 0.5351, "step": 5485 }, { "avg_step_time": 5.918025715182526, "epoch": 0.5850666666666666, "eta_time": 6.394755564461118, "step": 5485 }, { "epoch": 0.5851733333333333, "grad_norm": 1.612510390692113, "learning_rate": 3.873926260100386e-06, "loss": 0.3682, "step": 5486 }, { "avg_step_time": 5.921749196871363, "epoch": 0.5851733333333333, "eta_time": 6.397134062953536, "step": 5486 }, { "epoch": 0.58528, "grad_norm": 1.846802634100169, "learning_rate": 3.872243229099476e-06, "loss": 0.4343, "step": 5487 }, { "avg_step_time": 5.938953524888164, "epoch": 0.58528, "eta_time": 6.414069806879217, "step": 5487 }, { "epoch": 0.5853866666666667, "grad_norm": 1.7738880216662074, "learning_rate": 3.870560332715842e-06, "loss": 0.4769, "step": 5488 }, { "avg_step_time": 5.946371832279244, "epoch": 0.5853866666666667, "eta_time": 6.420429808908173, "step": 5488 }, { "epoch": 0.5854933333333333, "grad_norm": 1.706799737795069, "learning_rate": 3.868877571150367e-06, "loss": 0.518, "step": 5489 }, { "avg_step_time": 5.935064212240354, "epoch": 0.5854933333333333, "eta_time": 6.406572091323894, "step": 5489 }, { "epoch": 0.5856, "grad_norm": 0.6622376932264422, "learning_rate": 3.86719494460392e-06, "loss": 0.4542, "step": 5490 }, { "avg_step_time": 5.9032167473224675, "epoch": 0.5856, "eta_time": 6.37055473981883, "step": 5490 }, { "epoch": 0.5857066666666667, "grad_norm": 1.740846283418572, "learning_rate": 3.865512453277351e-06, "loss": 0.4525, "step": 5491 }, { "avg_step_time": 5.903047766348328, "epoch": 0.5857066666666667, "eta_time": 6.368732645693584, "step": 5491 }, { "epoch": 0.5858133333333333, "grad_norm": 1.7435427037303102, "learning_rate": 3.863830097371493e-06, "loss": 0.4926, "step": 5492 }, { "avg_step_time": 5.90220342982899, "epoch": 0.5858133333333333, "eta_time": 6.366182199451658, "step": 5492 }, { "epoch": 0.58592, "grad_norm": 1.7751946135202783, "learning_rate": 3.8621478770871645e-06, "loss": 0.4589, "step": 5493 }, { "avg_step_time": 5.906557969372682, "epoch": 0.58592, "eta_time": 6.369238343640209, "step": 5493 }, { "epoch": 0.5860266666666667, "grad_norm": 1.862331691689297, "learning_rate": 3.860465792625166e-06, "loss": 0.46, "step": 5494 }, { "avg_step_time": 5.900898379508895, "epoch": 0.5860266666666667, "eta_time": 6.361496280798339, "step": 5494 }, { "epoch": 0.5861333333333333, "grad_norm": 1.5557337440946795, "learning_rate": 3.8587838441862884e-06, "loss": 0.4843, "step": 5495 }, { "avg_step_time": 5.896200919392133, "epoch": 0.5861333333333333, "eta_time": 6.354794324233744, "step": 5495 }, { "epoch": 0.58624, "grad_norm": 1.771085433033151, "learning_rate": 3.857102031971298e-06, "loss": 0.4882, "step": 5496 }, { "avg_step_time": 5.894711788254555, "epoch": 0.58624, "eta_time": 6.351551951844283, "step": 5496 }, { "epoch": 0.5863466666666667, "grad_norm": 1.8869936370933889, "learning_rate": 3.8554203561809475e-06, "loss": 0.466, "step": 5497 }, { "avg_step_time": 5.898197123498628, "epoch": 0.5863466666666667, "eta_time": 6.3536690124799104, "step": 5497 }, { "epoch": 0.5864533333333334, "grad_norm": 1.9399810745262807, "learning_rate": 3.853738817015977e-06, "loss": 0.5151, "step": 5498 }, { "avg_step_time": 5.900335046980116, "epoch": 0.5864533333333334, "eta_time": 6.354333049206086, "step": 5498 }, { "epoch": 0.58656, "grad_norm": 0.625613976558511, "learning_rate": 3.852057414677102e-06, "loss": 0.4561, "step": 5499 }, { "avg_step_time": 5.811202213017627, "epoch": 0.58656, "eta_time": 6.256727716015646, "step": 5499 }, { "epoch": 0.5866666666666667, "grad_norm": 1.8405263391445106, "learning_rate": 3.850376149365034e-06, "loss": 0.5101, "step": 5500 }, { "avg_step_time": 5.8081383536560365, "epoch": 0.5866666666666667, "eta_time": 6.251815589004762, "step": 5500 }, { "epoch": 0.5867733333333334, "grad_norm": 0.6703694457874312, "learning_rate": 3.848695021280455e-06, "loss": 0.4439, "step": 5501 }, { "avg_step_time": 5.777080954927387, "epoch": 0.5867733333333334, "eta_time": 6.216781005385749, "step": 5501 }, { "epoch": 0.58688, "grad_norm": 1.6591988202239085, "learning_rate": 3.84701403062404e-06, "loss": 0.504, "step": 5502 }, { "avg_step_time": 5.834600528081258, "epoch": 0.58688, "eta_time": 6.277057734794087, "step": 5502 }, { "epoch": 0.5869866666666667, "grad_norm": 1.836350112807176, "learning_rate": 3.845333177596443e-06, "loss": 0.4928, "step": 5503 }, { "avg_step_time": 5.827289183934529, "epoch": 0.5869866666666667, "eta_time": 6.267573255609582, "step": 5503 }, { "epoch": 0.5870933333333334, "grad_norm": 1.7715215188539264, "learning_rate": 3.843652462398303e-06, "loss": 0.546, "step": 5504 }, { "avg_step_time": 5.824716026132757, "epoch": 0.5870933333333334, "eta_time": 6.263187704766639, "step": 5504 }, { "epoch": 0.5872, "grad_norm": 2.1497799502185484, "learning_rate": 3.841971885230243e-06, "loss": 0.5519, "step": 5505 }, { "avg_step_time": 5.827576685433436, "epoch": 0.5872, "eta_time": 6.264644936840943, "step": 5505 }, { "epoch": 0.5873066666666666, "grad_norm": 0.6639119644942808, "learning_rate": 3.84029144629287e-06, "loss": 0.446, "step": 5506 }, { "avg_step_time": 5.754541575306594, "epoch": 0.5873066666666666, "eta_time": 6.18453370968367, "step": 5506 }, { "epoch": 0.5874133333333333, "grad_norm": 1.7843542551879836, "learning_rate": 3.838611145786771e-06, "loss": 0.5599, "step": 5507 }, { "avg_step_time": 5.769587203709766, "epoch": 0.5874133333333333, "eta_time": 6.199100917763715, "step": 5507 }, { "epoch": 0.58752, "grad_norm": 2.033375714608032, "learning_rate": 3.83693098391252e-06, "loss": 0.5747, "step": 5508 }, { "avg_step_time": 5.7691376666830045, "epoch": 0.58752, "eta_time": 6.1970153769619944, "step": 5508 }, { "epoch": 0.5876266666666666, "grad_norm": 2.1311327860510283, "learning_rate": 3.835250960870672e-06, "loss": 0.5769, "step": 5509 }, { "avg_step_time": 5.768946931819723, "epoch": 0.5876266666666666, "eta_time": 6.195208010670847, "step": 5509 }, { "epoch": 0.5877333333333333, "grad_norm": 1.9446905901942082, "learning_rate": 3.83357107686177e-06, "loss": 0.4678, "step": 5510 }, { "avg_step_time": 5.765754025391858, "epoch": 0.5877333333333333, "eta_time": 6.190177585594314, "step": 5510 }, { "epoch": 0.58784, "grad_norm": 1.586895677879256, "learning_rate": 3.8318913320863355e-06, "loss": 0.4001, "step": 5511 }, { "avg_step_time": 5.76314096498971, "epoch": 0.58784, "eta_time": 6.185771302422289, "step": 5511 }, { "epoch": 0.5879466666666666, "grad_norm": 0.6373957964729166, "learning_rate": 3.8302117267448754e-06, "loss": 0.4418, "step": 5512 }, { "avg_step_time": 5.763311085074839, "epoch": 0.5879466666666666, "eta_time": 6.184352978234473, "step": 5512 }, { "epoch": 0.5880533333333333, "grad_norm": 1.8154752323128756, "learning_rate": 3.828532261037879e-06, "loss": 0.4679, "step": 5513 }, { "avg_step_time": 5.764215654797024, "epoch": 0.5880533333333333, "eta_time": 6.183722460785029, "step": 5513 }, { "epoch": 0.58816, "grad_norm": 2.016291891620811, "learning_rate": 3.826852935165818e-06, "loss": 0.5232, "step": 5514 }, { "avg_step_time": 5.73174291909343, "epoch": 0.58816, "eta_time": 6.147294280727705, "step": 5514 }, { "epoch": 0.5882666666666667, "grad_norm": 1.8941189499816837, "learning_rate": 3.825173749329153e-06, "loss": 0.4378, "step": 5515 }, { "avg_step_time": 5.765274664368293, "epoch": 0.5882666666666667, "eta_time": 6.181655612350448, "step": 5515 }, { "epoch": 0.5883733333333333, "grad_norm": 1.545626395953442, "learning_rate": 3.823494703728321e-06, "loss": 0.4403, "step": 5516 }, { "avg_step_time": 5.763897686293631, "epoch": 0.5883733333333333, "eta_time": 6.178578103168644, "step": 5516 }, { "epoch": 0.58848, "grad_norm": 1.8101000225314223, "learning_rate": 3.8218157985637465e-06, "loss": 0.5658, "step": 5517 }, { "avg_step_time": 5.774218041487415, "epoch": 0.58848, "eta_time": 6.188037001127346, "step": 5517 }, { "epoch": 0.5885866666666667, "grad_norm": 1.7681079824198376, "learning_rate": 3.820137034035835e-06, "loss": 0.4676, "step": 5518 }, { "avg_step_time": 5.774749151383988, "epoch": 0.5885866666666667, "eta_time": 6.187002076913345, "step": 5518 }, { "epoch": 0.5886933333333333, "grad_norm": 1.7308645134494707, "learning_rate": 3.818458410344974e-06, "loss": 0.5199, "step": 5519 }, { "avg_step_time": 5.774912896782461, "epoch": 0.5886933333333333, "eta_time": 6.185573369442547, "step": 5519 }, { "epoch": 0.5888, "grad_norm": 1.9383602426147262, "learning_rate": 3.816779927691542e-06, "loss": 0.4567, "step": 5520 }, { "avg_step_time": 5.772661726884167, "epoch": 0.5888, "eta_time": 6.18155859920513, "step": 5520 }, { "epoch": 0.5889066666666667, "grad_norm": 1.8522475744113094, "learning_rate": 3.81510158627589e-06, "loss": 0.4832, "step": 5521 }, { "avg_step_time": 5.771852430671152, "epoch": 0.5889066666666667, "eta_time": 6.1790886855018385, "step": 5521 }, { "epoch": 0.5890133333333334, "grad_norm": 2.0573667009905208, "learning_rate": 3.8134233862983594e-06, "loss": 0.5247, "step": 5522 }, { "avg_step_time": 5.772008729703499, "epoch": 0.5890133333333334, "eta_time": 6.177652676540995, "step": 5522 }, { "epoch": 0.58912, "grad_norm": 1.7502391975525695, "learning_rate": 3.811745327959271e-06, "loss": 0.4679, "step": 5523 }, { "avg_step_time": 5.805361268496273, "epoch": 0.58912, "eta_time": 6.211736557291012, "step": 5523 }, { "epoch": 0.5892266666666667, "grad_norm": 0.6681468334160294, "learning_rate": 3.81006741145893e-06, "loss": 0.4191, "step": 5524 }, { "avg_step_time": 5.768750881907915, "epoch": 0.5892266666666667, "eta_time": 6.17096101284094, "step": 5524 }, { "epoch": 0.5893333333333334, "grad_norm": 2.0035083239577958, "learning_rate": 3.808389636997626e-06, "loss": 0.463, "step": 5525 }, { "avg_step_time": 5.765760973246411, "epoch": 0.5893333333333334, "eta_time": 6.166161040832967, "step": 5525 }, { "epoch": 0.58944, "grad_norm": 1.9937553535392956, "learning_rate": 3.8067120047756313e-06, "loss": 0.4922, "step": 5526 }, { "avg_step_time": 5.768543017030966, "epoch": 0.58944, "eta_time": 6.167533909042275, "step": 5526 }, { "epoch": 0.5895466666666667, "grad_norm": 1.6337047145850183, "learning_rate": 3.805034514993198e-06, "loss": 0.4552, "step": 5527 }, { "avg_step_time": 5.766444278485848, "epoch": 0.5895466666666667, "eta_time": 6.163688217670428, "step": 5527 }, { "epoch": 0.5896533333333334, "grad_norm": 2.0727534215828682, "learning_rate": 3.8033571678505626e-06, "loss": 0.4531, "step": 5528 }, { "avg_step_time": 5.780477326325696, "epoch": 0.5896533333333334, "eta_time": 6.177082298437487, "step": 5528 }, { "epoch": 0.58976, "grad_norm": 1.8568565388119125, "learning_rate": 3.801679963547949e-06, "loss": 0.5365, "step": 5529 }, { "avg_step_time": 5.781042912993768, "epoch": 0.58976, "eta_time": 6.176080845381676, "step": 5529 }, { "epoch": 0.5898666666666667, "grad_norm": 1.7228370493777618, "learning_rate": 3.8000029022855587e-06, "loss": 0.5188, "step": 5530 }, { "avg_step_time": 5.758949026916966, "epoch": 0.5898666666666667, "eta_time": 6.1508775023599265, "step": 5530 }, { "epoch": 0.5899733333333333, "grad_norm": 2.077767398900573, "learning_rate": 3.798325984263578e-06, "loss": 0.495, "step": 5531 }, { "avg_step_time": 5.761687748359911, "epoch": 0.5899733333333333, "eta_time": 6.152202140193194, "step": 5531 }, { "epoch": 0.59008, "grad_norm": 1.7768578080251314, "learning_rate": 3.7966492096821773e-06, "loss": 0.4686, "step": 5532 }, { "avg_step_time": 5.763268779022525, "epoch": 0.59008, "eta_time": 6.152289421606545, "step": 5532 }, { "epoch": 0.5901866666666666, "grad_norm": 2.170181196502852, "learning_rate": 3.7949725787415044e-06, "loss": 0.4999, "step": 5533 }, { "avg_step_time": 5.760869623434664, "epoch": 0.5901866666666666, "eta_time": 6.1481280814544395, "step": 5533 }, { "epoch": 0.5902933333333333, "grad_norm": 0.6759553143982644, "learning_rate": 3.7932960916417004e-06, "loss": 0.4464, "step": 5534 }, { "avg_step_time": 5.726528866122467, "epoch": 0.5902933333333333, "eta_time": 6.10988815966011, "step": 5534 }, { "epoch": 0.5904, "grad_norm": 1.6069866290772732, "learning_rate": 3.7916197485828793e-06, "loss": 0.4029, "step": 5535 }, { "avg_step_time": 5.726634935899214, "epoch": 0.5904, "eta_time": 6.108410598292495, "step": 5535 }, { "epoch": 0.5905066666666666, "grad_norm": 1.8365167544964556, "learning_rate": 3.7899435497651416e-06, "loss": 0.4626, "step": 5536 }, { "avg_step_time": 5.7277301778697005, "epoch": 0.5905066666666666, "eta_time": 6.107987820233827, "step": 5536 }, { "epoch": 0.5906133333333333, "grad_norm": 1.7863938458808823, "learning_rate": 3.7882674953885736e-06, "loss": 0.489, "step": 5537 }, { "avg_step_time": 5.7257690911341195, "epoch": 0.5906133333333333, "eta_time": 6.104306047714653, "step": 5537 }, { "epoch": 0.59072, "grad_norm": 1.6802224009339712, "learning_rate": 3.786591585653235e-06, "loss": 0.5201, "step": 5538 }, { "avg_step_time": 5.725845093678946, "epoch": 0.59072, "eta_time": 6.1027965623461435, "step": 5538 }, { "epoch": 0.5908266666666667, "grad_norm": 1.6752838243232113, "learning_rate": 3.7849158207591806e-06, "loss": 0.4887, "step": 5539 }, { "avg_step_time": 5.727400789357195, "epoch": 0.5908266666666667, "eta_time": 6.102863729992833, "step": 5539 }, { "epoch": 0.5909333333333333, "grad_norm": 1.7979608513408152, "learning_rate": 3.783240200906442e-06, "loss": 0.4418, "step": 5540 }, { "avg_step_time": 5.727792898813884, "epoch": 0.5909333333333333, "eta_time": 6.10169049081979, "step": 5540 }, { "epoch": 0.59104, "grad_norm": 0.6394148852842965, "learning_rate": 3.7815647262950293e-06, "loss": 0.4179, "step": 5541 }, { "avg_step_time": 5.6900004834839795, "epoch": 0.59104, "eta_time": 6.059850514910439, "step": 5541 }, { "epoch": 0.5911466666666667, "grad_norm": 1.5850802620262858, "learning_rate": 3.7798893971249424e-06, "loss": 0.4833, "step": 5542 }, { "avg_step_time": 5.688658220599396, "epoch": 0.5911466666666667, "eta_time": 6.056840822099302, "step": 5542 }, { "epoch": 0.5912533333333333, "grad_norm": 0.6044730066511137, "learning_rate": 3.7782142135961586e-06, "loss": 0.4201, "step": 5543 }, { "avg_step_time": 5.654230059999408, "epoch": 0.5912533333333333, "eta_time": 6.018613774977148, "step": 5543 }, { "epoch": 0.59136, "grad_norm": 1.9475159413164265, "learning_rate": 3.7765391759086424e-06, "loss": 0.4802, "step": 5544 }, { "avg_step_time": 5.669026757731582, "epoch": 0.59136, "eta_time": 6.032789308019359, "step": 5544 }, { "epoch": 0.5914666666666667, "grad_norm": 1.6613549538268757, "learning_rate": 3.774864284262339e-06, "loss": 0.5051, "step": 5545 }, { "avg_step_time": 5.677330953906281, "epoch": 0.5914666666666667, "eta_time": 6.040049320405848, "step": 5545 }, { "epoch": 0.5915733333333333, "grad_norm": 1.4309566617406575, "learning_rate": 3.7731895388571725e-06, "loss": 0.3742, "step": 5546 }, { "avg_step_time": 5.67646429755471, "epoch": 0.5915733333333333, "eta_time": 6.037550498704717, "step": 5546 }, { "epoch": 0.59168, "grad_norm": 1.7915030842624124, "learning_rate": 3.771514939893055e-06, "loss": 0.5808, "step": 5547 }, { "avg_step_time": 5.672542545530531, "epoch": 0.59168, "eta_time": 6.03180357341413, "step": 5547 }, { "epoch": 0.5917866666666667, "grad_norm": 1.6552504466715674, "learning_rate": 3.769840487569877e-06, "loss": 0.487, "step": 5548 }, { "avg_step_time": 5.6780283812320596, "epoch": 0.5917866666666667, "eta_time": 6.036059615270859, "step": 5548 }, { "epoch": 0.5918933333333334, "grad_norm": 1.66435542262789, "learning_rate": 3.7681661820875156e-06, "loss": 0.4562, "step": 5549 }, { "avg_step_time": 5.675635662945834, "epoch": 0.5918933333333334, "eta_time": 6.031939457341878, "step": 5549 }, { "epoch": 0.592, "grad_norm": 1.5964179593932732, "learning_rate": 3.766492023645827e-06, "loss": 0.5082, "step": 5550 }, { "avg_step_time": 5.704134428139889, "epoch": 0.592, "eta_time": 6.060642829898632, "step": 5550 }, { "epoch": 0.5921066666666667, "grad_norm": 1.541619707813795, "learning_rate": 3.764818012444652e-06, "loss": 0.4757, "step": 5551 }, { "avg_step_time": 5.739896480483238, "epoch": 0.5921066666666667, "eta_time": 6.097045594824418, "step": 5551 }, { "epoch": 0.5922133333333334, "grad_norm": 1.7388334967715111, "learning_rate": 3.7631441486838115e-06, "loss": 0.5007, "step": 5552 }, { "avg_step_time": 5.761115240328239, "epoch": 0.5922133333333334, "eta_time": 6.117984323270795, "step": 5552 }, { "epoch": 0.59232, "grad_norm": 1.7192065736395747, "learning_rate": 3.761470432563109e-06, "loss": 0.4549, "step": 5553 }, { "avg_step_time": 5.76190138103986, "epoch": 0.59232, "eta_time": 6.117218632870652, "step": 5553 }, { "epoch": 0.5924266666666667, "grad_norm": 1.946247819048049, "learning_rate": 3.7597968642823348e-06, "loss": 0.5157, "step": 5554 }, { "avg_step_time": 5.7293757958845655, "epoch": 0.5924266666666667, "eta_time": 6.081095810020813, "step": 5554 }, { "epoch": 0.5925333333333334, "grad_norm": 1.9581958635032213, "learning_rate": 3.758123444041255e-06, "loss": 0.515, "step": 5555 }, { "avg_step_time": 5.731337896501175, "epoch": 0.5925333333333334, "eta_time": 6.08158632350958, "step": 5555 }, { "epoch": 0.59264, "grad_norm": 1.819155992455428, "learning_rate": 3.7564501720396242e-06, "loss": 0.4547, "step": 5556 }, { "avg_step_time": 5.703267518920128, "epoch": 0.59264, "eta_time": 6.050216292987768, "step": 5556 }, { "epoch": 0.5927466666666666, "grad_norm": 2.0759481897579493, "learning_rate": 3.7547770484771745e-06, "loss": 0.5488, "step": 5557 }, { "avg_step_time": 5.7009363270769216, "epoch": 0.5927466666666666, "eta_time": 6.046159693549912, "step": 5557 }, { "epoch": 0.5928533333333333, "grad_norm": 1.760501436124895, "learning_rate": 3.7531040735536194e-06, "loss": 0.4823, "step": 5558 }, { "avg_step_time": 5.6849239185602976, "epoch": 0.5928533333333333, "eta_time": 6.0275984992068485, "step": 5558 }, { "epoch": 0.59296, "grad_norm": 1.7227897404170893, "learning_rate": 3.7514312474686643e-06, "loss": 0.5069, "step": 5559 }, { "avg_step_time": 5.6896824066085046, "epoch": 0.59296, "eta_time": 6.031063351005015, "step": 5559 }, { "epoch": 0.5930666666666666, "grad_norm": 1.610441281849699, "learning_rate": 3.7497585704219845e-06, "loss": 0.5098, "step": 5560 }, { "avg_step_time": 5.699631852332992, "epoch": 0.5930666666666666, "eta_time": 6.040026532402878, "step": 5560 }, { "epoch": 0.5931733333333333, "grad_norm": 1.4423351427311275, "learning_rate": 3.748086042613245e-06, "loss": 0.4642, "step": 5561 }, { "avg_step_time": 5.7011809638052275, "epoch": 0.5931733333333333, "eta_time": 6.0400844988758715, "step": 5561 }, { "epoch": 0.59328, "grad_norm": 1.641138247055765, "learning_rate": 3.74641366424209e-06, "loss": 0.3693, "step": 5562 }, { "avg_step_time": 5.697324422874836, "epoch": 0.59328, "eta_time": 6.0344161178949305, "step": 5562 }, { "epoch": 0.5933866666666666, "grad_norm": 1.9404102972882926, "learning_rate": 3.7447414355081465e-06, "loss": 0.4669, "step": 5563 }, { "avg_step_time": 5.698242625804863, "epoch": 0.5933866666666666, "eta_time": 6.033805802657816, "step": 5563 }, { "epoch": 0.5934933333333333, "grad_norm": 2.061164386224398, "learning_rate": 3.7430693566110254e-06, "loss": 0.5033, "step": 5564 }, { "avg_step_time": 5.676916493309869, "epoch": 0.5934933333333333, "eta_time": 6.0096468766677535, "step": 5564 }, { "epoch": 0.5936, "grad_norm": 1.574732965262652, "learning_rate": 3.7413974277503183e-06, "loss": 0.4882, "step": 5565 }, { "avg_step_time": 5.679144938786824, "epoch": 0.5936, "eta_time": 6.01042839354939, "step": 5565 }, { "epoch": 0.5937066666666667, "grad_norm": 0.6357837265533399, "learning_rate": 3.7397256491255973e-06, "loss": 0.4314, "step": 5566 }, { "avg_step_time": 5.652401509911123, "epoch": 0.5937066666666667, "eta_time": 5.980554819792075, "step": 5566 }, { "epoch": 0.5938133333333333, "grad_norm": 1.83199081658081, "learning_rate": 3.738054020936418e-06, "loss": 0.5034, "step": 5567 }, { "avg_step_time": 5.6884010560584795, "epoch": 0.5938133333333333, "eta_time": 6.017064228186303, "step": 5567 }, { "epoch": 0.59392, "grad_norm": 1.7890896811669128, "learning_rate": 3.7363825433823187e-06, "loss": 0.4435, "step": 5568 }, { "avg_step_time": 5.65449990407385, "epoch": 0.59392, "eta_time": 5.979633648558097, "step": 5568 }, { "epoch": 0.5940266666666667, "grad_norm": 1.8234819279078631, "learning_rate": 3.7347112166628207e-06, "loss": 0.5126, "step": 5569 }, { "avg_step_time": 5.654525937456073, "epoch": 0.5940266666666667, "eta_time": 5.978090477210504, "step": 5569 }, { "epoch": 0.5941333333333333, "grad_norm": 1.9151678799289085, "learning_rate": 3.7330400409774236e-06, "loss": 0.4627, "step": 5570 }, { "avg_step_time": 5.652982511905709, "epoch": 0.5941333333333333, "eta_time": 5.974888460500339, "step": 5570 }, { "epoch": 0.59424, "grad_norm": 1.685165361160553, "learning_rate": 3.7313690165256134e-06, "loss": 0.4625, "step": 5571 }, { "avg_step_time": 5.71002938289835, "epoch": 0.59424, "eta_time": 6.033597714595923, "step": 5571 }, { "epoch": 0.5943466666666667, "grad_norm": 1.9162347314625787, "learning_rate": 3.729698143506851e-06, "loss": 0.4782, "step": 5572 }, { "avg_step_time": 5.718027654320303, "epoch": 0.5943466666666667, "eta_time": 6.040460880383365, "step": 5572 }, { "epoch": 0.5944533333333333, "grad_norm": 0.638337345631739, "learning_rate": 3.7280274221205907e-06, "loss": 0.4329, "step": 5573 }, { "avg_step_time": 5.684615019595984, "epoch": 0.5944533333333333, "eta_time": 6.003585084584426, "step": 5573 }, { "epoch": 0.59456, "grad_norm": 1.5149502378440212, "learning_rate": 3.7263568525662574e-06, "loss": 0.4041, "step": 5574 }, { "avg_step_time": 5.702805218070444, "epoch": 0.59456, "eta_time": 6.021211842746044, "step": 5574 }, { "epoch": 0.5946666666666667, "grad_norm": 1.8070208459036567, "learning_rate": 3.7246864350432636e-06, "loss": 0.5063, "step": 5575 }, { "avg_step_time": 5.670134915245904, "epoch": 0.5946666666666667, "eta_time": 5.985142410537343, "step": 5575 }, { "epoch": 0.5947733333333334, "grad_norm": 1.819472143954221, "learning_rate": 3.723016169751003e-06, "loss": 0.4348, "step": 5576 }, { "avg_step_time": 5.670874077864368, "epoch": 0.5947733333333334, "eta_time": 5.984347394946314, "step": 5576 }, { "epoch": 0.59488, "grad_norm": 2.01153261911861, "learning_rate": 3.7213460568888493e-06, "loss": 0.4867, "step": 5577 }, { "avg_step_time": 5.681347184711033, "epoch": 0.59488, "eta_time": 5.993821279870139, "step": 5577 }, { "epoch": 0.5949866666666667, "grad_norm": 1.897219661016442, "learning_rate": 3.7196760966561607e-06, "loss": 0.4717, "step": 5578 }, { "avg_step_time": 5.68211392922835, "epoch": 0.5949866666666667, "eta_time": 5.993051830355568, "step": 5578 }, { "epoch": 0.5950933333333334, "grad_norm": 0.6511313848845844, "learning_rate": 3.7180062892522774e-06, "loss": 0.4528, "step": 5579 }, { "avg_step_time": 5.64766344638786, "epoch": 0.5950933333333334, "eta_time": 5.955147345135643, "step": 5579 }, { "epoch": 0.5952, "grad_norm": 1.7054534981134841, "learning_rate": 3.716336634876516e-06, "loss": 0.4991, "step": 5580 }, { "avg_step_time": 5.652862009375986, "epoch": 0.5952, "eta_time": 5.959058701550519, "step": 5580 }, { "epoch": 0.5953066666666667, "grad_norm": 1.851366546981133, "learning_rate": 3.71466713372818e-06, "loss": 0.4654, "step": 5581 }, { "avg_step_time": 5.660656242659598, "epoch": 0.5953066666666667, "eta_time": 5.965702717958476, "step": 5581 }, { "epoch": 0.5954133333333333, "grad_norm": 1.8408890969389269, "learning_rate": 3.712997786006554e-06, "loss": 0.4986, "step": 5582 }, { "avg_step_time": 5.664290900182242, "epoch": 0.5954133333333333, "eta_time": 5.967959828997568, "step": 5582 }, { "epoch": 0.59552, "grad_norm": 1.8485115575069102, "learning_rate": 3.711328591910904e-06, "loss": 0.4831, "step": 5583 }, { "avg_step_time": 5.704660839504665, "epoch": 0.59552, "eta_time": 6.008909417611581, "step": 5583 }, { "epoch": 0.5956266666666666, "grad_norm": 1.7614312531764686, "learning_rate": 3.709659551640476e-06, "loss": 0.4602, "step": 5584 }, { "avg_step_time": 5.701107123885492, "epoch": 0.5956266666666666, "eta_time": 6.003582529624972, "step": 5584 }, { "epoch": 0.5957333333333333, "grad_norm": 1.7959526084150517, "learning_rate": 3.7079906653945008e-06, "loss": 0.453, "step": 5585 }, { "avg_step_time": 5.697908480962117, "epoch": 0.5957333333333333, "eta_time": 5.998631428568451, "step": 5585 }, { "epoch": 0.59584, "grad_norm": 1.7467294123079937, "learning_rate": 3.7063219333721857e-06, "loss": 0.4884, "step": 5586 }, { "avg_step_time": 5.697098862041127, "epoch": 0.59584, "eta_time": 5.9961965522982865, "step": 5586 }, { "epoch": 0.5959466666666666, "grad_norm": 1.7225598649164968, "learning_rate": 3.7046533557727238e-06, "loss": 0.5359, "step": 5587 }, { "avg_step_time": 5.683220506918551, "epoch": 0.5959466666666666, "eta_time": 5.980010911168742, "step": 5587 }, { "epoch": 0.5960533333333333, "grad_norm": 1.9024489127337794, "learning_rate": 3.7029849327952897e-06, "loss": 0.49, "step": 5588 }, { "avg_step_time": 5.7129291308046595, "epoch": 0.5960533333333333, "eta_time": 6.0096840606547905, "step": 5588 }, { "epoch": 0.59616, "grad_norm": 1.669564357660873, "learning_rate": 3.7013166646390384e-06, "loss": 0.4836, "step": 5589 }, { "avg_step_time": 5.749970525202125, "epoch": 0.59616, "eta_time": 6.047052335670902, "step": 5589 }, { "epoch": 0.5962666666666666, "grad_norm": 1.745298532172104, "learning_rate": 3.6996485515031077e-06, "loss": 0.5213, "step": 5590 }, { "avg_step_time": 5.754897688374375, "epoch": 0.5962666666666666, "eta_time": 6.05063548624917, "step": 5590 }, { "epoch": 0.5963733333333333, "grad_norm": 1.922023226767715, "learning_rate": 3.6979805935866125e-06, "loss": 0.4494, "step": 5591 }, { "avg_step_time": 5.753698958290948, "epoch": 0.5963733333333333, "eta_time": 6.047776905048041, "step": 5591 }, { "epoch": 0.59648, "grad_norm": 1.8219340033503661, "learning_rate": 3.6963127910886526e-06, "loss": 0.5045, "step": 5592 }, { "avg_step_time": 5.759126993140789, "epoch": 0.59648, "eta_time": 6.051882615292112, "step": 5592 }, { "epoch": 0.5965866666666667, "grad_norm": 2.106410045917053, "learning_rate": 3.694645144208314e-06, "loss": 0.5232, "step": 5593 }, { "avg_step_time": 5.75784223489087, "epoch": 0.5965866666666667, "eta_time": 6.04893314787702, "step": 5593 }, { "epoch": 0.5966933333333333, "grad_norm": 1.8660230236843243, "learning_rate": 3.6929776531446544e-06, "loss": 0.5247, "step": 5594 }, { "avg_step_time": 5.755539198114414, "epoch": 0.5966933333333333, "eta_time": 6.044914918908501, "step": 5594 }, { "epoch": 0.5968, "grad_norm": 1.605228504415581, "learning_rate": 3.691310318096719e-06, "loss": 0.4333, "step": 5595 }, { "avg_step_time": 5.758242029132265, "epoch": 0.5968, "eta_time": 6.046154130588878, "step": 5595 }, { "epoch": 0.5969066666666667, "grad_norm": 1.776001507336617, "learning_rate": 3.6896431392635345e-06, "loss": 0.5078, "step": 5596 }, { "avg_step_time": 5.754475152853764, "epoch": 0.5969066666666667, "eta_time": 6.0406004451762145, "step": 5596 }, { "epoch": 0.5970133333333333, "grad_norm": 1.644731819028672, "learning_rate": 3.6879761168441038e-06, "loss": 0.4615, "step": 5597 }, { "avg_step_time": 5.748487412327468, "epoch": 0.5970133333333333, "eta_time": 6.032718178825881, "step": 5597 }, { "epoch": 0.59712, "grad_norm": 1.7432457545899869, "learning_rate": 3.6863092510374198e-06, "loss": 0.4889, "step": 5598 }, { "avg_step_time": 5.782125456164581, "epoch": 0.59712, "eta_time": 6.066413291092673, "step": 5598 }, { "epoch": 0.5972266666666667, "grad_norm": 1.9530803965052883, "learning_rate": 3.684642542042449e-06, "loss": 0.4807, "step": 5599 }, { "avg_step_time": 5.7814744385806, "epoch": 0.5972266666666667, "eta_time": 6.064124300022318, "step": 5599 }, { "epoch": 0.5973333333333334, "grad_norm": 1.939837777218539, "learning_rate": 3.6829759900581413e-06, "loss": 0.5223, "step": 5600 }, { "avg_step_time": 5.821294435346969, "epoch": 0.5973333333333334, "eta_time": 6.104274025954114, "step": 5600 }, { "epoch": 0.59744, "grad_norm": 1.6935960247858395, "learning_rate": 3.68130959528343e-06, "loss": 0.433, "step": 5601 }, { "avg_step_time": 5.789908900405422, "epoch": 0.59744, "eta_time": 6.069754497258351, "step": 5601 }, { "epoch": 0.5975466666666667, "grad_norm": 1.9538549887583547, "learning_rate": 3.6796433579172265e-06, "loss": 0.4211, "step": 5602 }, { "avg_step_time": 5.7916360358999235, "epoch": 0.5975466666666667, "eta_time": 6.06995632318067, "step": 5602 }, { "epoch": 0.5976533333333334, "grad_norm": 1.7553804234742585, "learning_rate": 3.677977278158427e-06, "loss": 0.4692, "step": 5603 }, { "avg_step_time": 5.7944209021751325, "epoch": 0.5976533333333334, "eta_time": 6.071265456390166, "step": 5603 }, { "epoch": 0.59776, "grad_norm": 0.6753051970378026, "learning_rate": 3.6763113562059077e-06, "loss": 0.4776, "step": 5604 }, { "avg_step_time": 5.765384847467596, "epoch": 0.59776, "eta_time": 6.0392406277223065, "step": 5604 }, { "epoch": 0.5978666666666667, "grad_norm": 1.6916790304956904, "learning_rate": 3.6746455922585222e-06, "loss": 0.4653, "step": 5605 }, { "avg_step_time": 5.8152064361957585, "epoch": 0.5978666666666667, "eta_time": 6.089813406793891, "step": 5605 }, { "epoch": 0.5979733333333334, "grad_norm": 1.8407799743839155, "learning_rate": 3.6729799865151094e-06, "loss": 0.5651, "step": 5606 }, { "avg_step_time": 5.804236202528982, "epoch": 0.5979733333333334, "eta_time": 6.076712846481037, "step": 5606 }, { "epoch": 0.59808, "grad_norm": 1.9089271080936456, "learning_rate": 3.6713145391744877e-06, "loss": 0.5124, "step": 5607 }, { "avg_step_time": 5.803072664472792, "epoch": 0.59808, "eta_time": 6.073882722148189, "step": 5607 }, { "epoch": 0.5981866666666666, "grad_norm": 1.6163749450583655, "learning_rate": 3.6696492504354585e-06, "loss": 0.5131, "step": 5608 }, { "avg_step_time": 5.802228392976703, "epoch": 0.5981866666666666, "eta_time": 6.071387321206455, "step": 5608 }, { "epoch": 0.5982933333333333, "grad_norm": 1.624506022492558, "learning_rate": 3.6679841204968025e-06, "loss": 0.4761, "step": 5609 }, { "avg_step_time": 5.8030055749295935, "epoch": 0.5982933333333333, "eta_time": 6.070588609773569, "step": 5609 }, { "epoch": 0.5984, "grad_norm": 1.8184817137946967, "learning_rate": 3.6663191495572827e-06, "loss": 0.3993, "step": 5610 }, { "avg_step_time": 5.80142098966271, "epoch": 0.5984, "eta_time": 6.067319451688918, "step": 5610 }, { "epoch": 0.5985066666666666, "grad_norm": 0.6879389196923839, "learning_rate": 3.664654337815639e-06, "loss": 0.4653, "step": 5611 }, { "avg_step_time": 5.8015039569199685, "epoch": 0.5985066666666666, "eta_time": 6.065794692735212, "step": 5611 }, { "epoch": 0.5986133333333333, "grad_norm": 2.1208155237149846, "learning_rate": 3.6629896854705963e-06, "loss": 0.4626, "step": 5612 }, { "avg_step_time": 5.800173757052181, "epoch": 0.5986133333333333, "eta_time": 6.062792735496488, "step": 5612 }, { "epoch": 0.59872, "grad_norm": 1.90050179209991, "learning_rate": 3.661325192720862e-06, "loss": 0.5619, "step": 5613 }, { "avg_step_time": 5.7990665869279345, "epoch": 0.59872, "eta_time": 6.0600245833396915, "step": 5613 }, { "epoch": 0.5988266666666666, "grad_norm": 1.7179641476263148, "learning_rate": 3.6596608597651205e-06, "loss": 0.4674, "step": 5614 }, { "avg_step_time": 5.795435431027653, "epoch": 0.5988266666666666, "eta_time": 6.0546201822486125, "step": 5614 }, { "epoch": 0.5989333333333333, "grad_norm": 2.1026162189856974, "learning_rate": 3.657996686802039e-06, "loss": 0.4705, "step": 5615 }, { "avg_step_time": 5.82067044816836, "epoch": 0.5989333333333333, "eta_time": 6.079366912531398, "step": 5615 }, { "epoch": 0.59904, "grad_norm": 1.949592864080913, "learning_rate": 3.6563326740302664e-06, "loss": 0.4432, "step": 5616 }, { "avg_step_time": 5.813391278488467, "epoch": 0.59904, "eta_time": 6.070149393288374, "step": 5616 }, { "epoch": 0.5991466666666667, "grad_norm": 1.503194805203827, "learning_rate": 3.6546688216484272e-06, "loss": 0.4883, "step": 5617 }, { "avg_step_time": 5.82020049384146, "epoch": 0.5991466666666667, "eta_time": 6.075642626626724, "step": 5617 }, { "epoch": 0.5992533333333333, "grad_norm": 1.9704457827145216, "learning_rate": 3.6530051298551372e-06, "loss": 0.4425, "step": 5618 }, { "avg_step_time": 5.819340958739772, "epoch": 0.5992533333333333, "eta_time": 6.073128883884812, "step": 5618 }, { "epoch": 0.59936, "grad_norm": 1.8377463029990964, "learning_rate": 3.6513415988489824e-06, "loss": 0.5076, "step": 5619 }, { "avg_step_time": 5.822821590635511, "epoch": 0.59936, "eta_time": 6.07514385956305, "step": 5619 }, { "epoch": 0.5994666666666667, "grad_norm": 1.7488159089770101, "learning_rate": 3.649678228828535e-06, "loss": 0.4639, "step": 5620 }, { "avg_step_time": 5.828170600563589, "epoch": 0.5994666666666667, "eta_time": 6.07910572364341, "step": 5620 }, { "epoch": 0.5995733333333333, "grad_norm": 1.932363352575751, "learning_rate": 3.648015019992347e-06, "loss": 0.4562, "step": 5621 }, { "avg_step_time": 5.839656834650522, "epoch": 0.5995733333333333, "eta_time": 6.089464377021684, "step": 5621 }, { "epoch": 0.59968, "grad_norm": 1.719526480101323, "learning_rate": 3.6463519725389516e-06, "loss": 0.4374, "step": 5622 }, { "avg_step_time": 5.841743404215032, "epoch": 0.59968, "eta_time": 6.090017498894171, "step": 5622 }, { "epoch": 0.5997866666666667, "grad_norm": 1.4987518352514144, "learning_rate": 3.6446890866668627e-06, "loss": 0.4823, "step": 5623 }, { "avg_step_time": 5.8815323632172865, "epoch": 0.5997866666666667, "eta_time": 6.129863729664238, "step": 5623 }, { "epoch": 0.5998933333333333, "grad_norm": 1.8193774067331372, "learning_rate": 3.6430263625745744e-06, "loss": 0.4878, "step": 5624 }, { "avg_step_time": 5.8846688029742, "epoch": 0.5998933333333333, "eta_time": 6.131497966654506, "step": 5624 }, { "epoch": 0.6, "grad_norm": 1.9953623467890265, "learning_rate": 3.64136380046056e-06, "loss": 0.5697, "step": 5625 }, { "avg_step_time": 5.8856641885006065, "epoch": 0.6, "eta_time": 6.130900196354799, "step": 5625 }, { "epoch": 0.6001066666666667, "grad_norm": 0.6591388926908778, "learning_rate": 3.6397014005232754e-06, "loss": 0.4407, "step": 5626 }, { "avg_step_time": 5.8512349995699795, "epoch": 0.6001066666666667, "eta_time": 6.093411114829959, "step": 5626 }, { "epoch": 0.6002133333333334, "grad_norm": 1.8140826473440452, "learning_rate": 3.6380391629611585e-06, "loss": 0.4569, "step": 5627 }, { "avg_step_time": 5.835978941483931, "epoch": 0.6002133333333334, "eta_time": 6.075902520189381, "step": 5627 }, { "epoch": 0.60032, "grad_norm": 0.6214259253271598, "learning_rate": 3.6363770879726247e-06, "loss": 0.4134, "step": 5628 }, { "avg_step_time": 5.805826119702272, "epoch": 0.60032, "eta_time": 6.042897352923449, "step": 5628 }, { "epoch": 0.6004266666666667, "grad_norm": 1.4433038822375972, "learning_rate": 3.6347151757560716e-06, "loss": 0.3337, "step": 5629 }, { "avg_step_time": 5.805599369183935, "epoch": 0.6004266666666667, "eta_time": 6.041048676934173, "step": 5629 }, { "epoch": 0.6005333333333334, "grad_norm": 2.1044817151356034, "learning_rate": 3.6330534265098793e-06, "loss": 0.6143, "step": 5630 }, { "avg_step_time": 5.8013019417271465, "epoch": 0.6005333333333334, "eta_time": 6.034965492157823, "step": 5630 }, { "epoch": 0.60064, "grad_norm": 1.6002894220937318, "learning_rate": 3.6313918404324e-06, "loss": 0.5076, "step": 5631 }, { "avg_step_time": 5.819528490605981, "epoch": 0.60064, "eta_time": 6.05230963023022, "step": 5631 }, { "epoch": 0.6007466666666667, "grad_norm": 0.6541431999163821, "learning_rate": 3.629730417721981e-06, "loss": 0.4447, "step": 5632 }, { "avg_step_time": 5.804547348407784, "epoch": 0.6007466666666667, "eta_time": 6.035116868080649, "step": 5632 }, { "epoch": 0.6008533333333334, "grad_norm": 0.6495119575680531, "learning_rate": 3.6280691585769368e-06, "loss": 0.4299, "step": 5633 }, { "avg_step_time": 5.804465852602564, "epoch": 0.6008533333333334, "eta_time": 6.033419783455221, "step": 5633 }, { "epoch": 0.60096, "grad_norm": 1.8612790945448365, "learning_rate": 3.6264080631955683e-06, "loss": 0.4651, "step": 5634 }, { "avg_step_time": 5.802938321624139, "epoch": 0.60096, "eta_time": 6.0302200725544175, "step": 5634 }, { "epoch": 0.6010666666666666, "grad_norm": 2.033021653596623, "learning_rate": 3.6247471317761572e-06, "loss": 0.5149, "step": 5635 }, { "avg_step_time": 5.805468462934398, "epoch": 0.6010666666666666, "eta_time": 6.031236680937401, "step": 5635 }, { "epoch": 0.6011733333333333, "grad_norm": 1.9726233060248517, "learning_rate": 3.62308636451696e-06, "loss": 0.5111, "step": 5636 }, { "avg_step_time": 5.808058485840306, "epoch": 0.6011733333333333, "eta_time": 6.032314077376918, "step": 5636 }, { "epoch": 0.60128, "grad_norm": 1.7137941946072028, "learning_rate": 3.621425761616224e-06, "loss": 0.4168, "step": 5637 }, { "avg_step_time": 5.809760871559683, "epoch": 0.60128, "eta_time": 6.032468371636138, "step": 5637 }, { "epoch": 0.6013866666666666, "grad_norm": 0.6611160870294284, "learning_rate": 3.6197653232721696e-06, "loss": 0.4581, "step": 5638 }, { "avg_step_time": 5.781996507837315, "epoch": 0.6013866666666666, "eta_time": 6.002033597163346, "step": 5638 }, { "epoch": 0.6014933333333333, "grad_norm": 0.6936853598924847, "learning_rate": 3.6181050496829963e-06, "loss": 0.4837, "step": 5639 }, { "avg_step_time": 5.747996161682437, "epoch": 0.6014933333333333, "eta_time": 5.965142683345996, "step": 5639 }, { "epoch": 0.6016, "grad_norm": 1.5634236109691295, "learning_rate": 3.616444941046887e-06, "loss": 0.4685, "step": 5640 }, { "avg_step_time": 5.780351000602799, "epoch": 0.6016, "eta_time": 5.997114163125404, "step": 5640 }, { "epoch": 0.6017066666666666, "grad_norm": 2.3263485326848063, "learning_rate": 3.614784997562004e-06, "loss": 0.5159, "step": 5641 }, { "avg_step_time": 5.780846268239648, "epoch": 0.6017066666666666, "eta_time": 5.996022212668567, "step": 5641 }, { "epoch": 0.6018133333333333, "grad_norm": 1.8597953636637679, "learning_rate": 3.6131252194264932e-06, "loss": 0.4644, "step": 5642 }, { "avg_step_time": 5.814816703700056, "epoch": 0.6018133333333333, "eta_time": 6.029641876364531, "step": 5642 }, { "epoch": 0.60192, "grad_norm": 1.6481644866071903, "learning_rate": 3.6114656068384767e-06, "loss": 0.4325, "step": 5643 }, { "avg_step_time": 5.824161592155996, "epoch": 0.60192, "eta_time": 6.037714183868383, "step": 5643 }, { "epoch": 0.6020266666666667, "grad_norm": 1.5304535859348865, "learning_rate": 3.609806159996056e-06, "loss": 0.3892, "step": 5644 }, { "avg_step_time": 5.810183308341286, "epoch": 0.6020266666666667, "eta_time": 6.021609423172594, "step": 5644 }, { "epoch": 0.6021333333333333, "grad_norm": 1.7814171091022406, "learning_rate": 3.608146879097316e-06, "loss": 0.5157, "step": 5645 }, { "avg_step_time": 5.812629360141176, "epoch": 0.6021333333333333, "eta_time": 6.02252986481294, "step": 5645 }, { "epoch": 0.60224, "grad_norm": 1.7926355704362575, "learning_rate": 3.6064877643403194e-06, "loss": 0.4879, "step": 5646 }, { "avg_step_time": 5.83450555078911, "epoch": 0.60224, "eta_time": 6.0435753330257205, "step": 5646 }, { "epoch": 0.6023466666666667, "grad_norm": 1.7175523376553692, "learning_rate": 3.604828815923113e-06, "loss": 0.4885, "step": 5647 }, { "avg_step_time": 5.830447119895858, "epoch": 0.6023466666666667, "eta_time": 6.037751906381044, "step": 5647 }, { "epoch": 0.6024533333333333, "grad_norm": 0.6455592377770095, "learning_rate": 3.6031700340437188e-06, "loss": 0.4336, "step": 5648 }, { "avg_step_time": 5.798826287491153, "epoch": 0.6024533333333333, "eta_time": 6.003395992633202, "step": 5648 }, { "epoch": 0.60256, "grad_norm": 1.5960966979246671, "learning_rate": 3.601511418900143e-06, "loss": 0.463, "step": 5649 }, { "avg_step_time": 5.770662970013088, "epoch": 0.60256, "eta_time": 5.972636173963547, "step": 5649 }, { "epoch": 0.6026666666666667, "grad_norm": 1.891427267527601, "learning_rate": 3.5998529706903673e-06, "loss": 0.5399, "step": 5650 }, { "avg_step_time": 5.769627193007806, "epoch": 0.6026666666666667, "eta_time": 5.969961470542799, "step": 5650 }, { "epoch": 0.6027733333333334, "grad_norm": 1.7153095599651875, "learning_rate": 3.5981946896123576e-06, "loss": 0.4536, "step": 5651 }, { "avg_step_time": 5.754135772435352, "epoch": 0.6027733333333334, "eta_time": 5.952333782374792, "step": 5651 }, { "epoch": 0.60288, "grad_norm": 1.672649351513292, "learning_rate": 3.5965365758640587e-06, "loss": 0.3918, "step": 5652 }, { "avg_step_time": 5.754521374750619, "epoch": 0.60288, "eta_time": 5.9511341883879325, "step": 5652 }, { "epoch": 0.6029866666666667, "grad_norm": 0.684367113372712, "learning_rate": 3.5948786296433948e-06, "loss": 0.4647, "step": 5653 }, { "avg_step_time": 5.724154705953116, "epoch": 0.6029866666666667, "eta_time": 5.918139948765972, "step": 5653 }, { "epoch": 0.6030933333333334, "grad_norm": 0.6335591372985302, "learning_rate": 3.5932208511482707e-06, "loss": 0.4607, "step": 5654 }, { "avg_step_time": 5.690325773123539, "epoch": 0.6030933333333334, "eta_time": 5.881583944942414, "step": 5654 }, { "epoch": 0.6032, "grad_norm": 2.1535755800941287, "learning_rate": 3.591563240576572e-06, "loss": 0.51, "step": 5655 }, { "avg_step_time": 5.687289177769363, "epoch": 0.6032, "eta_time": 5.876865483695008, "step": 5655 }, { "epoch": 0.6033066666666667, "grad_norm": 2.281342763705689, "learning_rate": 3.5899057981261586e-06, "loss": 0.566, "step": 5656 }, { "avg_step_time": 5.686324085852112, "epoch": 0.6033066666666667, "eta_time": 5.87428868757889, "step": 5656 }, { "epoch": 0.6034133333333334, "grad_norm": 1.7358544014591422, "learning_rate": 3.588248523994882e-06, "loss": 0.3951, "step": 5657 }, { "avg_step_time": 5.687311357922024, "epoch": 0.6034133333333334, "eta_time": 5.8737287857650236, "step": 5657 }, { "epoch": 0.60352, "grad_norm": 2.026386355649758, "learning_rate": 3.5865914183805606e-06, "loss": 0.4795, "step": 5658 }, { "avg_step_time": 5.688711888862379, "epoch": 0.60352, "eta_time": 5.873595025250406, "step": 5658 }, { "epoch": 0.6036266666666666, "grad_norm": 1.736267563352761, "learning_rate": 3.584934481481002e-06, "loss": 0.4436, "step": 5659 }, { "avg_step_time": 5.6793426744865645, "epoch": 0.6036266666666666, "eta_time": 5.862343716220021, "step": 5659 }, { "epoch": 0.6037333333333333, "grad_norm": 1.6390757957332713, "learning_rate": 3.5832777134939888e-06, "loss": 0.4896, "step": 5660 }, { "avg_step_time": 5.678908311959469, "epoch": 0.6037333333333333, "eta_time": 5.860317883035952, "step": 5660 }, { "epoch": 0.60384, "grad_norm": 1.995397310323524, "learning_rate": 3.581621114617284e-06, "loss": 0.5715, "step": 5661 }, { "avg_step_time": 5.679934860479952, "epoch": 0.60384, "eta_time": 5.859799464395151, "step": 5661 }, { "epoch": 0.6039466666666666, "grad_norm": 0.6412494231219756, "learning_rate": 3.5799646850486334e-06, "loss": 0.4495, "step": 5662 }, { "avg_step_time": 5.644881773476649, "epoch": 0.6039466666666666, "eta_time": 5.822068340255222, "step": 5662 }, { "epoch": 0.6040533333333333, "grad_norm": 1.7464503893525383, "learning_rate": 3.5783084249857615e-06, "loss": 0.4849, "step": 5663 }, { "avg_step_time": 5.646414472599222, "epoch": 0.6040533333333333, "eta_time": 5.8220807006356425, "step": 5663 }, { "epoch": 0.60416, "grad_norm": 1.7952522129723396, "learning_rate": 3.5766523346263682e-06, "loss": 0.4895, "step": 5664 }, { "avg_step_time": 5.646942658857866, "epoch": 0.60416, "eta_time": 5.82105672417265, "step": 5664 }, { "epoch": 0.6042666666666666, "grad_norm": 2.2329046034499753, "learning_rate": 3.574996414168137e-06, "loss": 0.5566, "step": 5665 }, { "avg_step_time": 5.674361551650847, "epoch": 0.6042666666666666, "eta_time": 5.847744821284623, "step": 5665 }, { "epoch": 0.6043733333333333, "grad_norm": 1.806154617307674, "learning_rate": 3.573340663808733e-06, "loss": 0.4759, "step": 5666 }, { "avg_step_time": 5.671377916528721, "epoch": 0.6043733333333333, "eta_time": 5.843094636779174, "step": 5666 }, { "epoch": 0.60448, "grad_norm": 2.0528367106543355, "learning_rate": 3.571685083745798e-06, "loss": 0.4786, "step": 5667 }, { "avg_step_time": 5.672772812120842, "epoch": 0.60448, "eta_time": 5.842955996484467, "step": 5667 }, { "epoch": 0.6045866666666667, "grad_norm": 1.6226447319802637, "learning_rate": 3.5700296741769524e-06, "loss": 0.4937, "step": 5668 }, { "avg_step_time": 5.703108421479813, "epoch": 0.6045866666666667, "eta_time": 5.872617477340462, "step": 5668 }, { "epoch": 0.6046933333333333, "grad_norm": 1.9115548182201456, "learning_rate": 3.568374435299801e-06, "loss": 0.5057, "step": 5669 }, { "avg_step_time": 5.702257890893955, "epoch": 0.6046933333333333, "eta_time": 5.870157706570278, "step": 5669 }, { "epoch": 0.6048, "grad_norm": 1.8897934729462922, "learning_rate": 3.56671936731192e-06, "loss": 0.5002, "step": 5670 }, { "avg_step_time": 5.646919570787989, "epoch": 0.6048, "eta_time": 5.811621391602639, "step": 5670 }, { "epoch": 0.6049066666666667, "grad_norm": 1.4346598157408426, "learning_rate": 3.5650644704108767e-06, "loss": 0.4061, "step": 5671 }, { "avg_step_time": 5.641033948069871, "epoch": 0.6049066666666667, "eta_time": 5.803997151014111, "step": 5671 }, { "epoch": 0.6050133333333333, "grad_norm": 1.7236504352678474, "learning_rate": 3.563409744794207e-06, "loss": 0.4321, "step": 5672 }, { "avg_step_time": 5.676397492187192, "epoch": 0.6050133333333333, "eta_time": 5.838805531546993, "step": 5672 }, { "epoch": 0.60512, "grad_norm": 1.5923675858939197, "learning_rate": 3.561755190659434e-06, "loss": 0.4462, "step": 5673 }, { "avg_step_time": 5.660667771040791, "epoch": 0.60512, "eta_time": 5.821053357886947, "step": 5673 }, { "epoch": 0.6052266666666667, "grad_norm": 1.7456438829402594, "learning_rate": 3.5601008082040545e-06, "loss": 0.4531, "step": 5674 }, { "avg_step_time": 5.781204683612091, "epoch": 0.6052266666666667, "eta_time": 5.943399592791208, "step": 5674 }, { "epoch": 0.6053333333333333, "grad_norm": 2.176588261012511, "learning_rate": 3.5584465976255487e-06, "loss": 0.504, "step": 5675 }, { "avg_step_time": 5.781550265321828, "epoch": 0.6053333333333333, "eta_time": 5.9421488838029894, "step": 5675 }, { "epoch": 0.60544, "grad_norm": 1.8433083331181865, "learning_rate": 3.556792559121377e-06, "loss": 0.4809, "step": 5676 }, { "avg_step_time": 5.76848918018919, "epoch": 0.60544, "eta_time": 5.927122632644393, "step": 5676 }, { "epoch": 0.6055466666666667, "grad_norm": 0.6641497779293767, "learning_rate": 3.5551386928889774e-06, "loss": 0.4245, "step": 5677 }, { "avg_step_time": 5.728521831107862, "epoch": 0.6055466666666667, "eta_time": 5.884464925399132, "step": 5677 }, { "epoch": 0.6056533333333334, "grad_norm": 1.7000826252682006, "learning_rate": 3.553484999125765e-06, "loss": 0.4761, "step": 5678 }, { "avg_step_time": 5.7682200561870225, "epoch": 0.6056533333333334, "eta_time": 5.923641541034284, "step": 5678 }, { "epoch": 0.60576, "grad_norm": 2.142910229533995, "learning_rate": 3.5518314780291384e-06, "loss": 0.5452, "step": 5679 }, { "avg_step_time": 5.763388238771998, "epoch": 0.60576, "eta_time": 5.917078591805918, "step": 5679 }, { "epoch": 0.6058666666666667, "grad_norm": 1.7455251351936367, "learning_rate": 3.550178129796472e-06, "loss": 0.4652, "step": 5680 }, { "avg_step_time": 5.754534307152334, "epoch": 0.6058666666666667, "eta_time": 5.906390073591077, "step": 5680 }, { "epoch": 0.6059733333333334, "grad_norm": 1.6974751366485339, "learning_rate": 3.5485249546251244e-06, "loss": 0.5033, "step": 5681 }, { "avg_step_time": 5.750068609160606, "epoch": 0.6059733333333334, "eta_time": 5.900209289510911, "step": 5681 }, { "epoch": 0.60608, "grad_norm": 1.731960343182951, "learning_rate": 3.5468719527124294e-06, "loss": 0.465, "step": 5682 }, { "avg_step_time": 5.701238304677636, "epoch": 0.60608, "eta_time": 5.848520294215142, "step": 5682 }, { "epoch": 0.6061866666666667, "grad_norm": 1.6731542767968395, "learning_rate": 3.545219124255702e-06, "loss": 0.4962, "step": 5683 }, { "avg_step_time": 5.706373739724207, "epoch": 0.6061866666666667, "eta_time": 5.852203290850492, "step": 5683 }, { "epoch": 0.6062933333333334, "grad_norm": 1.8283844327833865, "learning_rate": 3.5435664694522343e-06, "loss": 0.5288, "step": 5684 }, { "avg_step_time": 5.70662116281914, "epoch": 0.6062933333333334, "eta_time": 5.850871864434845, "step": 5684 }, { "epoch": 0.6064, "grad_norm": 1.6375418816879608, "learning_rate": 3.541913988499299e-06, "loss": 0.5093, "step": 5685 }, { "avg_step_time": 5.69084029727512, "epoch": 0.6064, "eta_time": 5.833111304706997, "step": 5685 }, { "epoch": 0.6065066666666666, "grad_norm": 1.8221673921175037, "learning_rate": 3.5402616815941504e-06, "loss": 0.4952, "step": 5686 }, { "avg_step_time": 5.688929442203406, "epoch": 0.6065066666666666, "eta_time": 5.829572420080101, "step": 5686 }, { "epoch": 0.6066133333333333, "grad_norm": 1.3543629967085837, "learning_rate": 3.5386095489340188e-06, "loss": 0.3976, "step": 5687 }, { "avg_step_time": 5.66093905766805, "epoch": 0.6066133333333333, "eta_time": 5.799317567966602, "step": 5687 }, { "epoch": 0.60672, "grad_norm": 1.7694397172955685, "learning_rate": 3.5369575907161167e-06, "loss": 0.4502, "step": 5688 }, { "avg_step_time": 5.65709117205456, "epoch": 0.60672, "eta_time": 5.793804208712545, "step": 5688 }, { "epoch": 0.6068266666666666, "grad_norm": 0.6467491468992779, "learning_rate": 3.53530580713763e-06, "loss": 0.4624, "step": 5689 }, { "avg_step_time": 5.620592271438753, "epoch": 0.6068266666666666, "eta_time": 5.7548619757009005, "step": 5689 }, { "epoch": 0.6069333333333333, "grad_norm": 1.7121834873504025, "learning_rate": 3.5336541983957285e-06, "loss": 0.5394, "step": 5690 }, { "avg_step_time": 5.622430257122926, "epoch": 0.6069333333333333, "eta_time": 5.755182082638329, "step": 5690 }, { "epoch": 0.60704, "grad_norm": 2.290152645317388, "learning_rate": 3.5320027646875643e-06, "loss": 0.5407, "step": 5691 }, { "avg_step_time": 5.612775882085164, "epoch": 0.60704, "eta_time": 5.743740652667151, "step": 5691 }, { "epoch": 0.6071466666666666, "grad_norm": 1.9192396929739832, "learning_rate": 3.5303515062102604e-06, "loss": 0.444, "step": 5692 }, { "avg_step_time": 5.612042867776119, "epoch": 0.6071466666666666, "eta_time": 5.741431633894291, "step": 5692 }, { "epoch": 0.6072533333333333, "grad_norm": 1.6661201775974495, "learning_rate": 3.5287004231609245e-06, "loss": 0.5036, "step": 5693 }, { "avg_step_time": 5.680408971478241, "epoch": 0.6072533333333333, "eta_time": 5.809796064717468, "step": 5693 }, { "epoch": 0.60736, "grad_norm": 1.8672795425232958, "learning_rate": 3.5270495157366434e-06, "loss": 0.4686, "step": 5694 }, { "avg_step_time": 5.676694650842686, "epoch": 0.60736, "eta_time": 5.804420280486646, "step": 5694 }, { "epoch": 0.6074666666666667, "grad_norm": 2.036797021210753, "learning_rate": 3.5253987841344766e-06, "loss": 0.4719, "step": 5695 }, { "avg_step_time": 5.676807637166495, "epoch": 0.6074666666666667, "eta_time": 5.802958917992417, "step": 5695 }, { "epoch": 0.6075733333333333, "grad_norm": 1.997901453180389, "learning_rate": 3.523748228551474e-06, "loss": 0.5238, "step": 5696 }, { "avg_step_time": 5.677876855387832, "epoch": 0.6075733333333333, "eta_time": 5.802474708603286, "step": 5696 }, { "epoch": 0.60768, "grad_norm": 1.937809896874147, "learning_rate": 3.5220978491846534e-06, "loss": 0.5076, "step": 5697 }, { "avg_step_time": 5.6827679354735094, "epoch": 0.60768, "eta_time": 5.805894574075435, "step": 5697 }, { "epoch": 0.6077866666666667, "grad_norm": 0.6409966649339415, "learning_rate": 3.5204476462310177e-06, "loss": 0.4254, "step": 5698 }, { "avg_step_time": 5.649815373950535, "epoch": 0.6077866666666667, "eta_time": 5.770658647226699, "step": 5698 }, { "epoch": 0.6078933333333333, "grad_norm": 1.9861311025877912, "learning_rate": 3.5187976198875466e-06, "loss": 0.4995, "step": 5699 }, { "avg_step_time": 5.6396410272579, "epoch": 0.6078933333333333, "eta_time": 5.758700115611123, "step": 5699 }, { "epoch": 0.608, "grad_norm": 1.65531690115142, "learning_rate": 3.517147770351199e-06, "loss": 0.3761, "step": 5700 }, { "avg_step_time": 5.62343166572879, "epoch": 0.608, "eta_time": 5.7405864920981395, "step": 5700 }, { "epoch": 0.6081066666666667, "grad_norm": 1.7968394635205982, "learning_rate": 3.5154980978189147e-06, "loss": 0.3853, "step": 5701 }, { "avg_step_time": 5.624486268168748, "epoch": 0.6081066666666667, "eta_time": 5.740100708125549, "step": 5701 }, { "epoch": 0.6082133333333334, "grad_norm": 1.9156796374489937, "learning_rate": 3.5138486024876107e-06, "loss": 0.4802, "step": 5702 }, { "avg_step_time": 5.620392577816742, "epoch": 0.6082133333333334, "eta_time": 5.734361649533581, "step": 5702 }, { "epoch": 0.60832, "grad_norm": 1.8462045502913833, "learning_rate": 3.5121992845541797e-06, "loss": 0.4874, "step": 5703 }, { "avg_step_time": 5.6498051002772165, "epoch": 0.60832, "eta_time": 5.762801202282761, "step": 5703 }, { "epoch": 0.6084266666666667, "grad_norm": 1.6057883787134413, "learning_rate": 3.5105501442154986e-06, "loss": 0.392, "step": 5704 }, { "avg_step_time": 5.634431090017761, "epoch": 0.6084266666666667, "eta_time": 5.7455545920708895, "step": 5704 }, { "epoch": 0.6085333333333334, "grad_norm": 2.0307894703687275, "learning_rate": 3.5089011816684203e-06, "loss": 0.4029, "step": 5705 }, { "avg_step_time": 5.628229764976886, "epoch": 0.6085333333333334, "eta_time": 5.737667565962548, "step": 5705 }, { "epoch": 0.60864, "grad_norm": 1.7678083333263765, "learning_rate": 3.507252397109777e-06, "loss": 0.4961, "step": 5706 }, { "avg_step_time": 5.630567762586805, "epoch": 0.60864, "eta_time": 5.738486978036386, "step": 5706 }, { "epoch": 0.6087466666666667, "grad_norm": 1.6508782509681332, "learning_rate": 3.505603790736381e-06, "loss": 0.4702, "step": 5707 }, { "avg_step_time": 5.629027029480597, "epoch": 0.6087466666666667, "eta_time": 5.735353095593008, "step": 5707 }, { "epoch": 0.6088533333333334, "grad_norm": 1.8686916142573546, "learning_rate": 3.5039553627450213e-06, "loss": 0.571, "step": 5708 }, { "avg_step_time": 5.633497772794781, "epoch": 0.6088533333333334, "eta_time": 5.738343425788462, "step": 5708 }, { "epoch": 0.60896, "grad_norm": 2.0592804004517697, "learning_rate": 3.5023071133324627e-06, "loss": 0.5437, "step": 5709 }, { "avg_step_time": 5.636098358366224, "epoch": 0.60896, "eta_time": 5.739426828269605, "step": 5709 }, { "epoch": 0.6090666666666666, "grad_norm": 0.6702924668448766, "learning_rate": 3.500659042695459e-06, "loss": 0.4425, "step": 5710 }, { "avg_step_time": 5.636173120652787, "epoch": 0.6090666666666666, "eta_time": 5.737937357553462, "step": 5710 }, { "epoch": 0.6091733333333333, "grad_norm": 1.7824275723170762, "learning_rate": 3.4990111510307305e-06, "loss": 0.4073, "step": 5711 }, { "avg_step_time": 5.651731568153458, "epoch": 0.6091733333333333, "eta_time": 5.752206796031742, "step": 5711 }, { "epoch": 0.60928, "grad_norm": 1.949395102156321, "learning_rate": 3.497363438534984e-06, "loss": 0.4416, "step": 5712 }, { "avg_step_time": 5.6523807024714925, "epoch": 0.60928, "eta_time": 5.751297364764743, "step": 5712 }, { "epoch": 0.6093866666666666, "grad_norm": 1.5281744105048398, "learning_rate": 3.4957159054049015e-06, "loss": 0.4276, "step": 5713 }, { "avg_step_time": 5.651353498901984, "epoch": 0.6093866666666666, "eta_time": 5.748682364716407, "step": 5713 }, { "epoch": 0.6094933333333333, "grad_norm": 1.844227082569438, "learning_rate": 3.4940685518371444e-06, "loss": 0.4353, "step": 5714 }, { "avg_step_time": 5.625970989766747, "epoch": 0.6094933333333333, "eta_time": 5.721299942648907, "step": 5714 }, { "epoch": 0.6096, "grad_norm": 1.788088849587129, "learning_rate": 3.4924213780283545e-06, "loss": 0.5455, "step": 5715 }, { "avg_step_time": 5.66025185585022, "epoch": 0.6096, "eta_time": 5.754589386781057, "step": 5715 }, { "epoch": 0.6097066666666666, "grad_norm": 1.6998312563151878, "learning_rate": 3.4907743841751494e-06, "loss": 0.5073, "step": 5716 }, { "avg_step_time": 5.651221776249433, "epoch": 0.6097066666666666, "eta_time": 5.7438390220268545, "step": 5716 }, { "epoch": 0.6098133333333333, "grad_norm": 1.9876821386924202, "learning_rate": 3.4891275704741267e-06, "loss": 0.4768, "step": 5717 }, { "avg_step_time": 5.64813136091136, "epoch": 0.6098133333333333, "eta_time": 5.7391290328371545, "step": 5717 }, { "epoch": 0.60992, "grad_norm": 1.8630901012041827, "learning_rate": 3.4874809371218608e-06, "loss": 0.5255, "step": 5718 }, { "avg_step_time": 5.648229483402137, "epoch": 0.60992, "eta_time": 5.737659783556004, "step": 5718 }, { "epoch": 0.6100266666666667, "grad_norm": 1.7136790079610447, "learning_rate": 3.485834484314906e-06, "loss": 0.4599, "step": 5719 }, { "avg_step_time": 5.656907946172387, "epoch": 0.6100266666666667, "eta_time": 5.744904292001735, "step": 5719 }, { "epoch": 0.6101333333333333, "grad_norm": 0.648189529196702, "learning_rate": 3.4841882122497973e-06, "loss": 0.4314, "step": 5720 }, { "avg_step_time": 5.618399957213739, "epoch": 0.6101333333333333, "eta_time": 5.704236623226726, "step": 5720 }, { "epoch": 0.61024, "grad_norm": 1.9706824098934301, "learning_rate": 3.4825421211230437e-06, "loss": 0.5043, "step": 5721 }, { "avg_step_time": 5.61987748772207, "epoch": 0.61024, "eta_time": 5.704175650037901, "step": 5721 }, { "epoch": 0.6103466666666667, "grad_norm": 1.5625232254846533, "learning_rate": 3.4808962111311354e-06, "loss": 0.4311, "step": 5722 }, { "avg_step_time": 5.6127967930803395, "epoch": 0.6103466666666667, "eta_time": 5.695429634756245, "step": 5722 }, { "epoch": 0.6104533333333333, "grad_norm": 1.7130536864369053, "learning_rate": 3.47925048247054e-06, "loss": 0.4501, "step": 5723 }, { "avg_step_time": 5.618074925258906, "epoch": 0.6104533333333333, "eta_time": 5.699224896401535, "step": 5723 }, { "epoch": 0.61056, "grad_norm": 2.407108345798488, "learning_rate": 3.4776049353377016e-06, "loss": 0.5217, "step": 5724 }, { "avg_step_time": 5.616530969889477, "epoch": 0.61056, "eta_time": 5.696098491962911, "step": 5724 }, { "epoch": 0.6106666666666667, "grad_norm": 0.6667795340531412, "learning_rate": 3.4759595699290482e-06, "loss": 0.4307, "step": 5725 }, { "avg_step_time": 5.614371456281103, "epoch": 0.6106666666666667, "eta_time": 5.692348837618341, "step": 5725 }, { "epoch": 0.6107733333333333, "grad_norm": 1.7903602597268249, "learning_rate": 3.4743143864409817e-06, "loss": 0.4461, "step": 5726 }, { "avg_step_time": 5.615445816155636, "epoch": 0.6107733333333333, "eta_time": 5.691878273097754, "step": 5726 }, { "epoch": 0.61088, "grad_norm": 1.869839688467727, "learning_rate": 3.4726693850698824e-06, "loss": 0.5456, "step": 5727 }, { "avg_step_time": 5.647544554989747, "epoch": 0.61088, "eta_time": 5.722845149056278, "step": 5727 }, { "epoch": 0.6109866666666667, "grad_norm": 0.6499072401493448, "learning_rate": 3.4710245660121107e-06, "loss": 0.4494, "step": 5728 }, { "avg_step_time": 5.612550747514975, "epoch": 0.6109866666666667, "eta_time": 5.685825715607531, "step": 5728 }, { "epoch": 0.6110933333333334, "grad_norm": 1.9731864964541972, "learning_rate": 3.469379929464e-06, "loss": 0.5056, "step": 5729 }, { "avg_step_time": 5.616039699978298, "epoch": 0.6110933333333334, "eta_time": 5.6878002072557985, "step": 5729 }, { "epoch": 0.6112, "grad_norm": 1.722469464687884, "learning_rate": 3.467735475621873e-06, "loss": 0.4413, "step": 5730 }, { "avg_step_time": 5.598034675675209, "epoch": 0.6112, "eta_time": 5.66801010912115, "step": 5730 }, { "epoch": 0.6113066666666667, "grad_norm": 1.6422311189607257, "learning_rate": 3.4660912046820195e-06, "loss": 0.4149, "step": 5731 }, { "avg_step_time": 5.610775533348623, "epoch": 0.6113066666666667, "eta_time": 5.679351678756217, "step": 5731 }, { "epoch": 0.6114133333333334, "grad_norm": 0.6800514897391808, "learning_rate": 3.4644471168407124e-06, "loss": 0.4508, "step": 5732 }, { "avg_step_time": 5.610572906455609, "epoch": 0.6114133333333334, "eta_time": 5.677588082838273, "step": 5732 }, { "epoch": 0.61152, "grad_norm": 0.6580217089015215, "learning_rate": 3.4628032122942024e-06, "loss": 0.4295, "step": 5733 }, { "avg_step_time": 5.580786141482267, "epoch": 0.61152, "eta_time": 5.645895313132893, "step": 5733 }, { "epoch": 0.6116266666666667, "grad_norm": 1.6654873848255982, "learning_rate": 3.4611594912387148e-06, "loss": 0.5013, "step": 5734 }, { "avg_step_time": 5.603964328765869, "epoch": 0.6116266666666667, "eta_time": 5.66778725584348, "step": 5734 }, { "epoch": 0.6117333333333334, "grad_norm": 0.6380428963675577, "learning_rate": 3.4595159538704613e-06, "loss": 0.4439, "step": 5735 }, { "avg_step_time": 5.568413235924461, "epoch": 0.6117333333333334, "eta_time": 5.630284494101399, "step": 5735 }, { "epoch": 0.61184, "grad_norm": 2.0171584026494704, "learning_rate": 3.4578726003856245e-06, "loss": 0.5743, "step": 5736 }, { "avg_step_time": 5.563925873149525, "epoch": 0.61184, "eta_time": 5.624201736775312, "step": 5736 }, { "epoch": 0.6119466666666666, "grad_norm": 0.6262349432104307, "learning_rate": 3.456229430980367e-06, "loss": 0.4262, "step": 5737 }, { "avg_step_time": 5.558439654533309, "epoch": 0.6119466666666666, "eta_time": 5.617112073108939, "step": 5737 }, { "epoch": 0.6120533333333333, "grad_norm": 1.6577522195863412, "learning_rate": 3.454586445850828e-06, "loss": 0.469, "step": 5738 }, { "avg_step_time": 5.596920061593104, "epoch": 0.6120533333333333, "eta_time": 5.654443962226144, "step": 5738 }, { "epoch": 0.61216, "grad_norm": 1.6030664757636237, "learning_rate": 3.4529436451931263e-06, "loss": 0.3906, "step": 5739 }, { "avg_step_time": 5.597724066840278, "epoch": 0.61216, "eta_time": 5.653701307508681, "step": 5739 }, { "epoch": 0.6122666666666666, "grad_norm": 1.7572292934433686, "learning_rate": 3.451301029203361e-06, "loss": 0.5118, "step": 5740 }, { "avg_step_time": 5.616746798910276, "epoch": 0.6122666666666666, "eta_time": 5.671354059455237, "step": 5740 }, { "epoch": 0.6123733333333333, "grad_norm": 1.7958167795859454, "learning_rate": 3.4496585980776066e-06, "loss": 0.498, "step": 5741 }, { "avg_step_time": 5.61699271924568, "epoch": 0.6123733333333333, "eta_time": 5.670042094927444, "step": 5741 }, { "epoch": 0.61248, "grad_norm": 1.6194935180814531, "learning_rate": 3.448016352011914e-06, "loss": 0.5335, "step": 5742 }, { "avg_step_time": 5.621903099194921, "epoch": 0.61248, "eta_time": 5.673437210937541, "step": 5742 }, { "epoch": 0.6125866666666666, "grad_norm": 1.8205153509309897, "learning_rate": 3.4463742912023127e-06, "loss": 0.4462, "step": 5743 }, { "avg_step_time": 5.626329465345903, "epoch": 0.6125866666666666, "eta_time": 5.6763412828156445, "step": 5743 }, { "epoch": 0.6126933333333333, "grad_norm": 1.6753273190372637, "learning_rate": 3.4447324158448126e-06, "loss": 0.531, "step": 5744 }, { "avg_step_time": 5.622007251989962, "epoch": 0.6126933333333333, "eta_time": 5.67041898110432, "step": 5744 }, { "epoch": 0.6128, "grad_norm": 0.654969492763964, "learning_rate": 3.4430907261354e-06, "loss": 0.4387, "step": 5745 }, { "avg_step_time": 5.5627018706967135, "epoch": 0.6128, "eta_time": 5.609057719619186, "step": 5745 }, { "epoch": 0.6129066666666667, "grad_norm": 1.5783152077628086, "learning_rate": 3.4414492222700394e-06, "loss": 0.4667, "step": 5746 }, { "avg_step_time": 5.5650614752913965, "epoch": 0.6129066666666667, "eta_time": 5.609891137175688, "step": 5746 }, { "epoch": 0.6130133333333333, "grad_norm": 0.6466016322948404, "learning_rate": 3.439807904444673e-06, "loss": 0.4459, "step": 5747 }, { "avg_step_time": 5.56689521038171, "epoch": 0.6130133333333333, "eta_time": 5.610193284240234, "step": 5747 }, { "epoch": 0.61312, "grad_norm": 1.7781512179406826, "learning_rate": 3.438166772855218e-06, "loss": 0.5077, "step": 5748 }, { "avg_step_time": 5.571262039319433, "epoch": 0.61312, "eta_time": 5.613046504614329, "step": 5748 }, { "epoch": 0.6132266666666667, "grad_norm": 1.8237512421154305, "learning_rate": 3.4365258276975734e-06, "loss": 0.535, "step": 5749 }, { "avg_step_time": 5.607036927733758, "epoch": 0.6132266666666667, "eta_time": 5.647532194434057, "step": 5749 }, { "epoch": 0.6133333333333333, "grad_norm": 2.0626708947651937, "learning_rate": 3.4348850691676146e-06, "loss": 0.4842, "step": 5750 }, { "avg_step_time": 5.600960994007612, "epoch": 0.6133333333333333, "eta_time": 5.639856556465998, "step": 5750 }, { "epoch": 0.61344, "grad_norm": 1.7701621693451097, "learning_rate": 3.4332444974611946e-06, "loss": 0.5405, "step": 5751 }, { "avg_step_time": 5.6006801176552825, "epoch": 0.61344, "eta_time": 5.638017985106318, "step": 5751 }, { "epoch": 0.6135466666666667, "grad_norm": 1.698094760769166, "learning_rate": 3.4316041127741428e-06, "loss": 0.5817, "step": 5752 }, { "avg_step_time": 5.628641453656283, "epoch": 0.6135466666666667, "eta_time": 5.664602218499088, "step": 5752 }, { "epoch": 0.6136533333333334, "grad_norm": 1.8046091178577386, "learning_rate": 3.4299639153022686e-06, "loss": 0.4424, "step": 5753 }, { "avg_step_time": 5.660944218587393, "epoch": 0.6136533333333334, "eta_time": 5.695538877700983, "step": 5753 }, { "epoch": 0.61376, "grad_norm": 1.7243552241248576, "learning_rate": 3.428323905241358e-06, "loss": 0.4155, "step": 5754 }, { "avg_step_time": 5.6646372260469375, "epoch": 0.61376, "eta_time": 5.697680943198878, "step": 5754 }, { "epoch": 0.6138666666666667, "grad_norm": 1.8397693181937793, "learning_rate": 3.4266840827871755e-06, "loss": 0.4525, "step": 5755 }, { "avg_step_time": 5.665662972614019, "epoch": 0.6138666666666667, "eta_time": 5.69713887801743, "step": 5755 }, { "epoch": 0.6139733333333334, "grad_norm": 1.623633623291722, "learning_rate": 3.42504444813546e-06, "loss": 0.3562, "step": 5756 }, { "avg_step_time": 5.667507674958971, "epoch": 0.6139733333333334, "eta_time": 5.697419521021255, "step": 5756 }, { "epoch": 0.61408, "grad_norm": 0.6370885131179698, "learning_rate": 3.4234050014819308e-06, "loss": 0.4511, "step": 5757 }, { "avg_step_time": 5.628941663587936, "epoch": 0.61408, "eta_time": 5.6570863719058755, "step": 5757 }, { "epoch": 0.6141866666666667, "grad_norm": 1.7568597072415975, "learning_rate": 3.4217657430222845e-06, "loss": 0.5078, "step": 5758 }, { "avg_step_time": 5.628245394639294, "epoch": 0.6141866666666667, "eta_time": 5.654823220113981, "step": 5758 }, { "epoch": 0.6142933333333334, "grad_norm": 1.7117807049896085, "learning_rate": 3.4201266729521958e-06, "loss": 0.491, "step": 5759 }, { "avg_step_time": 5.639343295434509, "epoch": 0.6142933333333334, "eta_time": 5.664407043414219, "step": 5759 }, { "epoch": 0.6144, "grad_norm": 1.5870819878937972, "learning_rate": 3.4184877914673155e-06, "loss": 0.471, "step": 5760 }, { "avg_step_time": 5.642004210539539, "epoch": 0.6144, "eta_time": 5.665512561416787, "step": 5760 }, { "epoch": 0.6145066666666666, "grad_norm": 0.6475161466527303, "learning_rate": 3.416849098763273e-06, "loss": 0.4475, "step": 5761 }, { "avg_step_time": 5.642701637865317, "epoch": 0.6145066666666666, "eta_time": 5.6646454775681265, "step": 5761 }, { "epoch": 0.6146133333333333, "grad_norm": 1.6184324416905063, "learning_rate": 3.415210595035674e-06, "loss": 0.3909, "step": 5762 }, { "avg_step_time": 5.639805875643336, "epoch": 0.6146133333333333, "eta_time": 5.660171841305381, "step": 5762 }, { "epoch": 0.61472, "grad_norm": 0.6403721070816402, "learning_rate": 3.4135722804801004e-06, "loss": 0.4443, "step": 5763 }, { "avg_step_time": 5.603197179659449, "epoch": 0.61472, "eta_time": 5.621874503591647, "step": 5763 }, { "epoch": 0.6148266666666666, "grad_norm": 1.9690322333133348, "learning_rate": 3.411934155292116e-06, "loss": 0.5275, "step": 5764 }, { "avg_step_time": 5.600581776012074, "epoch": 0.6148266666666666, "eta_time": 5.617694664772111, "step": 5764 }, { "epoch": 0.6149333333333333, "grad_norm": 0.6702125557812763, "learning_rate": 3.4102962196672597e-06, "loss": 0.456, "step": 5765 }, { "avg_step_time": 5.5669518721224085, "epoch": 0.6149333333333333, "eta_time": 5.5824156273227485, "step": 5765 }, { "epoch": 0.61504, "grad_norm": 0.6521265504025956, "learning_rate": 3.4086584738010455e-06, "loss": 0.4649, "step": 5766 }, { "avg_step_time": 5.532658206091987, "epoch": 0.61504, "eta_time": 5.546489851607217, "step": 5766 }, { "epoch": 0.6151466666666666, "grad_norm": 1.8331592574279232, "learning_rate": 3.4070209178889684e-06, "loss": 0.4651, "step": 5767 }, { "avg_step_time": 5.4975601205922136, "epoch": 0.6151466666666666, "eta_time": 5.509776920860196, "step": 5767 }, { "epoch": 0.6152533333333333, "grad_norm": 1.6690569885730675, "learning_rate": 3.4053835521264956e-06, "loss": 0.4413, "step": 5768 }, { "avg_step_time": 5.496177170011732, "epoch": 0.6152533333333333, "eta_time": 5.506864181175644, "step": 5768 }, { "epoch": 0.61536, "grad_norm": 1.769410075002521, "learning_rate": 3.4037463767090807e-06, "loss": 0.4608, "step": 5769 }, { "avg_step_time": 5.490392080461136, "epoch": 0.61536, "eta_time": 5.499542733928571, "step": 5769 }, { "epoch": 0.6154666666666667, "grad_norm": 1.7803919326493134, "learning_rate": 3.4021093918321445e-06, "loss": 0.517, "step": 5770 }, { "avg_step_time": 5.488998056662203, "epoch": 0.6154666666666667, "eta_time": 5.496621665074234, "step": 5770 }, { "epoch": 0.6155733333333333, "grad_norm": 2.0166229503363278, "learning_rate": 3.400472597691091e-06, "loss": 0.5097, "step": 5771 }, { "avg_step_time": 5.491610088733712, "epoch": 0.6155733333333333, "eta_time": 5.497711877721193, "step": 5771 }, { "epoch": 0.61568, "grad_norm": 1.6744279082883327, "learning_rate": 3.3988359944812997e-06, "loss": 0.4098, "step": 5772 }, { "avg_step_time": 5.487285756101512, "epoch": 0.61568, "eta_time": 5.491858494231597, "step": 5772 }, { "epoch": 0.6157866666666667, "grad_norm": 1.8833663580966393, "learning_rate": 3.3971995823981265e-06, "loss": 0.4251, "step": 5773 }, { "avg_step_time": 5.368017647001478, "epoch": 0.6157866666666667, "eta_time": 5.37099987902759, "step": 5773 }, { "epoch": 0.6158933333333333, "grad_norm": 1.7309791967981287, "learning_rate": 3.3955633616369066e-06, "loss": 0.4412, "step": 5774 }, { "avg_step_time": 5.365036925884208, "epoch": 0.6158933333333333, "eta_time": 5.366527213919176, "step": 5774 }, { "epoch": 0.616, "grad_norm": 1.8250366466384436, "learning_rate": 3.3939273323929533e-06, "loss": 0.5039, "step": 5775 }, { "avg_step_time": 5.356434359694973, "epoch": 0.616, "eta_time": 5.356434359694973, "step": 5775 }, { "epoch": 0.6161066666666667, "grad_norm": 1.7896428069598616, "learning_rate": 3.3922914948615515e-06, "loss": 0.4179, "step": 5776 }, { "avg_step_time": 5.396633745443942, "epoch": 0.6161066666666667, "eta_time": 5.395134680514651, "step": 5776 }, { "epoch": 0.6162133333333333, "grad_norm": 1.5716805318797267, "learning_rate": 3.390655849237967e-06, "loss": 0.5107, "step": 5777 }, { "avg_step_time": 5.3934044019140375, "epoch": 0.6162133333333333, "eta_time": 5.390408066135197, "step": 5777 }, { "epoch": 0.61632, "grad_norm": 0.6860522450781114, "learning_rate": 3.3890203957174437e-06, "loss": 0.4206, "step": 5778 }, { "avg_step_time": 5.358911468525125, "epoch": 0.61632, "eta_time": 5.35444570896802, "step": 5778 }, { "epoch": 0.6164266666666667, "grad_norm": 1.944606528071115, "learning_rate": 3.3873851344952013e-06, "loss": 0.511, "step": 5779 }, { "avg_step_time": 5.360221347423515, "epoch": 0.6164266666666667, "eta_time": 5.354265545926378, "step": 5779 }, { "epoch": 0.6165333333333334, "grad_norm": 1.7922438164989083, "learning_rate": 3.3857500657664368e-06, "loss": 0.5485, "step": 5780 }, { "avg_step_time": 5.367012529662161, "epoch": 0.6165333333333334, "eta_time": 5.359558345593186, "step": 5780 }, { "epoch": 0.61664, "grad_norm": 1.6780903860549858, "learning_rate": 3.3841151897263234e-06, "loss": 0.5198, "step": 5781 }, { "avg_step_time": 5.373552950945768, "epoch": 0.61664, "eta_time": 5.3645970293608585, "step": 5781 }, { "epoch": 0.6167466666666667, "grad_norm": 1.9833789217551645, "learning_rate": 3.3824805065700113e-06, "loss": 0.5032, "step": 5782 }, { "avg_step_time": 5.365866107170028, "epoch": 0.6167466666666667, "eta_time": 5.355432478628309, "step": 5782 }, { "epoch": 0.6168533333333334, "grad_norm": 1.9918089540355646, "learning_rate": 3.380846016492627e-06, "loss": 0.5157, "step": 5783 }, { "avg_step_time": 5.366814114830711, "epoch": 0.6168533333333334, "eta_time": 5.354887861242198, "step": 5783 }, { "epoch": 0.61696, "grad_norm": 0.6607418139518485, "learning_rate": 3.379211719689278e-06, "loss": 0.4166, "step": 5784 }, { "avg_step_time": 5.355555707758123, "epoch": 0.61696, "eta_time": 5.342166818488728, "step": 5784 }, { "epoch": 0.6170666666666667, "grad_norm": 1.7461885126463645, "learning_rate": 3.3775776163550455e-06, "loss": 0.4862, "step": 5785 }, { "avg_step_time": 5.35591640857735, "epoch": 0.6170666666666667, "eta_time": 5.341038862997969, "step": 5785 }, { "epoch": 0.6171733333333334, "grad_norm": 1.9441548786145368, "learning_rate": 3.3759437066849876e-06, "loss": 0.5195, "step": 5786 }, { "avg_step_time": 5.355213015970557, "epoch": 0.6171733333333334, "eta_time": 5.338849865088425, "step": 5786 }, { "epoch": 0.61728, "grad_norm": 1.6792817352378144, "learning_rate": 3.3743099908741385e-06, "loss": 0.4963, "step": 5787 }, { "avg_step_time": 5.3543599398449215, "epoch": 0.61728, "eta_time": 5.336512073378771, "step": 5787 }, { "epoch": 0.6173866666666666, "grad_norm": 1.9623564208576447, "learning_rate": 3.3726764691175085e-06, "loss": 0.4906, "step": 5788 }, { "avg_step_time": 5.384335527516375, "epoch": 0.6173866666666666, "eta_time": 5.3648920936670095, "step": 5788 }, { "epoch": 0.6174933333333333, "grad_norm": 2.180201007313078, "learning_rate": 3.371043141610093e-06, "loss": 0.4939, "step": 5789 }, { "avg_step_time": 5.388829744223393, "epoch": 0.6174933333333333, "eta_time": 5.367873184106969, "step": 5789 }, { "epoch": 0.6176, "grad_norm": 2.0612152913656647, "learning_rate": 3.3694100085468535e-06, "loss": 0.4016, "step": 5790 }, { "avg_step_time": 5.391429506167017, "epoch": 0.6176, "eta_time": 5.368965216557988, "step": 5790 }, { "epoch": 0.6177066666666666, "grad_norm": 1.7240128672983246, "learning_rate": 3.367777070122733e-06, "loss": 0.4789, "step": 5791 }, { "avg_step_time": 5.392853895823161, "epoch": 0.6177066666666666, "eta_time": 5.36888565628617, "step": 5791 }, { "epoch": 0.6178133333333333, "grad_norm": 1.621196670100118, "learning_rate": 3.3661443265326528e-06, "loss": 0.552, "step": 5792 }, { "avg_step_time": 5.327218038867218, "epoch": 0.6178133333333333, "eta_time": 5.302061731461456, "step": 5792 }, { "epoch": 0.61792, "grad_norm": 1.935455487506954, "learning_rate": 3.364511777971504e-06, "loss": 0.4621, "step": 5793 }, { "avg_step_time": 5.330850225506407, "epoch": 0.61792, "eta_time": 5.304195974378875, "step": 5793 }, { "epoch": 0.6180266666666666, "grad_norm": 1.7693916034471777, "learning_rate": 3.3628794246341667e-06, "loss": 0.4477, "step": 5794 }, { "avg_step_time": 5.338487890031603, "epoch": 0.6180266666666666, "eta_time": 5.310312537278658, "step": 5794 }, { "epoch": 0.6181333333333333, "grad_norm": 1.94163451532575, "learning_rate": 3.361247266715486e-06, "loss": 0.4502, "step": 5795 }, { "avg_step_time": 5.34011111596618, "epoch": 0.6181333333333333, "eta_time": 5.310443831988589, "step": 5795 }, { "epoch": 0.61824, "grad_norm": 1.8707483756759709, "learning_rate": 3.3596153044102897e-06, "loss": 0.5195, "step": 5796 }, { "avg_step_time": 5.3353465277739245, "epoch": 0.61824, "eta_time": 5.304223673028576, "step": 5796 }, { "epoch": 0.6183466666666667, "grad_norm": 1.8329232139536176, "learning_rate": 3.3579835379133787e-06, "loss": 0.4667, "step": 5797 }, { "avg_step_time": 5.369375566039422, "epoch": 0.6183466666666667, "eta_time": 5.33656271535807, "step": 5797 }, { "epoch": 0.6184533333333333, "grad_norm": 1.604849666912114, "learning_rate": 3.356351967419535e-06, "loss": 0.4053, "step": 5798 }, { "avg_step_time": 5.37052207763749, "epoch": 0.6184533333333333, "eta_time": 5.336210408808139, "step": 5798 }, { "epoch": 0.61856, "grad_norm": 1.636306824221029, "learning_rate": 3.354720593123514e-06, "loss": 0.5353, "step": 5799 }, { "avg_step_time": 5.363268866683498, "epoch": 0.61856, "eta_time": 5.327513740905608, "step": 5799 }, { "epoch": 0.6186666666666667, "grad_norm": 2.011528054774443, "learning_rate": 3.353089415220049e-06, "loss": 0.4714, "step": 5800 }, { "avg_step_time": 5.36239438345938, "epoch": 0.6186666666666667, "eta_time": 5.325155533574245, "step": 5800 }, { "epoch": 0.6187733333333333, "grad_norm": 1.7622592794950878, "learning_rate": 3.3514584339038476e-06, "loss": 0.442, "step": 5801 }, { "avg_step_time": 5.3679675526089135, "epoch": 0.6187733333333333, "eta_time": 5.329198898062294, "step": 5801 }, { "epoch": 0.61888, "grad_norm": 1.9172215329482847, "learning_rate": 3.349827649369596e-06, "loss": 0.4966, "step": 5802 }, { "avg_step_time": 5.404067865525834, "epoch": 0.61888, "eta_time": 5.36353735653439, "step": 5802 }, { "epoch": 0.6189866666666667, "grad_norm": 1.5076212486343383, "learning_rate": 3.3481970618119575e-06, "loss": 0.4232, "step": 5803 }, { "avg_step_time": 5.420329715266372, "epoch": 0.6189866666666667, "eta_time": 5.3781715952587446, "step": 5803 }, { "epoch": 0.6190933333333334, "grad_norm": 1.8775526051551503, "learning_rate": 3.3465666714255707e-06, "loss": 0.4586, "step": 5804 }, { "avg_step_time": 5.4204092122087575, "epoch": 0.6190933333333334, "eta_time": 5.3767448046659645, "step": 5804 }, { "epoch": 0.6192, "grad_norm": 0.6603797757487301, "learning_rate": 3.3449364784050515e-06, "loss": 0.4787, "step": 5805 }, { "avg_step_time": 5.384237715692231, "epoch": 0.6192, "eta_time": 5.339369068061463, "step": 5805 }, { "epoch": 0.6193066666666667, "grad_norm": 0.6742531612307542, "learning_rate": 3.3433064829449913e-06, "loss": 0.4384, "step": 5806 }, { "avg_step_time": 5.348196017621744, "epoch": 0.6193066666666667, "eta_time": 5.302142107470002, "step": 5806 }, { "epoch": 0.6194133333333334, "grad_norm": 1.6551051932365255, "learning_rate": 3.3416766852399553e-06, "loss": 0.4491, "step": 5807 }, { "avg_step_time": 5.34328902128971, "epoch": 0.6194133333333334, "eta_time": 5.295793118878246, "step": 5807 }, { "epoch": 0.61952, "grad_norm": 2.100477404741579, "learning_rate": 3.3400470854844925e-06, "loss": 0.4922, "step": 5808 }, { "avg_step_time": 5.3449450117169, "epoch": 0.61952, "eta_time": 5.295949682442829, "step": 5808 }, { "epoch": 0.6196266666666667, "grad_norm": 1.8560682120324434, "learning_rate": 3.338417683873122e-06, "loss": 0.4336, "step": 5809 }, { "avg_step_time": 5.378315540275189, "epoch": 0.6196266666666667, "eta_time": 5.327520337950368, "step": 5809 }, { "epoch": 0.6197333333333334, "grad_norm": 1.6930999255929822, "learning_rate": 3.3367884806003402e-06, "loss": 0.4884, "step": 5810 }, { "avg_step_time": 5.359297867977258, "epoch": 0.6197333333333334, "eta_time": 5.307193583149701, "step": 5810 }, { "epoch": 0.61984, "grad_norm": 1.9388466887460392, "learning_rate": 3.3351594758606222e-06, "loss": 0.4888, "step": 5811 }, { "avg_step_time": 5.362385985827205, "epoch": 0.61984, "eta_time": 5.308762125968933, "step": 5811 }, { "epoch": 0.6199466666666666, "grad_norm": 1.4714053847347401, "learning_rate": 3.333530669848416e-06, "loss": 0.4702, "step": 5812 }, { "avg_step_time": 5.363960420242464, "epoch": 0.6199466666666666, "eta_time": 5.308830827034416, "step": 5812 }, { "epoch": 0.6200533333333333, "grad_norm": 1.8929725774035058, "learning_rate": 3.3319020627581494e-06, "loss": 0.4805, "step": 5813 }, { "avg_step_time": 5.3658863823823255, "epoch": 0.6200533333333333, "eta_time": 5.30924647056829, "step": 5813 }, { "epoch": 0.62016, "grad_norm": 1.739837281817587, "learning_rate": 3.3302736547842263e-06, "loss": 0.4528, "step": 5814 }, { "avg_step_time": 5.3316658964060775, "epoch": 0.62016, "eta_time": 5.2739061825283455, "step": 5814 }, { "epoch": 0.6202666666666666, "grad_norm": 1.7683917027377547, "learning_rate": 3.3286454461210216e-06, "loss": 0.4697, "step": 5815 }, { "avg_step_time": 5.340944569520276, "epoch": 0.6202666666666666, "eta_time": 5.281600740970051, "step": 5815 }, { "epoch": 0.6203733333333333, "grad_norm": 2.161950589096947, "learning_rate": 3.327017436962892e-06, "loss": 0.5169, "step": 5816 }, { "avg_step_time": 5.344579872458872, "epoch": 0.6203733333333333, "eta_time": 5.283711046133646, "step": 5816 }, { "epoch": 0.62048, "grad_norm": 1.8022098422259232, "learning_rate": 3.3253896275041677e-06, "loss": 0.4192, "step": 5817 }, { "avg_step_time": 5.339036582696317, "epoch": 0.62048, "eta_time": 5.27674782256486, "step": 5817 }, { "epoch": 0.6205866666666666, "grad_norm": 1.959353524515712, "learning_rate": 3.3237620179391584e-06, "loss": 0.5336, "step": 5818 }, { "avg_step_time": 5.324041650752829, "epoch": 0.6205866666666666, "eta_time": 5.260448931035503, "step": 5818 }, { "epoch": 0.6206933333333333, "grad_norm": 0.6233383547208411, "learning_rate": 3.3221346084621447e-06, "loss": 0.448, "step": 5819 }, { "avg_step_time": 5.316211081514455, "epoch": 0.6206933333333333, "eta_time": 5.251235168295945, "step": 5819 }, { "epoch": 0.6208, "grad_norm": 2.2262295372929723, "learning_rate": 3.3205073992673885e-06, "loss": 0.5152, "step": 5820 }, { "avg_step_time": 5.317825986881449, "epoch": 0.6208, "eta_time": 5.25135316204543, "step": 5820 }, { "epoch": 0.6209066666666667, "grad_norm": 1.847116333050141, "learning_rate": 3.3188803905491233e-06, "loss": 0.4707, "step": 5821 }, { "avg_step_time": 5.318362590038415, "epoch": 0.6209066666666667, "eta_time": 5.250405734721258, "step": 5821 }, { "epoch": 0.6210133333333333, "grad_norm": 1.6979850118044078, "learning_rate": 3.3172535825015608e-06, "loss": 0.4038, "step": 5822 }, { "avg_step_time": 5.311487474826851, "epoch": 0.6210133333333333, "eta_time": 5.242143055016612, "step": 5822 }, { "epoch": 0.62112, "grad_norm": 1.9799200938651966, "learning_rate": 3.3156269753188895e-06, "loss": 0.4961, "step": 5823 }, { "avg_step_time": 5.313300864865082, "epoch": 0.62112, "eta_time": 5.242456853333548, "step": 5823 }, { "epoch": 0.6212266666666667, "grad_norm": 1.904549233892427, "learning_rate": 3.3140005691952735e-06, "loss": 0.4863, "step": 5824 }, { "avg_step_time": 5.350275651373044, "epoch": 0.6212266666666667, "eta_time": 5.277452455007134, "step": 5824 }, { "epoch": 0.6213333333333333, "grad_norm": 2.007266963712952, "learning_rate": 3.312374364324852e-06, "loss": 0.5393, "step": 5825 }, { "avg_step_time": 5.352281452429415, "epoch": 0.6213333333333333, "eta_time": 5.277944210034562, "step": 5825 }, { "epoch": 0.62144, "grad_norm": 1.8435433372197878, "learning_rate": 3.310748360901741e-06, "loss": 0.4914, "step": 5826 }, { "avg_step_time": 5.351782167800749, "epoch": 0.62144, "eta_time": 5.2759652537569055, "step": 5826 }, { "epoch": 0.6215466666666667, "grad_norm": 1.7942790864103488, "learning_rate": 3.3091225591200292e-06, "loss": 0.4612, "step": 5827 }, { "avg_step_time": 5.388984540496209, "epoch": 0.6215466666666667, "eta_time": 5.311143652689042, "step": 5827 }, { "epoch": 0.6216533333333333, "grad_norm": 0.6552963948792867, "learning_rate": 3.3074969591737906e-06, "loss": 0.432, "step": 5828 }, { "avg_step_time": 5.359865236764002, "epoch": 0.6216533333333333, "eta_time": 5.2809561096671995, "step": 5828 }, { "epoch": 0.62176, "grad_norm": 1.9291472652576653, "learning_rate": 3.3058715612570623e-06, "loss": 0.5697, "step": 5829 }, { "avg_step_time": 5.360909657044844, "epoch": 0.62176, "eta_time": 5.280496012189171, "step": 5829 }, { "epoch": 0.6218666666666667, "grad_norm": 1.8548871857505227, "learning_rate": 3.304246365563867e-06, "loss": 0.546, "step": 5830 }, { "avg_step_time": 5.357343312465783, "epoch": 0.6218666666666667, "eta_time": 5.275495011858666, "step": 5830 }, { "epoch": 0.6219733333333334, "grad_norm": 1.9492488468847435, "learning_rate": 3.3026213722882e-06, "loss": 0.4608, "step": 5831 }, { "avg_step_time": 5.39451876794449, "epoch": 0.6219733333333334, "eta_time": 5.310604031554242, "step": 5831 }, { "epoch": 0.62208, "grad_norm": 1.7029044257594113, "learning_rate": 3.300996581624028e-06, "loss": 0.4846, "step": 5832 }, { "avg_step_time": 5.428748157289293, "epoch": 0.62208, "eta_time": 5.342792978132213, "step": 5832 }, { "epoch": 0.6221866666666667, "grad_norm": 1.7246646097247988, "learning_rate": 3.2993719937653037e-06, "loss": 0.4679, "step": 5833 }, { "avg_step_time": 5.403947572515468, "epoch": 0.6221866666666667, "eta_time": 5.316883972736052, "step": 5833 }, { "epoch": 0.6222933333333334, "grad_norm": 1.4484850021790396, "learning_rate": 3.2977476089059484e-06, "loss": 0.438, "step": 5834 }, { "avg_step_time": 5.437374664075447, "epoch": 0.6222933333333334, "eta_time": 5.348262134858655, "step": 5834 }, { "epoch": 0.6224, "grad_norm": 2.0098799545346275, "learning_rate": 3.2961234272398578e-06, "loss": 0.5512, "step": 5835 }, { "avg_step_time": 5.443425884150495, "epoch": 0.6224, "eta_time": 5.352702119414654, "step": 5835 }, { "epoch": 0.6225066666666667, "grad_norm": 1.8009258271414414, "learning_rate": 3.294499448960909e-06, "loss": 0.5119, "step": 5836 }, { "avg_step_time": 5.479797637823856, "epoch": 0.6225066666666667, "eta_time": 5.386945511182953, "step": 5836 }, { "epoch": 0.6226133333333334, "grad_norm": 1.5965823010822466, "learning_rate": 3.2928756742629486e-06, "loss": 0.4124, "step": 5837 }, { "avg_step_time": 5.479174303286003, "epoch": 0.6226133333333334, "eta_time": 5.384810745840522, "step": 5837 }, { "epoch": 0.62272, "grad_norm": 1.7223593262548962, "learning_rate": 3.291252103339806e-06, "loss": 0.4871, "step": 5838 }, { "avg_step_time": 5.4790110852983265, "epoch": 0.62272, "eta_time": 5.383128391305606, "step": 5838 }, { "epoch": 0.6228266666666666, "grad_norm": 0.6647655498519975, "learning_rate": 3.289628736385281e-06, "loss": 0.4466, "step": 5839 }, { "avg_step_time": 5.4229396039789375, "epoch": 0.6228266666666666, "eta_time": 5.326531788797089, "step": 5839 }, { "epoch": 0.6229333333333333, "grad_norm": 1.8469189237589023, "learning_rate": 3.28800557359315e-06, "loss": 0.5189, "step": 5840 }, { "avg_step_time": 5.423730604576342, "epoch": 0.6229333333333333, "eta_time": 5.325802135327047, "step": 5840 }, { "epoch": 0.62304, "grad_norm": 1.764295752366191, "learning_rate": 3.2863826151571654e-06, "loss": 0.4832, "step": 5841 }, { "avg_step_time": 5.408701104347152, "epoch": 0.62304, "eta_time": 5.309541584100788, "step": 5841 }, { "epoch": 0.6231466666666666, "grad_norm": 1.7173456381492043, "learning_rate": 3.2847598612710546e-06, "loss": 0.4342, "step": 5842 }, { "avg_step_time": 5.404686662885878, "epoch": 0.6231466666666666, "eta_time": 5.304099438882169, "step": 5842 }, { "epoch": 0.6232533333333333, "grad_norm": 1.6780843489109152, "learning_rate": 3.283137312128524e-06, "loss": 0.5269, "step": 5843 }, { "avg_step_time": 5.411140880199394, "epoch": 0.6232533333333333, "eta_time": 5.308930441351183, "step": 5843 }, { "epoch": 0.62336, "grad_norm": 0.6313831836905858, "learning_rate": 3.2815149679232507e-06, "loss": 0.4385, "step": 5844 }, { "avg_step_time": 5.410120595585216, "epoch": 0.62336, "eta_time": 5.306426617503166, "step": 5844 }, { "epoch": 0.6234666666666666, "grad_norm": 0.6351237930898582, "learning_rate": 3.2798928288488917e-06, "loss": 0.4327, "step": 5845 }, { "avg_step_time": 5.375213502633451, "epoch": 0.6234666666666666, "eta_time": 5.270695462304467, "step": 5845 }, { "epoch": 0.6235733333333333, "grad_norm": 1.8243562363647834, "learning_rate": 3.278270895099073e-06, "loss": 0.4823, "step": 5846 }, { "avg_step_time": 5.428251314644862, "epoch": 0.6235733333333333, "eta_time": 5.321194135939366, "step": 5846 }, { "epoch": 0.62368, "grad_norm": 2.006001888456276, "learning_rate": 3.276649166867406e-06, "loss": 0.5128, "step": 5847 }, { "avg_step_time": 5.424613641970085, "epoch": 0.62368, "eta_time": 5.316121369130683, "step": 5847 }, { "epoch": 0.6237866666666667, "grad_norm": 1.972346052483251, "learning_rate": 3.275027644347469e-06, "loss": 0.4819, "step": 5848 }, { "avg_step_time": 5.379946874849724, "epoch": 0.6237866666666667, "eta_time": 5.2708535076652705, "step": 5848 }, { "epoch": 0.6238933333333333, "grad_norm": 0.6346568962702881, "learning_rate": 3.2734063277328187e-06, "loss": 0.4398, "step": 5849 }, { "avg_step_time": 5.3461535699439775, "epoch": 0.6238933333333333, "eta_time": 5.236260413228462, "step": 5849 }, { "epoch": 0.624, "grad_norm": 1.7018978885599356, "learning_rate": 3.271785217216987e-06, "loss": 0.4748, "step": 5850 }, { "avg_step_time": 5.343864228990343, "epoch": 0.624, "eta_time": 5.232533724219711, "step": 5850 }, { "epoch": 0.6241066666666667, "grad_norm": 1.7757176016953844, "learning_rate": 3.270164312993482e-06, "loss": 0.4637, "step": 5851 }, { "avg_step_time": 5.350220935513275, "epoch": 0.6241066666666667, "eta_time": 5.237271826874662, "step": 5851 }, { "epoch": 0.6242133333333333, "grad_norm": 1.854264002086749, "learning_rate": 3.268543615255788e-06, "loss": 0.5294, "step": 5852 }, { "avg_step_time": 5.35520023047322, "epoch": 0.6242133333333333, "eta_time": 5.240658447765877, "step": 5852 }, { "epoch": 0.62432, "grad_norm": 1.8772664705263524, "learning_rate": 3.266923124197363e-06, "loss": 0.5231, "step": 5853 }, { "avg_step_time": 5.353929620800597, "epoch": 0.62432, "eta_time": 5.237927812349917, "step": 5853 }, { "epoch": 0.6244266666666667, "grad_norm": 1.738475089757904, "learning_rate": 3.2653028400116395e-06, "loss": 0.4341, "step": 5854 }, { "avg_step_time": 5.355588474659005, "epoch": 0.6244266666666667, "eta_time": 5.2380630609095435, "step": 5854 }, { "epoch": 0.6245333333333334, "grad_norm": 1.5739609614084995, "learning_rate": 3.2636827628920258e-06, "loss": 0.4315, "step": 5855 }, { "avg_step_time": 5.350969497603599, "epoch": 0.6245333333333334, "eta_time": 5.2320590643235185, "step": 5855 }, { "epoch": 0.62464, "grad_norm": 1.7279624406826584, "learning_rate": 3.2620628930319065e-06, "loss": 0.4929, "step": 5856 }, { "avg_step_time": 5.39125375795846, "epoch": 0.62464, "eta_time": 5.2699505484043945, "step": 5856 }, { "epoch": 0.6247466666666667, "grad_norm": 2.0132919988280125, "learning_rate": 3.2604432306246424e-06, "loss": 0.5482, "step": 5857 }, { "avg_step_time": 5.389825076767893, "epoch": 0.6247466666666667, "eta_time": 5.2670568389081796, "step": 5857 }, { "epoch": 0.6248533333333334, "grad_norm": 1.6442318826205162, "learning_rate": 3.258823775863568e-06, "loss": 0.4166, "step": 5858 }, { "avg_step_time": 5.377001179589166, "epoch": 0.6248533333333334, "eta_time": 5.25303143017086, "step": 5858 }, { "epoch": 0.62496, "grad_norm": 1.644174025919761, "learning_rate": 3.257204528941993e-06, "loss": 0.473, "step": 5859 }, { "avg_step_time": 5.374443651449801, "epoch": 0.62496, "eta_time": 5.249039966249306, "step": 5859 }, { "epoch": 0.6250666666666667, "grad_norm": 1.9293113626420744, "learning_rate": 3.255585490053201e-06, "loss": 0.4917, "step": 5860 }, { "avg_step_time": 5.409866853193804, "epoch": 0.6250666666666667, "eta_time": 5.2821338858267275, "step": 5860 }, { "epoch": 0.6251733333333334, "grad_norm": 1.8272360150378202, "learning_rate": 3.2539666593904534e-06, "loss": 0.5156, "step": 5861 }, { "avg_step_time": 5.41149434658012, "epoch": 0.6251733333333334, "eta_time": 5.282219759411817, "step": 5861 }, { "epoch": 0.62528, "grad_norm": 1.9183939241418835, "learning_rate": 3.2523480371469863e-06, "loss": 0.4632, "step": 5862 }, { "avg_step_time": 5.44480216141903, "epoch": 0.62528, "eta_time": 5.31321944251807, "step": 5862 }, { "epoch": 0.6253866666666666, "grad_norm": 1.7502391370518948, "learning_rate": 3.25072962351601e-06, "loss": 0.413, "step": 5863 }, { "avg_step_time": 5.446301874488291, "epoch": 0.6253866666666666, "eta_time": 5.3131700508896875, "step": 5863 }, { "epoch": 0.6254933333333333, "grad_norm": 0.6345142097994354, "learning_rate": 3.2491114186907097e-06, "loss": 0.3979, "step": 5864 }, { "avg_step_time": 5.445810435998319, "epoch": 0.6254933333333333, "eta_time": 5.311177900219471, "step": 5864 }, { "epoch": 0.6256, "grad_norm": 1.8122918244848025, "learning_rate": 3.2474934228642475e-06, "loss": 0.415, "step": 5865 }, { "avg_step_time": 5.48124662794248, "epoch": 0.6256, "eta_time": 5.344215462243918, "step": 5865 }, { "epoch": 0.6257066666666666, "grad_norm": 0.6415205563246346, "learning_rate": 3.245875636229755e-06, "loss": 0.4166, "step": 5866 }, { "avg_step_time": 5.448646083022609, "epoch": 0.6257066666666666, "eta_time": 5.3109164181462045, "step": 5866 }, { "epoch": 0.6258133333333333, "grad_norm": 1.9177425550346694, "learning_rate": 3.2442580589803484e-06, "loss": 0.4974, "step": 5867 }, { "avg_step_time": 5.45549734433492, "epoch": 0.6258133333333333, "eta_time": 5.316079078868583, "step": 5867 }, { "epoch": 0.62592, "grad_norm": 1.7428109919155343, "learning_rate": 3.242640691309111e-06, "loss": 0.547, "step": 5868 }, { "avg_step_time": 5.4553777930712455, "epoch": 0.62592, "eta_time": 5.314447200083571, "step": 5868 }, { "epoch": 0.6260266666666666, "grad_norm": 1.8920010028727536, "learning_rate": 3.241023533409104e-06, "loss": 0.4518, "step": 5869 }, { "avg_step_time": 5.454111202798709, "epoch": 0.6260266666666666, "eta_time": 5.311698299170076, "step": 5869 }, { "epoch": 0.6261333333333333, "grad_norm": 1.9162786816077815, "learning_rate": 3.2394065854733626e-06, "loss": 0.4714, "step": 5870 }, { "avg_step_time": 5.452175395657318, "epoch": 0.6261333333333333, "eta_time": 5.308298544938584, "step": 5870 }, { "epoch": 0.62624, "grad_norm": 1.9938811101537295, "learning_rate": 3.2377898476948964e-06, "loss": 0.4983, "step": 5871 }, { "avg_step_time": 5.453038071141099, "epoch": 0.62624, "eta_time": 5.307623722577335, "step": 5871 }, { "epoch": 0.6263466666666667, "grad_norm": 1.8470853589986045, "learning_rate": 3.236173320266694e-06, "loss": 0.4632, "step": 5872 }, { "avg_step_time": 5.450653613215745, "epoch": 0.6263466666666667, "eta_time": 5.303788779748543, "step": 5872 }, { "epoch": 0.6264533333333333, "grad_norm": 1.9098982346460174, "learning_rate": 3.2345570033817153e-06, "loss": 0.4432, "step": 5873 }, { "avg_step_time": 5.450043305002078, "epoch": 0.6264533333333333, "eta_time": 5.301681015032576, "step": 5873 }, { "epoch": 0.62656, "grad_norm": 0.6427638607832258, "learning_rate": 3.2329408972328934e-06, "loss": 0.4601, "step": 5874 }, { "avg_step_time": 5.4381365920558125, "epoch": 0.62656, "eta_time": 5.288587835774278, "step": 5874 }, { "epoch": 0.6266666666666667, "grad_norm": 1.620580872993639, "learning_rate": 3.23132500201314e-06, "loss": 0.4187, "step": 5875 }, { "avg_step_time": 5.435299882985125, "epoch": 0.6266666666666667, "eta_time": 5.284319330679982, "step": 5875 }, { "epoch": 0.6267733333333333, "grad_norm": 2.240353383143468, "learning_rate": 3.2297093179153394e-06, "loss": 0.4776, "step": 5876 }, { "avg_step_time": 5.431053686623621, "epoch": 0.6267733333333333, "eta_time": 5.278682458193347, "step": 5876 }, { "epoch": 0.62688, "grad_norm": 1.671749457522356, "learning_rate": 3.2280938451323524e-06, "loss": 0.4709, "step": 5877 }, { "avg_step_time": 5.467016578924777, "epoch": 0.62688, "eta_time": 5.312117775855241, "step": 5877 }, { "epoch": 0.6269866666666667, "grad_norm": 1.7421308783799234, "learning_rate": 3.2264785838570134e-06, "loss": 0.5628, "step": 5878 }, { "avg_step_time": 5.468141478721542, "epoch": 0.6269866666666667, "eta_time": 5.311691875302564, "step": 5878 }, { "epoch": 0.6270933333333333, "grad_norm": 0.6705221544890476, "learning_rate": 3.2248635342821334e-06, "loss": 0.4621, "step": 5879 }, { "avg_step_time": 5.429124061507408, "epoch": 0.6270933333333333, "eta_time": 5.2722826997305265, "step": 5879 }, { "epoch": 0.6272, "grad_norm": 1.6514837478833528, "learning_rate": 3.223248696600493e-06, "loss": 0.541, "step": 5880 }, { "avg_step_time": 5.42660431669216, "epoch": 0.6272, "eta_time": 5.268328357455306, "step": 5880 }, { "epoch": 0.6273066666666667, "grad_norm": 1.7367653375893115, "learning_rate": 3.221634071004852e-06, "loss": 0.4877, "step": 5881 }, { "avg_step_time": 5.435303442405932, "epoch": 0.6273066666666667, "eta_time": 5.275263952157313, "step": 5881 }, { "epoch": 0.6274133333333334, "grad_norm": 1.6917626849295986, "learning_rate": 3.2200196576879463e-06, "loss": 0.4295, "step": 5882 }, { "avg_step_time": 5.437983211844858, "epoch": 0.6274133333333334, "eta_time": 5.276354266381691, "step": 5882 }, { "epoch": 0.62752, "grad_norm": 2.2687739252630243, "learning_rate": 3.2184054568424817e-06, "loss": 0.5532, "step": 5883 }, { "avg_step_time": 5.449330679093949, "epoch": 0.62752, "eta_time": 5.28585075872113, "step": 5883 }, { "epoch": 0.6276266666666667, "grad_norm": 2.087099285907105, "learning_rate": 3.2167914686611425e-06, "loss": 0.5595, "step": 5884 }, { "avg_step_time": 5.448884077746459, "epoch": 0.6276266666666667, "eta_time": 5.28390397650358, "step": 5884 }, { "epoch": 0.6277333333333334, "grad_norm": 1.8439467958790527, "learning_rate": 3.2151776933365842e-06, "loss": 0.3913, "step": 5885 }, { "avg_step_time": 5.479257549902405, "epoch": 0.6277333333333334, "eta_time": 5.3118357914331655, "step": 5885 }, { "epoch": 0.62784, "grad_norm": 1.8795694486856147, "learning_rate": 3.2135641310614383e-06, "loss": 0.5317, "step": 5886 }, { "avg_step_time": 5.479167206118805, "epoch": 0.62784, "eta_time": 5.310226217263475, "step": 5886 }, { "epoch": 0.6279466666666667, "grad_norm": 0.6436956939619309, "learning_rate": 3.2119507820283158e-06, "loss": 0.4303, "step": 5887 }, { "avg_step_time": 5.451347028366243, "epoch": 0.6279466666666667, "eta_time": 5.281749565261515, "step": 5887 }, { "epoch": 0.6280533333333334, "grad_norm": 2.0428727208958226, "learning_rate": 3.2103376464297942e-06, "loss": 0.5651, "step": 5888 }, { "avg_step_time": 5.445651574568315, "epoch": 0.6280533333333334, "eta_time": 5.274718622366588, "step": 5888 }, { "epoch": 0.62816, "grad_norm": 1.7502577806501594, "learning_rate": 3.20872472445843e-06, "loss": 0.4745, "step": 5889 }, { "avg_step_time": 5.446842588559545, "epoch": 0.62816, "eta_time": 5.274359239921826, "step": 5889 }, { "epoch": 0.6282666666666666, "grad_norm": 1.7850625022961828, "learning_rate": 3.2071120163067527e-06, "loss": 0.4984, "step": 5890 }, { "avg_step_time": 5.4552535336427015, "epoch": 0.6282666666666666, "eta_time": 5.280988490206893, "step": 5890 }, { "epoch": 0.6283733333333333, "grad_norm": 1.8488303245739537, "learning_rate": 3.2054995221672676e-06, "loss": 0.4599, "step": 5891 }, { "avg_step_time": 5.455159943513196, "epoch": 0.6283733333333333, "eta_time": 5.279382567555548, "step": 5891 }, { "epoch": 0.62848, "grad_norm": 1.682495479906437, "learning_rate": 3.203887242232455e-06, "loss": 0.4863, "step": 5892 }, { "avg_step_time": 5.469019292580961, "epoch": 0.62848, "eta_time": 5.2912761655720795, "step": 5892 }, { "epoch": 0.6285866666666666, "grad_norm": 1.6681354684992176, "learning_rate": 3.2022751766947656e-06, "loss": 0.5362, "step": 5893 }, { "avg_step_time": 5.46215393808153, "epoch": 0.6285866666666666, "eta_time": 5.283116670111079, "step": 5893 }, { "epoch": 0.6286933333333333, "grad_norm": 0.619889014154491, "learning_rate": 3.200663325746629e-06, "loss": 0.3978, "step": 5894 }, { "avg_step_time": 5.450442174468377, "epoch": 0.6286933333333333, "eta_time": 5.270274780367894, "step": 5894 }, { "epoch": 0.6288, "grad_norm": 1.6084307740560908, "learning_rate": 3.1990516895804467e-06, "loss": 0.472, "step": 5895 }, { "avg_step_time": 5.4651118866120925, "epoch": 0.6288, "eta_time": 5.282941490391689, "step": 5895 }, { "epoch": 0.6289066666666666, "grad_norm": 2.105432999952728, "learning_rate": 3.1974402683885963e-06, "loss": 0.5209, "step": 5896 }, { "avg_step_time": 5.4725053069567435, "epoch": 0.6289066666666666, "eta_time": 5.288568323028475, "step": 5896 }, { "epoch": 0.6290133333333333, "grad_norm": 1.679601712003889, "learning_rate": 3.1958290623634285e-06, "loss": 0.4552, "step": 5897 }, { "avg_step_time": 5.472587566183071, "epoch": 0.6290133333333333, "eta_time": 5.2871276542179775, "step": 5897 }, { "epoch": 0.62912, "grad_norm": 0.6559448708414192, "learning_rate": 3.1942180716972698e-06, "loss": 0.4727, "step": 5898 }, { "avg_step_time": 5.436543190118038, "epoch": 0.62912, "eta_time": 5.250794631122338, "step": 5898 }, { "epoch": 0.6292266666666667, "grad_norm": 2.1611375651355424, "learning_rate": 3.1926072965824172e-06, "loss": 0.4812, "step": 5899 }, { "avg_step_time": 5.46250150420449, "epoch": 0.6292266666666667, "eta_time": 5.274348674615224, "step": 5899 }, { "epoch": 0.6293333333333333, "grad_norm": 1.9856053045234754, "learning_rate": 3.190996737211145e-06, "loss": 0.466, "step": 5900 }, { "avg_step_time": 5.455074888287169, "epoch": 0.6293333333333333, "eta_time": 5.265662565777198, "step": 5900 }, { "epoch": 0.62944, "grad_norm": 1.7547940761858647, "learning_rate": 3.189386393775703e-06, "loss": 0.5248, "step": 5901 }, { "avg_step_time": 5.424175934358076, "epoch": 0.62944, "eta_time": 5.234329776655543, "step": 5901 }, { "epoch": 0.6295466666666667, "grad_norm": 1.9509063124123804, "learning_rate": 3.1877762664683125e-06, "loss": 0.4773, "step": 5902 }, { "avg_step_time": 5.406998280322913, "epoch": 0.6295466666666667, "eta_time": 5.2162513965448545, "step": 5902 }, { "epoch": 0.6296533333333333, "grad_norm": 1.5167147468311637, "learning_rate": 3.1861663554811707e-06, "loss": 0.4944, "step": 5903 }, { "avg_step_time": 5.406438760083131, "epoch": 0.6296533333333333, "eta_time": 5.214209826391286, "step": 5903 }, { "epoch": 0.62976, "grad_norm": 2.398970742394028, "learning_rate": 3.1845566610064487e-06, "loss": 0.5125, "step": 5904 }, { "avg_step_time": 5.437751868758538, "epoch": 0.62976, "eta_time": 5.242899093461358, "step": 5904 }, { "epoch": 0.6298666666666667, "grad_norm": 0.6274674088840896, "learning_rate": 3.182947183236288e-06, "loss": 0.4214, "step": 5905 }, { "avg_step_time": 5.4403668774498835, "epoch": 0.6298666666666667, "eta_time": 5.2439091846530825, "step": 5905 }, { "epoch": 0.6299733333333334, "grad_norm": 1.6922701505282947, "learning_rate": 3.1813379223628127e-06, "loss": 0.5115, "step": 5906 }, { "avg_step_time": 5.439239511586199, "epoch": 0.6299733333333334, "eta_time": 5.241311629359035, "step": 5906 }, { "epoch": 0.63008, "grad_norm": 1.9254503068320128, "learning_rate": 3.179728878578112e-06, "loss": 0.4539, "step": 5907 }, { "avg_step_time": 5.436620856776382, "epoch": 0.63008, "eta_time": 5.237278092027914, "step": 5907 }, { "epoch": 0.6301866666666667, "grad_norm": 1.7934887977476677, "learning_rate": 3.178120052074255e-06, "loss": 0.4434, "step": 5908 }, { "avg_step_time": 5.439042662129258, "epoch": 0.6301866666666667, "eta_time": 5.238100252667261, "step": 5908 }, { "epoch": 0.6302933333333334, "grad_norm": 1.9926361273949582, "learning_rate": 3.1765114430432826e-06, "loss": 0.525, "step": 5909 }, { "avg_step_time": 5.4396152327759095, "epoch": 0.6302933333333334, "eta_time": 5.237140665778139, "step": 5909 }, { "epoch": 0.6304, "grad_norm": 1.749655438927115, "learning_rate": 3.1749030516772084e-06, "loss": 0.4671, "step": 5910 }, { "avg_step_time": 5.4494413534800215, "epoch": 0.6304, "eta_time": 5.24508730272452, "step": 5910 }, { "epoch": 0.6305066666666667, "grad_norm": 1.637609149088916, "learning_rate": 3.173294878168025e-06, "loss": 0.4476, "step": 5911 }, { "avg_step_time": 5.451999772678722, "epoch": 0.6305066666666667, "eta_time": 5.24603533682197, "step": 5911 }, { "epoch": 0.6306133333333334, "grad_norm": 1.648845083019561, "learning_rate": 3.1716869227076946e-06, "loss": 0.4174, "step": 5912 }, { "avg_step_time": 5.481074441562999, "epoch": 0.6306133333333334, "eta_time": 5.272489108647963, "step": 5912 }, { "epoch": 0.63072, "grad_norm": 1.8885894333668418, "learning_rate": 3.170079185488153e-06, "loss": 0.4069, "step": 5913 }, { "avg_step_time": 5.523465527428521, "epoch": 0.63072, "eta_time": 5.311732682210428, "step": 5913 }, { "epoch": 0.6308266666666666, "grad_norm": 1.7925596534503185, "learning_rate": 3.1684716667013125e-06, "loss": 0.3427, "step": 5914 }, { "avg_step_time": 5.518023592053038, "epoch": 0.6308266666666666, "eta_time": 5.304966570026546, "step": 5914 }, { "epoch": 0.6309333333333333, "grad_norm": 1.7671373501039689, "learning_rate": 3.166864366539057e-06, "loss": 0.5208, "step": 5915 }, { "avg_step_time": 5.528425500850485, "epoch": 0.6309333333333333, "eta_time": 5.313431175817411, "step": 5915 }, { "epoch": 0.63104, "grad_norm": 1.8083522019611746, "learning_rate": 3.165257285193248e-06, "loss": 0.4863, "step": 5916 }, { "avg_step_time": 5.5432086881965095, "epoch": 0.63104, "eta_time": 5.326099681242146, "step": 5916 }, { "epoch": 0.6311466666666666, "grad_norm": 1.9857826717737845, "learning_rate": 3.163650422855717e-06, "loss": 0.4975, "step": 5917 }, { "avg_step_time": 5.563225592025603, "epoch": 0.6311466666666666, "eta_time": 5.343787249229037, "step": 5917 }, { "epoch": 0.6312533333333333, "grad_norm": 1.7681628177256437, "learning_rate": 3.1620437797182717e-06, "loss": 0.424, "step": 5918 }, { "avg_step_time": 5.605971131661926, "epoch": 0.6312533333333333, "eta_time": 5.383289500598689, "step": 5918 }, { "epoch": 0.63136, "grad_norm": 1.831852262650519, "learning_rate": 3.1604373559726915e-06, "loss": 0.4279, "step": 5919 }, { "avg_step_time": 5.603963259494666, "epoch": 0.63136, "eta_time": 5.379804729114879, "step": 5919 }, { "epoch": 0.6314666666666666, "grad_norm": 0.673747931941934, "learning_rate": 3.15883115181073e-06, "loss": 0.4483, "step": 5920 }, { "avg_step_time": 5.570902217518199, "epoch": 0.6314666666666666, "eta_time": 5.346518655979272, "step": 5920 }, { "epoch": 0.6315733333333333, "grad_norm": 0.7045085509589054, "learning_rate": 3.1572251674241182e-06, "loss": 0.4571, "step": 5921 }, { "avg_step_time": 5.536827024787363, "epoch": 0.6315733333333333, "eta_time": 5.312277928782098, "step": 5921 }, { "epoch": 0.63168, "grad_norm": 1.4713764804604956, "learning_rate": 3.1556194030045563e-06, "loss": 0.4808, "step": 5922 }, { "avg_step_time": 5.535324291749434, "epoch": 0.63168, "eta_time": 5.309298549836331, "step": 5922 }, { "epoch": 0.6317866666666667, "grad_norm": 2.0602441185905573, "learning_rate": 3.1540138587437206e-06, "loss": 0.5903, "step": 5923 }, { "avg_step_time": 5.534346558830955, "epoch": 0.6317866666666667, "eta_time": 5.30682342252346, "step": 5923 }, { "epoch": 0.6318933333333333, "grad_norm": 2.007746340600087, "learning_rate": 3.1524085348332622e-06, "loss": 0.5413, "step": 5924 }, { "avg_step_time": 5.532134325817378, "epoch": 0.6318933333333333, "eta_time": 5.303165432887713, "step": 5924 }, { "epoch": 0.632, "grad_norm": 1.5710854690412372, "learning_rate": 3.1508034314647994e-06, "loss": 0.4803, "step": 5925 }, { "avg_step_time": 5.530017546933107, "epoch": 0.632, "eta_time": 5.2996001491442275, "step": 5925 }, { "epoch": 0.6321066666666667, "grad_norm": 1.977545135285896, "learning_rate": 3.149198548829935e-06, "loss": 0.4923, "step": 5926 }, { "avg_step_time": 5.5246188014444675, "epoch": 0.6321066666666667, "eta_time": 5.292891735050547, "step": 5926 }, { "epoch": 0.6322133333333333, "grad_norm": 1.9743076958617918, "learning_rate": 3.1475938871202356e-06, "loss": 0.4617, "step": 5927 }, { "avg_step_time": 5.553028431805697, "epoch": 0.6322133333333333, "eta_time": 5.318567231351679, "step": 5927 }, { "epoch": 0.63232, "grad_norm": 1.8212596941280794, "learning_rate": 3.1459894465272467e-06, "loss": 0.4826, "step": 5928 }, { "avg_step_time": 5.553314206576107, "epoch": 0.63232, "eta_time": 5.317298352796622, "step": 5928 }, { "epoch": 0.6324266666666667, "grad_norm": 1.7066167589215706, "learning_rate": 3.1443852272424863e-06, "loss": 0.4623, "step": 5929 }, { "avg_step_time": 5.555661307440864, "epoch": 0.6324266666666667, "eta_time": 5.318002462622561, "step": 5929 }, { "epoch": 0.6325333333333333, "grad_norm": 2.034875952081678, "learning_rate": 3.142781229457442e-06, "loss": 0.4938, "step": 5930 }, { "avg_step_time": 5.55931463867727, "epoch": 0.6325333333333333, "eta_time": 5.319955258400887, "step": 5930 }, { "epoch": 0.63264, "grad_norm": 1.9066865266844693, "learning_rate": 3.1411774533635854e-06, "loss": 0.4974, "step": 5931 }, { "avg_step_time": 5.559436008183643, "epoch": 0.63264, "eta_time": 5.318527114495685, "step": 5931 }, { "epoch": 0.6327466666666667, "grad_norm": 2.3405387661216612, "learning_rate": 3.139573899152351e-06, "loss": 0.5004, "step": 5932 }, { "avg_step_time": 5.559218914821894, "epoch": 0.6327466666666667, "eta_time": 5.316775201036607, "step": 5932 }, { "epoch": 0.6328533333333334, "grad_norm": 1.993484122742963, "learning_rate": 3.1379705670151504e-06, "loss": 0.4717, "step": 5933 }, { "avg_step_time": 5.563938721261843, "epoch": 0.6328533333333334, "eta_time": 5.319743632939796, "step": 5933 }, { "epoch": 0.63296, "grad_norm": 1.9999850177063871, "learning_rate": 3.136367457143369e-06, "loss": 0.4556, "step": 5934 }, { "avg_step_time": 5.561594587383849, "epoch": 0.63296, "eta_time": 5.315957493107729, "step": 5934 }, { "epoch": 0.6330666666666667, "grad_norm": 2.0686910595499364, "learning_rate": 3.134764569728368e-06, "loss": 0.5997, "step": 5935 }, { "avg_step_time": 5.5601248235413525, "epoch": 0.6330666666666667, "eta_time": 5.313008164717293, "step": 5935 }, { "epoch": 0.6331733333333334, "grad_norm": 2.0071368226499864, "learning_rate": 3.133161904961477e-06, "loss": 0.5583, "step": 5936 }, { "avg_step_time": 5.560347523352112, "epoch": 0.6331733333333334, "eta_time": 5.311676425779976, "step": 5936 }, { "epoch": 0.63328, "grad_norm": 1.8090636927710741, "learning_rate": 3.1315594630340052e-06, "loss": 0.5002, "step": 5937 }, { "avg_step_time": 5.558538335742372, "epoch": 0.63328, "eta_time": 5.3084041106339654, "step": 5937 }, { "epoch": 0.6333866666666667, "grad_norm": 2.0228485442295048, "learning_rate": 3.1299572441372274e-06, "loss": 0.5059, "step": 5938 }, { "avg_step_time": 5.59543714860473, "epoch": 0.6333866666666667, "eta_time": 5.342088188820682, "step": 5938 }, { "epoch": 0.6334933333333334, "grad_norm": 1.9144921203366085, "learning_rate": 3.128355248462397e-06, "loss": 0.5068, "step": 5939 }, { "avg_step_time": 5.595989020183833, "epoch": 0.6334933333333334, "eta_time": 5.3410606314865685, "step": 5939 }, { "epoch": 0.6336, "grad_norm": 0.6171212307364726, "learning_rate": 3.1267534762007435e-06, "loss": 0.443, "step": 5940 }, { "avg_step_time": 5.563147650824653, "epoch": 0.6336, "eta_time": 5.3081700501618565, "step": 5940 }, { "epoch": 0.6337066666666666, "grad_norm": 1.6528965265748141, "learning_rate": 3.125151927543464e-06, "loss": 0.3945, "step": 5941 }, { "avg_step_time": 5.562420722210046, "epoch": 0.6337066666666666, "eta_time": 5.305931322241472, "step": 5941 }, { "epoch": 0.6338133333333333, "grad_norm": 1.985334624137309, "learning_rate": 3.1235506026817296e-06, "loss": 0.506, "step": 5942 }, { "avg_step_time": 5.563047421098959, "epoch": 0.6338133333333333, "eta_time": 5.30498383239798, "step": 5942 }, { "epoch": 0.63392, "grad_norm": 1.9515783565676528, "learning_rate": 3.1219495018066888e-06, "loss": 0.4669, "step": 5943 }, { "avg_step_time": 5.599275083252878, "epoch": 0.63392, "eta_time": 5.337975579367743, "step": 5943 }, { "epoch": 0.6340266666666666, "grad_norm": 1.62259880163052, "learning_rate": 3.1203486251094562e-06, "loss": 0.4931, "step": 5944 }, { "avg_step_time": 5.632967510608712, "epoch": 0.6340266666666666, "eta_time": 5.368530980249581, "step": 5944 }, { "epoch": 0.6341333333333333, "grad_norm": 2.0216820083956812, "learning_rate": 3.11874797278113e-06, "loss": 0.4507, "step": 5945 }, { "avg_step_time": 5.610291608656295, "epoch": 0.6341333333333333, "eta_time": 5.345361171580859, "step": 5945 }, { "epoch": 0.63424, "grad_norm": 1.890878390549518, "learning_rate": 3.1171475450127717e-06, "loss": 0.4189, "step": 5946 }, { "avg_step_time": 5.609080846863564, "epoch": 0.63424, "eta_time": 5.342649506637545, "step": 5946 }, { "epoch": 0.6343466666666666, "grad_norm": 2.0025591071126163, "learning_rate": 3.115547341995422e-06, "loss": 0.6008, "step": 5947 }, { "avg_step_time": 5.613066126601865, "epoch": 0.6343466666666666, "eta_time": 5.344886300553109, "step": 5947 }, { "epoch": 0.6344533333333333, "grad_norm": 1.9949836153818743, "learning_rate": 3.113947363920091e-06, "loss": 0.4626, "step": 5948 }, { "avg_step_time": 5.648640678386496, "epoch": 0.6344533333333333, "eta_time": 5.3771921124529225, "step": 5948 }, { "epoch": 0.63456, "grad_norm": 2.1899474005052837, "learning_rate": 3.112347610977764e-06, "loss": 0.4781, "step": 5949 }, { "avg_step_time": 5.648370988441236, "epoch": 0.63456, "eta_time": 5.375366390666577, "step": 5949 }, { "epoch": 0.6346666666666667, "grad_norm": 2.1535033703171105, "learning_rate": 3.1107480833594018e-06, "loss": 0.5144, "step": 5950 }, { "avg_step_time": 5.649765286782776, "epoch": 0.6346666666666667, "eta_time": 5.37512391867528, "step": 5950 }, { "epoch": 0.6347733333333333, "grad_norm": 1.9387994904230055, "learning_rate": 3.109148781255934e-06, "loss": 0.4665, "step": 5951 }, { "avg_step_time": 5.643224075587109, "epoch": 0.6347733333333333, "eta_time": 5.3673331207806285, "step": 5951 }, { "epoch": 0.63488, "grad_norm": 1.5896076128477528, "learning_rate": 3.1075497048582635e-06, "loss": 0.481, "step": 5952 }, { "avg_step_time": 5.646503181168527, "epoch": 0.63488, "eta_time": 5.368883441427742, "step": 5952 }, { "epoch": 0.6349866666666667, "grad_norm": 1.627128152845809, "learning_rate": 3.1059508543572703e-06, "loss": 0.5226, "step": 5953 }, { "avg_step_time": 5.666145035714814, "epoch": 0.6349866666666667, "eta_time": 5.3859856422822485, "step": 5953 }, { "epoch": 0.6350933333333333, "grad_norm": 1.751354562482537, "learning_rate": 3.1043522299438023e-06, "loss": 0.4369, "step": 5954 }, { "avg_step_time": 5.668533924854163, "epoch": 0.6350933333333333, "eta_time": 5.3866818213683585, "step": 5954 }, { "epoch": 0.6352, "grad_norm": 1.7335064073989312, "learning_rate": 3.102753831808685e-06, "loss": 0.5287, "step": 5955 }, { "avg_step_time": 5.662491574431911, "epoch": 0.6352, "eta_time": 5.379366995710316, "step": 5955 }, { "epoch": 0.6353066666666667, "grad_norm": 1.7401229974079224, "learning_rate": 3.1011556601427138e-06, "loss": 0.4731, "step": 5956 }, { "avg_step_time": 5.663876950138747, "epoch": 0.6353066666666667, "eta_time": 5.379109803478993, "step": 5956 }, { "epoch": 0.6354133333333334, "grad_norm": 1.5167778169513206, "learning_rate": 3.0995577151366594e-06, "loss": 0.381, "step": 5957 }, { "avg_step_time": 5.667053299720841, "epoch": 0.6354133333333334, "eta_time": 5.380552271790509, "step": 5957 }, { "epoch": 0.63552, "grad_norm": 1.9074922966133547, "learning_rate": 3.097959996981263e-06, "loss": 0.5489, "step": 5958 }, { "avg_step_time": 5.664153274863657, "epoch": 0.63552, "eta_time": 5.376225483391421, "step": 5958 }, { "epoch": 0.6356266666666667, "grad_norm": 2.017904046780822, "learning_rate": 3.0963625058672384e-06, "loss": 0.551, "step": 5959 }, { "avg_step_time": 5.664532451918631, "epoch": 0.6356266666666667, "eta_time": 5.375011904376123, "step": 5959 }, { "epoch": 0.6357333333333334, "grad_norm": 1.5951360453930095, "learning_rate": 3.0947652419852768e-06, "loss": 0.4678, "step": 5960 }, { "avg_step_time": 5.6632654233412305, "epoch": 0.6357333333333334, "eta_time": 5.372236505752861, "step": 5960 }, { "epoch": 0.63584, "grad_norm": 1.7722675561104269, "learning_rate": 3.093168205526038e-06, "loss": 0.4764, "step": 5961 }, { "avg_step_time": 5.662989604352701, "epoch": 0.63584, "eta_time": 5.370401808127811, "step": 5961 }, { "epoch": 0.6359466666666667, "grad_norm": 2.254224414418733, "learning_rate": 3.091571396680156e-06, "loss": 0.5368, "step": 5962 }, { "avg_step_time": 5.692259061216104, "epoch": 0.6359466666666667, "eta_time": 5.396577826647379, "step": 5962 }, { "epoch": 0.6360533333333334, "grad_norm": 1.948958119327978, "learning_rate": 3.089974815638239e-06, "loss": 0.49, "step": 5963 }, { "avg_step_time": 5.727167466674188, "epoch": 0.6360533333333334, "eta_time": 5.428082054525647, "step": 5963 }, { "epoch": 0.63616, "grad_norm": 1.7100267395695048, "learning_rate": 3.0883784625908618e-06, "loss": 0.5239, "step": 5964 }, { "avg_step_time": 5.7223449524002845, "epoch": 0.63616, "eta_time": 5.42192184239927, "step": 5964 }, { "epoch": 0.6362666666666666, "grad_norm": 1.8215137708386433, "learning_rate": 3.0867823377285835e-06, "loss": 0.5227, "step": 5965 }, { "avg_step_time": 5.773749370767613, "epoch": 0.6362666666666666, "eta_time": 5.469023709532656, "step": 5965 }, { "epoch": 0.6363733333333333, "grad_norm": 1.7201948548095385, "learning_rate": 3.0851864412419236e-06, "loss": 0.4675, "step": 5966 }, { "avg_step_time": 5.778836707876186, "epoch": 0.6363733333333333, "eta_time": 5.4722373158749775, "step": 5966 }, { "epoch": 0.63648, "grad_norm": 2.1319610359356718, "learning_rate": 3.083590773321383e-06, "loss": 0.4229, "step": 5967 }, { "avg_step_time": 5.781131344612199, "epoch": 0.63648, "eta_time": 5.472804339566215, "step": 5967 }, { "epoch": 0.6365866666666666, "grad_norm": 1.7520598478107448, "learning_rate": 3.0819953341574305e-06, "loss": 0.4742, "step": 5968 }, { "avg_step_time": 5.782953100975114, "epoch": 0.6365866666666666, "eta_time": 5.472922559728392, "step": 5968 }, { "epoch": 0.6366933333333333, "grad_norm": 2.190501869395149, "learning_rate": 3.0804001239405097e-06, "loss": 0.5133, "step": 5969 }, { "avg_step_time": 5.781562504142221, "epoch": 0.6366933333333333, "eta_time": 5.470000524752336, "step": 5969 }, { "epoch": 0.6368, "grad_norm": 0.6327991326765248, "learning_rate": 3.0788051428610377e-06, "loss": 0.4261, "step": 5970 }, { "avg_step_time": 5.752550782579364, "epoch": 0.6368, "eta_time": 5.440954281856316, "step": 5970 }, { "epoch": 0.6369066666666666, "grad_norm": 1.8701766354948055, "learning_rate": 3.077210391109404e-06, "loss": 0.4391, "step": 5971 }, { "avg_step_time": 5.753622430743593, "epoch": 0.6369066666666666, "eta_time": 5.440369653958664, "step": 5971 }, { "epoch": 0.6370133333333333, "grad_norm": 1.5389048739170634, "learning_rate": 3.075615868875967e-06, "loss": 0.4573, "step": 5972 }, { "avg_step_time": 5.753886757474957, "epoch": 0.6370133333333333, "eta_time": 5.4390212876909105, "step": 5972 }, { "epoch": 0.63712, "grad_norm": 2.063099883640334, "learning_rate": 3.0740215763510617e-06, "loss": 0.4582, "step": 5973 }, { "avg_step_time": 5.792756704368976, "epoch": 0.63712, "eta_time": 5.4741550856286825, "step": 5973 }, { "epoch": 0.6372266666666667, "grad_norm": 1.94904656628593, "learning_rate": 3.072427513724993e-06, "loss": 0.504, "step": 5974 }, { "avg_step_time": 5.7915046022395895, "epoch": 0.6372266666666667, "eta_time": 5.471363097838013, "step": 5974 }, { "epoch": 0.6373333333333333, "grad_norm": 2.031282675719211, "learning_rate": 3.070833681188043e-06, "loss": 0.3906, "step": 5975 }, { "avg_step_time": 5.794452094068431, "epoch": 0.6373333333333333, "eta_time": 5.472538088842407, "step": 5975 }, { "epoch": 0.63744, "grad_norm": 1.738042813022203, "learning_rate": 3.069240078930461e-06, "loss": 0.4533, "step": 5976 }, { "avg_step_time": 5.797292774373835, "epoch": 0.63744, "eta_time": 5.473610594471296, "step": 5976 }, { "epoch": 0.6375466666666667, "grad_norm": 1.8954432635464937, "learning_rate": 3.0676467071424733e-06, "loss": 0.4907, "step": 5977 }, { "avg_step_time": 5.796802181186098, "epoch": 0.6375466666666667, "eta_time": 5.471537169908434, "step": 5977 }, { "epoch": 0.6376533333333333, "grad_norm": 1.7631734815997415, "learning_rate": 3.066053566014271e-06, "loss": 0.4628, "step": 5978 }, { "avg_step_time": 5.828572781399043, "epoch": 0.6376533333333333, "eta_time": 5.49990603844793, "step": 5978 }, { "epoch": 0.63776, "grad_norm": 1.9992240689117977, "learning_rate": 3.0644606557360303e-06, "loss": 0.5025, "step": 5979 }, { "avg_step_time": 5.826098287948454, "epoch": 0.63776, "eta_time": 5.495952718298042, "step": 5979 }, { "epoch": 0.6378666666666667, "grad_norm": 2.072291918109032, "learning_rate": 3.0628679764978875e-06, "loss": 0.5302, "step": 5980 }, { "avg_step_time": 5.816280097672434, "epoch": 0.6378666666666667, "eta_time": 5.485075258777198, "step": 5980 }, { "epoch": 0.6379733333333333, "grad_norm": 2.0293227488884935, "learning_rate": 3.0612755284899577e-06, "loss": 0.4499, "step": 5981 }, { "avg_step_time": 5.815883157229183, "epoch": 0.6379733333333333, "eta_time": 5.483085398787735, "step": 5981 }, { "epoch": 0.63808, "grad_norm": 1.672449633052983, "learning_rate": 3.0596833119023283e-06, "loss": 0.4694, "step": 5982 }, { "avg_step_time": 5.814554527552441, "epoch": 0.63808, "eta_time": 5.480217642218175, "step": 5982 }, { "epoch": 0.6381866666666667, "grad_norm": 1.582279112341622, "learning_rate": 3.0580913269250545e-06, "loss": 0.5273, "step": 5983 }, { "avg_step_time": 5.817818940287888, "epoch": 0.6381866666666667, "eta_time": 5.481678290404589, "step": 5983 }, { "epoch": 0.6382933333333334, "grad_norm": 0.6593901497790015, "learning_rate": 3.0564995737481706e-06, "loss": 0.4496, "step": 5984 }, { "avg_step_time": 5.7525692539985736, "epoch": 0.6382933333333334, "eta_time": 5.418600650085879, "step": 5984 }, { "epoch": 0.6384, "grad_norm": 1.964258415789006, "learning_rate": 3.054908052561681e-06, "loss": 0.4212, "step": 5985 }, { "avg_step_time": 5.751673859779281, "epoch": 0.6384, "eta_time": 5.416159551292156, "step": 5985 }, { "epoch": 0.6385066666666667, "grad_norm": 0.6301191335748023, "learning_rate": 3.053316763555557e-06, "loss": 0.4483, "step": 5986 }, { "avg_step_time": 5.747815820905897, "epoch": 0.6385066666666667, "eta_time": 5.41092994918058, "step": 5986 }, { "epoch": 0.6386133333333334, "grad_norm": 1.8426941569935997, "learning_rate": 3.0517257069197497e-06, "loss": 0.5719, "step": 5987 }, { "avg_step_time": 5.754748334788313, "epoch": 0.6386133333333334, "eta_time": 5.415857599517445, "step": 5987 }, { "epoch": 0.63872, "grad_norm": 1.8250654947208333, "learning_rate": 3.0501348828441767e-06, "loss": 0.5322, "step": 5988 }, { "avg_step_time": 5.751241373293327, "epoch": 0.63872, "eta_time": 5.410959592040138, "step": 5988 }, { "epoch": 0.6388266666666667, "grad_norm": 2.0080272804213672, "learning_rate": 3.0485442915187335e-06, "loss": 0.5086, "step": 5989 }, { "avg_step_time": 5.746203253967593, "epoch": 0.6388266666666667, "eta_time": 5.40462339387063, "step": 5989 }, { "epoch": 0.6389333333333334, "grad_norm": 2.0723721489194036, "learning_rate": 3.046953933133283e-06, "loss": 0.5089, "step": 5990 }, { "avg_step_time": 5.743171063336459, "epoch": 0.6389333333333334, "eta_time": 5.400176124831643, "step": 5990 }, { "epoch": 0.63904, "grad_norm": 1.6974940060300099, "learning_rate": 3.0453638078776614e-06, "loss": 0.4841, "step": 5991 }, { "avg_step_time": 5.7287496195899115, "epoch": 0.63904, "eta_time": 5.385024642414517, "step": 5991 }, { "epoch": 0.6391466666666666, "grad_norm": 1.639161816899344, "learning_rate": 3.043773915941679e-06, "loss": 0.3865, "step": 5992 }, { "avg_step_time": 5.731723852831908, "epoch": 0.6391466666666666, "eta_time": 5.3862282761473175, "step": 5992 }, { "epoch": 0.6392533333333333, "grad_norm": 0.6464985730588114, "learning_rate": 3.042184257515114e-06, "loss": 0.4481, "step": 5993 }, { "avg_step_time": 5.706633497970273, "epoch": 0.6392533333333333, "eta_time": 5.36106513614874, "step": 5993 }, { "epoch": 0.63936, "grad_norm": 1.77650945899861, "learning_rate": 3.0405948327877233e-06, "loss": 0.5184, "step": 5994 }, { "avg_step_time": 5.691911328922618, "epoch": 0.63936, "eta_time": 5.345653389746492, "step": 5994 }, { "epoch": 0.6394666666666666, "grad_norm": 1.7460253083831172, "learning_rate": 3.039005641949231e-06, "loss": 0.4677, "step": 5995 }, { "avg_step_time": 5.683800124158763, "epoch": 0.6394666666666666, "eta_time": 5.336456783237949, "step": 5995 }, { "epoch": 0.6395733333333333, "grad_norm": 1.9382486624103004, "learning_rate": 3.037416685189335e-06, "loss": 0.463, "step": 5996 }, { "avg_step_time": 5.683289624223805, "epoch": 0.6395733333333333, "eta_time": 5.334398788958954, "step": 5996 }, { "epoch": 0.63968, "grad_norm": 1.8523403700674346, "learning_rate": 3.0358279626977034e-06, "loss": 0.5396, "step": 5997 }, { "avg_step_time": 5.71672564805156, "epoch": 0.63968, "eta_time": 5.364194233088381, "step": 5997 }, { "epoch": 0.6397866666666666, "grad_norm": 2.0152105849853186, "learning_rate": 3.0342394746639768e-06, "loss": 0.5532, "step": 5998 }, { "avg_step_time": 5.692796304972485, "epoch": 0.6397866666666666, "eta_time": 5.340159200525578, "step": 5998 }, { "epoch": 0.6398933333333333, "grad_norm": 1.7536842240138029, "learning_rate": 3.0326512212777715e-06, "loss": 0.4857, "step": 5999 }, { "avg_step_time": 5.701639168190233, "epoch": 0.6398933333333333, "eta_time": 5.346870508836174, "step": 5999 }, { "epoch": 0.64, "grad_norm": 1.8529678770140405, "learning_rate": 3.0310632027286717e-06, "loss": 0.5298, "step": 6000 }, { "avg_step_time": 5.701366142793135, "epoch": 0.64, "eta_time": 5.345030758868564, "step": 6000 }, { "epoch": 0.6401066666666667, "grad_norm": 1.8773576048579916, "learning_rate": 3.0294754192062346e-06, "loss": 0.4207, "step": 6001 }, { "avg_step_time": 5.712025004203873, "epoch": 0.6401066666666667, "eta_time": 5.353436767828852, "step": 6001 }, { "epoch": 0.6402133333333333, "grad_norm": 1.703253816946414, "learning_rate": 3.0278878708999917e-06, "loss": 0.4721, "step": 6002 }, { "avg_step_time": 5.7187520542530095, "epoch": 0.6402133333333333, "eta_time": 5.358152966387611, "step": 6002 }, { "epoch": 0.64032, "grad_norm": 0.6487513087293723, "learning_rate": 3.026300557999439e-06, "loss": 0.4406, "step": 6003 }, { "avg_step_time": 5.686953142435864, "epoch": 0.64032, "eta_time": 5.326779443414925, "step": 6003 }, { "epoch": 0.6404266666666667, "grad_norm": 1.776596362833933, "learning_rate": 3.024713480694057e-06, "loss": 0.4302, "step": 6004 }, { "avg_step_time": 5.718461684506349, "epoch": 0.6404266666666667, "eta_time": 5.3547039829085845, "step": 6004 }, { "epoch": 0.6405333333333333, "grad_norm": 1.9480946331725364, "learning_rate": 3.023126639173286e-06, "loss": 0.4829, "step": 6005 }, { "avg_step_time": 5.724239662440136, "epoch": 0.6405333333333333, "eta_time": 5.358524350673128, "step": 6005 }, { "epoch": 0.64064, "grad_norm": 1.8119316027558299, "learning_rate": 3.021540033626544e-06, "loss": 0.5267, "step": 6006 }, { "avg_step_time": 5.728989947925914, "epoch": 0.64064, "eta_time": 5.361379759600668, "step": 6006 }, { "epoch": 0.6407466666666667, "grad_norm": 1.8939861952894963, "learning_rate": 3.01995366424322e-06, "loss": 0.5302, "step": 6007 }, { "avg_step_time": 5.737147820116293, "epoch": 0.6407466666666667, "eta_time": 5.367420516153244, "step": 6007 }, { "epoch": 0.6408533333333334, "grad_norm": 0.65004993090913, "learning_rate": 3.0183675312126737e-06, "loss": 0.4276, "step": 6008 }, { "avg_step_time": 5.7028960531408135, "epoch": 0.6408533333333334, "eta_time": 5.3337919474792, "step": 6008 }, { "epoch": 0.64096, "grad_norm": 2.1377857737616033, "learning_rate": 3.0167816347242396e-06, "loss": 0.4585, "step": 6009 }, { "avg_step_time": 5.697909451494313, "epoch": 0.64096, "eta_time": 5.327545337147183, "step": 6009 }, { "epoch": 0.6410666666666667, "grad_norm": 1.7792304742069698, "learning_rate": 3.015195974967221e-06, "loss": 0.435, "step": 6010 }, { "avg_step_time": 5.696461044176661, "epoch": 0.6410666666666667, "eta_time": 5.3246087260151285, "step": 6010 }, { "epoch": 0.6411733333333334, "grad_norm": 1.6802982319729551, "learning_rate": 3.0136105521308933e-06, "loss": 0.5321, "step": 6011 }, { "avg_step_time": 5.668165912531843, "epoch": 0.6411733333333334, "eta_time": 5.2965861471547555, "step": 6011 }, { "epoch": 0.64128, "grad_norm": 1.9936887627415236, "learning_rate": 3.012025366404504e-06, "loss": 0.5352, "step": 6012 }, { "avg_step_time": 5.622534397876624, "epoch": 0.64128, "eta_time": 5.25238421668308, "step": 6012 }, { "epoch": 0.6413866666666667, "grad_norm": 2.0982552697255885, "learning_rate": 3.010440417977272e-06, "loss": 0.5214, "step": 6013 }, { "avg_step_time": 5.621102017585677, "epoch": 0.6413866666666667, "eta_time": 5.2494847175341794, "step": 6013 }, { "epoch": 0.6414933333333334, "grad_norm": 1.6680690377677077, "learning_rate": 3.00885570703839e-06, "loss": 0.4177, "step": 6014 }, { "avg_step_time": 5.6166521828584, "epoch": 0.6414933333333334, "eta_time": 5.243768885163078, "step": 6014 }, { "epoch": 0.6416, "grad_norm": 1.6116716164505664, "learning_rate": 3.00727123377702e-06, "loss": 0.4683, "step": 6015 }, { "avg_step_time": 5.605775650101479, "epoch": 0.6416, "eta_time": 5.232057273428047, "step": 6015 }, { "epoch": 0.6417066666666666, "grad_norm": 1.8214791853330117, "learning_rate": 3.005686998382297e-06, "loss": 0.4862, "step": 6016 }, { "avg_step_time": 5.584040425040505, "epoch": 0.6417066666666666, "eta_time": 5.210219941030849, "step": 6016 }, { "epoch": 0.6418133333333333, "grad_norm": 0.6346416061463612, "learning_rate": 3.004103001043325e-06, "loss": 0.4421, "step": 6017 }, { "avg_step_time": 5.545357439253065, "epoch": 0.6418133333333333, "eta_time": 5.172586189169943, "step": 6017 }, { "epoch": 0.64192, "grad_norm": 0.638459215657997, "learning_rate": 3.002519241949181e-06, "loss": 0.4484, "step": 6018 }, { "avg_step_time": 5.5155638299807155, "epoch": 0.64192, "eta_time": 5.143263271457017, "step": 6018 }, { "epoch": 0.6420266666666666, "grad_norm": 1.8911508034972735, "learning_rate": 3.000935721288917e-06, "loss": 0.396, "step": 6019 }, { "avg_step_time": 5.547812112654098, "epoch": 0.6420266666666666, "eta_time": 5.171793736129764, "step": 6019 }, { "epoch": 0.6421333333333333, "grad_norm": 1.8756323467732012, "learning_rate": 2.999352439251552e-06, "loss": 0.4543, "step": 6020 }, { "avg_step_time": 5.581750378464207, "epoch": 0.6421333333333333, "eta_time": 5.201881255485393, "step": 6020 }, { "epoch": 0.64224, "grad_norm": 0.6415575413641321, "learning_rate": 2.997769396026078e-06, "loss": 0.4416, "step": 6021 }, { "avg_step_time": 5.551351814559012, "epoch": 0.64224, "eta_time": 5.172009440564146, "step": 6021 }, { "epoch": 0.6423466666666666, "grad_norm": 1.9350981037872028, "learning_rate": 2.9961865918014575e-06, "loss": 0.4797, "step": 6022 }, { "avg_step_time": 5.562243531448672, "epoch": 0.6423466666666666, "eta_time": 5.180611822485388, "step": 6022 }, { "epoch": 0.6424533333333333, "grad_norm": 1.773815267280365, "learning_rate": 2.9946040267666276e-06, "loss": 0.4988, "step": 6023 }, { "avg_step_time": 5.566603677441376, "epoch": 0.6424533333333333, "eta_time": 5.183126535217636, "step": 6023 }, { "epoch": 0.64256, "grad_norm": 1.5593203183918212, "learning_rate": 2.9930217011104957e-06, "loss": 0.4427, "step": 6024 }, { "avg_step_time": 5.570611816464049, "epoch": 0.64256, "eta_time": 5.1853111658252855, "step": 6024 }, { "epoch": 0.6426666666666667, "grad_norm": 1.7285547809589479, "learning_rate": 2.991439615021937e-06, "loss": 0.59, "step": 6025 }, { "avg_step_time": 5.571337374773893, "epoch": 0.6426666666666667, "eta_time": 5.184438945970149, "step": 6025 }, { "epoch": 0.6427733333333333, "grad_norm": 2.2581471030183575, "learning_rate": 2.989857768689802e-06, "loss": 0.5741, "step": 6026 }, { "avg_step_time": 5.568085827008642, "epoch": 0.6427733333333333, "eta_time": 5.17986650962554, "step": 6026 }, { "epoch": 0.64288, "grad_norm": 1.7543361106474589, "learning_rate": 2.98827616230291e-06, "loss": 0.4872, "step": 6027 }, { "avg_step_time": 5.567364266424468, "epoch": 0.64288, "eta_time": 5.1776487677747545, "step": 6027 }, { "epoch": 0.6429866666666667, "grad_norm": 1.7121359220232608, "learning_rate": 2.9866947960500557e-06, "loss": 0.4556, "step": 6028 }, { "avg_step_time": 5.565839199104694, "epoch": 0.6429866666666667, "eta_time": 5.174684388723169, "step": 6028 }, { "epoch": 0.6430933333333333, "grad_norm": 1.9335348144959335, "learning_rate": 2.985113670120001e-06, "loss": 0.4317, "step": 6029 }, { "avg_step_time": 5.562337468368838, "epoch": 0.6430933333333333, "eta_time": 5.169883658100592, "step": 6029 }, { "epoch": 0.6432, "grad_norm": 1.858362084024284, "learning_rate": 2.9835327847014816e-06, "loss": 0.4944, "step": 6030 }, { "avg_step_time": 5.558130666463062, "epoch": 0.6432, "eta_time": 5.164429744255262, "step": 6030 }, { "epoch": 0.6433066666666667, "grad_norm": 1.6860391778605122, "learning_rate": 2.9819521399832017e-06, "loss": 0.3953, "step": 6031 }, { "avg_step_time": 5.557795705217304, "epoch": 0.6433066666666667, "eta_time": 5.162574677290739, "step": 6031 }, { "epoch": 0.6434133333333333, "grad_norm": 1.647787667322236, "learning_rate": 2.9803717361538397e-06, "loss": 0.4265, "step": 6032 }, { "avg_step_time": 5.553148989725595, "epoch": 0.6434133333333333, "eta_time": 5.156715853514629, "step": 6032 }, { "epoch": 0.64352, "grad_norm": 1.8368916626047394, "learning_rate": 2.9787915734020446e-06, "loss": 0.4139, "step": 6033 }, { "avg_step_time": 5.5532117997757116, "epoch": 0.64352, "eta_time": 5.155231620791786, "step": 6033 }, { "epoch": 0.6436266666666667, "grad_norm": 0.645944346411831, "learning_rate": 2.977211651916435e-06, "loss": 0.4207, "step": 6034 }, { "avg_step_time": 5.518897723669958, "epoch": 0.6436266666666667, "eta_time": 5.121843692994814, "step": 6034 }, { "epoch": 0.6437333333333334, "grad_norm": 2.0165465996177625, "learning_rate": 2.9756319718856043e-06, "loss": 0.5205, "step": 6035 }, { "avg_step_time": 5.514311224523217, "epoch": 0.6437333333333334, "eta_time": 5.116055413863207, "step": 6035 }, { "epoch": 0.64384, "grad_norm": 2.023986363176257, "learning_rate": 2.9740525334981105e-06, "loss": 0.48, "step": 6036 }, { "avg_step_time": 5.528000484813344, "epoch": 0.64384, "eta_time": 5.127220449664376, "step": 6036 }, { "epoch": 0.6439466666666667, "grad_norm": 1.6914552213625353, "learning_rate": 2.9724733369424887e-06, "loss": 0.5845, "step": 6037 }, { "avg_step_time": 5.526465129370641, "epoch": 0.6439466666666667, "eta_time": 5.124261278288667, "step": 6037 }, { "epoch": 0.6440533333333334, "grad_norm": 1.942550688218486, "learning_rate": 2.9708943824072466e-06, "loss": 0.4984, "step": 6038 }, { "avg_step_time": 5.52584433555603, "epoch": 0.6440533333333334, "eta_time": 5.122150707708465, "step": 6038 }, { "epoch": 0.64416, "grad_norm": 1.9568843799005213, "learning_rate": 2.9693156700808556e-06, "loss": 0.4842, "step": 6039 }, { "avg_step_time": 5.553970991963088, "epoch": 0.64416, "eta_time": 5.146679785885795, "step": 6039 }, { "epoch": 0.6442666666666667, "grad_norm": 1.9063512217828231, "learning_rate": 2.9677372001517636e-06, "loss": 0.4814, "step": 6040 }, { "avg_step_time": 5.566872565433233, "epoch": 0.6442666666666667, "eta_time": 5.157088890477731, "step": 6040 }, { "epoch": 0.6443733333333334, "grad_norm": 1.822005184775475, "learning_rate": 2.9661589728083895e-06, "loss": 0.3962, "step": 6041 }, { "avg_step_time": 5.560811497948387, "epoch": 0.6443733333333334, "eta_time": 5.149929315044422, "step": 6041 }, { "epoch": 0.64448, "grad_norm": 1.6422849268462594, "learning_rate": 2.9645809882391187e-06, "loss": 0.5118, "step": 6042 }, { "avg_step_time": 5.562174337078827, "epoch": 0.64448, "eta_time": 5.149646407078814, "step": 6042 }, { "epoch": 0.6445866666666666, "grad_norm": 1.7687568903949586, "learning_rate": 2.963003246632315e-06, "loss": 0.418, "step": 6043 }, { "avg_step_time": 5.564104212654962, "epoch": 0.6445866666666666, "eta_time": 5.14988756571287, "step": 6043 }, { "epoch": 0.6446933333333333, "grad_norm": 1.6935453144543715, "learning_rate": 2.9614257481763065e-06, "loss": 0.4275, "step": 6044 }, { "avg_step_time": 5.564160332535252, "epoch": 0.6446933333333333, "eta_time": 5.1483939076874785, "step": 6044 }, { "epoch": 0.6448, "grad_norm": 1.8198713452743602, "learning_rate": 2.959848493059396e-06, "loss": 0.5016, "step": 6045 }, { "avg_step_time": 5.567796333871707, "epoch": 0.6448, "eta_time": 5.150211608831328, "step": 6045 }, { "epoch": 0.6449066666666666, "grad_norm": 1.6528510357728454, "learning_rate": 2.9582714814698567e-06, "loss": 0.4766, "step": 6046 }, { "avg_step_time": 5.565749799362337, "epoch": 0.6449066666666666, "eta_time": 5.146772522799227, "step": 6046 }, { "epoch": 0.6450133333333333, "grad_norm": 0.6462366698786223, "learning_rate": 2.9566947135959294e-06, "loss": 0.4444, "step": 6047 }, { "avg_step_time": 5.530363762017452, "epoch": 0.6450133333333333, "eta_time": 5.112514055553911, "step": 6047 }, { "epoch": 0.64512, "grad_norm": 1.8533599590880185, "learning_rate": 2.9551181896258317e-06, "loss": 0.4001, "step": 6048 }, { "avg_step_time": 5.543316768877434, "epoch": 0.64512, "eta_time": 5.1229485805708945, "step": 6048 }, { "epoch": 0.6452266666666666, "grad_norm": 1.7082132981760856, "learning_rate": 2.9535419097477497e-06, "loss": 0.4203, "step": 6049 }, { "avg_step_time": 5.542425353117664, "epoch": 0.6452266666666666, "eta_time": 5.120585201241487, "step": 6049 }, { "epoch": 0.6453333333333333, "grad_norm": 1.6608179525014084, "learning_rate": 2.951965874149837e-06, "loss": 0.397, "step": 6050 }, { "avg_step_time": 5.54549108370386, "epoch": 0.6453333333333333, "eta_time": 5.121877181476482, "step": 6050 }, { "epoch": 0.64544, "grad_norm": 1.8330493846255511, "learning_rate": 2.9503900830202202e-06, "loss": 0.4438, "step": 6051 }, { "avg_step_time": 5.538665472859084, "epoch": 0.64544, "eta_time": 5.114034453273221, "step": 6051 }, { "epoch": 0.6455466666666667, "grad_norm": 1.734145072191302, "learning_rate": 2.948814536546999e-06, "loss": 0.4877, "step": 6052 }, { "avg_step_time": 5.517786001918291, "epoch": 0.6455466666666667, "eta_time": 5.093223023437356, "step": 6052 }, { "epoch": 0.6456533333333333, "grad_norm": 1.8584662251031951, "learning_rate": 2.9472392349182427e-06, "loss": 0.5541, "step": 6053 }, { "avg_step_time": 5.518933243221706, "epoch": 0.6456533333333333, "eta_time": 5.09274895388403, "step": 6053 }, { "epoch": 0.64576, "grad_norm": 1.9284190553226255, "learning_rate": 2.9456641783219897e-06, "loss": 0.4932, "step": 6054 }, { "avg_step_time": 5.55416599186984, "epoch": 0.64576, "eta_time": 5.123718127499927, "step": 6054 }, { "epoch": 0.6458666666666667, "grad_norm": 2.1105124729497855, "learning_rate": 2.944089366946251e-06, "loss": 0.4922, "step": 6055 }, { "avg_step_time": 5.552410732616078, "epoch": 0.6458666666666667, "eta_time": 5.120556564523716, "step": 6055 }, { "epoch": 0.6459733333333333, "grad_norm": 1.707298065739799, "learning_rate": 2.9425148009790067e-06, "loss": 0.4583, "step": 6056 }, { "avg_step_time": 5.554835011260678, "epoch": 0.6459733333333333, "eta_time": 5.121249278437276, "step": 6056 }, { "epoch": 0.64608, "grad_norm": 2.0909064873570458, "learning_rate": 2.9409404806082077e-06, "loss": 0.5011, "step": 6057 }, { "avg_step_time": 5.560329013400608, "epoch": 0.64608, "eta_time": 5.124769907350894, "step": 6057 }, { "epoch": 0.6461866666666667, "grad_norm": 1.9542301159304902, "learning_rate": 2.939366406021778e-06, "loss": 0.505, "step": 6058 }, { "avg_step_time": 5.557805865702003, "epoch": 0.6461866666666667, "eta_time": 5.120900571259317, "step": 6058 }, { "epoch": 0.6462933333333334, "grad_norm": 1.8306601860288019, "learning_rate": 2.9377925774076106e-06, "loss": 0.5159, "step": 6059 }, { "avg_step_time": 5.555786195427481, "epoch": 0.6462933333333334, "eta_time": 5.11749639556598, "step": 6059 }, { "epoch": 0.6464, "grad_norm": 1.4988009591919802, "learning_rate": 2.936218994953568e-06, "loss": 0.5292, "step": 6060 }, { "avg_step_time": 5.561972562712852, "epoch": 0.6464, "eta_time": 5.121649734831418, "step": 6060 }, { "epoch": 0.6465066666666667, "grad_norm": 1.6791129555731445, "learning_rate": 2.934645658847487e-06, "loss": 0.4914, "step": 6061 }, { "avg_step_time": 5.531531066605539, "epoch": 0.6465066666666667, "eta_time": 5.092081654091876, "step": 6061 }, { "epoch": 0.6466133333333334, "grad_norm": 0.6486343054248789, "learning_rate": 2.933072569277167e-06, "loss": 0.4258, "step": 6062 }, { "avg_step_time": 5.521117730574175, "epoch": 0.6466133333333334, "eta_time": 5.080961955942289, "step": 6062 }, { "epoch": 0.64672, "grad_norm": 1.815930785154339, "learning_rate": 2.93149972643039e-06, "loss": 0.4875, "step": 6063 }, { "avg_step_time": 5.5213818790936715, "epoch": 0.64672, "eta_time": 5.079671328766177, "step": 6063 }, { "epoch": 0.6468266666666667, "grad_norm": 0.6638799938722688, "learning_rate": 2.9299271304948985e-06, "loss": 0.4455, "step": 6064 }, { "avg_step_time": 5.471172537466492, "epoch": 0.6468266666666667, "eta_time": 5.031958964319876, "step": 6064 }, { "epoch": 0.6469333333333334, "grad_norm": 1.6953338211912048, "learning_rate": 2.9283547816584097e-06, "loss": 0.4729, "step": 6065 }, { "avg_step_time": 5.458836984152746, "epoch": 0.6469333333333334, "eta_time": 5.019097338207107, "step": 6065 }, { "epoch": 0.64704, "grad_norm": 2.1938026151703665, "learning_rate": 2.9267826801086103e-06, "loss": 0.5415, "step": 6066 }, { "avg_step_time": 5.460993964262683, "epoch": 0.64704, "eta_time": 5.0195636188181165, "step": 6066 }, { "epoch": 0.6471466666666666, "grad_norm": 2.145760662697703, "learning_rate": 2.9252108260331567e-06, "loss": 0.5451, "step": 6067 }, { "avg_step_time": 5.461448705557621, "epoch": 0.6471466666666666, "eta_time": 5.018464532773503, "step": 6067 }, { "epoch": 0.6472533333333333, "grad_norm": 1.9320923423925576, "learning_rate": 2.9236392196196795e-06, "loss": 0.5792, "step": 6068 }, { "avg_step_time": 5.48142012682828, "epoch": 0.6472533333333333, "eta_time": 5.0352934331725345, "step": 6068 }, { "epoch": 0.64736, "grad_norm": 1.8857315649505282, "learning_rate": 2.9220678610557773e-06, "loss": 0.4566, "step": 6069 }, { "avg_step_time": 5.51013098341046, "epoch": 0.64736, "eta_time": 5.060136953098605, "step": 6069 }, { "epoch": 0.6474666666666666, "grad_norm": 1.7361735152333657, "learning_rate": 2.9204967505290162e-06, "loss": 0.4766, "step": 6070 }, { "avg_step_time": 5.51756761772464, "epoch": 0.6474666666666666, "eta_time": 5.065433604605538, "step": 6070 }, { "epoch": 0.6475733333333333, "grad_norm": 0.6468970700077438, "learning_rate": 2.918925888226935e-06, "loss": 0.4384, "step": 6071 }, { "avg_step_time": 5.489601214726766, "epoch": 0.6475733333333333, "eta_time": 5.03823400373812, "step": 6071 }, { "epoch": 0.64768, "grad_norm": 1.6771077651017896, "learning_rate": 2.9173552743370454e-06, "loss": 0.4094, "step": 6072 }, { "avg_step_time": 5.4623256837478795, "epoch": 0.64768, "eta_time": 5.01168381483868, "step": 6072 }, { "epoch": 0.6477866666666666, "grad_norm": 1.7970788095712376, "learning_rate": 2.9157849090468294e-06, "loss": 0.5675, "step": 6073 }, { "avg_step_time": 5.461783953387328, "epoch": 0.6477866666666666, "eta_time": 5.009669615023599, "step": 6073 }, { "epoch": 0.6478933333333333, "grad_norm": 1.7073074008087639, "learning_rate": 2.9142147925437336e-06, "loss": 0.4535, "step": 6074 }, { "avg_step_time": 5.4625686684040105, "epoch": 0.6478933333333333, "eta_time": 5.008871992889344, "step": 6074 }, { "epoch": 0.648, "grad_norm": 1.8380654111035726, "learning_rate": 2.912644925015179e-06, "loss": 0.4451, "step": 6075 }, { "avg_step_time": 5.493386314372824, "epoch": 0.648, "eta_time": 5.035604121508421, "step": 6075 }, { "epoch": 0.6481066666666667, "grad_norm": 0.6238566543780864, "learning_rate": 2.9110753066485566e-06, "loss": 0.435, "step": 6076 }, { "avg_step_time": 5.495086814417983, "epoch": 0.6481066666666667, "eta_time": 5.03563650021248, "step": 6076 }, { "epoch": 0.6482133333333333, "grad_norm": 1.568647944589773, "learning_rate": 2.9095059376312294e-06, "loss": 0.4747, "step": 6077 }, { "avg_step_time": 5.497621598869864, "epoch": 0.6482133333333333, "eta_time": 5.036432231409114, "step": 6077 }, { "epoch": 0.64832, "grad_norm": 1.7504351470384847, "learning_rate": 2.9079368181505263e-06, "loss": 0.3893, "step": 6078 }, { "avg_step_time": 5.502031355193167, "epoch": 0.64832, "eta_time": 5.038943716131076, "step": 6078 }, { "epoch": 0.6484266666666667, "grad_norm": 2.2210079447391338, "learning_rate": 2.9063679483937513e-06, "loss": 0.557, "step": 6079 }, { "avg_step_time": 5.504507765625462, "epoch": 0.6484266666666667, "eta_time": 5.039682665417089, "step": 6079 }, { "epoch": 0.6485333333333333, "grad_norm": 1.5997440057318275, "learning_rate": 2.904799328548175e-06, "loss": 0.4308, "step": 6080 }, { "avg_step_time": 5.502427462375525, "epoch": 0.6485333333333333, "eta_time": 5.036249580146488, "step": 6080 }, { "epoch": 0.64864, "grad_norm": 1.9656755411710762, "learning_rate": 2.9032309588010372e-06, "loss": 0.5206, "step": 6081 }, { "avg_step_time": 5.506328337120287, "epoch": 0.64864, "eta_time": 5.0382904284650625, "step": 6081 }, { "epoch": 0.6487466666666667, "grad_norm": 1.9051580305163762, "learning_rate": 2.901662839339552e-06, "loss": 0.5199, "step": 6082 }, { "avg_step_time": 5.502572454587377, "epoch": 0.6487466666666667, "eta_time": 5.0333253035989545, "step": 6082 }, { "epoch": 0.6488533333333333, "grad_norm": 2.0152302557017476, "learning_rate": 2.900094970350903e-06, "loss": 0.5728, "step": 6083 }, { "avg_step_time": 5.540502167711354, "epoch": 0.6488533333333333, "eta_time": 5.06648142669605, "step": 6083 }, { "epoch": 0.64896, "grad_norm": 1.7173783665657674, "learning_rate": 2.8985273520222414e-06, "loss": 0.4346, "step": 6084 }, { "avg_step_time": 5.543989398262718, "epoch": 0.64896, "eta_time": 5.068130308245168, "step": 6084 }, { "epoch": 0.6490666666666667, "grad_norm": 0.6591680663413659, "learning_rate": 2.896959984540687e-06, "loss": 0.4578, "step": 6085 }, { "avg_step_time": 5.545463056275339, "epoch": 0.6490666666666667, "eta_time": 5.067937070873851, "step": 6085 }, { "epoch": 0.6491733333333334, "grad_norm": 1.9361235721215677, "learning_rate": 2.895392868093334e-06, "loss": 0.4842, "step": 6086 }, { "avg_step_time": 5.539465458706172, "epoch": 0.6491733333333334, "eta_time": 5.060917192690166, "step": 6086 }, { "epoch": 0.64928, "grad_norm": 1.770867076282897, "learning_rate": 2.893826002867247e-06, "loss": 0.4785, "step": 6087 }, { "avg_step_time": 5.537326364806204, "epoch": 0.64928, "eta_time": 5.057424746523, "step": 6087 }, { "epoch": 0.6493866666666667, "grad_norm": 1.986708489320714, "learning_rate": 2.892259389049455e-06, "loss": 0.4467, "step": 6088 }, { "avg_step_time": 5.53207753643845, "epoch": 0.6493866666666667, "eta_time": 5.051094128409218, "step": 6088 }, { "epoch": 0.6494933333333334, "grad_norm": 1.6161315243643384, "learning_rate": 2.890693026826964e-06, "loss": 0.4474, "step": 6089 }, { "avg_step_time": 5.537145720587836, "epoch": 0.6494933333333334, "eta_time": 5.054183566069897, "step": 6089 }, { "epoch": 0.6496, "grad_norm": 1.6420770491046701, "learning_rate": 2.889126916386744e-06, "loss": 0.4556, "step": 6090 }, { "avg_step_time": 5.53890029830162, "epoch": 0.6496, "eta_time": 5.054246522200228, "step": 6090 }, { "epoch": 0.6497066666666667, "grad_norm": 1.7052900779301559, "learning_rate": 2.8875610579157347e-06, "loss": 0.4861, "step": 6091 }, { "avg_step_time": 5.5372230573133985, "epoch": 0.6497066666666667, "eta_time": 5.051177922282556, "step": 6091 }, { "epoch": 0.6498133333333334, "grad_norm": 1.8144086886142694, "learning_rate": 2.885995451600855e-06, "loss": 0.5361, "step": 6092 }, { "avg_step_time": 5.571448458565606, "epoch": 0.6498133333333334, "eta_time": 5.080851469297468, "step": 6092 }, { "epoch": 0.64992, "grad_norm": 0.6662356905981348, "learning_rate": 2.884430097628984e-06, "loss": 0.436, "step": 6093 }, { "avg_step_time": 5.542126125759548, "epoch": 0.64992, "eta_time": 5.052571651317455, "step": 6093 }, { "epoch": 0.6500266666666666, "grad_norm": 1.9386942741535413, "learning_rate": 2.8828649961869716e-06, "loss": 0.5328, "step": 6094 }, { "avg_step_time": 5.542145307617958, "epoch": 0.6500266666666666, "eta_time": 5.051049653970701, "step": 6094 }, { "epoch": 0.6501333333333333, "grad_norm": 2.0258111826887393, "learning_rate": 2.881300147461643e-06, "loss": 0.5262, "step": 6095 }, { "avg_step_time": 5.5506897454309945, "epoch": 0.6501333333333333, "eta_time": 5.057295101392684, "step": 6095 }, { "epoch": 0.65024, "grad_norm": 1.9902297885007427, "learning_rate": 2.879735551639787e-06, "loss": 0.4682, "step": 6096 }, { "avg_step_time": 5.54945778365087, "epoch": 0.65024, "eta_time": 5.054631131275334, "step": 6096 }, { "epoch": 0.6503466666666666, "grad_norm": 0.6600607607010723, "learning_rate": 2.878171208908166e-06, "loss": 0.4281, "step": 6097 }, { "avg_step_time": 5.512191613515218, "epoch": 0.6503466666666666, "eta_time": 5.019156696973023, "step": 6097 }, { "epoch": 0.6504533333333333, "grad_norm": 1.732446403228205, "learning_rate": 2.876607119453515e-06, "loss": 0.5247, "step": 6098 }, { "avg_step_time": 5.506745449220292, "epoch": 0.6504533333333333, "eta_time": 5.012668010304138, "step": 6098 }, { "epoch": 0.65056, "grad_norm": 1.843397624371162, "learning_rate": 2.8750432834625312e-06, "loss": 0.4527, "step": 6099 }, { "avg_step_time": 5.500919626216696, "epoch": 0.65056, "eta_time": 5.005836859857194, "step": 6099 }, { "epoch": 0.6506666666666666, "grad_norm": 1.6075135804190037, "learning_rate": 2.873479701121885e-06, "loss": 0.4593, "step": 6100 }, { "avg_step_time": 5.493462959925334, "epoch": 0.6506666666666666, "eta_time": 4.997525331598742, "step": 6100 }, { "epoch": 0.6507733333333333, "grad_norm": 0.6600843182107481, "learning_rate": 2.8719163726182185e-06, "loss": 0.4469, "step": 6101 }, { "avg_step_time": 5.456056139685891, "epoch": 0.6507733333333333, "eta_time": 4.961979944814336, "step": 6101 }, { "epoch": 0.65088, "grad_norm": 1.7923131860858792, "learning_rate": 2.8703532981381437e-06, "loss": 0.4469, "step": 6102 }, { "avg_step_time": 5.492165560674185, "epoch": 0.65088, "eta_time": 4.993293855579614, "step": 6102 }, { "epoch": 0.6509866666666667, "grad_norm": 1.6309465747385377, "learning_rate": 2.868790477868237e-06, "loss": 0.4951, "step": 6103 }, { "avg_step_time": 5.496235413984819, "epoch": 0.6509866666666667, "eta_time": 4.995467298488425, "step": 6103 }, { "epoch": 0.6510933333333333, "grad_norm": 1.9396450790469928, "learning_rate": 2.867227911995052e-06, "loss": 0.5684, "step": 6104 }, { "avg_step_time": 5.526017490059439, "epoch": 0.6510933333333333, "eta_time": 5.021000891662339, "step": 6104 }, { "epoch": 0.6512, "grad_norm": 1.6968120943846599, "learning_rate": 2.8656656007051055e-06, "loss": 0.5092, "step": 6105 }, { "avg_step_time": 5.5222178709627405, "epoch": 0.6512, "eta_time": 5.016014566124489, "step": 6105 }, { "epoch": 0.6513066666666667, "grad_norm": 1.8576235498994198, "learning_rate": 2.864103544184885e-06, "loss": 0.4345, "step": 6106 }, { "avg_step_time": 5.515133029282695, "epoch": 0.6513066666666667, "eta_time": 5.008047186868092, "step": 6106 }, { "epoch": 0.6514133333333333, "grad_norm": 1.7532279759533773, "learning_rate": 2.8625417426208503e-06, "loss": 0.4967, "step": 6107 }, { "avg_step_time": 5.559989180227722, "epoch": 0.6514133333333333, "eta_time": 5.04723462249561, "step": 6107 }, { "epoch": 0.65152, "grad_norm": 1.6961691472673672, "learning_rate": 2.860980196199432e-06, "loss": 0.4926, "step": 6108 }, { "avg_step_time": 5.581584359660293, "epoch": 0.65152, "eta_time": 5.065287806391716, "step": 6108 }, { "epoch": 0.6516266666666667, "grad_norm": 1.9401447261447173, "learning_rate": 2.859418905107023e-06, "loss": 0.4653, "step": 6109 }, { "avg_step_time": 5.581743018795746, "epoch": 0.6516266666666667, "eta_time": 5.063881305385252, "step": 6109 }, { "epoch": 0.6517333333333334, "grad_norm": 1.755403664163631, "learning_rate": 2.857857869529996e-06, "loss": 0.553, "step": 6110 }, { "avg_step_time": 5.5815422077371615, "epoch": 0.6517333333333334, "eta_time": 5.062148696739397, "step": 6110 }, { "epoch": 0.65184, "grad_norm": 1.7807239551450924, "learning_rate": 2.8562970896546815e-06, "loss": 0.5076, "step": 6111 }, { "avg_step_time": 5.579548544353909, "epoch": 0.65184, "eta_time": 5.05879068021421, "step": 6111 }, { "epoch": 0.6519466666666667, "grad_norm": 1.6751024419525697, "learning_rate": 2.8547365656673907e-06, "loss": 0.3941, "step": 6112 }, { "avg_step_time": 5.579883647687508, "epoch": 0.6519466666666667, "eta_time": 5.057544539556761, "step": 6112 }, { "epoch": 0.6520533333333334, "grad_norm": 1.988283983717633, "learning_rate": 2.8531762977543954e-06, "loss": 0.4476, "step": 6113 }, { "avg_step_time": 5.609088731534554, "epoch": 0.6520533333333334, "eta_time": 5.082457622851587, "step": 6113 }, { "epoch": 0.65216, "grad_norm": 1.624992157693933, "learning_rate": 2.8516162861019437e-06, "loss": 0.484, "step": 6114 }, { "avg_step_time": 5.689696545552725, "epoch": 0.65216, "eta_time": 5.153916787513177, "step": 6114 }, { "epoch": 0.6522666666666667, "grad_norm": 1.590368933400432, "learning_rate": 2.850056530896247e-06, "loss": 0.4361, "step": 6115 }, { "avg_step_time": 5.744335359997219, "epoch": 0.6522666666666667, "eta_time": 5.201814798219704, "step": 6115 }, { "epoch": 0.6523733333333334, "grad_norm": 1.7105604601101916, "learning_rate": 2.8484970323234897e-06, "loss": 0.4793, "step": 6116 }, { "avg_step_time": 5.779289315445254, "epoch": 0.6523733333333334, "eta_time": 5.231862188621134, "step": 6116 }, { "epoch": 0.65248, "grad_norm": 1.8332670392479835, "learning_rate": 2.846937790569828e-06, "loss": 0.5582, "step": 6117 }, { "avg_step_time": 5.81189358354819, "epoch": 0.65248, "eta_time": 5.259763693111111, "step": 6117 }, { "epoch": 0.6525866666666666, "grad_norm": 1.8060772865469472, "learning_rate": 2.8453788058213814e-06, "loss": 0.485, "step": 6118 }, { "avg_step_time": 5.841548067150694, "epoch": 0.6525866666666666, "eta_time": 5.284978348530504, "step": 6118 }, { "epoch": 0.6526933333333333, "grad_norm": 1.7774813130008396, "learning_rate": 2.8438200782642416e-06, "loss": 0.5233, "step": 6119 }, { "avg_step_time": 5.84337601517186, "epoch": 0.6526933333333333, "eta_time": 5.285008973722105, "step": 6119 }, { "epoch": 0.6528, "grad_norm": 1.6506258780427852, "learning_rate": 2.84226160808447e-06, "loss": 0.4795, "step": 6120 }, { "avg_step_time": 5.874245747171267, "epoch": 0.6528, "eta_time": 5.311297196400688, "step": 6120 }, { "epoch": 0.6529066666666666, "grad_norm": 0.6719334283293502, "learning_rate": 2.8407033954680995e-06, "loss": 0.4265, "step": 6121 }, { "avg_step_time": 5.827532972952332, "epoch": 0.6529066666666666, "eta_time": 5.267442303885247, "step": 6121 }, { "epoch": 0.6530133333333333, "grad_norm": 1.7810983575376065, "learning_rate": 2.8391454406011255e-06, "loss": 0.4732, "step": 6122 }, { "avg_step_time": 5.858834232946839, "epoch": 0.6530133333333333, "eta_time": 5.294107711048907, "step": 6122 }, { "epoch": 0.65312, "grad_norm": 0.6834156569744462, "learning_rate": 2.837587743669521e-06, "loss": 0.482, "step": 6123 }, { "avg_step_time": 5.821188514882868, "epoch": 0.65312, "eta_time": 5.258473625110857, "step": 6123 }, { "epoch": 0.6532266666666666, "grad_norm": 1.837433765477211, "learning_rate": 2.836030304859222e-06, "loss": 0.4556, "step": 6124 }, { "avg_step_time": 5.82046564901718, "epoch": 0.6532266666666666, "eta_time": 5.256203840265236, "step": 6124 }, { "epoch": 0.6533333333333333, "grad_norm": 2.0655785824460287, "learning_rate": 2.8344731243561317e-06, "loss": 0.5512, "step": 6125 }, { "avg_step_time": 5.877753741813429, "epoch": 0.6533333333333333, "eta_time": 5.306305461359345, "step": 6125 }, { "epoch": 0.65344, "grad_norm": 1.7721781009915663, "learning_rate": 2.8329162023461355e-06, "loss": 0.458, "step": 6126 }, { "avg_step_time": 5.876963942941993, "epoch": 0.65344, "eta_time": 5.303959958505148, "step": 6126 }, { "epoch": 0.6535466666666667, "grad_norm": 2.0636663272955422, "learning_rate": 2.831359539015073e-06, "loss": 0.4264, "step": 6127 }, { "avg_step_time": 5.878449957780163, "epoch": 0.6535466666666667, "eta_time": 5.303668184130547, "step": 6127 }, { "epoch": 0.6536533333333333, "grad_norm": 0.6715038252858466, "learning_rate": 2.8298031345487585e-06, "loss": 0.4761, "step": 6128 }, { "avg_step_time": 5.848426250496296, "epoch": 0.6536533333333333, "eta_time": 5.274955565378186, "step": 6128 }, { "epoch": 0.65376, "grad_norm": 1.8516175657522715, "learning_rate": 2.82824698913298e-06, "loss": 0.5054, "step": 6129 }, { "avg_step_time": 5.85370287028226, "epoch": 0.65376, "eta_time": 5.278088754704504, "step": 6129 }, { "epoch": 0.6538666666666667, "grad_norm": 2.184605955875503, "learning_rate": 2.8266911029534848e-06, "loss": 0.5277, "step": 6130 }, { "avg_step_time": 5.853846655951606, "epoch": 0.6538666666666667, "eta_time": 5.276592332934156, "step": 6130 }, { "epoch": 0.6539733333333333, "grad_norm": 1.8289249672640602, "learning_rate": 2.825135476195998e-06, "loss": 0.5044, "step": 6131 }, { "avg_step_time": 5.885766123280381, "epoch": 0.6539733333333333, "eta_time": 5.303729251089321, "step": 6131 }, { "epoch": 0.65408, "grad_norm": 1.8428413490746423, "learning_rate": 2.823580109046212e-06, "loss": 0.4217, "step": 6132 }, { "avg_step_time": 5.884933652299823, "epoch": 0.65408, "eta_time": 5.301344398446757, "step": 6132 }, { "epoch": 0.6541866666666667, "grad_norm": 1.942557007468895, "learning_rate": 2.822025001689786e-06, "loss": 0.4839, "step": 6133 }, { "avg_step_time": 5.917304571228798, "epoch": 0.6541866666666667, "eta_time": 5.328861505534379, "step": 6133 }, { "epoch": 0.6542933333333333, "grad_norm": 0.6169446939897886, "learning_rate": 2.820470154312346e-06, "loss": 0.3993, "step": 6134 }, { "avg_step_time": 5.886966548784815, "epoch": 0.6542933333333333, "eta_time": 5.299905162392107, "step": 6134 }, { "epoch": 0.6544, "grad_norm": 1.8618272579076143, "learning_rate": 2.8189155670994913e-06, "loss": 0.4881, "step": 6135 }, { "avg_step_time": 5.922448967442368, "epoch": 0.6544, "eta_time": 5.330204070698131, "step": 6135 }, { "epoch": 0.6545066666666667, "grad_norm": 2.4133453003700263, "learning_rate": 2.817361240236791e-06, "loss": 0.5419, "step": 6136 }, { "avg_step_time": 5.96831207323556, "epoch": 0.6545066666666667, "eta_time": 5.369823001447216, "step": 6136 }, { "epoch": 0.6546133333333334, "grad_norm": 1.561583656036567, "learning_rate": 2.81580717390978e-06, "loss": 0.4119, "step": 6137 }, { "avg_step_time": 5.99305035128738, "epoch": 0.6546133333333334, "eta_time": 5.39041584374126, "step": 6137 }, { "epoch": 0.65472, "grad_norm": 1.920437721121921, "learning_rate": 2.814253368303961e-06, "loss": 0.4966, "step": 6138 }, { "avg_step_time": 5.997553555652349, "epoch": 0.65472, "eta_time": 5.392800238790737, "step": 6138 }, { "epoch": 0.6548266666666667, "grad_norm": 1.9754935694676379, "learning_rate": 2.8126998236048096e-06, "loss": 0.5096, "step": 6139 }, { "avg_step_time": 5.9875823921627465, "epoch": 0.6548266666666667, "eta_time": 5.3821712836218465, "step": 6139 }, { "epoch": 0.6549333333333334, "grad_norm": 0.642277922697903, "learning_rate": 2.8111465399977667e-06, "loss": 0.4338, "step": 6140 }, { "avg_step_time": 5.960077514552107, "epoch": 0.6549333333333334, "eta_time": 5.3557918776600175, "step": 6140 }, { "epoch": 0.65504, "grad_norm": 1.6726318638981936, "learning_rate": 2.809593517668243e-06, "loss": 0.3499, "step": 6141 }, { "avg_step_time": 5.956306850067293, "epoch": 0.65504, "eta_time": 5.350748986977118, "step": 6141 }, { "epoch": 0.6551466666666667, "grad_norm": 1.5502959288770524, "learning_rate": 2.808040756801623e-06, "loss": 0.4568, "step": 6142 }, { "avg_step_time": 5.980202294359303, "epoch": 0.6551466666666667, "eta_time": 5.370553893795452, "step": 6142 }, { "epoch": 0.6552533333333334, "grad_norm": 1.8754665906744157, "learning_rate": 2.806488257583253e-06, "loss": 0.5161, "step": 6143 }, { "avg_step_time": 6.032623064638388, "epoch": 0.6552533333333334, "eta_time": 5.4159549291420195, "step": 6143 }, { "epoch": 0.65536, "grad_norm": 1.5881840875839532, "learning_rate": 2.804936020198447e-06, "loss": 0.3825, "step": 6144 }, { "avg_step_time": 6.037399135454737, "epoch": 0.65536, "eta_time": 5.418565724070627, "step": 6144 }, { "epoch": 0.6554666666666666, "grad_norm": 1.9599101979533198, "learning_rate": 2.8033840448324956e-06, "loss": 0.5031, "step": 6145 }, { "avg_step_time": 6.043988719131008, "epoch": 0.6554666666666666, "eta_time": 5.422800989664766, "step": 6145 }, { "epoch": 0.6555733333333333, "grad_norm": 1.5910959042048112, "learning_rate": 2.801832331670654e-06, "loss": 0.433, "step": 6146 }, { "avg_step_time": 6.087534316862472, "epoch": 0.6555733333333333, "eta_time": 5.4601800858747005, "step": 6146 }, { "epoch": 0.65568, "grad_norm": 1.7992624208449475, "learning_rate": 2.800280880898143e-06, "loss": 0.4803, "step": 6147 }, { "avg_step_time": 6.102297674525868, "epoch": 0.65568, "eta_time": 5.4717269148248615, "step": 6147 }, { "epoch": 0.6557866666666666, "grad_norm": 0.6696529202486257, "learning_rate": 2.7987296927001597e-06, "loss": 0.4462, "step": 6148 }, { "avg_step_time": 6.063001334065139, "epoch": 0.6557866666666666, "eta_time": 5.434807029174501, "step": 6148 }, { "epoch": 0.6558933333333333, "grad_norm": 2.044527063592809, "learning_rate": 2.7971787672618618e-06, "loss": 0.4747, "step": 6149 }, { "avg_step_time": 6.066442246388907, "epoch": 0.6558933333333333, "eta_time": 5.436206301902948, "step": 6149 }, { "epoch": 0.656, "grad_norm": 1.7451626178818331, "learning_rate": 2.795628104768376e-06, "loss": 0.4794, "step": 6150 }, { "avg_step_time": 6.0655149016717465, "epoch": 0.656, "eta_time": 5.433690432747607, "step": 6150 }, { "epoch": 0.6561066666666666, "grad_norm": 0.6382608102797807, "learning_rate": 2.7940777054048085e-06, "loss": 0.4336, "step": 6151 }, { "avg_step_time": 6.054014006046334, "epoch": 0.6561066666666666, "eta_time": 5.421705876525939, "step": 6151 }, { "epoch": 0.6562133333333333, "grad_norm": 0.6567838449682193, "learning_rate": 2.7925275693562213e-06, "loss": 0.4707, "step": 6152 }, { "avg_step_time": 6.085768916390159, "epoch": 0.6562133333333333, "eta_time": 5.448453671534856, "step": 6152 }, { "epoch": 0.65632, "grad_norm": 1.8357609584023453, "learning_rate": 2.79097769680765e-06, "loss": 0.4562, "step": 6153 }, { "avg_step_time": 6.0531085524896175, "epoch": 0.65632, "eta_time": 5.417532154478208, "step": 6153 }, { "epoch": 0.6564266666666667, "grad_norm": 1.5383576294046646, "learning_rate": 2.7894280879441015e-06, "loss": 0.4261, "step": 6154 }, { "avg_step_time": 6.054194765861588, "epoch": 0.6564266666666667, "eta_time": 5.416822594677827, "step": 6154 }, { "epoch": 0.6565333333333333, "grad_norm": 0.6369182083084204, "learning_rate": 2.7878787429505444e-06, "loss": 0.4494, "step": 6155 }, { "avg_step_time": 6.067275182165281, "epoch": 0.6565333333333333, "eta_time": 5.42684057960339, "step": 6155 }, { "epoch": 0.65664, "grad_norm": 1.9466093812914012, "learning_rate": 2.7863296620119217e-06, "loss": 0.5142, "step": 6156 }, { "avg_step_time": 6.102055429208158, "epoch": 0.65664, "eta_time": 5.456254562950294, "step": 6156 }, { "epoch": 0.6567466666666667, "grad_norm": 2.0948057536613134, "learning_rate": 2.7847808453131454e-06, "loss": 0.5875, "step": 6157 }, { "avg_step_time": 6.109316163592869, "epoch": 0.6567466666666667, "eta_time": 5.461049837344959, "step": 6157 }, { "epoch": 0.6568533333333333, "grad_norm": 1.7895839938941838, "learning_rate": 2.7832322930390914e-06, "loss": 0.3482, "step": 6158 }, { "avg_step_time": 6.110775591147067, "epoch": 0.6568533333333333, "eta_time": 5.460656965755588, "step": 6158 }, { "epoch": 0.65696, "grad_norm": 1.9342235983699423, "learning_rate": 2.781684005374604e-06, "loss": 0.4449, "step": 6159 }, { "avg_step_time": 6.138436011593751, "epoch": 0.65696, "eta_time": 5.483669503690417, "step": 6159 }, { "epoch": 0.6570666666666667, "grad_norm": 1.822715566797211, "learning_rate": 2.780135982504501e-06, "loss": 0.478, "step": 6160 }, { "avg_step_time": 6.190524505846428, "epoch": 0.6570666666666667, "eta_time": 5.528482301748962, "step": 6160 }, { "epoch": 0.6571733333333334, "grad_norm": 1.6479906382227105, "learning_rate": 2.7785882246135665e-06, "loss": 0.5724, "step": 6161 }, { "avg_step_time": 6.201700051625569, "epoch": 0.6571733333333334, "eta_time": 5.536739990534605, "step": 6161 }, { "epoch": 0.65728, "grad_norm": 2.05618751786714, "learning_rate": 2.777040731886549e-06, "loss": 0.5224, "step": 6162 }, { "avg_step_time": 6.202697219270648, "epoch": 0.65728, "eta_time": 5.535907268199054, "step": 6162 }, { "epoch": 0.6573866666666667, "grad_norm": 1.605075670193592, "learning_rate": 2.7754935045081716e-06, "loss": 0.392, "step": 6163 }, { "avg_step_time": 6.2381045144013685, "epoch": 0.6573866666666667, "eta_time": 5.565775472293666, "step": 6163 }, { "epoch": 0.6574933333333334, "grad_norm": 0.6550072084062526, "learning_rate": 2.7739465426631195e-06, "loss": 0.4509, "step": 6164 }, { "avg_step_time": 6.250402999646736, "epoch": 0.6574933333333334, "eta_time": 5.575012231073797, "step": 6164 }, { "epoch": 0.6576, "grad_norm": 1.9307455275709975, "learning_rate": 2.7723998465360537e-06, "loss": 0.4298, "step": 6165 }, { "avg_step_time": 6.246697433067091, "epoch": 0.6576, "eta_time": 5.569971877818157, "step": 6165 }, { "epoch": 0.6577066666666667, "grad_norm": 1.7132077736609062, "learning_rate": 2.7708534163115942e-06, "loss": 0.4514, "step": 6166 }, { "avg_step_time": 6.29276346197032, "epoch": 0.6577066666666667, "eta_time": 5.60929943040632, "step": 6166 }, { "epoch": 0.6578133333333334, "grad_norm": 1.8839479645829516, "learning_rate": 2.769307252174338e-06, "loss": 0.4906, "step": 6167 }, { "avg_step_time": 6.273662386518536, "epoch": 0.6578133333333334, "eta_time": 5.590530259986518, "step": 6167 }, { "epoch": 0.65792, "grad_norm": 1.6659686966383591, "learning_rate": 2.7677613543088432e-06, "loss": 0.4864, "step": 6168 }, { "avg_step_time": 6.274605481311529, "epoch": 0.65792, "eta_time": 5.589627716268353, "step": 6168 }, { "epoch": 0.6580266666666666, "grad_norm": 1.8967347354773758, "learning_rate": 2.766215722899642e-06, "loss": 0.422, "step": 6169 }, { "avg_step_time": 6.2653885345266325, "epoch": 0.6580266666666666, "eta_time": 5.579676567136774, "step": 6169 }, { "epoch": 0.6581333333333333, "grad_norm": 1.9765892454662861, "learning_rate": 2.7646703581312336e-06, "loss": 0.6313, "step": 6170 }, { "avg_step_time": 6.331764707661638, "epoch": 0.6581333333333333, "eta_time": 5.637029413348764, "step": 6170 }, { "epoch": 0.65824, "grad_norm": 1.9552687047167219, "learning_rate": 2.7631252601880816e-06, "loss": 0.4065, "step": 6171 }, { "avg_step_time": 6.343381850406377, "epoch": 0.65824, "eta_time": 5.645609846861676, "step": 6171 }, { "epoch": 0.6583466666666666, "grad_norm": 0.6324138643760678, "learning_rate": 2.7615804292546185e-06, "loss": 0.4541, "step": 6172 }, { "avg_step_time": 6.353812150280885, "epoch": 0.6583466666666666, "eta_time": 5.653127865930466, "step": 6172 }, { "epoch": 0.6584533333333333, "grad_norm": 1.8731690031072779, "learning_rate": 2.7600358655152504e-06, "loss": 0.5458, "step": 6173 }, { "avg_step_time": 6.352188112759831, "epoch": 0.6584533333333333, "eta_time": 5.649918426960271, "step": 6173 }, { "epoch": 0.65856, "grad_norm": 1.736481806438975, "learning_rate": 2.7584915691543444e-06, "loss": 0.4602, "step": 6174 }, { "avg_step_time": 6.317789617210928, "epoch": 0.65856, "eta_time": 5.617567934636717, "step": 6174 }, { "epoch": 0.6586666666666666, "grad_norm": 1.8996118484869091, "learning_rate": 2.7569475403562408e-06, "loss": 0.6168, "step": 6175 }, { "avg_step_time": 6.3149161579633, "epoch": 0.6586666666666666, "eta_time": 5.6132588070784895, "step": 6175 }, { "epoch": 0.6587733333333333, "grad_norm": 1.5754932920495137, "learning_rate": 2.7554037793052476e-06, "loss": 0.4542, "step": 6176 }, { "avg_step_time": 6.31645161214501, "epoch": 0.6587733333333333, "eta_time": 5.6128690853477465, "step": 6176 }, { "epoch": 0.65888, "grad_norm": 2.1018989640092833, "learning_rate": 2.753860286185637e-06, "loss": 0.5952, "step": 6177 }, { "avg_step_time": 6.344173017174307, "epoch": 0.65888, "eta_time": 5.635740363589843, "step": 6177 }, { "epoch": 0.6589866666666667, "grad_norm": 1.7644514955267188, "learning_rate": 2.7523170611816507e-06, "loss": 0.5003, "step": 6178 }, { "avg_step_time": 6.34564058949249, "epoch": 0.6589866666666667, "eta_time": 5.635281379057636, "step": 6178 }, { "epoch": 0.6590933333333333, "grad_norm": 2.1438478245663077, "learning_rate": 2.7507741044775018e-06, "loss": 0.4818, "step": 6179 }, { "avg_step_time": 6.37885867706453, "epoch": 0.6590933333333333, "eta_time": 5.663008981082844, "step": 6179 }, { "epoch": 0.6592, "grad_norm": 1.8889761317870128, "learning_rate": 2.7492314162573687e-06, "loss": 0.4675, "step": 6180 }, { "avg_step_time": 6.43860833331792, "epoch": 0.6592, "eta_time": 5.714264895819654, "step": 6180 }, { "epoch": 0.6593066666666667, "grad_norm": 0.6520887239856165, "learning_rate": 2.7476889967053953e-06, "loss": 0.4234, "step": 6181 }, { "avg_step_time": 6.42952907446659, "epoch": 0.6593066666666667, "eta_time": 5.704421073290635, "step": 6181 }, { "epoch": 0.6594133333333333, "grad_norm": 1.9771004055284598, "learning_rate": 2.7461468460057007e-06, "loss": 0.5326, "step": 6182 }, { "avg_step_time": 6.4625152289265335, "epoch": 0.6594133333333333, "eta_time": 5.731891979434006, "step": 6182 }, { "epoch": 0.65952, "grad_norm": 1.9180475009950537, "learning_rate": 2.7446049643423633e-06, "loss": 0.5407, "step": 6183 }, { "avg_step_time": 6.463318299765539, "epoch": 0.65952, "eta_time": 5.730808892458778, "step": 6183 }, { "epoch": 0.6596266666666667, "grad_norm": 2.128295860319196, "learning_rate": 2.7430633518994314e-06, "loss": 0.4606, "step": 6184 }, { "avg_step_time": 6.493960811634256, "epoch": 0.6596266666666667, "eta_time": 5.756174708312476, "step": 6184 }, { "epoch": 0.6597333333333333, "grad_norm": 2.0080640511688617, "learning_rate": 2.74152200886093e-06, "loss": 0.4449, "step": 6185 }, { "avg_step_time": 6.536708051508123, "epoch": 0.6597333333333333, "eta_time": 5.792249634530809, "step": 6185 }, { "epoch": 0.65984, "grad_norm": 2.033678324336483, "learning_rate": 2.7399809354108415e-06, "loss": 0.5207, "step": 6186 }, { "avg_step_time": 6.582673308825252, "epoch": 0.65984, "eta_time": 5.831151439401037, "step": 6186 }, { "epoch": 0.6599466666666667, "grad_norm": 1.7574877201948431, "learning_rate": 2.738440131733117e-06, "loss": 0.4468, "step": 6187 }, { "avg_step_time": 6.618301290454286, "epoch": 0.6599466666666667, "eta_time": 5.860873476102296, "step": 6187 }, { "epoch": 0.6600533333333334, "grad_norm": 1.6671638599691205, "learning_rate": 2.736899598011683e-06, "loss": 0.4511, "step": 6188 }, { "avg_step_time": 6.615856435563829, "epoch": 0.6600533333333334, "eta_time": 5.856870683372756, "step": 6188 }, { "epoch": 0.66016, "grad_norm": 2.078465947875194, "learning_rate": 2.735359334430424e-06, "loss": 0.5169, "step": 6189 }, { "avg_step_time": 6.615964106839113, "epoch": 0.66016, "eta_time": 5.855128234552614, "step": 6189 }, { "epoch": 0.6602666666666667, "grad_norm": 1.944341102106376, "learning_rate": 2.733819341173202e-06, "loss": 0.5384, "step": 6190 }, { "avg_step_time": 6.616272112335822, "epoch": 0.6602666666666667, "eta_time": 5.853562966052665, "step": 6190 }, { "epoch": 0.6603733333333334, "grad_norm": 2.3060717149193994, "learning_rate": 2.7322796184238363e-06, "loss": 0.5701, "step": 6191 }, { "avg_step_time": 6.64809969699744, "epoch": 0.6603733333333334, "eta_time": 5.87987484312218, "step": 6191 }, { "epoch": 0.66048, "grad_norm": 1.9102067117654584, "learning_rate": 2.7307401663661247e-06, "loss": 0.4506, "step": 6192 }, { "avg_step_time": 6.709161399590848, "epoch": 0.66048, "eta_time": 5.932016870804908, "step": 6192 }, { "epoch": 0.6605866666666667, "grad_norm": 1.8415303639439844, "learning_rate": 2.7292009851838237e-06, "loss": 0.483, "step": 6193 }, { "avg_step_time": 6.741890165540907, "epoch": 0.6605866666666667, "eta_time": 5.95908180743088, "step": 6193 }, { "epoch": 0.6606933333333334, "grad_norm": 2.3174012169161187, "learning_rate": 2.727662075060662e-06, "loss": 0.4872, "step": 6194 }, { "avg_step_time": 6.7658854132950905, "epoch": 0.6606933333333334, "eta_time": 5.978411527692134, "step": 6194 }, { "epoch": 0.6608, "grad_norm": 2.047488121834644, "learning_rate": 2.7261234361803383e-06, "loss": 0.5131, "step": 6195 }, { "avg_step_time": 6.786651127266161, "epoch": 0.6608, "eta_time": 5.994875162418443, "step": 6195 }, { "epoch": 0.6609066666666666, "grad_norm": 0.6541900611269862, "learning_rate": 2.724585068726513e-06, "loss": 0.4506, "step": 6196 }, { "avg_step_time": 6.7862722777357005, "epoch": 0.6609066666666666, "eta_time": 5.992655436367165, "step": 6196 }, { "epoch": 0.6610133333333333, "grad_norm": 1.9437578801262452, "learning_rate": 2.7230469728828156e-06, "loss": 0.5302, "step": 6197 }, { "avg_step_time": 6.785355064604017, "epoch": 0.6610133333333333, "eta_time": 5.9899606653643245, "step": 6197 }, { "epoch": 0.66112, "grad_norm": 1.9558995376739894, "learning_rate": 2.721509148832847e-06, "loss": 0.5073, "step": 6198 }, { "avg_step_time": 6.792659540369053, "epoch": 0.66112, "eta_time": 5.99452204437569, "step": 6198 }, { "epoch": 0.6612266666666666, "grad_norm": 1.8487665503058661, "learning_rate": 2.7199715967601715e-06, "loss": 0.4602, "step": 6199 }, { "avg_step_time": 6.790553649266561, "epoch": 0.6612266666666666, "eta_time": 5.990777330575165, "step": 6199 }, { "epoch": 0.6613333333333333, "grad_norm": 1.601440196147416, "learning_rate": 2.7184343168483218e-06, "loss": 0.4256, "step": 6200 }, { "avg_step_time": 6.859488147677797, "epoch": 0.6613333333333333, "eta_time": 6.049687463576946, "step": 6200 }, { "epoch": 0.66144, "grad_norm": 1.7299539711743763, "learning_rate": 2.7168973092808025e-06, "loss": 0.4671, "step": 6201 }, { "avg_step_time": 6.858366862692014, "epoch": 0.66144, "eta_time": 6.046793450606792, "step": 6201 }, { "epoch": 0.6615466666666666, "grad_norm": 1.5548413320731862, "learning_rate": 2.7153605742410806e-06, "loss": 0.4602, "step": 6202 }, { "avg_step_time": 6.888847625616825, "epoch": 0.6615466666666666, "eta_time": 6.071753754467275, "step": 6202 }, { "epoch": 0.6616533333333333, "grad_norm": 1.6104061387896473, "learning_rate": 2.713824111912586e-06, "loss": 0.452, "step": 6203 }, { "avg_step_time": 6.859315638590341, "epoch": 0.6616533333333333, "eta_time": 6.043819223780156, "step": 6203 }, { "epoch": 0.66176, "grad_norm": 1.8413229621155305, "learning_rate": 2.7122879224787315e-06, "loss": 0.4812, "step": 6204 }, { "avg_step_time": 6.8601635104478005, "epoch": 0.66176, "eta_time": 6.042660692119437, "step": 6204 }, { "epoch": 0.6618666666666667, "grad_norm": 1.8617196846309683, "learning_rate": 2.710752006122884e-06, "loss": 0.4404, "step": 6205 }, { "avg_step_time": 6.864656891485657, "epoch": 0.6618666666666667, "eta_time": 6.044711762780426, "step": 6205 }, { "epoch": 0.6619733333333333, "grad_norm": 2.189183282194192, "learning_rate": 2.7092163630283786e-06, "loss": 0.5339, "step": 6206 }, { "avg_step_time": 6.885525450561985, "epoch": 0.6619733333333333, "eta_time": 6.061175042453037, "step": 6206 }, { "epoch": 0.66208, "grad_norm": 1.6927593582130946, "learning_rate": 2.7076809933785254e-06, "loss": 0.5212, "step": 6207 }, { "avg_step_time": 6.913120125279282, "epoch": 0.66208, "eta_time": 6.083545710245768, "step": 6207 }, { "epoch": 0.6621866666666667, "grad_norm": 1.9310716352538346, "learning_rate": 2.7061458973565934e-06, "loss": 0.4754, "step": 6208 }, { "avg_step_time": 6.911180965828173, "epoch": 0.6621866666666667, "eta_time": 6.079919477438285, "step": 6208 }, { "epoch": 0.6622933333333333, "grad_norm": 1.738743284429359, "learning_rate": 2.7046110751458256e-06, "loss": 0.5365, "step": 6209 }, { "avg_step_time": 6.908784977113358, "epoch": 0.6622933333333333, "eta_time": 6.0758925659835805, "step": 6209 }, { "epoch": 0.6624, "grad_norm": 0.6817624069482301, "learning_rate": 2.70307652692943e-06, "loss": 0.4545, "step": 6210 }, { "avg_step_time": 6.875348197089301, "epoch": 0.6624, "eta_time": 6.044576956607678, "step": 6210 }, { "epoch": 0.6625066666666667, "grad_norm": 2.2458782823276535, "learning_rate": 2.701542252890581e-06, "loss": 0.5557, "step": 6211 }, { "avg_step_time": 6.8729037540127536, "epoch": 0.6625066666666667, "eta_time": 6.040518743804542, "step": 6211 }, { "epoch": 0.6626133333333334, "grad_norm": 1.8621788987031873, "learning_rate": 2.7000082532124182e-06, "loss": 0.4712, "step": 6212 }, { "avg_step_time": 6.836673428313901, "epoch": 0.6626133333333334, "eta_time": 6.006777237154686, "step": 6212 }, { "epoch": 0.66272, "grad_norm": 1.8753403988267865, "learning_rate": 2.6984745280780524e-06, "loss": 0.3985, "step": 6213 }, { "avg_step_time": 6.756171479369655, "epoch": 0.66272, "eta_time": 5.934170616046347, "step": 6213 }, { "epoch": 0.6628266666666667, "grad_norm": 1.8147406518124873, "learning_rate": 2.6969410776705627e-06, "loss": 0.4405, "step": 6214 }, { "avg_step_time": 6.78427314276647, "epoch": 0.6628266666666667, "eta_time": 5.956968723412448, "step": 6214 }, { "epoch": 0.6629333333333334, "grad_norm": 1.6705219751487652, "learning_rate": 2.695407902172989e-06, "loss": 0.4413, "step": 6215 }, { "avg_step_time": 6.8264952115338255, "epoch": 0.6629333333333334, "eta_time": 5.992145796790803, "step": 6215 }, { "epoch": 0.66304, "grad_norm": 1.8247578581528021, "learning_rate": 2.6938750017683457e-06, "loss": 0.5741, "step": 6216 }, { "avg_step_time": 6.860978432375975, "epoch": 0.66304, "eta_time": 6.020508574409918, "step": 6216 }, { "epoch": 0.6631466666666667, "grad_norm": 1.613477032774073, "learning_rate": 2.6923423766396107e-06, "loss": 0.3963, "step": 6217 }, { "avg_step_time": 6.836322991534917, "epoch": 0.6631466666666667, "eta_time": 5.99697444646313, "step": 6217 }, { "epoch": 0.6632533333333334, "grad_norm": 1.5184196359425473, "learning_rate": 2.690810026969725e-06, "loss": 0.4785, "step": 6218 }, { "avg_step_time": 6.849225376591538, "epoch": 0.6632533333333334, "eta_time": 6.006390142749857, "step": 6218 }, { "epoch": 0.66336, "grad_norm": 1.8178422544250061, "learning_rate": 2.6892779529416045e-06, "loss": 0.5456, "step": 6219 }, { "avg_step_time": 6.884999176468512, "epoch": 0.66336, "eta_time": 6.035849278037396, "step": 6219 }, { "epoch": 0.6634666666666666, "grad_norm": 1.7397207755864994, "learning_rate": 2.687746154738131e-06, "loss": 0.5413, "step": 6220 }, { "avg_step_time": 6.927617713658496, "epoch": 0.6634666666666666, "eta_time": 6.071287190720155, "step": 6220 }, { "epoch": 0.6635733333333333, "grad_norm": 2.4606518727050237, "learning_rate": 2.6862146325421455e-06, "loss": 0.6192, "step": 6221 }, { "avg_step_time": 6.947606079506151, "epoch": 0.6635733333333333, "eta_time": 6.086874881878445, "step": 6221 }, { "epoch": 0.66368, "grad_norm": 1.811638966882826, "learning_rate": 2.6846833865364674e-06, "loss": 0.5586, "step": 6222 }, { "avg_step_time": 7.027918529028844, "epoch": 0.66368, "eta_time": 6.1552853116744295, "step": 6222 }, { "epoch": 0.6637866666666666, "grad_norm": 1.7978180769086487, "learning_rate": 2.6831524169038724e-06, "loss": 0.5492, "step": 6223 }, { "avg_step_time": 7.0287473924232255, "epoch": 0.6637866666666666, "eta_time": 6.154058828032779, "step": 6223 }, { "epoch": 0.6638933333333333, "grad_norm": 2.2685574438575458, "learning_rate": 2.6816217238271124e-06, "loss": 0.5832, "step": 6224 }, { "avg_step_time": 7.018591187217019, "epoch": 0.6638933333333333, "eta_time": 6.143216897478007, "step": 6224 }, { "epoch": 0.664, "grad_norm": 0.6568439766516302, "learning_rate": 2.6800913074888984e-06, "loss": 0.4484, "step": 6225 }, { "avg_step_time": 7.0630621597020316, "epoch": 0.664, "eta_time": 6.180179389739277, "step": 6225 }, { "epoch": 0.6641066666666666, "grad_norm": 1.868720579813439, "learning_rate": 2.678561168071916e-06, "loss": 0.428, "step": 6226 }, { "avg_step_time": 7.063003361827195, "epoch": 0.6641066666666666, "eta_time": 6.1781659962205095, "step": 6226 }, { "epoch": 0.6642133333333333, "grad_norm": 1.9162500405772578, "learning_rate": 2.6770313057588114e-06, "loss": 0.4618, "step": 6227 }, { "avg_step_time": 7.10115560377487, "epoch": 0.6642133333333333, "eta_time": 6.209566066856469, "step": 6227 }, { "epoch": 0.66432, "grad_norm": 0.6709180224985143, "learning_rate": 2.6755017207321964e-06, "loss": 0.4499, "step": 6228 }, { "avg_step_time": 7.063729765439274, "epoch": 0.66432, "eta_time": 6.174877103288165, "step": 6228 }, { "epoch": 0.6644266666666667, "grad_norm": 2.0310288185343723, "learning_rate": 2.6739724131746615e-06, "loss": 0.5585, "step": 6229 }, { "avg_step_time": 7.060682968659834, "epoch": 0.6644266666666667, "eta_time": 6.170252394278844, "step": 6229 }, { "epoch": 0.6645333333333333, "grad_norm": 1.7959333172340477, "learning_rate": 2.6724433832687512e-06, "loss": 0.5199, "step": 6230 }, { "avg_step_time": 7.029699301478838, "epoch": 0.6645333333333333, "eta_time": 6.141223417541929, "step": 6230 }, { "epoch": 0.66464, "grad_norm": 1.8834202433768317, "learning_rate": 2.6709146311969813e-06, "loss": 0.566, "step": 6231 }, { "avg_step_time": 7.062746975156996, "epoch": 0.66464, "eta_time": 6.168132358303776, "step": 6231 }, { "epoch": 0.6647466666666667, "grad_norm": 2.038588311706039, "learning_rate": 2.6693861571418372e-06, "loss": 0.4159, "step": 6232 }, { "avg_step_time": 7.069403303994073, "epoch": 0.6647466666666667, "eta_time": 6.171981829014825, "step": 6232 }, { "epoch": 0.6648533333333333, "grad_norm": 1.9437006802757464, "learning_rate": 2.667857961285766e-06, "loss": 0.4677, "step": 6233 }, { "avg_step_time": 7.14346698317865, "epoch": 0.6648533333333333, "eta_time": 6.234659239207589, "step": 6233 }, { "epoch": 0.66496, "grad_norm": 1.7529295561338265, "learning_rate": 2.666330043811185e-06, "loss": 0.4144, "step": 6234 }, { "avg_step_time": 7.126620865831471, "epoch": 0.66496, "eta_time": 6.217976705437959, "step": 6234 }, { "epoch": 0.6650666666666667, "grad_norm": 1.8433034098475305, "learning_rate": 2.6648024049004804e-06, "loss": 0.4787, "step": 6235 }, { "avg_step_time": 7.082175719617593, "epoch": 0.6650666666666667, "eta_time": 6.177231044333123, "step": 6235 }, { "epoch": 0.6651733333333333, "grad_norm": 1.6795916555107917, "learning_rate": 2.663275044736001e-06, "loss": 0.4305, "step": 6236 }, { "avg_step_time": 7.199470551327021, "epoch": 0.6651733333333333, "eta_time": 6.277538350170977, "step": 6236 }, { "epoch": 0.66528, "grad_norm": 1.7713198105925825, "learning_rate": 2.66174796350006e-06, "loss": 0.4859, "step": 6237 }, { "avg_step_time": 7.198617060979207, "epoch": 0.66528, "eta_time": 6.274794538153542, "step": 6237 }, { "epoch": 0.6653866666666667, "grad_norm": 1.964481754621299, "learning_rate": 2.6602211613749446e-06, "loss": 0.5355, "step": 6238 }, { "avg_step_time": 7.22888365177193, "epoch": 0.6653866666666667, "eta_time": 6.299168893224596, "step": 6238 }, { "epoch": 0.6654933333333334, "grad_norm": 1.7082476990339748, "learning_rate": 2.6586946385429056e-06, "loss": 0.4429, "step": 6239 }, { "avg_step_time": 7.254301215663101, "epoch": 0.6654933333333334, "eta_time": 6.319302392310968, "step": 6239 }, { "epoch": 0.6656, "grad_norm": 1.9301073233023318, "learning_rate": 2.657168395186157e-06, "loss": 0.4626, "step": 6240 }, { "avg_step_time": 7.2717788556609495, "epoch": 0.6656, "eta_time": 6.332507420138077, "step": 6240 }, { "epoch": 0.6657066666666667, "grad_norm": 1.926823562098604, "learning_rate": 2.6556424314868854e-06, "loss": 0.4275, "step": 6241 }, { "avg_step_time": 7.244443284140693, "epoch": 0.6657066666666667, "eta_time": 6.306690347915814, "step": 6241 }, { "epoch": 0.6658133333333334, "grad_norm": 1.4604327589143424, "learning_rate": 2.65411674762724e-06, "loss": 0.4664, "step": 6242 }, { "avg_step_time": 7.218301590042885, "epoch": 0.6658133333333334, "eta_time": 6.281927467112322, "step": 6242 }, { "epoch": 0.66592, "grad_norm": 1.7727125836904063, "learning_rate": 2.6525913437893346e-06, "loss": 0.4597, "step": 6243 }, { "avg_step_time": 7.229360623793169, "epoch": 0.66592, "eta_time": 6.289543742700056, "step": 6243 }, { "epoch": 0.6660266666666667, "grad_norm": 2.1392514527616195, "learning_rate": 2.6510662201552554e-06, "loss": 0.4681, "step": 6244 }, { "avg_step_time": 7.271294673283895, "epoch": 0.6660266666666667, "eta_time": 6.324006561681076, "step": 6244 }, { "epoch": 0.6661333333333334, "grad_norm": 1.8079268409074671, "learning_rate": 2.6495413769070537e-06, "loss": 0.4267, "step": 6245 }, { "avg_step_time": 7.265836778313223, "epoch": 0.6661333333333334, "eta_time": 6.317241421144552, "step": 6245 }, { "epoch": 0.66624, "grad_norm": 2.123184617890257, "learning_rate": 2.648016814226742e-06, "loss": 0.5269, "step": 6246 }, { "avg_step_time": 7.240138335661455, "epoch": 0.66624, "eta_time": 6.292886903412415, "step": 6246 }, { "epoch": 0.6663466666666666, "grad_norm": 1.705554924287933, "learning_rate": 2.6464925322963053e-06, "loss": 0.4499, "step": 6247 }, { "avg_step_time": 7.307556369087913, "epoch": 0.6663466666666666, "eta_time": 6.34945453402972, "step": 6247 }, { "epoch": 0.6664533333333333, "grad_norm": 1.8400379022950364, "learning_rate": 2.6449685312976948e-06, "loss": 0.4678, "step": 6248 }, { "avg_step_time": 7.301558566815926, "epoch": 0.6664533333333333, "eta_time": 6.3422148995648335, "step": 6248 }, { "epoch": 0.66656, "grad_norm": 2.156938779660641, "learning_rate": 2.6434448114128252e-06, "loss": 0.5552, "step": 6249 }, { "avg_step_time": 7.348879163915461, "epoch": 0.66656, "eta_time": 6.381276740666592, "step": 6249 }, { "epoch": 0.6666666666666666, "grad_norm": 1.7760949829318846, "learning_rate": 2.641921372823576e-06, "loss": 0.4923, "step": 6250 }, { "avg_step_time": 7.4039369159274635, "epoch": 0.6666666666666666, "eta_time": 6.4270285728537, "step": 6250 }, { "epoch": 0.6667733333333333, "grad_norm": 1.9331561617859736, "learning_rate": 2.6403982157117996e-06, "loss": 0.5246, "step": 6251 }, { "avg_step_time": 7.419306075934208, "epoch": 0.6667733333333333, "eta_time": 6.438308939227351, "step": 6251 }, { "epoch": 0.66688, "grad_norm": 1.7900869853266048, "learning_rate": 2.6388753402593083e-06, "loss": 0.5028, "step": 6252 }, { "avg_step_time": 7.416594543842354, "epoch": 0.66688, "eta_time": 6.433895766783243, "step": 6252 }, { "epoch": 0.6669866666666666, "grad_norm": 1.8501227016052053, "learning_rate": 2.6373527466478843e-06, "loss": 0.4004, "step": 6253 }, { "avg_step_time": 7.418147014849113, "epoch": 0.6669866666666666, "eta_time": 6.433181938988592, "step": 6253 }, { "epoch": 0.6670933333333333, "grad_norm": 1.8891051525077451, "learning_rate": 2.635830435059279e-06, "loss": 0.3851, "step": 6254 }, { "avg_step_time": 7.463355430448898, "epoch": 0.6670933333333333, "eta_time": 6.470314527341947, "step": 6254 }, { "epoch": 0.6672, "grad_norm": 1.9437733622272226, "learning_rate": 2.6343084056752032e-06, "loss": 0.5338, "step": 6255 }, { "avg_step_time": 7.426128474148837, "epoch": 0.6672, "eta_time": 6.435978010928992, "step": 6255 }, { "epoch": 0.6673066666666667, "grad_norm": 1.6723916071362797, "learning_rate": 2.6327866586773364e-06, "loss": 0.4449, "step": 6256 }, { "avg_step_time": 7.4488733537269365, "epoch": 0.6673066666666667, "eta_time": 6.453621108409532, "step": 6256 }, { "epoch": 0.6674133333333333, "grad_norm": 1.9038464004779487, "learning_rate": 2.631265194247327e-06, "loss": 0.5875, "step": 6257 }, { "avg_step_time": 7.4997872029892125, "epoch": 0.6674133333333333, "eta_time": 6.49564902747788, "step": 6257 }, { "epoch": 0.66752, "grad_norm": 2.1129461137547803, "learning_rate": 2.6297440125667904e-06, "loss": 0.4829, "step": 6258 }, { "avg_step_time": 7.518531112959891, "epoch": 0.66752, "eta_time": 6.509794855304438, "step": 6258 }, { "epoch": 0.6676266666666667, "grad_norm": 1.9680088114924685, "learning_rate": 2.628223113817302e-06, "loss": 0.4404, "step": 6259 }, { "avg_step_time": 7.465151709739608, "epoch": 0.6676266666666667, "eta_time": 6.461503535430172, "step": 6259 }, { "epoch": 0.6677333333333333, "grad_norm": 1.7778942917732228, "learning_rate": 2.62670249818041e-06, "loss": 0.495, "step": 6260 }, { "avg_step_time": 7.465897962300464, "epoch": 0.6677333333333333, "eta_time": 6.460075597934986, "step": 6260 }, { "epoch": 0.66784, "grad_norm": 2.0233832448262334, "learning_rate": 2.6251821658376265e-06, "loss": 0.5155, "step": 6261 }, { "avg_step_time": 7.465241620034883, "epoch": 0.66784, "eta_time": 6.457434001330173, "step": 6261 }, { "epoch": 0.6679466666666667, "grad_norm": 1.6653847294181656, "learning_rate": 2.6236621169704234e-06, "loss": 0.529, "step": 6262 }, { "avg_step_time": 7.463210847642687, "epoch": 0.6679466666666667, "eta_time": 6.453604269086578, "step": 6262 }, { "epoch": 0.6680533333333334, "grad_norm": 1.720699806087258, "learning_rate": 2.622142351760254e-06, "loss": 0.4022, "step": 6263 }, { "avg_step_time": 7.459105956434, "epoch": 0.6680533333333334, "eta_time": 6.447982704561836, "step": 6263 }, { "epoch": 0.66816, "grad_norm": 1.7665972301418904, "learning_rate": 2.620622870388524e-06, "loss": 0.472, "step": 6264 }, { "avg_step_time": 7.457921290638471, "epoch": 0.66816, "eta_time": 6.444886981993412, "step": 6264 }, { "epoch": 0.6682666666666667, "grad_norm": 1.8252495430929032, "learning_rate": 2.619103673036608e-06, "loss": 0.4562, "step": 6265 }, { "avg_step_time": 7.410580863856306, "epoch": 0.6682666666666667, "eta_time": 6.401918468498086, "step": 6265 }, { "epoch": 0.6683733333333334, "grad_norm": 1.6470526555351794, "learning_rate": 2.617584759885853e-06, "loss": 0.4317, "step": 6266 }, { "avg_step_time": 7.40784792707424, "epoch": 0.6683733333333334, "eta_time": 6.397499779242725, "step": 6266 }, { "epoch": 0.66848, "grad_norm": 1.937307335240183, "learning_rate": 2.616066131117563e-06, "loss": 0.4819, "step": 6267 }, { "avg_step_time": 7.407747601017808, "epoch": 0.66848, "eta_time": 6.395355428878707, "step": 6267 }, { "epoch": 0.6685866666666667, "grad_norm": 1.7655686268728594, "learning_rate": 2.6145477869130143e-06, "loss": 0.4419, "step": 6268 }, { "avg_step_time": 7.411012878321638, "epoch": 0.6685866666666667, "eta_time": 6.396115836929258, "step": 6268 }, { "epoch": 0.6686933333333334, "grad_norm": 1.5605950953277752, "learning_rate": 2.61302972745345e-06, "loss": 0.439, "step": 6269 }, { "avg_step_time": 7.404922109661681, "epoch": 0.6686933333333334, "eta_time": 6.388802242391439, "step": 6269 }, { "epoch": 0.6688, "grad_norm": 1.856522919245524, "learning_rate": 2.6115119529200748e-06, "loss": 0.4452, "step": 6270 }, { "avg_step_time": 7.39556192629265, "epoch": 0.6688, "eta_time": 6.378672161427411, "step": 6270 }, { "epoch": 0.6689066666666666, "grad_norm": 1.746715949469467, "learning_rate": 2.609994463494059e-06, "loss": 0.5414, "step": 6271 }, { "avg_step_time": 7.3871169836834225, "epoch": 0.6689066666666666, "eta_time": 6.36933642148704, "step": 6271 }, { "epoch": 0.6690133333333333, "grad_norm": 1.6835836686438916, "learning_rate": 2.608477259356543e-06, "loss": 0.4064, "step": 6272 }, { "avg_step_time": 7.390719827979502, "epoch": 0.6690133333333333, "eta_time": 6.370389896172332, "step": 6272 }, { "epoch": 0.66912, "grad_norm": 1.8292877258745077, "learning_rate": 2.6069603406886347e-06, "loss": 0.4435, "step": 6273 }, { "avg_step_time": 7.3906302476170085, "epoch": 0.66912, "eta_time": 6.368259730029989, "step": 6273 }, { "epoch": 0.6692266666666666, "grad_norm": 1.8548876431202024, "learning_rate": 2.6054437076713997e-06, "loss": 0.4163, "step": 6274 }, { "avg_step_time": 7.3884569635294906, "epoch": 0.6692266666666666, "eta_time": 6.364334734418041, "step": 6274 }, { "epoch": 0.6693333333333333, "grad_norm": 1.8978245331785295, "learning_rate": 2.603927360485878e-06, "loss": 0.4345, "step": 6275 }, { "avg_step_time": 7.4071462009892315, "epoch": 0.6693333333333333, "eta_time": 6.378375895296283, "step": 6275 }, { "epoch": 0.66944, "grad_norm": 1.9303940640387576, "learning_rate": 2.60241129931307e-06, "loss": 0.5026, "step": 6276 }, { "avg_step_time": 7.378868938696505, "epoch": 0.66944, "eta_time": 6.351976344727908, "step": 6276 }, { "epoch": 0.6695466666666666, "grad_norm": 1.5798590354151634, "learning_rate": 2.6008955243339417e-06, "loss": 0.378, "step": 6277 }, { "avg_step_time": 7.376532865293099, "epoch": 0.6695466666666666, "eta_time": 6.347916337966117, "step": 6277 }, { "epoch": 0.6696533333333333, "grad_norm": 0.6489617571924303, "learning_rate": 2.5993800357294298e-06, "loss": 0.4255, "step": 6278 }, { "avg_step_time": 7.358737675830572, "epoch": 0.6696533333333333, "eta_time": 6.3305584950131335, "step": 6278 }, { "epoch": 0.66976, "grad_norm": 1.9981419273138945, "learning_rate": 2.597864833680436e-06, "loss": 0.5093, "step": 6279 }, { "avg_step_time": 7.2966023430679785, "epoch": 0.66976, "eta_time": 6.275078015038462, "step": 6279 }, { "epoch": 0.6698666666666667, "grad_norm": 1.9524618189461904, "learning_rate": 2.5963499183678233e-06, "loss": 0.5056, "step": 6280 }, { "avg_step_time": 7.3087953726450605, "epoch": 0.6698666666666667, "eta_time": 6.283533799537906, "step": 6280 }, { "epoch": 0.6699733333333333, "grad_norm": 1.7831865403126972, "learning_rate": 2.5948352899724206e-06, "loss": 0.4983, "step": 6281 }, { "avg_step_time": 7.27415494244508, "epoch": 0.6699733333333333, "eta_time": 6.251732053312522, "step": 6281 }, { "epoch": 0.67008, "grad_norm": 1.7926798943065279, "learning_rate": 2.593320948675029e-06, "loss": 0.5013, "step": 6282 }, { "avg_step_time": 7.305010215200559, "epoch": 0.67008, "eta_time": 6.276221276559814, "step": 6282 }, { "epoch": 0.6701866666666667, "grad_norm": 2.111526945773467, "learning_rate": 2.5918068946564113e-06, "loss": 0.4459, "step": 6283 }, { "avg_step_time": 7.306290896251948, "epoch": 0.6701866666666667, "eta_time": 6.27529206978084, "step": 6283 }, { "epoch": 0.6702933333333333, "grad_norm": 1.907730991132021, "learning_rate": 2.590293128097292e-06, "loss": 0.4938, "step": 6284 }, { "avg_step_time": 7.265302576199926, "epoch": 0.6702933333333333, "eta_time": 6.2380695175094365, "step": 6284 }, { "epoch": 0.6704, "grad_norm": 1.7965089724817953, "learning_rate": 2.588779649178371e-06, "loss": 0.4556, "step": 6285 }, { "avg_step_time": 7.2220193352362125, "epoch": 0.6704, "eta_time": 6.198899929411083, "step": 6285 }, { "epoch": 0.6705066666666667, "grad_norm": 1.7467978634626258, "learning_rate": 2.5872664580803054e-06, "loss": 0.4737, "step": 6286 }, { "avg_step_time": 7.187966756146364, "epoch": 0.6705066666666667, "eta_time": 6.167674808260032, "step": 6286 }, { "epoch": 0.6706133333333333, "grad_norm": 1.9456105837467086, "learning_rate": 2.585753554983716e-06, "loss": 0.4731, "step": 6287 }, { "avg_step_time": 7.185057269202338, "epoch": 0.6706133333333333, "eta_time": 6.16318245758245, "step": 6287 }, { "epoch": 0.67072, "grad_norm": 1.863060529361675, "learning_rate": 2.5842409400692026e-06, "loss": 0.5281, "step": 6288 }, { "avg_step_time": 7.180650988010445, "epoch": 0.67072, "eta_time": 6.157408222218956, "step": 6288 }, { "epoch": 0.6708266666666667, "grad_norm": 0.639777586463219, "learning_rate": 2.582728613517318e-06, "loss": 0.4536, "step": 6289 }, { "avg_step_time": 7.14577595392863, "epoch": 0.6708266666666667, "eta_time": 6.125517942728821, "step": 6289 }, { "epoch": 0.6709333333333334, "grad_norm": 1.8032414164898487, "learning_rate": 2.5812165755085828e-06, "loss": 0.4728, "step": 6290 }, { "avg_step_time": 7.134624300581036, "epoch": 0.6709333333333334, "eta_time": 6.113976657581249, "step": 6290 }, { "epoch": 0.67104, "grad_norm": 0.6357296337713275, "learning_rate": 2.579704826223488e-06, "loss": 0.4325, "step": 6291 }, { "avg_step_time": 7.06924962274956, "epoch": 0.67104, "eta_time": 6.055990510155456, "step": 6291 }, { "epoch": 0.6711466666666667, "grad_norm": 1.6148267953319813, "learning_rate": 2.578193365842484e-06, "loss": 0.4847, "step": 6292 }, { "avg_step_time": 7.0385427571306325, "epoch": 0.6711466666666667, "eta_time": 6.027729811176039, "step": 6292 }, { "epoch": 0.6712533333333334, "grad_norm": 2.1610833056625456, "learning_rate": 2.576682194545991e-06, "loss": 0.5164, "step": 6293 }, { "avg_step_time": 7.007196484190045, "epoch": 0.6712533333333334, "eta_time": 5.998938767853811, "step": 6293 }, { "epoch": 0.67136, "grad_norm": 1.5952168749921607, "learning_rate": 2.575171312514395e-06, "loss": 0.3852, "step": 6294 }, { "avg_step_time": 6.986669410358775, "epoch": 0.67136, "eta_time": 5.979424570365386, "step": 6294 }, { "epoch": 0.6714666666666667, "grad_norm": 1.4644281310205556, "learning_rate": 2.5736607199280457e-06, "loss": 0.3503, "step": 6295 }, { "avg_step_time": 7.023173996896455, "epoch": 0.6714666666666667, "eta_time": 6.008715530678078, "step": 6295 }, { "epoch": 0.6715733333333334, "grad_norm": 1.783514840139265, "learning_rate": 2.572150416967255e-06, "loss": 0.5127, "step": 6296 }, { "avg_step_time": 7.024786089405869, "epoch": 0.6715733333333334, "eta_time": 6.008143435911297, "step": 6296 }, { "epoch": 0.67168, "grad_norm": 1.7077550232311611, "learning_rate": 2.570640403812306e-06, "loss": 0.519, "step": 6297 }, { "avg_step_time": 7.050603664282597, "epoch": 0.67168, "eta_time": 6.02826613296162, "step": 6297 }, { "epoch": 0.6717866666666666, "grad_norm": 1.619555095048342, "learning_rate": 2.569130680643447e-06, "loss": 0.4263, "step": 6298 }, { "avg_step_time": 7.050021359414766, "epoch": 0.6717866666666666, "eta_time": 6.025809923033121, "step": 6298 }, { "epoch": 0.6718933333333333, "grad_norm": 0.6667339952670462, "learning_rate": 2.5676212476408858e-06, "loss": 0.4486, "step": 6299 }, { "avg_step_time": 6.975660772034616, "epoch": 0.6718933333333333, "eta_time": 5.960314592994022, "step": 6299 }, { "epoch": 0.672, "grad_norm": 2.8398740799704374, "learning_rate": 2.5661121049848026e-06, "loss": 0.5877, "step": 6300 }, { "avg_step_time": 6.993408973770912, "epoch": 0.672, "eta_time": 5.973536831762654, "step": 6300 }, { "epoch": 0.6721066666666666, "grad_norm": 1.8000834192047868, "learning_rate": 2.564603252855336e-06, "loss": 0.5017, "step": 6301 }, { "avg_step_time": 6.960314418330337, "epoch": 0.6721066666666666, "eta_time": 5.943335144985404, "step": 6301 }, { "epoch": 0.6722133333333333, "grad_norm": 1.7128002482440454, "learning_rate": 2.5630946914325983e-06, "loss": 0.5027, "step": 6302 }, { "avg_step_time": 6.9555430677202015, "epoch": 0.6722133333333333, "eta_time": 5.937328846417827, "step": 6302 }, { "epoch": 0.67232, "grad_norm": 1.8814485544724415, "learning_rate": 2.5615864208966573e-06, "loss": 0.5931, "step": 6303 }, { "avg_step_time": 6.955530657912746, "epoch": 0.67232, "eta_time": 5.935386161418877, "step": 6303 }, { "epoch": 0.6724266666666666, "grad_norm": 0.6674957824931994, "learning_rate": 2.560078441427556e-06, "loss": 0.4377, "step": 6304 }, { "avg_step_time": 6.914046203247224, "epoch": 0.6724266666666666, "eta_time": 5.898065525047841, "step": 6304 }, { "epoch": 0.6725333333333333, "grad_norm": 0.6368395708814956, "learning_rate": 2.5585707532052933e-06, "loss": 0.4236, "step": 6305 }, { "avg_step_time": 6.847851702661226, "epoch": 0.6725333333333333, "eta_time": 5.839695757547212, "step": 6305 }, { "epoch": 0.67264, "grad_norm": 2.1242446620075004, "learning_rate": 2.55706335640984e-06, "loss": 0.4338, "step": 6306 }, { "avg_step_time": 6.791699248130875, "epoch": 0.67264, "eta_time": 5.789923609031571, "step": 6306 }, { "epoch": 0.6727466666666667, "grad_norm": 1.6134922997985695, "learning_rate": 2.5555562512211327e-06, "loss": 0.4739, "step": 6307 }, { "avg_step_time": 6.804087299289125, "epoch": 0.6727466666666667, "eta_time": 5.798594398394177, "step": 6307 }, { "epoch": 0.6728533333333333, "grad_norm": 2.1850746008099247, "learning_rate": 2.5540494378190674e-06, "loss": 0.5039, "step": 6308 }, { "avg_step_time": 6.803276731510355, "epoch": 0.6728533333333333, "eta_time": 5.796013815428405, "step": 6308 }, { "epoch": 0.67296, "grad_norm": 2.1340441771973118, "learning_rate": 2.552542916383507e-06, "loss": 0.5201, "step": 6309 }, { "avg_step_time": 6.835314170278684, "epoch": 0.67296, "eta_time": 5.8214092350206785, "step": 6309 }, { "epoch": 0.6730666666666667, "grad_norm": 1.8240784106237062, "learning_rate": 2.551036687094285e-06, "loss": 0.5035, "step": 6310 }, { "avg_step_time": 6.851742322998818, "epoch": 0.6730666666666667, "eta_time": 5.833497283330938, "step": 6310 }, { "epoch": 0.6731733333333333, "grad_norm": 1.8295032959762905, "learning_rate": 2.5495307501311904e-06, "loss": 0.4205, "step": 6311 }, { "avg_step_time": 6.851431482970113, "epoch": 0.6731733333333333, "eta_time": 5.831329462172341, "step": 6311 }, { "epoch": 0.67328, "grad_norm": 1.9746723211502635, "learning_rate": 2.5480251056739874e-06, "loss": 0.4499, "step": 6312 }, { "avg_step_time": 6.847226263296725, "epoch": 0.67328, "eta_time": 5.825848345688296, "step": 6312 }, { "epoch": 0.6733866666666667, "grad_norm": 1.988962233897266, "learning_rate": 2.5465197539024006e-06, "loss": 0.4593, "step": 6313 }, { "avg_step_time": 6.785471586265949, "epoch": 0.6733866666666667, "eta_time": 5.77142055476287, "step": 6313 }, { "epoch": 0.6734933333333334, "grad_norm": 1.7767599505620166, "learning_rate": 2.5450146949961187e-06, "loss": 0.4442, "step": 6314 }, { "avg_step_time": 6.742085061892115, "epoch": 0.6734933333333334, "eta_time": 5.732645104014379, "step": 6314 }, { "epoch": 0.6736, "grad_norm": 0.6638814155593105, "learning_rate": 2.543509929134794e-06, "loss": 0.4805, "step": 6315 }, { "avg_step_time": 6.671754788870763, "epoch": 0.6736, "eta_time": 5.670991570540148, "step": 6315 }, { "epoch": 0.6737066666666667, "grad_norm": 1.9078040756557142, "learning_rate": 2.5420054564980497e-06, "loss": 0.442, "step": 6316 }, { "avg_step_time": 6.6684566700097285, "epoch": 0.6737066666666667, "eta_time": 5.666335820433267, "step": 6316 }, { "epoch": 0.6738133333333334, "grad_norm": 1.5527325438076782, "learning_rate": 2.5405012772654702e-06, "loss": 0.4671, "step": 6317 }, { "avg_step_time": 6.656431340207957, "epoch": 0.6738133333333334, "eta_time": 5.654268621765537, "step": 6317 }, { "epoch": 0.67392, "grad_norm": 2.0367850662198403, "learning_rate": 2.5389973916166037e-06, "loss": 0.4567, "step": 6318 }, { "avg_step_time": 6.61971430585842, "epoch": 0.67392, "eta_time": 5.621240731391442, "step": 6318 }, { "epoch": 0.6740266666666667, "grad_norm": 1.5935471737763147, "learning_rate": 2.5374937997309677e-06, "loss": 0.46, "step": 6319 }, { "avg_step_time": 6.619581193634958, "epoch": 0.6740266666666667, "eta_time": 5.6192889243745645, "step": 6319 }, { "epoch": 0.6741333333333334, "grad_norm": 1.7369089292942521, "learning_rate": 2.5359905017880406e-06, "loss": 0.4977, "step": 6320 }, { "avg_step_time": 6.567709024506386, "epoch": 0.6741333333333334, "eta_time": 5.573430852740836, "step": 6320 }, { "epoch": 0.67424, "grad_norm": 1.815160039750868, "learning_rate": 2.534487497967262e-06, "loss": 0.4391, "step": 6321 }, { "avg_step_time": 6.544160373283155, "epoch": 0.67424, "eta_time": 5.55162938333521, "step": 6321 }, { "epoch": 0.6743466666666666, "grad_norm": 1.7417300319155151, "learning_rate": 2.5329847884480495e-06, "loss": 0.4355, "step": 6322 }, { "avg_step_time": 6.554218205538663, "epoch": 0.6743466666666666, "eta_time": 5.558341161530427, "step": 6322 }, { "epoch": 0.6744533333333333, "grad_norm": 1.9881988599363325, "learning_rate": 2.5314823734097748e-06, "loss": 0.5178, "step": 6323 }, { "avg_step_time": 6.509586432967523, "epoch": 0.6744533333333333, "eta_time": 5.518682720393578, "step": 6323 }, { "epoch": 0.67456, "grad_norm": 0.625274905516929, "learning_rate": 2.529980253031774e-06, "loss": 0.4305, "step": 6324 }, { "avg_step_time": 6.453798060465341, "epoch": 0.67456, "eta_time": 5.469593856244376, "step": 6324 }, { "epoch": 0.6746666666666666, "grad_norm": 1.8354547565386101, "learning_rate": 2.528478427493355e-06, "loss": 0.5103, "step": 6325 }, { "avg_step_time": 6.457238558566932, "epoch": 0.6746666666666666, "eta_time": 5.470716001008095, "step": 6325 }, { "epoch": 0.6747733333333333, "grad_norm": 1.8459299751419191, "learning_rate": 2.526976896973784e-06, "loss": 0.5181, "step": 6326 }, { "avg_step_time": 6.448181523217095, "epoch": 0.6747733333333333, "eta_time": 5.461251517858034, "step": 6326 }, { "epoch": 0.67488, "grad_norm": 0.6478217273422421, "learning_rate": 2.5254756616522953e-06, "loss": 0.4646, "step": 6327 }, { "avg_step_time": 6.446755447773018, "epoch": 0.67488, "eta_time": 5.4582529457811555, "step": 6327 }, { "epoch": 0.6749866666666666, "grad_norm": 1.7397897274208578, "learning_rate": 2.523974721708089e-06, "loss": 0.4946, "step": 6328 }, { "avg_step_time": 6.447018731724132, "epoch": 0.6749866666666666, "eta_time": 5.456685020989842, "step": 6328 }, { "epoch": 0.6750933333333333, "grad_norm": 1.9401860389420262, "learning_rate": 2.5224740773203282e-06, "loss": 0.5551, "step": 6329 }, { "avg_step_time": 6.447838424432157, "epoch": 0.6750933333333333, "eta_time": 5.455587733561208, "step": 6329 }, { "epoch": 0.6752, "grad_norm": 2.01305457308996, "learning_rate": 2.5209737286681367e-06, "loss": 0.624, "step": 6330 }, { "avg_step_time": 6.412615034315321, "epoch": 0.6752, "eta_time": 5.4240035498583765, "step": 6330 }, { "epoch": 0.6753066666666667, "grad_norm": 1.8770943129593443, "learning_rate": 2.5194736759306106e-06, "loss": 0.4463, "step": 6331 }, { "avg_step_time": 6.407992350934732, "epoch": 0.6753066666666667, "eta_time": 5.418313532290369, "step": 6331 }, { "epoch": 0.6754133333333333, "grad_norm": 1.6679921326592597, "learning_rate": 2.5179739192868073e-06, "loss": 0.4721, "step": 6332 }, { "avg_step_time": 6.3699759208794795, "epoch": 0.6754133333333333, "eta_time": 5.38439909089896, "step": 6332 }, { "epoch": 0.67552, "grad_norm": 1.8659698246307672, "learning_rate": 2.5164744589157488e-06, "loss": 0.4567, "step": 6333 }, { "avg_step_time": 6.340240907187414, "epoch": 0.67552, "eta_time": 5.357503566573365, "step": 6333 }, { "epoch": 0.6756266666666667, "grad_norm": 1.9305102080680419, "learning_rate": 2.514975294996418e-06, "loss": 0.4518, "step": 6334 }, { "avg_step_time": 6.339280778711492, "epoch": 0.6756266666666667, "eta_time": 5.354931346683792, "step": 6334 }, { "epoch": 0.6757333333333333, "grad_norm": 1.6322568222067373, "learning_rate": 2.5134764277077713e-06, "loss": 0.4404, "step": 6335 }, { "avg_step_time": 6.199768295191755, "epoch": 0.6757333333333333, "eta_time": 5.235359893717482, "step": 6335 }, { "epoch": 0.67584, "grad_norm": 0.6553407362463605, "learning_rate": 2.5119778572287195e-06, "loss": 0.4378, "step": 6336 }, { "avg_step_time": 6.162841777608852, "epoch": 0.67584, "eta_time": 5.202465600598139, "step": 6336 }, { "epoch": 0.6759466666666667, "grad_norm": 1.7182861726793852, "learning_rate": 2.5104795837381457e-06, "loss": 0.381, "step": 6337 }, { "avg_step_time": 6.13188428589792, "epoch": 0.6759466666666667, "eta_time": 5.174629016821633, "step": 6337 }, { "epoch": 0.6760533333333333, "grad_norm": 1.6481934171629893, "learning_rate": 2.5089816074148953e-06, "loss": 0.4284, "step": 6338 }, { "avg_step_time": 6.162841770384047, "epoch": 0.6760533333333333, "eta_time": 5.1990417935156525, "step": 6338 }, { "epoch": 0.67616, "grad_norm": 1.882190676771427, "learning_rate": 2.5074839284377774e-06, "loss": 0.5094, "step": 6339 }, { "avg_step_time": 6.147403225754246, "epoch": 0.67616, "eta_time": 5.184310053719415, "step": 6339 }, { "epoch": 0.6762666666666667, "grad_norm": 1.7236292425944773, "learning_rate": 2.5059865469855617e-06, "loss": 0.4446, "step": 6340 }, { "avg_step_time": 6.15182596986944, "epoch": 0.6762666666666667, "eta_time": 5.186331060709376, "step": 6340 }, { "epoch": 0.6763733333333334, "grad_norm": 1.9323445055244348, "learning_rate": 2.504489463236993e-06, "loss": 0.4124, "step": 6341 }, { "avg_step_time": 6.122375358234752, "epoch": 0.6763733333333334, "eta_time": 5.159801899134511, "step": 6341 }, { "epoch": 0.67648, "grad_norm": 1.9600547653836673, "learning_rate": 2.5029926773707713e-06, "loss": 0.4624, "step": 6342 }, { "avg_step_time": 6.101575509466306, "epoch": 0.67648, "eta_time": 5.140577366725363, "step": 6342 }, { "epoch": 0.6765866666666667, "grad_norm": 1.830916444687645, "learning_rate": 2.5014961895655628e-06, "loss": 0.4645, "step": 6343 }, { "avg_step_time": 6.054463954887005, "epoch": 0.6765866666666667, "eta_time": 5.099204086449278, "step": 6343 }, { "epoch": 0.6766933333333334, "grad_norm": 1.8163000237995692, "learning_rate": 2.5000000000000015e-06, "loss": 0.5323, "step": 6344 }, { "avg_step_time": 6.06760589281718, "epoch": 0.6766933333333334, "eta_time": 5.108587072535798, "step": 6344 }, { "epoch": 0.6768, "grad_norm": 1.9464680687085654, "learning_rate": 2.49850410885268e-06, "loss": 0.523, "step": 6345 }, { "avg_step_time": 6.066847570014723, "epoch": 0.6768, "eta_time": 5.106263371429058, "step": 6345 }, { "epoch": 0.6769066666666667, "grad_norm": 1.9204901615893784, "learning_rate": 2.497008516302161e-06, "loss": 0.4466, "step": 6346 }, { "avg_step_time": 6.034233878357242, "epoch": 0.6769066666666667, "eta_time": 5.07713733820669, "step": 6346 }, { "epoch": 0.6770133333333334, "grad_norm": 1.9675279615212709, "learning_rate": 2.4955132225269718e-06, "loss": 0.5143, "step": 6347 }, { "avg_step_time": 6.0353438806052155, "epoch": 0.6770133333333334, "eta_time": 5.076394797353498, "step": 6347 }, { "epoch": 0.67712, "grad_norm": 1.7567115312810795, "learning_rate": 2.4940182277055987e-06, "loss": 0.5155, "step": 6348 }, { "avg_step_time": 5.992890495242494, "epoch": 0.67712, "eta_time": 5.039022091416397, "step": 6348 }, { "epoch": 0.6772266666666666, "grad_norm": 1.5835420847774366, "learning_rate": 2.4925235320164935e-06, "loss": 0.4398, "step": 6349 }, { "avg_step_time": 5.954619463043984, "epoch": 0.6772266666666666, "eta_time": 5.005188470880859, "step": 6349 }, { "epoch": 0.6773333333333333, "grad_norm": 1.944686612662998, "learning_rate": 2.491029135638076e-06, "loss": 0.5513, "step": 6350 }, { "avg_step_time": 5.906699077047483, "epoch": 0.6773333333333333, "eta_time": 4.96326797446351, "step": 6350 }, { "epoch": 0.67744, "grad_norm": 1.810902920983931, "learning_rate": 2.4895350387487304e-06, "loss": 0.4806, "step": 6351 }, { "avg_step_time": 5.910351741193521, "epoch": 0.67744, "eta_time": 4.964695462602558, "step": 6351 }, { "epoch": 0.6775466666666666, "grad_norm": 1.6300788677973632, "learning_rate": 2.488041241526799e-06, "loss": 0.5288, "step": 6352 }, { "avg_step_time": 5.90692160827945, "epoch": 0.6775466666666666, "eta_time": 4.960173339396882, "step": 6352 }, { "epoch": 0.6776533333333333, "grad_norm": 0.6477584694570234, "learning_rate": 2.4865477441505963e-06, "loss": 0.4392, "step": 6353 }, { "avg_step_time": 5.808967616822985, "epoch": 0.6776533333333333, "eta_time": 4.8763055938997395, "step": 6353 }, { "epoch": 0.67776, "grad_norm": 1.9689403423313658, "learning_rate": 2.485054546798395e-06, "loss": 0.4491, "step": 6354 }, { "avg_step_time": 5.810578334211099, "epoch": 0.67776, "eta_time": 4.876043652125481, "step": 6354 }, { "epoch": 0.6778666666666666, "grad_norm": 1.8322648877256744, "learning_rate": 2.483561649648432e-06, "loss": 0.4719, "step": 6355 }, { "avg_step_time": 5.780895387283479, "epoch": 0.6778666666666666, "eta_time": 4.84952890822114, "step": 6355 }, { "epoch": 0.6779733333333333, "grad_norm": 1.8187347523092092, "learning_rate": 2.4820690528789126e-06, "loss": 0.5387, "step": 6356 }, { "avg_step_time": 5.7809106123567835, "epoch": 0.6779733333333333, "eta_time": 4.8479358718625365, "step": 6356 }, { "epoch": 0.67808, "grad_norm": 1.9805424115731596, "learning_rate": 2.4805767566680057e-06, "loss": 0.4756, "step": 6357 }, { "avg_step_time": 5.733154867634629, "epoch": 0.67808, "eta_time": 4.806294830700364, "step": 6357 }, { "epoch": 0.6781866666666667, "grad_norm": 1.9374765899327333, "learning_rate": 2.479084761193839e-06, "loss": 0.4949, "step": 6358 }, { "avg_step_time": 5.755866891205913, "epoch": 0.6781866666666667, "eta_time": 4.8237362252134, "step": 6358 }, { "epoch": 0.6782933333333333, "grad_norm": 1.8926618303570002, "learning_rate": 2.477593066634512e-06, "loss": 0.5052, "step": 6359 }, { "avg_step_time": 5.755551709069146, "epoch": 0.6782933333333333, "eta_time": 4.82187332070904, "step": 6359 }, { "epoch": 0.6784, "grad_norm": 1.6304359987712458, "learning_rate": 2.4761016731680792e-06, "loss": 0.3928, "step": 6360 }, { "avg_step_time": 5.794544005634809, "epoch": 0.6784, "eta_time": 4.852930604719153, "step": 6360 }, { "epoch": 0.6785066666666667, "grad_norm": 1.7627558134088759, "learning_rate": 2.4746105809725694e-06, "loss": 0.4884, "step": 6361 }, { "avg_step_time": 5.798013506513653, "epoch": 0.6785066666666667, "eta_time": 4.85422575239782, "step": 6361 }, { "epoch": 0.6786133333333333, "grad_norm": 1.5883004512739511, "learning_rate": 2.4731197902259665e-06, "loss": 0.4623, "step": 6362 }, { "avg_step_time": 5.8018730601879085, "epoch": 0.6786133333333333, "eta_time": 4.855845425096158, "step": 6362 }, { "epoch": 0.67872, "grad_norm": 2.1864672109596097, "learning_rate": 2.4716293011062248e-06, "loss": 0.6101, "step": 6363 }, { "avg_step_time": 5.805400381184588, "epoch": 0.67872, "eta_time": 4.857184985591105, "step": 6363 }, { "epoch": 0.6788266666666667, "grad_norm": 2.176169813700625, "learning_rate": 2.4701391137912573e-06, "loss": 0.5343, "step": 6364 }, { "avg_step_time": 5.803428459649134, "epoch": 0.6788266666666667, "eta_time": 4.853923081112095, "step": 6364 }, { "epoch": 0.6789333333333334, "grad_norm": 0.6712950684066932, "learning_rate": 2.4686492284589447e-06, "loss": 0.4506, "step": 6365 }, { "avg_step_time": 5.770884742640486, "epoch": 0.6789333333333334, "eta_time": 4.825100854263295, "step": 6365 }, { "epoch": 0.67904, "grad_norm": 0.6293622795716218, "learning_rate": 2.467159645287133e-06, "loss": 0.4437, "step": 6366 }, { "avg_step_time": 5.739236258497142, "epoch": 0.67904, "eta_time": 4.797044972727194, "step": 6366 }, { "epoch": 0.6791466666666667, "grad_norm": 0.6382571514772184, "learning_rate": 2.4656703644536277e-06, "loss": 0.4396, "step": 6367 }, { "avg_step_time": 5.70275450716115, "epoch": 0.6791466666666667, "eta_time": 4.764968210427983, "step": 6367 }, { "epoch": 0.6792533333333334, "grad_norm": 1.8375311455090662, "learning_rate": 2.464181386136198e-06, "loss": 0.5759, "step": 6368 }, { "avg_step_time": 5.6743977166185475, "epoch": 0.6792533333333334, "eta_time": 4.7396983149644365, "step": 6368 }, { "epoch": 0.67936, "grad_norm": 2.12067310143055, "learning_rate": 2.4626927105125834e-06, "loss": 0.4185, "step": 6369 }, { "avg_step_time": 5.671454624696211, "epoch": 0.67936, "eta_time": 4.735664611621337, "step": 6369 }, { "epoch": 0.6794666666666667, "grad_norm": 1.8352667498305106, "learning_rate": 2.4612043377604795e-06, "loss": 0.4765, "step": 6370 }, { "avg_step_time": 5.670367245722299, "epoch": 0.6794666666666667, "eta_time": 4.733181548165419, "step": 6370 }, { "epoch": 0.6795733333333334, "grad_norm": 1.412228851718817, "learning_rate": 2.459716268057551e-06, "loss": 0.4362, "step": 6371 }, { "avg_step_time": 5.665905514148751, "epoch": 0.6795733333333334, "eta_time": 4.727883379028569, "step": 6371 }, { "epoch": 0.67968, "grad_norm": 1.938274357703516, "learning_rate": 2.4582285015814263e-06, "loss": 0.4947, "step": 6372 }, { "avg_step_time": 5.665667456809921, "epoch": 0.67968, "eta_time": 4.726110936888942, "step": 6372 }, { "epoch": 0.6797866666666667, "grad_norm": 2.1273363051169496, "learning_rate": 2.456741038509694e-06, "loss": 0.4993, "step": 6373 }, { "avg_step_time": 5.674187453106196, "epoch": 0.6797866666666667, "eta_time": 4.731641870618, "step": 6373 }, { "epoch": 0.6798933333333333, "grad_norm": 1.8567000812954901, "learning_rate": 2.4552538790199075e-06, "loss": 0.6324, "step": 6374 }, { "avg_step_time": 5.656219357191914, "epoch": 0.6798933333333333, "eta_time": 4.715087303036927, "step": 6374 }, { "epoch": 0.68, "grad_norm": 1.6676118679608336, "learning_rate": 2.4537670232895866e-06, "loss": 0.5329, "step": 6375 }, { "avg_step_time": 5.656971685814135, "epoch": 0.68, "eta_time": 4.71414307151178, "step": 6375 }, { "epoch": 0.6801066666666666, "grad_norm": 1.900781491317735, "learning_rate": 2.452280471496215e-06, "loss": 0.4224, "step": 6376 }, { "avg_step_time": 5.65794334267125, "epoch": 0.6801066666666666, "eta_time": 4.713381134630855, "step": 6376 }, { "epoch": 0.6802133333333333, "grad_norm": 1.7324360134943217, "learning_rate": 2.4507942238172346e-06, "loss": 0.4325, "step": 6377 }, { "avg_step_time": 5.6462553631175645, "epoch": 0.6802133333333333, "eta_time": 4.702075994062905, "step": 6377 }, { "epoch": 0.68032, "grad_norm": 1.9081289985357277, "learning_rate": 2.4493082804300585e-06, "loss": 0.479, "step": 6378 }, { "avg_step_time": 5.64525216998476, "epoch": 0.68032, "eta_time": 4.699672431512313, "step": 6378 }, { "epoch": 0.6804266666666666, "grad_norm": 2.192207621348607, "learning_rate": 2.447822641512058e-06, "loss": 0.5035, "step": 6379 }, { "avg_step_time": 5.643682369078048, "epoch": 0.6804266666666666, "eta_time": 4.696797882710509, "step": 6379 }, { "epoch": 0.6805333333333333, "grad_norm": 1.9220283161868081, "learning_rate": 2.4463373072405655e-06, "loss": 0.5021, "step": 6380 }, { "avg_step_time": 5.653230804385561, "epoch": 0.6805333333333333, "eta_time": 4.703173960870765, "step": 6380 }, { "epoch": 0.68064, "grad_norm": 1.5667598510684413, "learning_rate": 2.4448522777928903e-06, "loss": 0.4474, "step": 6381 }, { "avg_step_time": 5.6453767834287705, "epoch": 0.68064, "eta_time": 4.695071691551594, "step": 6381 }, { "epoch": 0.6807466666666667, "grad_norm": 1.7665342515634757, "learning_rate": 2.443367553346291e-06, "loss": 0.5389, "step": 6382 }, { "avg_step_time": 5.644040818166251, "epoch": 0.6807466666666667, "eta_time": 4.692392824658775, "step": 6382 }, { "epoch": 0.6808533333333333, "grad_norm": 1.798352998625687, "learning_rate": 2.4418831340779934e-06, "loss": 0.4539, "step": 6383 }, { "avg_step_time": 5.664999872747094, "epoch": 0.6808533333333333, "eta_time": 4.708244338683141, "step": 6383 }, { "epoch": 0.68096, "grad_norm": 2.22538235687971, "learning_rate": 2.4403990201651915e-06, "loss": 0.5007, "step": 6384 }, { "avg_step_time": 5.6639595826466875, "epoch": 0.68096, "eta_time": 4.705806419915623, "step": 6384 }, { "epoch": 0.6810666666666667, "grad_norm": 1.791971779812789, "learning_rate": 2.438915211785041e-06, "loss": 0.4996, "step": 6385 }, { "avg_step_time": 5.6635220243473245, "epoch": 0.6810666666666667, "eta_time": 4.703869681332917, "step": 6385 }, { "epoch": 0.6811733333333333, "grad_norm": 0.6566698562017537, "learning_rate": 2.4374317091146593e-06, "loss": 0.4428, "step": 6386 }, { "avg_step_time": 5.628909886485398, "epoch": 0.6811733333333333, "eta_time": 4.67355879186246, "step": 6386 }, { "epoch": 0.68128, "grad_norm": 0.6467950335463044, "learning_rate": 2.435948512331125e-06, "loss": 0.427, "step": 6387 }, { "avg_step_time": 5.60334590227917, "epoch": 0.68128, "eta_time": 4.6507770988917105, "step": 6387 }, { "epoch": 0.6813866666666667, "grad_norm": 1.860333799506506, "learning_rate": 2.4344656216114878e-06, "loss": 0.4203, "step": 6388 }, { "avg_step_time": 5.63588065812082, "epoch": 0.6813866666666667, "eta_time": 4.676215423835247, "step": 6388 }, { "epoch": 0.6814933333333333, "grad_norm": 1.9694158936595594, "learning_rate": 2.4329830371327513e-06, "loss": 0.4595, "step": 6389 }, { "avg_step_time": 5.624808908712985, "epoch": 0.6814933333333333, "eta_time": 4.665466500393603, "step": 6389 }, { "epoch": 0.6816, "grad_norm": 1.8919747176854975, "learning_rate": 2.4315007590718913e-06, "loss": 0.4987, "step": 6390 }, { "avg_step_time": 5.663381393509682, "epoch": 0.6816, "eta_time": 4.6958870721184445, "step": 6390 }, { "epoch": 0.6817066666666667, "grad_norm": 2.0812829037044405, "learning_rate": 2.430018787605844e-06, "loss": 0.5362, "step": 6391 }, { "avg_step_time": 5.664004626900259, "epoch": 0.6817066666666667, "eta_time": 4.6948305018528815, "step": 6391 }, { "epoch": 0.6818133333333334, "grad_norm": 1.8967212455742406, "learning_rate": 2.4285371229115073e-06, "loss": 0.571, "step": 6392 }, { "avg_step_time": 5.6632322735256615, "epoch": 0.6818133333333334, "eta_time": 4.692617186646402, "step": 6392 }, { "epoch": 0.68192, "grad_norm": 1.7988890210905029, "learning_rate": 2.427055765165741e-06, "loss": 0.5175, "step": 6393 }, { "avg_step_time": 5.6619989173580905, "epoch": 0.68192, "eta_time": 4.690022436544951, "step": 6393 }, { "epoch": 0.6820266666666667, "grad_norm": 2.0324249008324844, "learning_rate": 2.425574714545373e-06, "loss": 0.4877, "step": 6394 }, { "avg_step_time": 5.671903419976283, "epoch": 0.6820266666666667, "eta_time": 4.696651137485917, "step": 6394 }, { "epoch": 0.6821333333333334, "grad_norm": 1.8457203287295247, "learning_rate": 2.4240939712271933e-06, "loss": 0.4672, "step": 6395 }, { "avg_step_time": 5.672999521698615, "epoch": 0.6821333333333334, "eta_time": 4.695982937406076, "step": 6395 }, { "epoch": 0.68224, "grad_norm": 1.675312889960941, "learning_rate": 2.4226135353879516e-06, "loss": 0.5082, "step": 6396 }, { "avg_step_time": 5.689204430339312, "epoch": 0.68224, "eta_time": 4.7078166661057805, "step": 6396 }, { "epoch": 0.6823466666666667, "grad_norm": 1.9686825360253497, "learning_rate": 2.4211334072043668e-06, "loss": 0.4702, "step": 6397 }, { "avg_step_time": 5.689351496070322, "epoch": 0.6823466666666667, "eta_time": 4.706357987582616, "step": 6397 }, { "epoch": 0.6824533333333334, "grad_norm": 0.6467857647505768, "learning_rate": 2.419653586853116e-06, "loss": 0.4242, "step": 6398 }, { "avg_step_time": 5.690376120384293, "epoch": 0.6824533333333334, "eta_time": 4.705624919551122, "step": 6398 }, { "epoch": 0.68256, "grad_norm": 0.6241466440143556, "learning_rate": 2.4181740745108377e-06, "loss": 0.4285, "step": 6399 }, { "avg_step_time": 5.639988617463545, "epoch": 0.68256, "eta_time": 4.662390590436531, "step": 6399 }, { "epoch": 0.6826666666666666, "grad_norm": 1.7055600130117416, "learning_rate": 2.416694870354145e-06, "loss": 0.4258, "step": 6400 }, { "avg_step_time": 5.649388159164275, "epoch": 0.6826666666666666, "eta_time": 4.668591603753811, "step": 6400 }, { "epoch": 0.6827733333333333, "grad_norm": 1.9048009046222454, "learning_rate": 2.4152159745596015e-06, "loss": 0.5057, "step": 6401 }, { "avg_step_time": 5.64974631926026, "epoch": 0.6827733333333333, "eta_time": 4.667318209300005, "step": 6401 }, { "epoch": 0.68288, "grad_norm": 1.7102577857582706, "learning_rate": 2.413737387303739e-06, "loss": 0.4896, "step": 6402 }, { "avg_step_time": 5.673575651766074, "epoch": 0.68288, "eta_time": 4.685427892416817, "step": 6402 }, { "epoch": 0.6829866666666666, "grad_norm": 0.6652734290078731, "learning_rate": 2.4122591087630548e-06, "loss": 0.4523, "step": 6403 }, { "avg_step_time": 5.698081649915136, "epoch": 0.6829866666666666, "eta_time": 4.7040829620966065, "step": 6403 }, { "epoch": 0.6830933333333333, "grad_norm": 1.96840919638484, "learning_rate": 2.4107811391140036e-06, "loss": 0.4938, "step": 6404 }, { "avg_step_time": 5.733439756162239, "epoch": 0.6830933333333333, "eta_time": 4.731680420988337, "step": 6404 }, { "epoch": 0.6832, "grad_norm": 2.1964956585851207, "learning_rate": 2.4093034785330087e-06, "loss": 0.5059, "step": 6405 }, { "avg_step_time": 5.73262253433767, "epoch": 0.6832, "eta_time": 4.729413590828577, "step": 6405 }, { "epoch": 0.6833066666666666, "grad_norm": 1.6030571029068172, "learning_rate": 2.4078261271964567e-06, "loss": 0.372, "step": 6406 }, { "avg_step_time": 5.722741218528363, "epoch": 0.6833066666666666, "eta_time": 4.719671854947419, "step": 6406 }, { "epoch": 0.6834133333333333, "grad_norm": 1.8799121015498566, "learning_rate": 2.406349085280692e-06, "loss": 0.5323, "step": 6407 }, { "avg_step_time": 5.78633775373902, "epoch": 0.6834133333333333, "eta_time": 4.770514014749281, "step": 6407 }, { "epoch": 0.68352, "grad_norm": 1.9039235219843629, "learning_rate": 2.4048723529620246e-06, "loss": 0.4583, "step": 6408 }, { "avg_step_time": 5.789087562850027, "epoch": 0.68352, "eta_time": 4.7711729997155645, "step": 6408 }, { "epoch": 0.6836266666666667, "grad_norm": 1.7006886354235133, "learning_rate": 2.4033959304167288e-06, "loss": 0.41, "step": 6409 }, { "avg_step_time": 5.775042271373247, "epoch": 0.6836266666666667, "eta_time": 4.75799316024807, "step": 6409 }, { "epoch": 0.6837333333333333, "grad_norm": 0.6498422759280054, "learning_rate": 2.4019198178210435e-06, "loss": 0.4359, "step": 6410 }, { "avg_step_time": 5.744496256414086, "epoch": 0.6837333333333333, "eta_time": 4.731230944518824, "step": 6410 }, { "epoch": 0.68384, "grad_norm": 2.0950533977982957, "learning_rate": 2.4004440153511642e-06, "loss": 0.5378, "step": 6411 }, { "avg_step_time": 5.77721700283012, "epoch": 0.68384, "eta_time": 4.756575332330133, "step": 6411 }, { "epoch": 0.6839466666666667, "grad_norm": 0.6580262721777123, "learning_rate": 2.398968523183258e-06, "loss": 0.4519, "step": 6412 }, { "avg_step_time": 5.722851673762004, "epoch": 0.6839466666666667, "eta_time": 4.710224863710227, "step": 6412 }, { "epoch": 0.6840533333333333, "grad_norm": 1.6597071132441592, "learning_rate": 2.397493341493448e-06, "loss": 0.4386, "step": 6413 }, { "avg_step_time": 5.757908715142144, "epoch": 0.6840533333333333, "eta_time": 4.737479337291953, "step": 6413 }, { "epoch": 0.68416, "grad_norm": 1.598031043753734, "learning_rate": 2.396018470457821e-06, "loss": 0.3438, "step": 6414 }, { "avg_step_time": 5.788732892335063, "epoch": 0.68416, "eta_time": 4.761232803945589, "step": 6414 }, { "epoch": 0.6842666666666667, "grad_norm": 2.0453000891334834, "learning_rate": 2.3945439102524306e-06, "loss": 0.5398, "step": 6415 }, { "avg_step_time": 5.802670223544342, "epoch": 0.6842666666666667, "eta_time": 4.771084406025348, "step": 6415 }, { "epoch": 0.6843733333333333, "grad_norm": 0.6438924371608267, "learning_rate": 2.3930696610532915e-06, "loss": 0.4618, "step": 6416 }, { "avg_step_time": 5.768297643372507, "epoch": 0.6843733333333333, "eta_time": 4.741220201872013, "step": 6416 }, { "epoch": 0.68448, "grad_norm": 1.9963058384519532, "learning_rate": 2.3915957230363783e-06, "loss": 0.4191, "step": 6417 }, { "avg_step_time": 5.769946050162267, "epoch": 0.68448, "eta_time": 4.7409723378833295, "step": 6417 }, { "epoch": 0.6845866666666667, "grad_norm": 1.7749200823155054, "learning_rate": 2.3901220963776343e-06, "loss": 0.5356, "step": 6418 }, { "avg_step_time": 5.832782687562885, "epoch": 0.6845866666666667, "eta_time": 4.7909828908676255, "step": 6418 }, { "epoch": 0.6846933333333334, "grad_norm": 2.125979873003792, "learning_rate": 2.388648781252959e-06, "loss": 0.5132, "step": 6419 }, { "avg_step_time": 5.827829406719015, "epoch": 0.6846933333333334, "eta_time": 4.785295479517059, "step": 6419 }, { "epoch": 0.6848, "grad_norm": 1.893358869232077, "learning_rate": 2.3871757778382216e-06, "loss": 0.5212, "step": 6420 }, { "avg_step_time": 5.806547877764461, "epoch": 0.6848, "eta_time": 4.7662080496649954, "step": 6420 }, { "epoch": 0.6849066666666667, "grad_norm": 1.7686281248850684, "learning_rate": 2.385703086309247e-06, "loss": 0.5353, "step": 6421 }, { "avg_step_time": 5.796750952499082, "epoch": 0.6849066666666667, "eta_time": 4.75655619824508, "step": 6421 }, { "epoch": 0.6850133333333334, "grad_norm": 0.6166411099194234, "learning_rate": 2.384230706841829e-06, "loss": 0.4404, "step": 6422 }, { "avg_step_time": 5.761655535360779, "epoch": 0.6850133333333334, "eta_time": 4.726157998866772, "step": 6422 }, { "epoch": 0.68512, "grad_norm": 1.9200448086769926, "learning_rate": 2.3827586396117207e-06, "loss": 0.462, "step": 6423 }, { "avg_step_time": 5.770246366057733, "epoch": 0.68512, "eta_time": 4.731602020167341, "step": 6423 }, { "epoch": 0.6852266666666667, "grad_norm": 2.2375382499096275, "learning_rate": 2.3812868847946357e-06, "loss": 0.5209, "step": 6424 }, { "avg_step_time": 5.767636402688845, "epoch": 0.6852266666666667, "eta_time": 4.727859728981884, "step": 6424 }, { "epoch": 0.6853333333333333, "grad_norm": 1.5887441265470679, "learning_rate": 2.3798154425662597e-06, "loss": 0.4384, "step": 6425 }, { "avg_step_time": 5.7683612529677575, "epoch": 0.6853333333333333, "eta_time": 4.7268515822930235, "step": 6425 }, { "epoch": 0.68544, "grad_norm": 1.8043683828544594, "learning_rate": 2.378344313102231e-06, "loss": 0.5421, "step": 6426 }, { "avg_step_time": 5.802188049663197, "epoch": 0.68544, "eta_time": 4.7529590440157685, "step": 6426 }, { "epoch": 0.6855466666666666, "grad_norm": 1.6327366783629296, "learning_rate": 2.376873496578153e-06, "loss": 0.4109, "step": 6427 }, { "avg_step_time": 5.805264964248195, "epoch": 0.6855466666666666, "eta_time": 4.7538669762787995, "step": 6427 }, { "epoch": 0.6856533333333333, "grad_norm": 1.7446883487955385, "learning_rate": 2.3754029931695954e-06, "loss": 0.3713, "step": 6428 }, { "avg_step_time": 5.80495562457075, "epoch": 0.6856533333333333, "eta_time": 4.752001173780555, "step": 6428 }, { "epoch": 0.68576, "grad_norm": 2.0757297842798303, "learning_rate": 2.373932803052089e-06, "loss": 0.5049, "step": 6429 }, { "avg_step_time": 5.807926081647777, "epoch": 0.68576, "eta_time": 4.752819510148431, "step": 6429 }, { "epoch": 0.6858666666666666, "grad_norm": 1.6537487374183288, "learning_rate": 2.372462926401124e-06, "loss": 0.4299, "step": 6430 }, { "avg_step_time": 5.8089615624360365, "epoch": 0.6858666666666666, "eta_time": 4.7520532781594795, "step": 6430 }, { "epoch": 0.6859733333333333, "grad_norm": 1.8360400613955405, "learning_rate": 2.3709933633921576e-06, "loss": 0.4622, "step": 6431 }, { "avg_step_time": 5.819474562250003, "epoch": 0.6859733333333333, "eta_time": 4.759036975351114, "step": 6431 }, { "epoch": 0.68608, "grad_norm": 0.6527780821206771, "learning_rate": 2.369524114200607e-06, "loss": 0.4634, "step": 6432 }, { "avg_step_time": 5.784038242667612, "epoch": 0.68608, "eta_time": 4.728451263380773, "step": 6432 }, { "epoch": 0.6861866666666666, "grad_norm": 0.6329418268653499, "learning_rate": 2.3680551790018507e-06, "loss": 0.4481, "step": 6433 }, { "avg_step_time": 5.748810411703707, "epoch": 0.6861866666666666, "eta_time": 4.698055619786753, "step": 6433 }, { "epoch": 0.6862933333333333, "grad_norm": 2.024622264961072, "learning_rate": 2.3665865579712327e-06, "loss": 0.5355, "step": 6434 }, { "avg_step_time": 5.7785197339876735, "epoch": 0.6862933333333333, "eta_time": 4.720729593793819, "step": 6434 }, { "epoch": 0.6864, "grad_norm": 2.0243010003289976, "learning_rate": 2.3651182512840604e-06, "loss": 0.4464, "step": 6435 }, { "avg_step_time": 5.815505504608154, "epoch": 0.6864, "eta_time": 4.7493294954299925, "step": 6435 }, { "epoch": 0.6865066666666667, "grad_norm": 1.8823075035624286, "learning_rate": 2.363650259115598e-06, "loss": 0.4059, "step": 6436 }, { "avg_step_time": 5.814601751288983, "epoch": 0.6865066666666667, "eta_time": 4.7469762630662, "step": 6436 }, { "epoch": 0.6866133333333333, "grad_norm": 1.7916813888308665, "learning_rate": 2.3621825816410797e-06, "loss": 0.5433, "step": 6437 }, { "avg_step_time": 5.7837708502104785, "epoch": 0.6866133333333333, "eta_time": 4.720199654977329, "step": 6437 }, { "epoch": 0.68672, "grad_norm": 1.9990815673017206, "learning_rate": 2.360715219035694e-06, "loss": 0.5058, "step": 6438 }, { "avg_step_time": 5.782872089231857, "epoch": 0.68672, "eta_time": 4.717859812798324, "step": 6438 }, { "epoch": 0.6868266666666667, "grad_norm": 1.9350756646038278, "learning_rate": 2.3592481714745995e-06, "loss": 0.5596, "step": 6439 }, { "avg_step_time": 5.780354225274288, "epoch": 0.6868266666666667, "eta_time": 4.714200001501475, "step": 6439 }, { "epoch": 0.6869333333333333, "grad_norm": 1.8700815499640484, "learning_rate": 2.357781439132911e-06, "loss": 0.5077, "step": 6440 }, { "avg_step_time": 5.78269163285843, "epoch": 0.6869333333333333, "eta_time": 4.7144999840109705, "step": 6440 }, { "epoch": 0.68704, "grad_norm": 2.1945645104995006, "learning_rate": 2.356315022185712e-06, "loss": 0.477, "step": 6441 }, { "avg_step_time": 5.786958443998087, "epoch": 0.68704, "eta_time": 4.716371131858441, "step": 6441 }, { "epoch": 0.6871466666666667, "grad_norm": 0.6564646084357962, "learning_rate": 2.3548489208080392e-06, "loss": 0.4133, "step": 6442 }, { "avg_step_time": 5.754424957313923, "epoch": 0.6871466666666667, "eta_time": 4.688257888833815, "step": 6442 }, { "epoch": 0.6872533333333334, "grad_norm": 1.6422523931546327, "learning_rate": 2.353383135174901e-06, "loss": 0.5015, "step": 6443 }, { "avg_step_time": 5.739462057749431, "epoch": 0.6872533333333334, "eta_time": 4.674472987033703, "step": 6443 }, { "epoch": 0.68736, "grad_norm": 1.8133970262051995, "learning_rate": 2.3519176654612657e-06, "loss": 0.4517, "step": 6444 }, { "avg_step_time": 5.738196288696443, "epoch": 0.68736, "eta_time": 4.67184814504702, "step": 6444 }, { "epoch": 0.6874666666666667, "grad_norm": 1.8027114568771365, "learning_rate": 2.35045251184206e-06, "loss": 0.4107, "step": 6445 }, { "avg_step_time": 5.74292565837051, "epoch": 0.6874666666666667, "eta_time": 4.674103383062665, "step": 6445 }, { "epoch": 0.6875733333333334, "grad_norm": 2.119557568204543, "learning_rate": 2.3489876744921743e-06, "loss": 0.4509, "step": 6446 }, { "avg_step_time": 5.7429738213317565, "epoch": 0.6875733333333334, "eta_time": 4.672547311855754, "step": 6446 }, { "epoch": 0.68768, "grad_norm": 1.7465494227110732, "learning_rate": 2.3475231535864653e-06, "loss": 0.523, "step": 6447 }, { "avg_step_time": 5.741416146056821, "epoch": 0.68768, "eta_time": 4.669685132126215, "step": 6447 }, { "epoch": 0.6877866666666667, "grad_norm": 1.750209383127939, "learning_rate": 2.346058949299745e-06, "loss": 0.5193, "step": 6448 }, { "avg_step_time": 5.737112093453455, "epoch": 0.6877866666666667, "eta_time": 4.664590860427295, "step": 6448 }, { "epoch": 0.6878933333333334, "grad_norm": 1.8213939277638016, "learning_rate": 2.3445950618067935e-06, "loss": 0.4371, "step": 6449 }, { "avg_step_time": 5.735820835286921, "epoch": 0.6878933333333334, "eta_time": 4.661947712235981, "step": 6449 }, { "epoch": 0.688, "grad_norm": 1.9466224293534593, "learning_rate": 2.3431314912823543e-06, "loss": 0.4449, "step": 6450 }, { "avg_step_time": 5.730865355693933, "epoch": 0.688, "eta_time": 4.6563281015013205, "step": 6450 }, { "epoch": 0.6881066666666666, "grad_norm": 1.9336338961420096, "learning_rate": 2.3416682379011264e-06, "loss": 0.4733, "step": 6451 }, { "avg_step_time": 5.732226410297432, "epoch": 0.6881066666666666, "eta_time": 4.655841673252692, "step": 6451 }, { "epoch": 0.6882133333333333, "grad_norm": 2.006086035730382, "learning_rate": 2.340205301837773e-06, "loss": 0.5585, "step": 6452 }, { "avg_step_time": 5.7689725485715, "epoch": 0.6882133333333333, "eta_time": 4.684085210965137, "step": 6452 }, { "epoch": 0.68832, "grad_norm": 2.27763072002771, "learning_rate": 2.338742683266923e-06, "loss": 0.5634, "step": 6453 }, { "avg_step_time": 5.765752122859762, "epoch": 0.68832, "eta_time": 4.679868806387841, "step": 6453 }, { "epoch": 0.6884266666666666, "grad_norm": 1.7474246343112148, "learning_rate": 2.337280382363166e-06, "loss": 0.4742, "step": 6454 }, { "avg_step_time": 5.765634630665635, "epoch": 0.6884266666666666, "eta_time": 4.678171876715089, "step": 6454 }, { "epoch": 0.6885333333333333, "grad_norm": 1.9291297806682492, "learning_rate": 2.3358183993010513e-06, "loss": 0.5179, "step": 6455 }, { "avg_step_time": 5.713300921700218, "epoch": 0.6885333333333333, "eta_time": 4.6341218587123985, "step": 6455 }, { "epoch": 0.68864, "grad_norm": 1.8256056990792073, "learning_rate": 2.3343567342550933e-06, "loss": 0.3931, "step": 6456 }, { "avg_step_time": 5.71004647919626, "epoch": 0.68864, "eta_time": 4.629896020214968, "step": 6456 }, { "epoch": 0.6887466666666666, "grad_norm": 1.9835808879754275, "learning_rate": 2.3328953873997666e-06, "loss": 0.5592, "step": 6457 }, { "avg_step_time": 5.692354809154164, "epoch": 0.6887466666666666, "eta_time": 4.6139698147532915, "step": 6457 }, { "epoch": 0.6888533333333333, "grad_norm": 1.7026732504219106, "learning_rate": 2.331434358909504e-06, "loss": 0.466, "step": 6458 }, { "avg_step_time": 5.691455614687216, "epoch": 0.6888533333333333, "eta_time": 4.611660007789614, "step": 6458 }, { "epoch": 0.68896, "grad_norm": 2.1528978221895945, "learning_rate": 2.329973648958712e-06, "loss": 0.5061, "step": 6459 }, { "avg_step_time": 5.653238335041085, "epoch": 0.68896, "eta_time": 4.579123051383278, "step": 6459 }, { "epoch": 0.6890666666666667, "grad_norm": 1.6771956076106276, "learning_rate": 2.328513257721748e-06, "loss": 0.4189, "step": 6460 }, { "avg_step_time": 5.6496529868154814, "epoch": 0.6890666666666667, "eta_time": 4.574649571268647, "step": 6460 }, { "epoch": 0.6891733333333333, "grad_norm": 1.8436109647476608, "learning_rate": 2.327053185372933e-06, "loss": 0.4959, "step": 6461 }, { "avg_step_time": 5.636849518978234, "epoch": 0.6891733333333333, "eta_time": 4.562716527306271, "step": 6461 }, { "epoch": 0.68928, "grad_norm": 1.9876323828246942, "learning_rate": 2.3255934320865555e-06, "loss": 0.5766, "step": 6462 }, { "avg_step_time": 5.635980160549433, "epoch": 0.68928, "eta_time": 4.56044727991125, "step": 6462 }, { "epoch": 0.6893866666666667, "grad_norm": 1.7662550644735497, "learning_rate": 2.3241339980368584e-06, "loss": 0.4273, "step": 6463 }, { "avg_step_time": 5.64204132195675, "epoch": 0.6893866666666667, "eta_time": 4.563784535982793, "step": 6463 }, { "epoch": 0.6894933333333333, "grad_norm": 1.7429873440561447, "learning_rate": 2.322674883398053e-06, "loss": 0.4511, "step": 6464 }, { "avg_step_time": 5.693917276883366, "epoch": 0.6894933333333333, "eta_time": 4.604164775835411, "step": 6464 }, { "epoch": 0.6896, "grad_norm": 1.9738037480311912, "learning_rate": 2.3212160883443107e-06, "loss": 0.5099, "step": 6465 }, { "avg_step_time": 5.735164731439918, "epoch": 0.6896, "eta_time": 4.6359248245806, "step": 6465 }, { "epoch": 0.6897066666666667, "grad_norm": 1.832759413209211, "learning_rate": 2.319757613049763e-06, "loss": 0.5067, "step": 6466 }, { "avg_step_time": 5.777426093515723, "epoch": 0.6897066666666667, "eta_time": 4.668481251677011, "step": 6466 }, { "epoch": 0.6898133333333333, "grad_norm": 1.877313778763918, "learning_rate": 2.318299457688502e-06, "loss": 0.463, "step": 6467 }, { "avg_step_time": 5.776795994151723, "epoch": 0.6898133333333333, "eta_time": 4.666367430831447, "step": 6467 }, { "epoch": 0.68992, "grad_norm": 2.1369723215197163, "learning_rate": 2.316841622434585e-06, "loss": 0.5814, "step": 6468 }, { "avg_step_time": 5.778885976232663, "epoch": 0.68992, "eta_time": 4.666450425807875, "step": 6468 }, { "epoch": 0.6900266666666667, "grad_norm": 1.878532243557994, "learning_rate": 2.315384107462033e-06, "loss": 0.4887, "step": 6469 }, { "avg_step_time": 5.777588184433754, "epoch": 0.6900266666666667, "eta_time": 4.663797573323469, "step": 6469 }, { "epoch": 0.6901333333333334, "grad_norm": 1.7201921204360204, "learning_rate": 2.313926912944821e-06, "loss": 0.4433, "step": 6470 }, { "avg_step_time": 5.782463745637373, "epoch": 0.6901333333333334, "eta_time": 4.666126994743491, "step": 6470 }, { "epoch": 0.69024, "grad_norm": 0.6567795510523349, "learning_rate": 2.3124700390568945e-06, "loss": 0.4341, "step": 6471 }, { "avg_step_time": 5.747218408969918, "epoch": 0.69024, "eta_time": 4.636089516569067, "step": 6471 }, { "epoch": 0.6903466666666667, "grad_norm": 1.9730545265412893, "learning_rate": 2.311013485972152e-06, "loss": 0.4377, "step": 6472 }, { "avg_step_time": 5.86310143181772, "epoch": 0.6903466666666667, "eta_time": 4.7279398490463445, "step": 6472 }, { "epoch": 0.6904533333333334, "grad_norm": 1.5933966184341217, "learning_rate": 2.309557253864463e-06, "loss": 0.5309, "step": 6473 }, { "avg_step_time": 5.859336920458861, "epoch": 0.6904533333333334, "eta_time": 4.723276595325448, "step": 6473 }, { "epoch": 0.69056, "grad_norm": 1.577948547050819, "learning_rate": 2.30810134290765e-06, "loss": 0.4188, "step": 6474 }, { "avg_step_time": 5.857640781787911, "epoch": 0.69056, "eta_time": 4.720282196657425, "step": 6474 }, { "epoch": 0.6906666666666667, "grad_norm": 2.1695579573907597, "learning_rate": 2.306645753275504e-06, "loss": 0.5579, "step": 6475 }, { "avg_step_time": 5.856255637274848, "epoch": 0.6906666666666667, "eta_time": 4.717539263360294, "step": 6475 }, { "epoch": 0.6907733333333334, "grad_norm": 1.8323120232985637, "learning_rate": 2.305190485141775e-06, "loss": 0.4475, "step": 6476 }, { "avg_step_time": 5.85204318075469, "epoch": 0.6907733333333334, "eta_time": 4.712520328057735, "step": 6476 }, { "epoch": 0.69088, "grad_norm": 0.6643643699473306, "learning_rate": 2.3037355386801683e-06, "loss": 0.4442, "step": 6477 }, { "avg_step_time": 5.816831111907959, "epoch": 0.69088, "eta_time": 4.682549045085907, "step": 6477 }, { "epoch": 0.6909866666666666, "grad_norm": 1.921724725964239, "learning_rate": 2.3022809140643664e-06, "loss": 0.4678, "step": 6478 }, { "avg_step_time": 5.817936979158961, "epoch": 0.6909866666666666, "eta_time": 4.681823174617641, "step": 6478 }, { "epoch": 0.6910933333333333, "grad_norm": 1.632658383690424, "learning_rate": 2.300826611467999e-06, "loss": 0.4857, "step": 6479 }, { "avg_step_time": 5.808156579431861, "epoch": 0.6910933333333333, "eta_time": 4.672339292787409, "step": 6479 }, { "epoch": 0.6912, "grad_norm": 0.6755446057798303, "learning_rate": 2.2993726310646603e-06, "loss": 0.4375, "step": 6480 }, { "avg_step_time": 5.746505465170349, "epoch": 0.6912, "eta_time": 4.621148144907822, "step": 6480 }, { "epoch": 0.6913066666666666, "grad_norm": 1.7705679988656093, "learning_rate": 2.297918973027913e-06, "loss": 0.5311, "step": 6481 }, { "avg_step_time": 5.751905573738946, "epoch": 0.6913066666666666, "eta_time": 4.623892980666809, "step": 6481 }, { "epoch": 0.6914133333333333, "grad_norm": 1.9720171775902229, "learning_rate": 2.296465637531271e-06, "loss": 0.4338, "step": 6482 }, { "avg_step_time": 5.728874507576529, "epoch": 0.6914133333333333, "eta_time": 4.603787208449694, "step": 6482 }, { "epoch": 0.69152, "grad_norm": 1.8808696910846554, "learning_rate": 2.2950126247482178e-06, "loss": 0.479, "step": 6483 }, { "avg_step_time": 5.7308488614631425, "epoch": 0.69152, "eta_time": 4.603781918708725, "step": 6483 }, { "epoch": 0.6916266666666666, "grad_norm": 1.8647890202529747, "learning_rate": 2.2935599348521974e-06, "loss": 0.5738, "step": 6484 }, { "avg_step_time": 5.732087091966108, "epoch": 0.6916266666666666, "eta_time": 4.603184384131672, "step": 6484 }, { "epoch": 0.6917333333333333, "grad_norm": 1.7605279217926597, "learning_rate": 2.2921075680166116e-06, "loss": 0.3504, "step": 6485 }, { "avg_step_time": 5.771471526887682, "epoch": 0.6917333333333333, "eta_time": 4.633209086862611, "step": 6485 }, { "epoch": 0.69184, "grad_norm": 0.6559639622116038, "learning_rate": 2.2906555244148233e-06, "loss": 0.4579, "step": 6486 }, { "avg_step_time": 5.764735506038473, "epoch": 0.69184, "eta_time": 4.626200243595875, "step": 6486 }, { "epoch": 0.6919466666666667, "grad_norm": 1.5758473379847489, "learning_rate": 2.2892038042201615e-06, "loss": 0.4189, "step": 6487 }, { "avg_step_time": 5.764718725223734, "epoch": 0.6919466666666667, "eta_time": 4.62458546623504, "step": 6487 }, { "epoch": 0.6920533333333333, "grad_norm": 2.008525087437119, "learning_rate": 2.2877524076059155e-06, "loss": 0.4722, "step": 6488 }, { "avg_step_time": 5.7558965971975615, "epoch": 0.6920533333333333, "eta_time": 4.6159092989192665, "step": 6488 }, { "epoch": 0.69216, "grad_norm": 1.764086419020775, "learning_rate": 2.2863013347453305e-06, "loss": 0.3741, "step": 6489 }, { "avg_step_time": 5.7513284635062165, "epoch": 0.69216, "eta_time": 4.61064831824415, "step": 6489 }, { "epoch": 0.6922666666666667, "grad_norm": 0.6403627640166438, "learning_rate": 2.2848505858116216e-06, "loss": 0.4263, "step": 6490 }, { "avg_step_time": 5.713259684919107, "epoch": 0.6922666666666667, "eta_time": 4.578542830831007, "step": 6490 }, { "epoch": 0.6923733333333333, "grad_norm": 2.074714818613465, "learning_rate": 2.283400160977959e-06, "loss": 0.4974, "step": 6491 }, { "avg_step_time": 5.716462376141789, "epoch": 0.6923733333333333, "eta_time": 4.579521525775811, "step": 6491 }, { "epoch": 0.69248, "grad_norm": 2.499075279962371, "learning_rate": 2.2819500604174733e-06, "loss": 0.4865, "step": 6492 }, { "avg_step_time": 5.7204399060721345, "epoch": 0.69248, "eta_time": 4.581118958112768, "step": 6492 }, { "epoch": 0.6925866666666667, "grad_norm": 2.143513699134013, "learning_rate": 2.280500284303262e-06, "loss": 0.4658, "step": 6493 }, { "avg_step_time": 5.707384309383354, "epoch": 0.6925866666666667, "eta_time": 4.569078216567452, "step": 6493 }, { "epoch": 0.6926933333333334, "grad_norm": 1.7374835113123837, "learning_rate": 2.2790508328083823e-06, "loss": 0.43, "step": 6494 }, { "avg_step_time": 5.705347215286409, "epoch": 0.6926933333333334, "eta_time": 4.56586259090004, "step": 6494 }, { "epoch": 0.6928, "grad_norm": 1.838308025567713, "learning_rate": 2.277601706105847e-06, "loss": 0.4565, "step": 6495 }, { "avg_step_time": 5.657850441306528, "epoch": 0.6928, "eta_time": 4.526280353045222, "step": 6495 }, { "epoch": 0.6929066666666667, "grad_norm": 1.7814917550303526, "learning_rate": 2.2761529043686386e-06, "loss": 0.4944, "step": 6496 }, { "avg_step_time": 5.662687128240412, "epoch": 0.6929066666666667, "eta_time": 4.528576733945597, "step": 6496 }, { "epoch": 0.6930133333333334, "grad_norm": 1.7979768131159353, "learning_rate": 2.2747044277696934e-06, "loss": 0.5003, "step": 6497 }, { "avg_step_time": 5.697440821715076, "epoch": 0.6930133333333334, "eta_time": 4.554787412471108, "step": 6497 }, { "epoch": 0.69312, "grad_norm": 2.3660336937180513, "learning_rate": 2.2732562764819157e-06, "loss": 0.5502, "step": 6498 }, { "avg_step_time": 5.729865570261021, "epoch": 0.69312, "eta_time": 4.579117568233599, "step": 6498 }, { "epoch": 0.6932266666666667, "grad_norm": 1.8741150590956681, "learning_rate": 2.271808450678163e-06, "loss": 0.4775, "step": 6499 }, { "avg_step_time": 5.746481982144442, "epoch": 0.6932266666666667, "eta_time": 4.590800605735393, "step": 6499 }, { "epoch": 0.6933333333333334, "grad_norm": 1.6989177643775613, "learning_rate": 2.2703609505312628e-06, "loss": 0.46, "step": 6500 }, { "avg_step_time": 5.745787772265348, "epoch": 0.6933333333333334, "eta_time": 4.5886499570174655, "step": 6500 }, { "epoch": 0.69344, "grad_norm": 1.8342854643806652, "learning_rate": 2.2689137762139952e-06, "loss": 0.4913, "step": 6501 }, { "avg_step_time": 5.719196155817822, "epoch": 0.69344, "eta_time": 4.565824931061227, "step": 6501 }, { "epoch": 0.6935466666666666, "grad_norm": 1.9003811003165862, "learning_rate": 2.2674669278991076e-06, "loss": 0.436, "step": 6502 }, { "avg_step_time": 5.728447557699801, "epoch": 0.6935466666666666, "eta_time": 4.57161939813098, "step": 6502 }, { "epoch": 0.6936533333333333, "grad_norm": 1.5033546542239762, "learning_rate": 2.2660204057593076e-06, "loss": 0.3691, "step": 6503 }, { "avg_step_time": 5.728152484604807, "epoch": 0.6936533333333333, "eta_time": 4.569792759940279, "step": 6503 }, { "epoch": 0.69376, "grad_norm": 1.9191487771430278, "learning_rate": 2.264574209967262e-06, "loss": 0.5469, "step": 6504 }, { "avg_step_time": 5.729060897923479, "epoch": 0.69376, "eta_time": 4.568926066093975, "step": 6504 }, { "epoch": 0.6938666666666666, "grad_norm": 2.0126113552916354, "learning_rate": 2.263128340695596e-06, "loss": 0.4885, "step": 6505 }, { "avg_step_time": 5.731899129019843, "epoch": 0.6938666666666666, "eta_time": 4.569597361190819, "step": 6505 }, { "epoch": 0.6939733333333333, "grad_norm": 2.005895741705384, "learning_rate": 2.2616827981169036e-06, "loss": 0.4899, "step": 6506 }, { "avg_step_time": 5.671274635526869, "epoch": 0.6939733333333333, "eta_time": 4.51969081370183, "step": 6506 }, { "epoch": 0.69408, "grad_norm": 1.7520544822360022, "learning_rate": 2.260237582403732e-06, "loss": 0.5144, "step": 6507 }, { "avg_step_time": 5.674554559919569, "epoch": 0.69408, "eta_time": 4.520728466069256, "step": 6507 }, { "epoch": 0.6941866666666666, "grad_norm": 2.091456573534621, "learning_rate": 2.2587926937285935e-06, "loss": 0.5303, "step": 6508 }, { "avg_step_time": 5.669934200518059, "epoch": 0.6941866666666666, "eta_time": 4.515472598023687, "step": 6508 }, { "epoch": 0.6942933333333333, "grad_norm": 2.162185161176266, "learning_rate": 2.2573481322639635e-06, "loss": 0.496, "step": 6509 }, { "avg_step_time": 5.716932400308474, "epoch": 0.6942933333333333, "eta_time": 4.551313405356691, "step": 6509 }, { "epoch": 0.6944, "grad_norm": 1.9381546817616915, "learning_rate": 2.2559038981822724e-06, "loss": 0.4832, "step": 6510 }, { "avg_step_time": 5.685585657755534, "epoch": 0.6944, "eta_time": 4.524778585963779, "step": 6510 }, { "epoch": 0.6945066666666667, "grad_norm": 1.6585962228943336, "learning_rate": 2.2544599916559135e-06, "loss": 0.4768, "step": 6511 }, { "avg_step_time": 5.723484395730375, "epoch": 0.6945066666666667, "eta_time": 4.553349808158832, "step": 6511 }, { "epoch": 0.6946133333333333, "grad_norm": 1.5803326017247266, "learning_rate": 2.253016412857244e-06, "loss": 0.3858, "step": 6512 }, { "avg_step_time": 5.6845443417327575, "epoch": 0.6946133333333333, "eta_time": 4.520791791772468, "step": 6512 }, { "epoch": 0.69472, "grad_norm": 1.537576274158537, "learning_rate": 2.2515731619585814e-06, "loss": 0.396, "step": 6513 }, { "avg_step_time": 5.688615938629767, "epoch": 0.69472, "eta_time": 4.522449671210665, "step": 6513 }, { "epoch": 0.6948266666666667, "grad_norm": 1.9351012497341968, "learning_rate": 2.2501302391321985e-06, "loss": 0.5167, "step": 6514 }, { "avg_step_time": 5.675404100707083, "epoch": 0.6948266666666667, "eta_time": 4.510369758923046, "step": 6514 }, { "epoch": 0.6949333333333333, "grad_norm": 2.0602432274160845, "learning_rate": 2.2486876445503375e-06, "loss": 0.5187, "step": 6515 }, { "avg_step_time": 5.708898387774073, "epoch": 0.6949333333333333, "eta_time": 4.535402608064958, "step": 6515 }, { "epoch": 0.69504, "grad_norm": 2.439972814410065, "learning_rate": 2.247245378385195e-06, "loss": 0.4831, "step": 6516 }, { "avg_step_time": 5.710115512212117, "epoch": 0.69504, "eta_time": 4.5347834026151235, "step": 6516 }, { "epoch": 0.6951466666666667, "grad_norm": 4.378123421311369, "learning_rate": 2.245803440808927e-06, "loss": 0.5202, "step": 6517 }, { "avg_step_time": 5.64169331271239, "epoch": 0.6951466666666667, "eta_time": 4.478877635481114, "step": 6517 }, { "epoch": 0.6952533333333333, "grad_norm": 2.2831553638285493, "learning_rate": 2.2443618319936605e-06, "loss": 0.4921, "step": 6518 }, { "avg_step_time": 5.680157396528456, "epoch": 0.6952533333333333, "eta_time": 4.507836022744944, "step": 6518 }, { "epoch": 0.69536, "grad_norm": 0.656268240142034, "learning_rate": 2.242920552111473e-06, "loss": 0.4237, "step": 6519 }, { "avg_step_time": 5.644938201615305, "epoch": 0.69536, "eta_time": 4.478317639948142, "step": 6519 }, { "epoch": 0.6954666666666667, "grad_norm": 2.0621930391630654, "learning_rate": 2.2414796013344053e-06, "loss": 0.4923, "step": 6520 }, { "avg_step_time": 5.664706088075734, "epoch": 0.6954666666666667, "eta_time": 4.492426633737839, "step": 6520 }, { "epoch": 0.6955733333333334, "grad_norm": 1.8099381865076791, "learning_rate": 2.2400389798344602e-06, "loss": 0.4902, "step": 6521 }, { "avg_step_time": 5.6979283756679955, "epoch": 0.6955733333333334, "eta_time": 4.517190995599016, "step": 6521 }, { "epoch": 0.69568, "grad_norm": 1.7962999437661504, "learning_rate": 2.238598687783603e-06, "loss": 0.4827, "step": 6522 }, { "avg_step_time": 5.721072933890603, "epoch": 0.69568, "eta_time": 4.533950300108303, "step": 6522 }, { "epoch": 0.6957866666666667, "grad_norm": 0.6637456280027089, "learning_rate": 2.2371587253537536e-06, "loss": 0.4552, "step": 6523 }, { "avg_step_time": 5.686807772125861, "epoch": 0.6957866666666667, "eta_time": 4.505215490584154, "step": 6523 }, { "epoch": 0.6958933333333334, "grad_norm": 2.1210442076139766, "learning_rate": 2.235719092716801e-06, "loss": 0.5308, "step": 6524 }, { "avg_step_time": 5.684900584847036, "epoch": 0.6958933333333334, "eta_time": 4.502125435388583, "step": 6524 }, { "epoch": 0.696, "grad_norm": 1.7293634378908405, "learning_rate": 2.234279790044588e-06, "loss": 0.4257, "step": 6525 }, { "avg_step_time": 5.68572490865534, "epoch": 0.696, "eta_time": 4.501198886018811, "step": 6525 }, { "epoch": 0.6961066666666667, "grad_norm": 1.847971906973162, "learning_rate": 2.232840817508918e-06, "loss": 0.4785, "step": 6526 }, { "avg_step_time": 5.687829742527971, "epoch": 0.6961066666666667, "eta_time": 4.501285260128387, "step": 6526 }, { "epoch": 0.6962133333333334, "grad_norm": 2.0806085629012467, "learning_rate": 2.2314021752815596e-06, "loss": 0.4689, "step": 6527 }, { "avg_step_time": 5.689924644701408, "epoch": 0.6962133333333334, "eta_time": 4.501362607808225, "step": 6527 }, { "epoch": 0.69632, "grad_norm": 1.734044452117933, "learning_rate": 2.2299638635342408e-06, "loss": 0.5427, "step": 6528 }, { "avg_step_time": 5.6931858977886165, "epoch": 0.69632, "eta_time": 4.502361180834497, "step": 6528 }, { "epoch": 0.6964266666666666, "grad_norm": 1.604333988935474, "learning_rate": 2.2285258824386487e-06, "loss": 0.4719, "step": 6529 }, { "avg_step_time": 5.688869936297638, "epoch": 0.6964266666666666, "eta_time": 4.4973677329730775, "step": 6529 }, { "epoch": 0.6965333333333333, "grad_norm": 1.7244651118901224, "learning_rate": 2.227088232166427e-06, "loss": 0.4971, "step": 6530 }, { "avg_step_time": 5.674108228298149, "epoch": 0.6965333333333333, "eta_time": 4.484121641530065, "step": 6530 }, { "epoch": 0.69664, "grad_norm": 1.811620402283844, "learning_rate": 2.225650912889188e-06, "loss": 0.4944, "step": 6531 }, { "avg_step_time": 5.707677188545767, "epoch": 0.69664, "eta_time": 4.509064978951156, "step": 6531 }, { "epoch": 0.6967466666666666, "grad_norm": 1.9103571979327736, "learning_rate": 2.2242139247785016e-06, "loss": 0.5748, "step": 6532 }, { "avg_step_time": 5.747785231079718, "epoch": 0.6967466666666666, "eta_time": 4.539153725544344, "step": 6532 }, { "epoch": 0.6968533333333333, "grad_norm": 1.9319499554428343, "learning_rate": 2.222777268005894e-06, "loss": 0.4248, "step": 6533 }, { "avg_step_time": 5.719539904835249, "epoch": 0.6968533333333333, "eta_time": 4.5152590026504935, "step": 6533 }, { "epoch": 0.69696, "grad_norm": 1.8457006028749878, "learning_rate": 2.221340942742858e-06, "loss": 0.4744, "step": 6534 }, { "avg_step_time": 5.717617511749268, "epoch": 0.69696, "eta_time": 4.512153153022131, "step": 6534 }, { "epoch": 0.6970666666666666, "grad_norm": 2.148733906150638, "learning_rate": 2.219904949160842e-06, "loss": 0.4977, "step": 6535 }, { "avg_step_time": 5.719149418551512, "epoch": 0.6970666666666666, "eta_time": 4.511773430190638, "step": 6535 }, { "epoch": 0.6971733333333333, "grad_norm": 1.8048583428676812, "learning_rate": 2.2184692874312542e-06, "loss": 0.4672, "step": 6536 }, { "avg_step_time": 5.721427693511501, "epoch": 0.6971733333333333, "eta_time": 4.511981450521986, "step": 6536 }, { "epoch": 0.69728, "grad_norm": 0.6117124930757232, "learning_rate": 2.2170339577254714e-06, "loss": 0.462, "step": 6537 }, { "avg_step_time": 5.685609959592723, "epoch": 0.69728, "eta_time": 4.48215585147893, "step": 6537 }, { "epoch": 0.6973866666666667, "grad_norm": 1.7599153030915884, "learning_rate": 2.2155989602148224e-06, "loss": 0.446, "step": 6538 }, { "avg_step_time": 5.683110704325666, "epoch": 0.6973866666666667, "eta_time": 4.478606963381088, "step": 6538 }, { "epoch": 0.6974933333333333, "grad_norm": 2.2980047865076747, "learning_rate": 2.2141642950705973e-06, "loss": 0.4433, "step": 6539 }, { "avg_step_time": 5.683780479912806, "epoch": 0.6974933333333333, "eta_time": 4.477555955842422, "step": 6539 }, { "epoch": 0.6976, "grad_norm": 1.7862528642566602, "learning_rate": 2.212729962464051e-06, "loss": 0.414, "step": 6540 }, { "avg_step_time": 5.6807587267172455, "epoch": 0.6976, "eta_time": 4.4735974972898305, "step": 6540 }, { "epoch": 0.6977066666666667, "grad_norm": 1.901876347931697, "learning_rate": 2.2112959625663926e-06, "loss": 0.4593, "step": 6541 }, { "avg_step_time": 5.712097213725851, "epoch": 0.6977066666666667, "eta_time": 4.496689862138629, "step": 6541 }, { "epoch": 0.6978133333333333, "grad_norm": 1.6369866702816005, "learning_rate": 2.209862295548797e-06, "loss": 0.492, "step": 6542 }, { "avg_step_time": 5.714258509452897, "epoch": 0.6978133333333333, "eta_time": 4.496803988133349, "step": 6542 }, { "epoch": 0.69792, "grad_norm": 1.7257811012172648, "learning_rate": 2.208428961582399e-06, "loss": 0.4261, "step": 6543 }, { "avg_step_time": 5.7129742978799225, "epoch": 0.69792, "eta_time": 4.494206447665539, "step": 6543 }, { "epoch": 0.6980266666666667, "grad_norm": 1.7579045037399206, "learning_rate": 2.206995960838289e-06, "loss": 0.4634, "step": 6544 }, { "avg_step_time": 5.807548944396202, "epoch": 0.6980266666666667, "eta_time": 4.566991961551569, "step": 6544 }, { "epoch": 0.6981333333333334, "grad_norm": 1.7657828222024636, "learning_rate": 2.2055632934875194e-06, "loss": 0.4213, "step": 6545 }, { "avg_step_time": 5.807688045983363, "epoch": 0.6981333333333334, "eta_time": 4.565488102814699, "step": 6545 }, { "epoch": 0.69824, "grad_norm": 1.9892643267541419, "learning_rate": 2.2041309597011057e-06, "loss": 0.5431, "step": 6546 }, { "avg_step_time": 5.831750713213526, "epoch": 0.69824, "eta_time": 4.582784102133629, "step": 6546 }, { "epoch": 0.6983466666666667, "grad_norm": 0.652958422588148, "learning_rate": 2.202698959650023e-06, "loss": 0.4032, "step": 6547 }, { "avg_step_time": 5.806405354027796, "epoch": 0.6983466666666667, "eta_time": 4.5612539836640575, "step": 6547 }, { "epoch": 0.6984533333333334, "grad_norm": 1.7475633148687144, "learning_rate": 2.2012672935052025e-06, "loss": 0.5312, "step": 6548 }, { "avg_step_time": 5.80649316431296, "epoch": 0.6984533333333334, "eta_time": 4.559710048753539, "step": 6548 }, { "epoch": 0.69856, "grad_norm": 0.6750461343226405, "learning_rate": 2.1998359614375412e-06, "loss": 0.4307, "step": 6549 }, { "avg_step_time": 5.772467832372646, "epoch": 0.69856, "eta_time": 4.531387248412527, "step": 6549 }, { "epoch": 0.6986666666666667, "grad_norm": 1.7383777048080586, "learning_rate": 2.198404963617892e-06, "loss": 0.4454, "step": 6550 }, { "avg_step_time": 5.773665396854131, "epoch": 0.6986666666666667, "eta_time": 4.530723540586922, "step": 6550 }, { "epoch": 0.6987733333333334, "grad_norm": 1.7739477910825372, "learning_rate": 2.196974300217067e-06, "loss": 0.509, "step": 6551 }, { "avg_step_time": 5.774455658113114, "epoch": 0.6987733333333334, "eta_time": 4.52973966069762, "step": 6551 }, { "epoch": 0.69888, "grad_norm": 0.6354301293167555, "learning_rate": 2.1955439714058422e-06, "loss": 0.4431, "step": 6552 }, { "avg_step_time": 5.739996235780041, "epoch": 0.69888, "eta_time": 4.501113714890849, "step": 6552 }, { "epoch": 0.6989866666666666, "grad_norm": 1.6332218623428993, "learning_rate": 2.194113977354955e-06, "loss": 0.4364, "step": 6553 }, { "avg_step_time": 5.740761282468083, "epoch": 0.6989866666666666, "eta_time": 4.500118983090259, "step": 6553 }, { "epoch": 0.6990933333333333, "grad_norm": 1.909623877739445, "learning_rate": 2.1926843182350955e-06, "loss": 0.478, "step": 6554 }, { "avg_step_time": 5.748577573082664, "epoch": 0.6990933333333333, "eta_time": 4.504649259351721, "step": 6554 }, { "epoch": 0.6992, "grad_norm": 1.761100506598103, "learning_rate": 2.191254994216922e-06, "loss": 0.4053, "step": 6555 }, { "avg_step_time": 5.751119416169446, "epoch": 0.6992, "eta_time": 4.5050435426660655, "step": 6555 }, { "epoch": 0.6993066666666666, "grad_norm": 1.7874774805687133, "learning_rate": 2.189826005471045e-06, "loss": 0.5237, "step": 6556 }, { "avg_step_time": 5.751791477203369, "epoch": 0.6993066666666666, "eta_time": 4.503972270621194, "step": 6556 }, { "epoch": 0.6994133333333333, "grad_norm": 1.7776955614325087, "learning_rate": 2.1883973521680435e-06, "loss": 0.511, "step": 6557 }, { "avg_step_time": 5.767494102921149, "epoch": 0.6994133333333333, "eta_time": 4.514666217231055, "step": 6557 }, { "epoch": 0.69952, "grad_norm": 1.851934132945336, "learning_rate": 2.186969034478448e-06, "loss": 0.5003, "step": 6558 }, { "avg_step_time": 5.766079972488711, "epoch": 0.69952, "eta_time": 4.511957578472416, "step": 6558 }, { "epoch": 0.6996266666666666, "grad_norm": 1.8109498661344319, "learning_rate": 2.1855410525727556e-06, "loss": 0.4973, "step": 6559 }, { "avg_step_time": 5.769327322642009, "epoch": 0.6996266666666666, "eta_time": 4.512896039044415, "step": 6559 }, { "epoch": 0.6997333333333333, "grad_norm": 0.6694217530742257, "learning_rate": 2.1841134066214186e-06, "loss": 0.4484, "step": 6560 }, { "avg_step_time": 5.735795863951095, "epoch": 0.6997333333333333, "eta_time": 4.485073710283981, "step": 6560 }, { "epoch": 0.69984, "grad_norm": 1.6864125221242707, "learning_rate": 2.182686096794852e-06, "loss": 0.389, "step": 6561 }, { "avg_step_time": 5.735675115777989, "epoch": 0.69984, "eta_time": 4.483386048833127, "step": 6561 }, { "epoch": 0.6999466666666667, "grad_norm": 1.8616172395998778, "learning_rate": 2.181259123263432e-06, "loss": 0.5179, "step": 6562 }, { "avg_step_time": 5.732345222222684, "epoch": 0.6999466666666667, "eta_time": 4.479190863920114, "step": 6562 }, { "epoch": 0.7000533333333333, "grad_norm": 1.6697985892495215, "learning_rate": 2.179832486197492e-06, "loss": 0.493, "step": 6563 }, { "avg_step_time": 5.714166614744398, "epoch": 0.7000533333333333, "eta_time": 4.463399033517013, "step": 6563 }, { "epoch": 0.70016, "grad_norm": 1.90909981543531, "learning_rate": 2.1784061857673217e-06, "loss": 0.474, "step": 6564 }, { "avg_step_time": 5.70466919137974, "epoch": 0.70016, "eta_time": 4.454395860269013, "step": 6564 }, { "epoch": 0.7002666666666667, "grad_norm": 1.8994342273806248, "learning_rate": 2.176980222143178e-06, "loss": 0.5047, "step": 6565 }, { "avg_step_time": 5.700459593474263, "epoch": 0.7002666666666667, "eta_time": 4.4495254049063, "step": 6565 }, { "epoch": 0.7003733333333333, "grad_norm": 1.6304821217895549, "learning_rate": 2.1755545954952755e-06, "loss": 0.4773, "step": 6566 }, { "avg_step_time": 5.697133960145893, "epoch": 0.7003733333333333, "eta_time": 4.4453470261249475, "step": 6566 }, { "epoch": 0.70048, "grad_norm": 1.669290645711831, "learning_rate": 2.174129305993784e-06, "loss": 0.3864, "step": 6567 }, { "avg_step_time": 5.694423261314932, "epoch": 0.70048, "eta_time": 4.441650143825647, "step": 6567 }, { "epoch": 0.7005866666666667, "grad_norm": 1.9236431234651614, "learning_rate": 2.1727043538088406e-06, "loss": 0.5029, "step": 6568 }, { "avg_step_time": 5.693375115442758, "epoch": 0.7005866666666667, "eta_time": 4.439251096957729, "step": 6568 }, { "epoch": 0.7006933333333333, "grad_norm": 2.2374217405511674, "learning_rate": 2.1712797391105354e-06, "loss": 0.4717, "step": 6569 }, { "avg_step_time": 5.6900993284552985, "epoch": 0.7006933333333333, "eta_time": 4.435116309901547, "step": 6569 }, { "epoch": 0.7008, "grad_norm": 0.6645548028413968, "learning_rate": 2.1698554620689178e-06, "loss": 0.4502, "step": 6570 }, { "avg_step_time": 5.690313816070557, "epoch": 0.7008, "eta_time": 4.433702848354975, "step": 6570 }, { "epoch": 0.7009066666666667, "grad_norm": 1.7246094692577656, "learning_rate": 2.1684315228540066e-06, "loss": 0.4091, "step": 6571 }, { "avg_step_time": 5.570948396066223, "epoch": 0.7009066666666667, "eta_time": 4.339149806269359, "step": 6571 }, { "epoch": 0.7010133333333334, "grad_norm": 1.8901779775025953, "learning_rate": 2.16700792163577e-06, "loss": 0.4742, "step": 6572 }, { "avg_step_time": 5.59864499352195, "epoch": 0.7010133333333334, "eta_time": 4.359167199122785, "step": 6572 }, { "epoch": 0.70112, "grad_norm": 1.7218959563690008, "learning_rate": 2.165584658584138e-06, "loss": 0.4565, "step": 6573 }, { "avg_step_time": 5.602345859161531, "epoch": 0.70112, "eta_time": 4.360492527047391, "step": 6573 }, { "epoch": 0.7012266666666667, "grad_norm": 2.18300357804844, "learning_rate": 2.1641617338690054e-06, "loss": 0.5161, "step": 6574 }, { "avg_step_time": 5.603543703002159, "epoch": 0.7012266666666667, "eta_time": 4.35986830891918, "step": 6574 }, { "epoch": 0.7013333333333334, "grad_norm": 1.6347125547048271, "learning_rate": 2.162739147660219e-06, "loss": 0.4607, "step": 6575 }, { "avg_step_time": 5.6009447863607695, "epoch": 0.7013333333333334, "eta_time": 4.3562903893917095, "step": 6575 }, { "epoch": 0.70144, "grad_norm": 1.8509491247418264, "learning_rate": 2.16131690012759e-06, "loss": 0.4096, "step": 6576 }, { "avg_step_time": 5.645287239190304, "epoch": 0.70144, "eta_time": 4.389210828470461, "step": 6576 }, { "epoch": 0.7015466666666667, "grad_norm": 1.8155241640634758, "learning_rate": 2.1598949914408917e-06, "loss": 0.509, "step": 6577 }, { "avg_step_time": 5.643211087795219, "epoch": 0.7015466666666667, "eta_time": 4.386029062125284, "step": 6577 }, { "epoch": 0.7016533333333334, "grad_norm": 1.7269592998740222, "learning_rate": 2.1584734217698507e-06, "loss": 0.554, "step": 6578 }, { "avg_step_time": 5.645821027081422, "epoch": 0.7016533333333334, "eta_time": 4.386489281318538, "step": 6578 }, { "epoch": 0.70176, "grad_norm": 1.6907444443716901, "learning_rate": 2.157052191284154e-06, "loss": 0.416, "step": 6579 }, { "avg_step_time": 5.679748544789324, "epoch": 0.70176, "eta_time": 4.411271369786375, "step": 6579 }, { "epoch": 0.7018666666666666, "grad_norm": 0.6417671919073652, "learning_rate": 2.155631300153453e-06, "loss": 0.4262, "step": 6580 }, { "avg_step_time": 5.6405846494616885, "epoch": 0.7018666666666666, "eta_time": 4.379287248679283, "step": 6580 }, { "epoch": 0.7019733333333333, "grad_norm": 1.6517958517509876, "learning_rate": 2.1542107485473557e-06, "loss": 0.5095, "step": 6581 }, { "avg_step_time": 5.640299325037485, "epoch": 0.7019733333333333, "eta_time": 4.377498976154092, "step": 6581 }, { "epoch": 0.70208, "grad_norm": 1.888564299241924, "learning_rate": 2.1527905366354292e-06, "loss": 0.5017, "step": 6582 }, { "avg_step_time": 5.638575134855328, "epoch": 0.70208, "eta_time": 4.374594542125259, "step": 6582 }, { "epoch": 0.7021866666666666, "grad_norm": 2.2506210523096755, "learning_rate": 2.1513706645871973e-06, "loss": 0.5145, "step": 6583 }, { "avg_step_time": 5.6381044195155905, "epoch": 0.7021866666666666, "eta_time": 4.372663205357647, "step": 6583 }, { "epoch": 0.7022933333333333, "grad_norm": 1.9416517267838103, "learning_rate": 2.149951132572151e-06, "loss": 0.5199, "step": 6584 }, { "avg_step_time": 5.639318820201989, "epoch": 0.7022933333333333, "eta_time": 4.372038563106598, "step": 6584 }, { "epoch": 0.7024, "grad_norm": 0.6991481119197605, "learning_rate": 2.1485319407597315e-06, "loss": 0.4556, "step": 6585 }, { "avg_step_time": 5.637694792314009, "epoch": 0.7024, "eta_time": 4.369213464043357, "step": 6585 }, { "epoch": 0.7025066666666666, "grad_norm": 1.708545588365339, "learning_rate": 2.147113089319347e-06, "loss": 0.4389, "step": 6586 }, { "avg_step_time": 5.642044799496429, "epoch": 0.7025066666666666, "eta_time": 4.371017484943207, "step": 6586 }, { "epoch": 0.7026133333333333, "grad_norm": 1.9817342191221354, "learning_rate": 2.145694578420362e-06, "loss": 0.5181, "step": 6587 }, { "avg_step_time": 5.641110983761874, "epoch": 0.7026133333333333, "eta_time": 4.368727061868918, "step": 6587 }, { "epoch": 0.70272, "grad_norm": 2.005172432277083, "learning_rate": 2.1442764082321e-06, "loss": 0.5045, "step": 6588 }, { "avg_step_time": 5.64275824421584, "epoch": 0.70272, "eta_time": 4.3684353407304295, "step": 6588 }, { "epoch": 0.7028266666666667, "grad_norm": 1.8847004433450232, "learning_rate": 2.1428585789238416e-06, "loss": 0.4954, "step": 6589 }, { "avg_step_time": 5.6813690132564965, "epoch": 0.7028266666666667, "eta_time": 4.396748353036833, "step": 6589 }, { "epoch": 0.7029333333333333, "grad_norm": 1.8291101027108765, "learning_rate": 2.1414410906648308e-06, "loss": 0.526, "step": 6590 }, { "avg_step_time": 5.67755916865185, "epoch": 0.7029333333333333, "eta_time": 4.392222856859834, "step": 6590 }, { "epoch": 0.70304, "grad_norm": 1.6722044993001937, "learning_rate": 2.140023943624272e-06, "loss": 0.4361, "step": 6591 }, { "avg_step_time": 5.6907202836238975, "epoch": 0.70304, "eta_time": 4.4008236860024805, "step": 6591 }, { "epoch": 0.7031466666666667, "grad_norm": 1.8057916993310124, "learning_rate": 2.138607137971322e-06, "loss": 0.4812, "step": 6592 }, { "avg_step_time": 5.692317497850668, "epoch": 0.7031466666666667, "eta_time": 4.400477665699558, "step": 6592 }, { "epoch": 0.7032533333333333, "grad_norm": 2.1517094405074357, "learning_rate": 2.137190673875105e-06, "loss": 0.4225, "step": 6593 }, { "avg_step_time": 5.692184171291313, "epoch": 0.7032533333333333, "eta_time": 4.398793434592343, "step": 6593 }, { "epoch": 0.70336, "grad_norm": 0.6596201710762645, "learning_rate": 2.135774551504698e-06, "loss": 0.4483, "step": 6594 }, { "avg_step_time": 5.67320052060214, "epoch": 0.70336, "eta_time": 4.3825474021651525, "step": 6594 }, { "epoch": 0.7034666666666667, "grad_norm": 1.8747087457232965, "learning_rate": 2.134358771029137e-06, "loss": 0.4936, "step": 6595 }, { "avg_step_time": 5.665219880113698, "epoch": 0.7034666666666667, "eta_time": 4.374808685198912, "step": 6595 }, { "epoch": 0.7035733333333334, "grad_norm": 1.8168146853914862, "learning_rate": 2.1329433326174265e-06, "loss": 0.4769, "step": 6596 }, { "avg_step_time": 5.664530361541594, "epoch": 0.7035733333333334, "eta_time": 4.372702742978913, "step": 6596 }, { "epoch": 0.70368, "grad_norm": 1.6890310638042607, "learning_rate": 2.1315282364385197e-06, "loss": 0.4562, "step": 6597 }, { "avg_step_time": 5.661739508310954, "epoch": 0.70368, "eta_time": 4.368975653913286, "step": 6597 }, { "epoch": 0.7037866666666667, "grad_norm": 1.9753269051464735, "learning_rate": 2.130113482661332e-06, "loss": 0.4565, "step": 6598 }, { "avg_step_time": 5.63499530878934, "epoch": 0.7037866666666667, "eta_time": 4.3467727701411105, "step": 6598 }, { "epoch": 0.7038933333333334, "grad_norm": 1.7040948179033693, "learning_rate": 2.1286990714547417e-06, "loss": 0.5035, "step": 6599 }, { "avg_step_time": 5.635587829532045, "epoch": 0.7038933333333334, "eta_time": 4.34566439299471, "step": 6599 }, { "epoch": 0.704, "grad_norm": 1.7210759368111967, "learning_rate": 2.1272850029875802e-06, "loss": 0.5761, "step": 6600 }, { "avg_step_time": 5.635930299758911, "epoch": 0.704, "eta_time": 4.344362939397494, "step": 6600 }, { "epoch": 0.7041066666666667, "grad_norm": 1.7377249267267532, "learning_rate": 2.1258712774286416e-06, "loss": 0.4973, "step": 6601 }, { "avg_step_time": 5.636301621042117, "epoch": 0.7041066666666667, "eta_time": 4.343083526880787, "step": 6601 }, { "epoch": 0.7042133333333334, "grad_norm": 1.9191094935785447, "learning_rate": 2.1244578949466814e-06, "loss": 0.4547, "step": 6602 }, { "avg_step_time": 5.636475900206903, "epoch": 0.7042133333333334, "eta_time": 4.341652130909373, "step": 6602 }, { "epoch": 0.70432, "grad_norm": 1.6047718766343029, "learning_rate": 2.1230448557104087e-06, "loss": 0.4066, "step": 6603 }, { "avg_step_time": 5.6378842700611465, "epoch": 0.70432, "eta_time": 4.341170887947083, "step": 6603 }, { "epoch": 0.7044266666666666, "grad_norm": 2.0518466777617967, "learning_rate": 2.1216321598884935e-06, "loss": 0.4752, "step": 6604 }, { "avg_step_time": 5.633279482523601, "epoch": 0.7044266666666666, "eta_time": 4.3360604016869155, "step": 6604 }, { "epoch": 0.7045333333333333, "grad_norm": 1.8766915971337634, "learning_rate": 2.1202198076495663e-06, "loss": 0.4269, "step": 6605 }, { "avg_step_time": 5.6354000062653515, "epoch": 0.7045333333333333, "eta_time": 4.336127227043062, "step": 6605 }, { "epoch": 0.70464, "grad_norm": 1.7982135243760669, "learning_rate": 2.1188077991622174e-06, "loss": 0.5101, "step": 6606 }, { "avg_step_time": 5.632580152665726, "epoch": 0.70464, "eta_time": 4.332392900758721, "step": 6606 }, { "epoch": 0.7047466666666666, "grad_norm": 2.169712855505479, "learning_rate": 2.1173961345949915e-06, "loss": 0.4245, "step": 6607 }, { "avg_step_time": 5.635673436251554, "epoch": 0.7047466666666666, "eta_time": 4.333206686540083, "step": 6607 }, { "epoch": 0.7048533333333333, "grad_norm": 1.6908397741111458, "learning_rate": 2.1159848141163988e-06, "loss": 0.4122, "step": 6608 }, { "avg_step_time": 5.6658433230236325, "epoch": 0.7048533333333333, "eta_time": 4.354830131890664, "step": 6608 }, { "epoch": 0.70496, "grad_norm": 0.6193485989562793, "learning_rate": 2.1145738378949004e-06, "loss": 0.4168, "step": 6609 }, { "avg_step_time": 5.636213919129035, "epoch": 0.70496, "eta_time": 4.3304910278641415, "step": 6609 }, { "epoch": 0.7050666666666666, "grad_norm": 1.696340694514535, "learning_rate": 2.1131632060989255e-06, "loss": 0.4879, "step": 6610 }, { "avg_step_time": 5.636454307671749, "epoch": 0.7050666666666666, "eta_time": 4.329110044642329, "step": 6610 }, { "epoch": 0.7051733333333333, "grad_norm": 1.771030412882958, "learning_rate": 2.111752918896853e-06, "loss": 0.5273, "step": 6611 }, { "avg_step_time": 5.637332706740408, "epoch": 0.7051733333333333, "eta_time": 4.328218778175136, "step": 6611 }, { "epoch": 0.70528, "grad_norm": 1.8033419322504844, "learning_rate": 2.110342976457029e-06, "loss": 0.4452, "step": 6612 }, { "avg_step_time": 5.633609742829294, "epoch": 0.70528, "eta_time": 4.323795477621483, "step": 6612 }, { "epoch": 0.7053866666666667, "grad_norm": 1.6655716334730544, "learning_rate": 2.1089333789477502e-06, "loss": 0.3897, "step": 6613 }, { "avg_step_time": 5.65868170574458, "epoch": 0.7053866666666667, "eta_time": 4.341466353129592, "step": 6613 }, { "epoch": 0.7054933333333333, "grad_norm": 2.2661160473243984, "learning_rate": 2.107524126537279e-06, "loss": 0.4546, "step": 6614 }, { "avg_step_time": 5.655711600274751, "epoch": 0.7054933333333333, "eta_time": 4.337616591210718, "step": 6614 }, { "epoch": 0.7056, "grad_norm": 2.1091345400873083, "learning_rate": 2.1061152193938355e-06, "loss": 0.4983, "step": 6615 }, { "avg_step_time": 5.6577032310794095, "epoch": 0.7056, "eta_time": 4.337572477160881, "step": 6615 }, { "epoch": 0.7057066666666667, "grad_norm": 0.6519859276742438, "learning_rate": 2.1047066576855964e-06, "loss": 0.4543, "step": 6616 }, { "avg_step_time": 5.622169781212855, "epoch": 0.7057066666666667, "eta_time": 4.308768451768407, "step": 6616 }, { "epoch": 0.7058133333333333, "grad_norm": 1.7770939042156384, "learning_rate": 2.103298441580694e-06, "loss": 0.5708, "step": 6617 }, { "avg_step_time": 5.585742519359396, "epoch": 0.7058133333333333, "eta_time": 4.279299407887004, "step": 6617 }, { "epoch": 0.70592, "grad_norm": 1.9311806077631988, "learning_rate": 2.1018905712472285e-06, "loss": 0.5263, "step": 6618 }, { "avg_step_time": 5.649671113852299, "epoch": 0.70592, "eta_time": 4.326706461358552, "step": 6618 }, { "epoch": 0.7060266666666667, "grad_norm": 1.7761226259825584, "learning_rate": 2.10048304685325e-06, "loss": 0.4989, "step": 6619 }, { "avg_step_time": 5.6284160758509785, "epoch": 0.7060266666666667, "eta_time": 4.308865195845916, "step": 6619 }, { "epoch": 0.7061333333333333, "grad_norm": 1.90424685824746, "learning_rate": 2.099075868566772e-06, "loss": 0.5214, "step": 6620 }, { "avg_step_time": 5.630235992296778, "epoch": 0.7061333333333333, "eta_time": 4.30869448854934, "step": 6620 }, { "epoch": 0.70624, "grad_norm": 1.502417164101008, "learning_rate": 2.0976690365557673e-06, "loss": 0.4168, "step": 6621 }, { "avg_step_time": 5.608049026643387, "epoch": 0.70624, "eta_time": 4.290157505382191, "step": 6621 }, { "epoch": 0.7063466666666667, "grad_norm": 1.5324264096991222, "learning_rate": 2.096262550988164e-06, "loss": 0.4259, "step": 6622 }, { "avg_step_time": 5.647623317410248, "epoch": 0.7063466666666667, "eta_time": 4.318863053564003, "step": 6622 }, { "epoch": 0.7064533333333334, "grad_norm": 1.707887364684662, "learning_rate": 2.0948564120318488e-06, "loss": 0.4088, "step": 6623 }, { "avg_step_time": 5.648279240637114, "epoch": 0.7064533333333334, "eta_time": 4.317795686175928, "step": 6623 }, { "epoch": 0.70656, "grad_norm": 1.8302498300689571, "learning_rate": 2.093450619854671e-06, "loss": 0.4961, "step": 6624 }, { "avg_step_time": 5.647717189307165, "epoch": 0.70656, "eta_time": 4.315797218828892, "step": 6624 }, { "epoch": 0.7066666666666667, "grad_norm": 0.6286213174323222, "learning_rate": 2.0920451746244367e-06, "loss": 0.4197, "step": 6625 }, { "avg_step_time": 5.609192458066073, "epoch": 0.7066666666666667, "eta_time": 4.2847997943560285, "step": 6625 }, { "epoch": 0.7067733333333334, "grad_norm": 2.092139599253816, "learning_rate": 2.090640076508908e-06, "loss": 0.5097, "step": 6626 }, { "avg_step_time": 5.606130474745625, "epoch": 0.7067733333333334, "eta_time": 4.280903520854368, "step": 6626 }, { "epoch": 0.70688, "grad_norm": 1.859086744546186, "learning_rate": 2.0892353256758107e-06, "loss": 0.4856, "step": 6627 }, { "avg_step_time": 5.599885458898062, "epoch": 0.70688, "eta_time": 4.274579233625521, "step": 6627 }, { "epoch": 0.7069866666666667, "grad_norm": 1.927864858597134, "learning_rate": 2.087830922292824e-06, "loss": 0.4726, "step": 6628 }, { "avg_step_time": 5.604249999980734, "epoch": 0.7069866666666667, "eta_time": 4.276354097207521, "step": 6628 }, { "epoch": 0.7070933333333334, "grad_norm": 0.631437366680064, "learning_rate": 2.0864268665275854e-06, "loss": 0.4284, "step": 6629 }, { "avg_step_time": 5.592289792166816, "epoch": 0.7070933333333334, "eta_time": 4.265674380358354, "step": 6629 }, { "epoch": 0.7072, "grad_norm": 1.6542179611342933, "learning_rate": 2.0850231585476965e-06, "loss": 0.4337, "step": 6630 }, { "avg_step_time": 5.596950636969672, "epoch": 0.7072, "eta_time": 4.267674860689375, "step": 6630 }, { "epoch": 0.7073066666666666, "grad_norm": 1.8076371224159395, "learning_rate": 2.083619798520715e-06, "loss": 0.4382, "step": 6631 }, { "avg_step_time": 5.592307321953051, "epoch": 0.7073066666666666, "eta_time": 4.262580914288659, "step": 6631 }, { "epoch": 0.7074133333333333, "grad_norm": 1.808256799875425, "learning_rate": 2.082216786614153e-06, "loss": 0.5562, "step": 6632 }, { "avg_step_time": 5.593810972541269, "epoch": 0.7074133333333333, "eta_time": 4.262173193800195, "step": 6632 }, { "epoch": 0.70752, "grad_norm": 1.7928431896281194, "learning_rate": 2.0808141229954876e-06, "loss": 0.4907, "step": 6633 }, { "avg_step_time": 5.594927445806638, "epoch": 0.70752, "eta_time": 4.2614697378893895, "step": 6633 }, { "epoch": 0.7076266666666666, "grad_norm": 1.3861190038325917, "learning_rate": 2.079411807832147e-06, "loss": 0.387, "step": 6634 }, { "avg_step_time": 5.597575794566762, "epoch": 0.7076266666666666, "eta_time": 4.261932014696526, "step": 6634 }, { "epoch": 0.7077333333333333, "grad_norm": 1.7847887506182945, "learning_rate": 2.0780098412915257e-06, "loss": 0.4773, "step": 6635 }, { "avg_step_time": 5.596122414174706, "epoch": 0.7077333333333333, "eta_time": 4.2592709485663045, "step": 6635 }, { "epoch": 0.70784, "grad_norm": 2.108342110147915, "learning_rate": 2.0766082235409695e-06, "loss": 0.447, "step": 6636 }, { "avg_step_time": 5.635221040610111, "epoch": 0.70784, "eta_time": 4.287464008397526, "step": 6636 }, { "epoch": 0.7079466666666666, "grad_norm": 1.7425741862438724, "learning_rate": 2.0752069547477887e-06, "loss": 0.5245, "step": 6637 }, { "avg_step_time": 5.636513630549113, "epoch": 0.7079466666666666, "eta_time": 4.286881755678742, "step": 6637 }, { "epoch": 0.7080533333333333, "grad_norm": 1.9009712478667264, "learning_rate": 2.0738060350792454e-06, "loss": 0.5041, "step": 6638 }, { "avg_step_time": 5.636634749595565, "epoch": 0.7080533333333333, "eta_time": 4.285408141567517, "step": 6638 }, { "epoch": 0.70816, "grad_norm": 1.6983975018082587, "learning_rate": 2.072405464702566e-06, "loss": 0.4715, "step": 6639 }, { "avg_step_time": 5.650954029776833, "epoch": 0.70816, "eta_time": 4.294725062630393, "step": 6639 }, { "epoch": 0.7082666666666667, "grad_norm": 1.8493479053227044, "learning_rate": 2.0710052437849342e-06, "loss": 0.5083, "step": 6640 }, { "avg_step_time": 5.655259577914922, "epoch": 0.7082666666666667, "eta_time": 4.296426373777031, "step": 6640 }, { "epoch": 0.7083733333333333, "grad_norm": 1.934101118299264, "learning_rate": 2.0696053724934882e-06, "loss": 0.4727, "step": 6641 }, { "avg_step_time": 5.6520751172846015, "epoch": 0.7083733333333333, "eta_time": 4.292437047404473, "step": 6641 }, { "epoch": 0.70848, "grad_norm": 2.0848922414740323, "learning_rate": 2.068205850995326e-06, "loss": 0.519, "step": 6642 }, { "avg_step_time": 5.654680223175974, "epoch": 0.70848, "eta_time": 4.292844736094427, "step": 6642 }, { "epoch": 0.7085866666666667, "grad_norm": 1.5307408662147035, "learning_rate": 2.066806679457508e-06, "loss": 0.3788, "step": 6643 }, { "avg_step_time": 5.558317413233747, "epoch": 0.7085866666666667, "eta_time": 4.218145325820722, "step": 6643 }, { "epoch": 0.7086933333333333, "grad_norm": 1.7465415628491017, "learning_rate": 2.065407858047046e-06, "loss": 0.5022, "step": 6644 }, { "avg_step_time": 5.5582882780017275, "epoch": 0.7086933333333333, "eta_time": 4.216579246450755, "step": 6644 }, { "epoch": 0.7088, "grad_norm": 0.6195664646212357, "learning_rate": 2.064009386930915e-06, "loss": 0.4499, "step": 6645 }, { "avg_step_time": 5.499461251075822, "epoch": 0.7088, "eta_time": 4.170424782065831, "step": 6645 }, { "epoch": 0.7089066666666667, "grad_norm": 1.9126329538438376, "learning_rate": 2.062611266276049e-06, "loss": 0.5078, "step": 6646 }, { "avg_step_time": 5.525790038734976, "epoch": 0.7089066666666667, "eta_time": 4.188855837696597, "step": 6646 }, { "epoch": 0.7090133333333334, "grad_norm": 1.8898276923277306, "learning_rate": 2.0612134962493353e-06, "loss": 0.495, "step": 6647 }, { "avg_step_time": 5.55420166795904, "epoch": 0.7090133333333334, "eta_time": 4.208850597275628, "step": 6647 }, { "epoch": 0.70912, "grad_norm": 1.8037451694055942, "learning_rate": 2.0598160770176208e-06, "loss": 0.449, "step": 6648 }, { "avg_step_time": 5.616867368871516, "epoch": 0.70912, "eta_time": 4.254777031920173, "step": 6648 }, { "epoch": 0.7092266666666667, "grad_norm": 1.8803537742469931, "learning_rate": 2.058419008747713e-06, "loss": 0.458, "step": 6649 }, { "avg_step_time": 5.616231802738074, "epoch": 0.7092266666666667, "eta_time": 4.252735526184442, "step": 6649 }, { "epoch": 0.7093333333333334, "grad_norm": 1.7983426159304496, "learning_rate": 2.0570222916063782e-06, "loss": 0.4228, "step": 6650 }, { "avg_step_time": 5.626567580483177, "epoch": 0.7093333333333334, "eta_time": 4.25899907133796, "step": 6650 }, { "epoch": 0.70944, "grad_norm": 1.936464027666695, "learning_rate": 2.0556259257603355e-06, "loss": 0.4474, "step": 6651 }, { "avg_step_time": 5.69354845297457, "epoch": 0.70944, "eta_time": 4.308118329417424, "step": 6651 }, { "epoch": 0.7095466666666667, "grad_norm": 0.6602765233433268, "learning_rate": 2.054229911376269e-06, "loss": 0.4736, "step": 6652 }, { "avg_step_time": 5.657960638855442, "epoch": 0.7095466666666667, "eta_time": 4.279618561000936, "step": 6652 }, { "epoch": 0.7096533333333334, "grad_norm": 1.8743134094292082, "learning_rate": 2.0528342486208127e-06, "loss": 0.4707, "step": 6653 }, { "avg_step_time": 5.654092940417203, "epoch": 0.7096533333333334, "eta_time": 4.27512249550434, "step": 6653 }, { "epoch": 0.70976, "grad_norm": 1.9247056703733132, "learning_rate": 2.0514389376605646e-06, "loss": 0.5114, "step": 6654 }, { "avg_step_time": 5.6521758382970635, "epoch": 0.70976, "eta_time": 4.272102904446197, "step": 6654 }, { "epoch": 0.7098666666666666, "grad_norm": 1.788579841365938, "learning_rate": 2.050043978662083e-06, "loss": 0.4729, "step": 6655 }, { "avg_step_time": 5.64735343480351, "epoch": 0.7098666666666666, "eta_time": 4.266889261851541, "step": 6655 }, { "epoch": 0.7099733333333333, "grad_norm": 1.9581166332133673, "learning_rate": 2.0486493717918765e-06, "loss": 0.5417, "step": 6656 }, { "avg_step_time": 5.637411293357309, "epoch": 0.7099733333333333, "eta_time": 4.257811474066257, "step": 6656 }, { "epoch": 0.71008, "grad_norm": 1.9409997160931574, "learning_rate": 2.0472551172164152e-06, "loss": 0.4723, "step": 6657 }, { "avg_step_time": 5.6428442771988685, "epoch": 0.71008, "eta_time": 4.2603474292851455, "step": 6657 }, { "epoch": 0.7101866666666666, "grad_norm": 1.9134344728527803, "learning_rate": 2.045861215102128e-06, "loss": 0.3825, "step": 6658 }, { "avg_step_time": 5.641160020924578, "epoch": 0.7101866666666666, "eta_time": 4.257508826903355, "step": 6658 }, { "epoch": 0.7102933333333333, "grad_norm": 1.6698520379739825, "learning_rate": 2.0444676656154037e-06, "loss": 0.4563, "step": 6659 }, { "avg_step_time": 5.705755204865427, "epoch": 0.7102933333333333, "eta_time": 4.3046753156706945, "step": 6659 }, { "epoch": 0.7104, "grad_norm": 1.893605993314267, "learning_rate": 2.0430744689225833e-06, "loss": 0.421, "step": 6660 }, { "avg_step_time": 5.704757998688052, "epoch": 0.7104, "eta_time": 4.302338324010573, "step": 6660 }, { "epoch": 0.7105066666666666, "grad_norm": 2.2790994036119976, "learning_rate": 2.0416816251899726e-06, "loss": 0.5049, "step": 6661 }, { "avg_step_time": 5.705319158958666, "epoch": 0.7105066666666666, "eta_time": 4.301176721503839, "step": 6661 }, { "epoch": 0.7106133333333333, "grad_norm": 1.7589410658959472, "learning_rate": 2.040289134583829e-06, "loss": 0.4754, "step": 6662 }, { "avg_step_time": 5.706759915207371, "epoch": 0.7106133333333333, "eta_time": 4.300677680543777, "step": 6662 }, { "epoch": 0.71072, "grad_norm": 2.1513505996265994, "learning_rate": 2.0388969972703688e-06, "loss": 0.4989, "step": 6663 }, { "avg_step_time": 5.708703334885414, "epoch": 0.71072, "eta_time": 4.3005565122803455, "step": 6663 }, { "epoch": 0.7108266666666667, "grad_norm": 1.7385367859446306, "learning_rate": 2.0375052134157697e-06, "loss": 0.4449, "step": 6664 }, { "avg_step_time": 5.705918148310498, "epoch": 0.7108266666666667, "eta_time": 4.296873361130489, "step": 6664 }, { "epoch": 0.7109333333333333, "grad_norm": 1.7839699064800585, "learning_rate": 2.0361137831861664e-06, "loss": 0.5309, "step": 6665 }, { "avg_step_time": 5.706796077766803, "epoch": 0.7109333333333333, "eta_time": 4.295949269652232, "step": 6665 }, { "epoch": 0.71104, "grad_norm": 1.8649918702204036, "learning_rate": 2.0347227067476478e-06, "loss": 0.4482, "step": 6666 }, { "avg_step_time": 5.707177521002413, "epoch": 0.71104, "eta_time": 4.294651084554316, "step": 6666 }, { "epoch": 0.7111466666666667, "grad_norm": 1.8438863033117243, "learning_rate": 2.033331984266265e-06, "loss": 0.4391, "step": 6667 }, { "avg_step_time": 5.70739185208022, "epoch": 0.7111466666666667, "eta_time": 4.2932269820647875, "step": 6667 }, { "epoch": 0.7112533333333333, "grad_norm": 1.900112518101162, "learning_rate": 2.0319416159080217e-06, "loss": 0.5753, "step": 6668 }, { "avg_step_time": 5.7137834929456615, "epoch": 0.7112533333333333, "eta_time": 4.296447754278863, "step": 6668 }, { "epoch": 0.71136, "grad_norm": 1.9036376274428577, "learning_rate": 2.030551601838887e-06, "loss": 0.4606, "step": 6669 }, { "avg_step_time": 5.747710199067087, "epoch": 0.71136, "eta_time": 4.32036216629876, "step": 6669 }, { "epoch": 0.7114666666666667, "grad_norm": 2.00240205017497, "learning_rate": 2.0291619422247786e-06, "loss": 0.4694, "step": 6670 }, { "avg_step_time": 5.747142242662834, "epoch": 0.7114666666666667, "eta_time": 4.318338824000824, "step": 6670 }, { "epoch": 0.7115733333333333, "grad_norm": 1.6173888817848858, "learning_rate": 2.0277726372315805e-06, "loss": 0.3954, "step": 6671 }, { "avg_step_time": 5.720006412929958, "epoch": 0.7115733333333333, "eta_time": 4.296360372378502, "step": 6671 }, { "epoch": 0.71168, "grad_norm": 1.8442070961933574, "learning_rate": 2.0263836870251277e-06, "loss": 0.4565, "step": 6672 }, { "avg_step_time": 5.714445680078834, "epoch": 0.71168, "eta_time": 4.290596298125858, "step": 6672 }, { "epoch": 0.7117866666666667, "grad_norm": 1.8018155020302193, "learning_rate": 2.024995091771212e-06, "loss": 0.437, "step": 6673 }, { "avg_step_time": 5.713127095289905, "epoch": 0.7117866666666667, "eta_time": 4.288019280964812, "step": 6673 }, { "epoch": 0.7118933333333334, "grad_norm": 1.723965703282145, "learning_rate": 2.023606851635594e-06, "loss": 0.4814, "step": 6674 }, { "avg_step_time": 5.715990353112269, "epoch": 0.7118933333333334, "eta_time": 4.288580539932288, "step": 6674 }, { "epoch": 0.712, "grad_norm": 1.9571503856717616, "learning_rate": 2.0222189667839805e-06, "loss": 0.4388, "step": 6675 }, { "avg_step_time": 5.708097554216481, "epoch": 0.712, "eta_time": 4.28107316566236, "step": 6675 }, { "epoch": 0.7121066666666667, "grad_norm": 2.1034460427320485, "learning_rate": 2.020831437382037e-06, "loss": 0.5931, "step": 6676 }, { "avg_step_time": 5.708873339373656, "epoch": 0.7121066666666667, "eta_time": 4.280069206380416, "step": 6676 }, { "epoch": 0.7122133333333334, "grad_norm": 1.6562798626074373, "learning_rate": 2.019444263595394e-06, "loss": 0.4451, "step": 6677 }, { "avg_step_time": 5.729181754468668, "epoch": 0.7122133333333334, "eta_time": 4.293703437099018, "step": 6677 }, { "epoch": 0.71232, "grad_norm": 1.7687696154759422, "learning_rate": 2.01805744558963e-06, "loss": 0.3791, "step": 6678 }, { "avg_step_time": 5.760538635831891, "epoch": 0.71232, "eta_time": 4.315603528010725, "step": 6678 }, { "epoch": 0.7124266666666667, "grad_norm": 2.139417041814903, "learning_rate": 2.0166709835302883e-06, "loss": 0.5527, "step": 6679 }, { "avg_step_time": 5.799036799055157, "epoch": 0.7124266666666667, "eta_time": 4.342834225070196, "step": 6679 }, { "epoch": 0.7125333333333334, "grad_norm": 0.6752426109838231, "learning_rate": 2.015284877582868e-06, "loss": 0.4437, "step": 6680 }, { "avg_step_time": 5.764284726345178, "epoch": 0.7125333333333334, "eta_time": 4.3152075937500705, "step": 6680 }, { "epoch": 0.71264, "grad_norm": 2.6405204454912767, "learning_rate": 2.013899127912824e-06, "loss": 0.4966, "step": 6681 }, { "avg_step_time": 5.76519037497164, "epoch": 0.71264, "eta_time": 4.314284130603777, "step": 6681 }, { "epoch": 0.7127466666666666, "grad_norm": 1.8096184856529502, "learning_rate": 2.012513734685567e-06, "loss": 0.4829, "step": 6682 }, { "avg_step_time": 5.766789872236926, "epoch": 0.7127466666666666, "eta_time": 4.313879201648345, "step": 6682 }, { "epoch": 0.7128533333333333, "grad_norm": 0.660484578294322, "learning_rate": 2.0111286980664703e-06, "loss": 0.4167, "step": 6683 }, { "avg_step_time": 5.728769791246664, "epoch": 0.7128533333333333, "eta_time": 4.283846743898895, "step": 6683 }, { "epoch": 0.71296, "grad_norm": 1.5406128574595879, "learning_rate": 2.009744018220863e-06, "loss": 0.4523, "step": 6684 }, { "avg_step_time": 5.763205246491865, "epoch": 0.71296, "eta_time": 4.307995921752669, "step": 6684 }, { "epoch": 0.7130666666666666, "grad_norm": 1.5541376990607365, "learning_rate": 2.0083596953140266e-06, "loss": 0.4666, "step": 6685 }, { "avg_step_time": 5.760834638518516, "epoch": 0.7130666666666666, "eta_time": 4.304623660448558, "step": 6685 }, { "epoch": 0.7131733333333333, "grad_norm": 1.9037007530340588, "learning_rate": 2.006975729511208e-06, "loss": 0.5218, "step": 6686 }, { "avg_step_time": 5.76005057614259, "epoch": 0.7131733333333333, "eta_time": 4.30243777756873, "step": 6686 }, { "epoch": 0.71328, "grad_norm": 0.6462066417622554, "learning_rate": 2.005592120977606e-06, "loss": 0.4678, "step": 6687 }, { "avg_step_time": 5.730748672678013, "epoch": 0.71328, "eta_time": 4.278959008932916, "step": 6687 }, { "epoch": 0.7133866666666666, "grad_norm": 1.900708694159545, "learning_rate": 2.0042088698783767e-06, "loss": 0.5021, "step": 6688 }, { "avg_step_time": 5.725696542046287, "epoch": 0.7133866666666666, "eta_time": 4.273596280132881, "step": 6688 }, { "epoch": 0.7134933333333333, "grad_norm": 0.6409083495054136, "learning_rate": 2.0028259763786363e-06, "loss": 0.4495, "step": 6689 }, { "avg_step_time": 5.698300833653922, "epoch": 0.7134933333333333, "eta_time": 4.251565566442898, "step": 6689 }, { "epoch": 0.7136, "grad_norm": 2.059456347928885, "learning_rate": 2.0014434406434584e-06, "loss": 0.504, "step": 6690 }, { "avg_step_time": 5.680950882458927, "epoch": 0.7136, "eta_time": 4.237042533167283, "step": 6690 }, { "epoch": 0.7137066666666667, "grad_norm": 1.691505524852978, "learning_rate": 2.00006126283787e-06, "loss": 0.5233, "step": 6691 }, { "avg_step_time": 5.683371510168518, "epoch": 0.7137066666666667, "eta_time": 4.237269203692307, "step": 6691 }, { "epoch": 0.7138133333333333, "grad_norm": 1.868379928045334, "learning_rate": 1.9986794431268606e-06, "loss": 0.4894, "step": 6692 }, { "avg_step_time": 5.686522194833467, "epoch": 0.7138133333333333, "eta_time": 4.238038624649498, "step": 6692 }, { "epoch": 0.71392, "grad_norm": 1.6576991647612713, "learning_rate": 1.9972979816753717e-06, "loss": 0.5315, "step": 6693 }, { "avg_step_time": 5.708558997722587, "epoch": 0.71392, "eta_time": 4.252876453303328, "step": 6693 }, { "epoch": 0.7140266666666667, "grad_norm": 1.9803270355097293, "learning_rate": 1.9959168786483074e-06, "loss": 0.5057, "step": 6694 }, { "avg_step_time": 5.711227130408239, "epoch": 0.7140266666666667, "eta_time": 4.25327776017347, "step": 6694 }, { "epoch": 0.7141333333333333, "grad_norm": 1.7956185354357577, "learning_rate": 1.9945361342105225e-06, "loss": 0.4684, "step": 6695 }, { "avg_step_time": 5.760967317253653, "epoch": 0.7141333333333333, "eta_time": 4.288720113955497, "step": 6695 }, { "epoch": 0.71424, "grad_norm": 1.9967778028506946, "learning_rate": 1.9931557485268365e-06, "loss": 0.4986, "step": 6696 }, { "avg_step_time": 5.7741985899029356, "epoch": 0.71424, "eta_time": 4.2969661173194345, "step": 6696 }, { "epoch": 0.7143466666666667, "grad_norm": 1.8002898236412699, "learning_rate": 1.9917757217620193e-06, "loss": 0.5074, "step": 6697 }, { "avg_step_time": 5.7765419049696485, "epoch": 0.7143466666666667, "eta_time": 4.2971053393079774, "step": 6697 }, { "epoch": 0.7144533333333334, "grad_norm": 1.7300297811031093, "learning_rate": 1.9903960540808026e-06, "loss": 0.5028, "step": 6698 }, { "avg_step_time": 5.78672183402861, "epoch": 0.7144533333333334, "eta_time": 4.303070652692941, "step": 6698 }, { "epoch": 0.71456, "grad_norm": 2.420846388730007, "learning_rate": 1.9890167456478748e-06, "loss": 0.5483, "step": 6699 }, { "avg_step_time": 5.788195992961074, "epoch": 0.71456, "eta_time": 4.302559021434399, "step": 6699 }, { "epoch": 0.7146666666666667, "grad_norm": 1.6258694438162973, "learning_rate": 1.9876377966278786e-06, "loss": 0.4312, "step": 6700 }, { "avg_step_time": 5.792040795990915, "epoch": 0.7146666666666667, "eta_time": 4.303808091465472, "step": 6700 }, { "epoch": 0.7147733333333334, "grad_norm": 1.9703646401579578, "learning_rate": 1.9862592071854137e-06, "loss": 0.5558, "step": 6701 }, { "avg_step_time": 5.793915623366231, "epoch": 0.7147733333333334, "eta_time": 4.303591771355917, "step": 6701 }, { "epoch": 0.71488, "grad_norm": 1.8088254905291197, "learning_rate": 1.984880977485041e-06, "loss": 0.5014, "step": 6702 }, { "avg_step_time": 5.793913535397462, "epoch": 0.71488, "eta_time": 4.301980800032616, "step": 6702 }, { "epoch": 0.7149866666666667, "grad_norm": 1.9293998944613655, "learning_rate": 1.983503107691277e-06, "loss": 0.4617, "step": 6703 }, { "avg_step_time": 5.7948280079196195, "epoch": 0.7149866666666667, "eta_time": 4.301050121433673, "step": 6703 }, { "epoch": 0.7150933333333334, "grad_norm": 0.6402312312022433, "learning_rate": 1.982125597968591e-06, "loss": 0.4486, "step": 6704 }, { "avg_step_time": 5.756569188050549, "epoch": 0.7150933333333334, "eta_time": 4.271054528134171, "step": 6704 }, { "epoch": 0.7152, "grad_norm": 1.6040876192701603, "learning_rate": 1.980748448481416e-06, "loss": 0.5201, "step": 6705 }, { "avg_step_time": 5.7583575609958535, "epoch": 0.7152, "eta_time": 4.270781857738592, "step": 6705 }, { "epoch": 0.7153066666666666, "grad_norm": 1.7421590222842132, "learning_rate": 1.9793716593941374e-06, "loss": 0.427, "step": 6706 }, { "avg_step_time": 5.7594554063045615, "epoch": 0.7153066666666666, "eta_time": 4.269996244285243, "step": 6706 }, { "epoch": 0.7154133333333333, "grad_norm": 2.0213281491383115, "learning_rate": 1.977995230871095e-06, "loss": 0.5169, "step": 6707 }, { "avg_step_time": 5.709583513664477, "epoch": 0.7154133333333333, "eta_time": 4.231435781793562, "step": 6707 }, { "epoch": 0.71552, "grad_norm": 1.711373745700932, "learning_rate": 1.9766191630765964e-06, "loss": 0.5257, "step": 6708 }, { "avg_step_time": 5.739542342195607, "epoch": 0.71552, "eta_time": 4.252044285176579, "step": 6708 }, { "epoch": 0.7156266666666666, "grad_norm": 1.7326014550917048, "learning_rate": 1.975243456174895e-06, "loss": 0.4718, "step": 6709 }, { "avg_step_time": 5.738780751372829, "epoch": 0.7156266666666666, "eta_time": 4.249885967544434, "step": 6709 }, { "epoch": 0.7157333333333333, "grad_norm": 1.7272060400318876, "learning_rate": 1.9738681103302044e-06, "loss": 0.4214, "step": 6710 }, { "avg_step_time": 5.735895848033404, "epoch": 0.7157333333333333, "eta_time": 4.246156231946951, "step": 6710 }, { "epoch": 0.71584, "grad_norm": 2.1718834879676554, "learning_rate": 1.9724931257066988e-06, "loss": 0.5789, "step": 6711 }, { "avg_step_time": 5.739441503177989, "epoch": 0.71584, "eta_time": 4.247186712351712, "step": 6711 }, { "epoch": 0.7159466666666666, "grad_norm": 1.9600042484726778, "learning_rate": 1.9711185024685024e-06, "loss": 0.5479, "step": 6712 }, { "avg_step_time": 5.743465103284277, "epoch": 0.7159466666666666, "eta_time": 4.24856876945723, "step": 6712 }, { "epoch": 0.7160533333333333, "grad_norm": 1.7685778286902138, "learning_rate": 1.9697442407797035e-06, "loss": 0.4427, "step": 6713 }, { "avg_step_time": 5.743579850052342, "epoch": 0.7160533333333333, "eta_time": 4.247058211344259, "step": 6713 }, { "epoch": 0.71616, "grad_norm": 0.6187806591682425, "learning_rate": 1.9683703408043447e-06, "loss": 0.4261, "step": 6714 }, { "avg_step_time": 5.708613390874381, "epoch": 0.71616, "eta_time": 4.219616731421313, "step": 6714 }, { "epoch": 0.7162666666666667, "grad_norm": 2.0836964296676164, "learning_rate": 1.9669968027064234e-06, "loss": 0.4348, "step": 6715 }, { "avg_step_time": 5.743142869737413, "epoch": 0.7162666666666667, "eta_time": 4.243544453750422, "step": 6715 }, { "epoch": 0.7163733333333333, "grad_norm": 0.633289820433364, "learning_rate": 1.965623626649893e-06, "loss": 0.4424, "step": 6716 }, { "avg_step_time": 5.7229481730798275, "epoch": 0.7163733333333333, "eta_time": 4.227033108949795, "step": 6716 }, { "epoch": 0.71648, "grad_norm": 1.6401193571502781, "learning_rate": 1.9642508127986676e-06, "loss": 0.433, "step": 6717 }, { "avg_step_time": 5.697548521889581, "epoch": 0.71648, "eta_time": 4.20668999199514, "step": 6717 }, { "epoch": 0.7165866666666667, "grad_norm": 2.0291700267017916, "learning_rate": 1.9628783613166184e-06, "loss": 0.5169, "step": 6718 }, { "avg_step_time": 5.698274841212263, "epoch": 0.7165866666666667, "eta_time": 4.2056434036391614, "step": 6718 }, { "epoch": 0.7166933333333333, "grad_norm": 2.1450462822253424, "learning_rate": 1.961506272367567e-06, "loss": 0.4328, "step": 6719 }, { "avg_step_time": 5.700211871754039, "epoch": 0.7166933333333333, "eta_time": 4.205489647605202, "step": 6719 }, { "epoch": 0.7168, "grad_norm": 1.8886057690129758, "learning_rate": 1.9601345461153005e-06, "loss": 0.5261, "step": 6720 }, { "avg_step_time": 5.705230019309304, "epoch": 0.7168, "eta_time": 4.207607139240611, "step": 6720 }, { "epoch": 0.7169066666666667, "grad_norm": 2.486887274738298, "learning_rate": 1.9587631827235557e-06, "loss": 0.4966, "step": 6721 }, { "avg_step_time": 5.699737789654972, "epoch": 0.7169066666666667, "eta_time": 4.201973359373415, "step": 6721 }, { "epoch": 0.7170133333333333, "grad_norm": 2.002291920452584, "learning_rate": 1.9573921823560273e-06, "loss": 0.466, "step": 6722 }, { "avg_step_time": 5.698561627455432, "epoch": 0.7170133333333333, "eta_time": 4.199523332677573, "step": 6722 }, { "epoch": 0.71712, "grad_norm": 1.5592812428622096, "learning_rate": 1.9560215451763685e-06, "loss": 0.4541, "step": 6723 }, { "avg_step_time": 5.699002436917238, "epoch": 0.71712, "eta_time": 4.198265128529031, "step": 6723 }, { "epoch": 0.7172266666666667, "grad_norm": 1.9116658269119278, "learning_rate": 1.954651271348192e-06, "loss": 0.4178, "step": 6724 }, { "avg_step_time": 5.7372370344219785, "epoch": 0.7172266666666667, "eta_time": 4.224837605070185, "step": 6724 }, { "epoch": 0.7173333333333334, "grad_norm": 1.9241520400204826, "learning_rate": 1.9532813610350604e-06, "loss": 0.467, "step": 6725 }, { "avg_step_time": 5.747703012793955, "epoch": 0.7173333333333334, "eta_time": 4.230948051084439, "step": 6725 }, { "epoch": 0.71744, "grad_norm": 1.8067314040356452, "learning_rate": 1.951911814400495e-06, "loss": 0.3913, "step": 6726 }, { "avg_step_time": 5.748525956664422, "epoch": 0.71744, "eta_time": 4.229957016445571, "step": 6726 }, { "epoch": 0.7175466666666667, "grad_norm": 1.8357174653975001, "learning_rate": 1.950542631607977e-06, "loss": 0.5747, "step": 6727 }, { "avg_step_time": 5.745002484080767, "epoch": 0.7175466666666667, "eta_time": 4.225768493846076, "step": 6727 }, { "epoch": 0.7176533333333334, "grad_norm": 1.9634351453011785, "learning_rate": 1.9491738128209437e-06, "loss": 0.4476, "step": 6728 }, { "avg_step_time": 5.7552573680877686, "epoch": 0.7176533333333334, "eta_time": 4.231712848146756, "step": 6728 }, { "epoch": 0.71776, "grad_norm": 2.022162757984091, "learning_rate": 1.9478053582027826e-06, "loss": 0.4823, "step": 6729 }, { "avg_step_time": 5.75194157494439, "epoch": 0.71776, "eta_time": 4.227677057584127, "step": 6729 }, { "epoch": 0.7178666666666667, "grad_norm": 2.036338453694526, "learning_rate": 1.9464372679168483e-06, "loss": 0.4511, "step": 6730 }, { "avg_step_time": 5.749975009398027, "epoch": 0.7178666666666667, "eta_time": 4.224634416627162, "step": 6730 }, { "epoch": 0.7179733333333334, "grad_norm": 1.681451677922448, "learning_rate": 1.945069542126442e-06, "loss": 0.4988, "step": 6731 }, { "avg_step_time": 5.7460513283507995, "epoch": 0.7179733333333334, "eta_time": 4.220155475599865, "step": 6731 }, { "epoch": 0.71808, "grad_norm": 1.724236074769934, "learning_rate": 1.9437021809948232e-06, "loss": 0.5436, "step": 6732 }, { "avg_step_time": 5.744667477077908, "epoch": 0.71808, "eta_time": 4.217543372754697, "step": 6732 }, { "epoch": 0.7181866666666666, "grad_norm": 1.986794927693358, "learning_rate": 1.942335184685217e-06, "loss": 0.5481, "step": 6733 }, { "avg_step_time": 5.750983587419144, "epoch": 0.7181866666666666, "eta_time": 4.220582954989272, "step": 6733 }, { "epoch": 0.7182933333333333, "grad_norm": 1.9628192599593794, "learning_rate": 1.9409685533607936e-06, "loss": 0.5103, "step": 6734 }, { "avg_step_time": 5.749465431829895, "epoch": 0.7182933333333333, "eta_time": 4.217871723739654, "step": 6734 }, { "epoch": 0.7184, "grad_norm": 0.6875926967610775, "learning_rate": 1.9396022871846836e-06, "loss": 0.4434, "step": 6735 }, { "avg_step_time": 5.712631423063953, "epoch": 0.7184, "eta_time": 4.189263043580232, "step": 6735 }, { "epoch": 0.7185066666666666, "grad_norm": 1.6006350753443472, "learning_rate": 1.9382363863199773e-06, "loss": 0.4295, "step": 6736 }, { "avg_step_time": 5.718895478682085, "epoch": 0.7185066666666666, "eta_time": 4.19226810228945, "step": 6736 }, { "epoch": 0.7186133333333333, "grad_norm": 1.8972700171329688, "learning_rate": 1.936870850929715e-06, "loss": 0.3878, "step": 6737 }, { "avg_step_time": 5.718761480215824, "epoch": 0.7186133333333333, "eta_time": 4.190581329113707, "step": 6737 }, { "epoch": 0.71872, "grad_norm": 2.2558429207522477, "learning_rate": 1.935505681176899e-06, "loss": 0.4359, "step": 6738 }, { "avg_step_time": 5.712013215729685, "epoch": 0.71872, "eta_time": 4.184049680521994, "step": 6738 }, { "epoch": 0.7188266666666666, "grad_norm": 1.7312616564195813, "learning_rate": 1.934140877224488e-06, "loss": 0.4087, "step": 6739 }, { "avg_step_time": 5.70976008790912, "epoch": 0.7188266666666666, "eta_time": 4.180813219924567, "step": 6739 }, { "epoch": 0.7189333333333333, "grad_norm": 1.9148841683872804, "learning_rate": 1.9327764392353927e-06, "loss": 0.5384, "step": 6740 }, { "avg_step_time": 5.7113082794227985, "epoch": 0.7189333333333333, "eta_time": 4.180360365633076, "step": 6740 }, { "epoch": 0.71904, "grad_norm": 0.6340592927142389, "learning_rate": 1.9314123673724805e-06, "loss": 0.4295, "step": 6741 }, { "avg_step_time": 5.678607389180347, "epoch": 0.71904, "eta_time": 4.154847739750287, "step": 6741 }, { "epoch": 0.7191466666666667, "grad_norm": 0.6206484835429528, "learning_rate": 1.9300486617985792e-06, "loss": 0.4207, "step": 6742 }, { "avg_step_time": 5.64134648833612, "epoch": 0.7191466666666667, "eta_time": 4.12601813994139, "step": 6742 }, { "epoch": 0.7192533333333333, "grad_norm": 0.6464101408497135, "learning_rate": 1.9286853226764725e-06, "loss": 0.4044, "step": 6743 }, { "avg_step_time": 5.605457522652366, "epoch": 0.7192533333333333, "eta_time": 4.098212277672507, "step": 6743 }, { "epoch": 0.71936, "grad_norm": 0.6491071416811897, "learning_rate": 1.9273223501688943e-06, "loss": 0.4496, "step": 6744 }, { "avg_step_time": 5.607383988120339, "epoch": 0.71936, "eta_time": 4.098063131317947, "step": 6744 }, { "epoch": 0.7194666666666667, "grad_norm": 1.8679122451216503, "learning_rate": 1.925959744438543e-06, "loss": 0.4464, "step": 6745 }, { "avg_step_time": 5.605822536680433, "epoch": 0.7194666666666667, "eta_time": 4.0953647976304275, "step": 6745 }, { "epoch": 0.7195733333333333, "grad_norm": 2.0816581809451544, "learning_rate": 1.9245975056480652e-06, "loss": 0.4994, "step": 6746 }, { "avg_step_time": 5.578754523787835, "epoch": 0.7195733333333333, "eta_time": 4.074040456399505, "step": 6746 }, { "epoch": 0.71968, "grad_norm": 0.6243270183808075, "learning_rate": 1.9232356339600717e-06, "loss": 0.4454, "step": 6747 }, { "avg_step_time": 5.518330000867747, "epoch": 0.71968, "eta_time": 4.028380900633455, "step": 6747 }, { "epoch": 0.7197866666666667, "grad_norm": 1.8514677283968648, "learning_rate": 1.9218741295371216e-06, "loss": 0.5088, "step": 6748 }, { "avg_step_time": 5.519995648451526, "epoch": 0.7197866666666667, "eta_time": 4.028063491245044, "step": 6748 }, { "epoch": 0.7198933333333334, "grad_norm": 1.5795649848595756, "learning_rate": 1.9205129925417375e-06, "loss": 0.4716, "step": 6749 }, { "avg_step_time": 5.508042321060643, "epoch": 0.7198933333333334, "eta_time": 4.017810870862569, "step": 6749 }, { "epoch": 0.72, "grad_norm": 1.98523148741401, "learning_rate": 1.919152223136391e-06, "loss": 0.5244, "step": 6750 }, { "avg_step_time": 5.476725373605285, "epoch": 0.72, "eta_time": 3.993445584920521, "step": 6750 }, { "epoch": 0.7201066666666667, "grad_norm": 2.0676779846765383, "learning_rate": 1.917791821483516e-06, "loss": 0.4983, "step": 6751 }, { "avg_step_time": 5.513389953459152, "epoch": 0.7201066666666667, "eta_time": 4.018648677188004, "step": 6751 }, { "epoch": 0.7202133333333334, "grad_norm": 1.739412506198821, "learning_rate": 1.9164317877455014e-06, "loss": 0.4825, "step": 6752 }, { "avg_step_time": 5.513682594202986, "epoch": 0.7202133333333334, "eta_time": 4.017330401276231, "step": 6752 }, { "epoch": 0.72032, "grad_norm": 1.8710811882570344, "learning_rate": 1.9150721220846884e-06, "loss": 0.4231, "step": 6753 }, { "avg_step_time": 5.513394543618867, "epoch": 0.72032, "eta_time": 4.015589025935742, "step": 6753 }, { "epoch": 0.7204266666666667, "grad_norm": 2.2649720148516166, "learning_rate": 1.913712824663375e-06, "loss": 0.5237, "step": 6754 }, { "avg_step_time": 5.511732477130312, "epoch": 0.7204266666666667, "eta_time": 4.012847450710708, "step": 6754 }, { "epoch": 0.7205333333333334, "grad_norm": 1.8963534885369528, "learning_rate": 1.912353895643821e-06, "loss": 0.4939, "step": 6755 }, { "avg_step_time": 5.537412530243999, "epoch": 0.7205333333333334, "eta_time": 4.030005785899799, "step": 6755 }, { "epoch": 0.72064, "grad_norm": 1.592906687359052, "learning_rate": 1.910995335188234e-06, "loss": 0.4876, "step": 6756 }, { "avg_step_time": 5.5355232219503385, "epoch": 0.72064, "eta_time": 4.027093143968871, "step": 6756 }, { "epoch": 0.7207466666666666, "grad_norm": 2.1539031347380546, "learning_rate": 1.9096371434587836e-06, "loss": 0.4684, "step": 6757 }, { "avg_step_time": 5.534518388786701, "epoch": 0.7207466666666666, "eta_time": 4.024824761623218, "step": 6757 }, { "epoch": 0.7208533333333333, "grad_norm": 2.0072280478535216, "learning_rate": 1.9082793206175954e-06, "loss": 0.482, "step": 6758 }, { "avg_step_time": 5.509626268136381, "epoch": 0.7208533333333333, "eta_time": 4.005192206586918, "step": 6758 }, { "epoch": 0.72096, "grad_norm": 1.6900627795743377, "learning_rate": 1.906921866826747e-06, "loss": 0.4602, "step": 6759 }, { "avg_step_time": 5.512222993253458, "epoch": 0.72096, "eta_time": 4.005548708430846, "step": 6759 }, { "epoch": 0.7210666666666666, "grad_norm": 1.6822223797486955, "learning_rate": 1.9055647822482725e-06, "loss": 0.4465, "step": 6760 }, { "avg_step_time": 5.524684472517534, "epoch": 0.7210666666666666, "eta_time": 4.0130694154537085, "step": 6760 }, { "epoch": 0.7211733333333333, "grad_norm": 2.110808608868513, "learning_rate": 1.9042080670441648e-06, "loss": 0.5579, "step": 6761 }, { "avg_step_time": 5.528855542943935, "epoch": 0.7211733333333333, "eta_time": 4.014563441459846, "step": 6761 }, { "epoch": 0.72128, "grad_norm": 1.8051849415298824, "learning_rate": 1.9028517213763737e-06, "loss": 0.4962, "step": 6762 }, { "avg_step_time": 5.52975379336964, "epoch": 0.72128, "eta_time": 4.01367962835413, "step": 6762 }, { "epoch": 0.7213866666666666, "grad_norm": 1.9266969589298484, "learning_rate": 1.9014957454067984e-06, "loss": 0.4871, "step": 6763 }, { "avg_step_time": 5.528459117870138, "epoch": 0.7213866666666666, "eta_time": 4.011204226632445, "step": 6763 }, { "epoch": 0.7214933333333333, "grad_norm": 1.6232574637796124, "learning_rate": 1.9001401392973018e-06, "loss": 0.4253, "step": 6764 }, { "avg_step_time": 5.528717994689941, "epoch": 0.7214933333333333, "eta_time": 4.009856301148733, "step": 6764 }, { "epoch": 0.7216, "grad_norm": 1.8305813538734883, "learning_rate": 1.8987849032096973e-06, "loss": 0.5007, "step": 6765 }, { "avg_step_time": 5.528272556536125, "epoch": 0.7216, "eta_time": 4.007997603488691, "step": 6765 }, { "epoch": 0.7217066666666667, "grad_norm": 0.6493061682913879, "learning_rate": 1.8974300373057518e-06, "loss": 0.434, "step": 6766 }, { "avg_step_time": 5.518004496892293, "epoch": 0.7217066666666667, "eta_time": 3.999020481219998, "step": 6766 }, { "epoch": 0.7218133333333333, "grad_norm": 1.892778845072579, "learning_rate": 1.8960755417471998e-06, "loss": 0.4398, "step": 6767 }, { "avg_step_time": 5.511551457222062, "epoch": 0.7218133333333333, "eta_time": 3.992812833454205, "step": 6767 }, { "epoch": 0.72192, "grad_norm": 1.8716315919650197, "learning_rate": 1.89472141669572e-06, "loss": 0.4882, "step": 6768 }, { "avg_step_time": 5.516130023532444, "epoch": 0.72192, "eta_time": 3.9945974920414113, "step": 6768 }, { "epoch": 0.7220266666666667, "grad_norm": 2.143426468700522, "learning_rate": 1.8933676623129481e-06, "loss": 0.5339, "step": 6769 }, { "avg_step_time": 5.518625952980735, "epoch": 0.7220266666666667, "eta_time": 3.99487200929661, "step": 6769 }, { "epoch": 0.7221333333333333, "grad_norm": 1.9693917275767927, "learning_rate": 1.8920142787604829e-06, "loss": 0.4696, "step": 6770 }, { "avg_step_time": 5.52048529759802, "epoch": 0.7221333333333333, "eta_time": 3.9946845000674562, "step": 6770 }, { "epoch": 0.72224, "grad_norm": 1.8422137954663163, "learning_rate": 1.8906612661998698e-06, "loss": 0.448, "step": 6771 }, { "avg_step_time": 5.521609388216578, "epoch": 0.72224, "eta_time": 3.9939641241433246, "step": 6771 }, { "epoch": 0.7223466666666667, "grad_norm": 1.7612873504976811, "learning_rate": 1.8893086247926157e-06, "loss": 0.4739, "step": 6772 }, { "avg_step_time": 5.5225990757797705, "epoch": 0.7223466666666667, "eta_time": 3.9931459428485394, "step": 6772 }, { "epoch": 0.7224533333333333, "grad_norm": 0.620988585887124, "learning_rate": 1.8879563547001844e-06, "loss": 0.3941, "step": 6773 }, { "avg_step_time": 5.4871918673467155, "epoch": 0.7224533333333333, "eta_time": 3.966020344121154, "step": 6773 }, { "epoch": 0.72256, "grad_norm": 2.324796697739909, "learning_rate": 1.8866044560839902e-06, "loss": 0.5377, "step": 6774 }, { "avg_step_time": 5.485262068835172, "epoch": 0.72256, "eta_time": 3.9631018447334116, "step": 6774 }, { "epoch": 0.7226666666666667, "grad_norm": 1.772420183415062, "learning_rate": 1.8852529291054046e-06, "loss": 0.4392, "step": 6775 }, { "avg_step_time": 5.487227596417822, "epoch": 0.7226666666666667, "eta_time": 3.9629977085239823, "step": 6775 }, { "epoch": 0.7227733333333334, "grad_norm": 1.8310228838136853, "learning_rate": 1.883901773925757e-06, "loss": 0.4394, "step": 6776 }, { "avg_step_time": 5.464033974541558, "epoch": 0.7227733333333334, "eta_time": 3.9447289721759753, "step": 6776 }, { "epoch": 0.72288, "grad_norm": 1.7866997662266035, "learning_rate": 1.8825509907063328e-06, "loss": 0.559, "step": 6777 }, { "avg_step_time": 5.431272104533032, "epoch": 0.72288, "eta_time": 3.9195680354380045, "step": 6777 }, { "epoch": 0.7229866666666667, "grad_norm": 1.9430995173255585, "learning_rate": 1.88120057960837e-06, "loss": 0.4351, "step": 6778 }, { "avg_step_time": 5.42982303253328, "epoch": 0.7229866666666667, "eta_time": 3.91701400430248, "step": 6778 }, { "epoch": 0.7230933333333334, "grad_norm": 1.6496250271748454, "learning_rate": 1.8798505407930612e-06, "loss": 0.4218, "step": 6779 }, { "avg_step_time": 5.465587839935765, "epoch": 0.7230933333333334, "eta_time": 3.941296120131457, "step": 6779 }, { "epoch": 0.7232, "grad_norm": 1.9467557726914921, "learning_rate": 1.8785008744215606e-06, "loss": 0.4874, "step": 6780 }, { "avg_step_time": 5.467329071025656, "epoch": 0.7232, "eta_time": 3.94103303869766, "step": 6780 }, { "epoch": 0.7233066666666667, "grad_norm": 1.8546391494732266, "learning_rate": 1.877151580654971e-06, "loss": 0.4706, "step": 6781 }, { "avg_step_time": 5.469379776656026, "epoch": 0.7233066666666667, "eta_time": 3.9409919835127027, "step": 6781 }, { "epoch": 0.7234133333333334, "grad_norm": 1.6129537042545978, "learning_rate": 1.8758026596543555e-06, "loss": 0.4221, "step": 6782 }, { "avg_step_time": 5.5012014201193145, "epoch": 0.7234133333333334, "eta_time": 3.9623931339914953, "step": 6782 }, { "epoch": 0.72352, "grad_norm": 1.7936576695051911, "learning_rate": 1.874454111580733e-06, "loss": 0.4552, "step": 6783 }, { "avg_step_time": 5.503249878835196, "epoch": 0.72352, "eta_time": 3.9623399127613412, "step": 6783 }, { "epoch": 0.7236266666666666, "grad_norm": 0.6429007721437914, "learning_rate": 1.8731059365950737e-06, "loss": 0.4534, "step": 6784 }, { "avg_step_time": 5.468284857393515, "epoch": 0.7236266666666666, "eta_time": 3.935646129307388, "step": 6784 }, { "epoch": 0.7237333333333333, "grad_norm": 2.0029233093301557, "learning_rate": 1.8717581348583052e-06, "loss": 0.5814, "step": 6785 }, { "avg_step_time": 5.47361170402681, "epoch": 0.7237333333333333, "eta_time": 3.9379595315081772, "step": 6785 }, { "epoch": 0.72384, "grad_norm": 2.0845218223627886, "learning_rate": 1.8704107065313116e-06, "loss": 0.537, "step": 6786 }, { "avg_step_time": 5.511660645706485, "epoch": 0.72384, "eta_time": 3.9638026143705805, "step": 6786 }, { "epoch": 0.7239466666666666, "grad_norm": 1.7896092517431672, "learning_rate": 1.8690636517749333e-06, "loss": 0.3974, "step": 6787 }, { "avg_step_time": 5.514298860472862, "epoch": 0.7239466666666666, "eta_time": 3.964168180806602, "step": 6787 }, { "epoch": 0.7240533333333333, "grad_norm": 0.6843570403381675, "learning_rate": 1.867716970749962e-06, "loss": 0.4707, "step": 6788 }, { "avg_step_time": 5.507373068067762, "epoch": 0.7240533333333333, "eta_time": 3.9576594797475835, "step": 6788 }, { "epoch": 0.72416, "grad_norm": 1.8037186121571782, "learning_rate": 1.8663706636171503e-06, "loss": 0.455, "step": 6789 }, { "avg_step_time": 5.509080296815044, "epoch": 0.72416, "eta_time": 3.9573560132121397, "step": 6789 }, { "epoch": 0.7242666666666666, "grad_norm": 1.651808756050202, "learning_rate": 1.8650247305371998e-06, "loss": 0.4222, "step": 6790 }, { "avg_step_time": 5.507096126826123, "epoch": 0.7242666666666666, "eta_time": 3.9544009688459796, "step": 6790 }, { "epoch": 0.7243733333333333, "grad_norm": 0.6749982490343882, "learning_rate": 1.863679171670773e-06, "loss": 0.4633, "step": 6791 }, { "avg_step_time": 5.468764673579823, "epoch": 0.7243733333333333, "eta_time": 3.9253577545917397, "step": 6791 }, { "epoch": 0.72448, "grad_norm": 0.6496146013203483, "learning_rate": 1.8623339871784869e-06, "loss": 0.4299, "step": 6792 }, { "avg_step_time": 5.433353633591623, "epoch": 0.72448, "eta_time": 3.898431232101989, "step": 6792 }, { "epoch": 0.7245866666666667, "grad_norm": 1.6254049008926978, "learning_rate": 1.860989177220911e-06, "loss": 0.4397, "step": 6793 }, { "avg_step_time": 5.432084028166954, "epoch": 0.7245866666666667, "eta_time": 3.8960113779797427, "step": 6793 }, { "epoch": 0.7246933333333333, "grad_norm": 1.7581891543544375, "learning_rate": 1.85964474195857e-06, "loss": 0.4505, "step": 6794 }, { "avg_step_time": 5.382103175827951, "epoch": 0.7246933333333333, "eta_time": 3.8586689713366504, "step": 6794 }, { "epoch": 0.7248, "grad_norm": 1.9838357118982886, "learning_rate": 1.8583006815519473e-06, "loss": 0.4047, "step": 6795 }, { "avg_step_time": 5.373083485497369, "epoch": 0.7248, "eta_time": 3.8507098312731145, "step": 6795 }, { "epoch": 0.7249066666666667, "grad_norm": 1.967544441790754, "learning_rate": 1.856956996161481e-06, "loss": 0.5012, "step": 6796 }, { "avg_step_time": 5.377490664973403, "epoch": 0.7249066666666667, "eta_time": 3.852374562490669, "step": 6796 }, { "epoch": 0.7250133333333333, "grad_norm": 1.943388369325247, "learning_rate": 1.85561368594756e-06, "loss": 0.4301, "step": 6797 }, { "avg_step_time": 5.38109631008572, "epoch": 0.7250133333333333, "eta_time": 3.853462857611385, "step": 6797 }, { "epoch": 0.72512, "grad_norm": 1.8606417058971731, "learning_rate": 1.8542707510705355e-06, "loss": 0.4751, "step": 6798 }, { "avg_step_time": 5.380341043375959, "epoch": 0.72512, "eta_time": 3.8514274635499572, "step": 6798 }, { "epoch": 0.7252266666666667, "grad_norm": 2.055995152287474, "learning_rate": 1.852928191690707e-06, "loss": 0.4898, "step": 6799 }, { "avg_step_time": 5.382914100030456, "epoch": 0.7252266666666667, "eta_time": 3.851774089355126, "step": 6799 }, { "epoch": 0.7253333333333334, "grad_norm": 2.075091637945218, "learning_rate": 1.8515860079683322e-06, "loss": 0.5199, "step": 6800 }, { "avg_step_time": 5.380944728851318, "epoch": 0.7253333333333334, "eta_time": 3.848870187997818, "step": 6800 }, { "epoch": 0.72544, "grad_norm": 1.703529431011093, "learning_rate": 1.8502442000636246e-06, "loss": 0.481, "step": 6801 }, { "avg_step_time": 5.380983836723097, "epoch": 0.72544, "eta_time": 3.847403443257014, "step": 6801 }, { "epoch": 0.7255466666666667, "grad_norm": 0.6416106821706934, "learning_rate": 1.8489027681367544e-06, "loss": 0.4393, "step": 6802 }, { "avg_step_time": 5.348558293448554, "epoch": 0.7255466666666667, "eta_time": 3.8227334691786474, "step": 6802 }, { "epoch": 0.7256533333333334, "grad_norm": 1.7817328830438168, "learning_rate": 1.8475617123478406e-06, "loss": 0.4104, "step": 6803 }, { "avg_step_time": 5.386126703686184, "epoch": 0.7256533333333334, "eta_time": 3.8480883005224626, "step": 6803 }, { "epoch": 0.72576, "grad_norm": 1.5488085618560294, "learning_rate": 1.846221032856965e-06, "loss": 0.3848, "step": 6804 }, { "avg_step_time": 5.384636801902694, "epoch": 0.72576, "eta_time": 3.8455281160255073, "step": 6804 }, { "epoch": 0.7258666666666667, "grad_norm": 1.971938732390756, "learning_rate": 1.8448807298241584e-06, "loss": 0.4356, "step": 6805 }, { "avg_step_time": 5.383324358198378, "epoch": 0.7258666666666667, "eta_time": 3.8430954446027306, "step": 6805 }, { "epoch": 0.7259733333333334, "grad_norm": 1.9630646505597382, "learning_rate": 1.8435408034094116e-06, "loss": 0.4219, "step": 6806 }, { "avg_step_time": 5.384995157068426, "epoch": 0.7259733333333334, "eta_time": 3.8427923773635513, "step": 6806 }, { "epoch": 0.72608, "grad_norm": 2.1499581092223603, "learning_rate": 1.8422012537726646e-06, "loss": 0.5212, "step": 6807 }, { "avg_step_time": 5.387074210427024, "epoch": 0.72608, "eta_time": 3.842779603437944, "step": 6807 }, { "epoch": 0.7261866666666666, "grad_norm": 2.0087384024349397, "learning_rate": 1.8408620810738191e-06, "loss": 0.4588, "step": 6808 }, { "avg_step_time": 5.38605703247918, "epoch": 0.7261866666666666, "eta_time": 3.840557889548349, "step": 6808 }, { "epoch": 0.7262933333333333, "grad_norm": 0.6666278019843614, "learning_rate": 1.8395232854727263e-06, "loss": 0.4486, "step": 6809 }, { "avg_step_time": 5.354905942473748, "epoch": 0.7262933333333333, "eta_time": 3.816857957885455, "step": 6809 }, { "epoch": 0.7264, "grad_norm": 1.8523303173685712, "learning_rate": 1.8381848671291953e-06, "loss": 0.4887, "step": 6810 }, { "avg_step_time": 5.35381173124217, "epoch": 0.7264, "eta_time": 3.8145908585100465, "step": 6810 }, { "epoch": 0.7265066666666666, "grad_norm": 1.726957721073318, "learning_rate": 1.836846826202991e-06, "loss": 0.5106, "step": 6811 }, { "avg_step_time": 5.333573589421282, "epoch": 0.7265066666666666, "eta_time": 3.79868963424338, "step": 6811 }, { "epoch": 0.7266133333333333, "grad_norm": 1.6252049402250388, "learning_rate": 1.8355091628538308e-06, "loss": 0.4807, "step": 6812 }, { "avg_step_time": 5.339939697824343, "epoch": 0.7266133333333333, "eta_time": 3.8017404015343867, "step": 6812 }, { "epoch": 0.72672, "grad_norm": 0.6303158188798008, "learning_rate": 1.8341718772413852e-06, "loss": 0.4309, "step": 6813 }, { "avg_step_time": 5.339271037265508, "epoch": 0.72672, "eta_time": 3.79978122152062, "step": 6813 }, { "epoch": 0.7268266666666666, "grad_norm": 1.8487301806494918, "learning_rate": 1.8328349695252872e-06, "loss": 0.3953, "step": 6814 }, { "avg_step_time": 5.343542922626842, "epoch": 0.7268266666666666, "eta_time": 3.801337062457595, "step": 6814 }, { "epoch": 0.7269333333333333, "grad_norm": 1.725584307423187, "learning_rate": 1.8314984398651153e-06, "loss": 0.4314, "step": 6815 }, { "avg_step_time": 5.362762441538801, "epoch": 0.7269333333333333, "eta_time": 3.813519958427592, "step": 6815 }, { "epoch": 0.72704, "grad_norm": 1.8076901963805379, "learning_rate": 1.8301622884204096e-06, "loss": 0.5315, "step": 6816 }, { "avg_step_time": 5.35781967037856, "epoch": 0.72704, "eta_time": 3.808516815694093, "step": 6816 }, { "epoch": 0.7271466666666667, "grad_norm": 1.7979276617284752, "learning_rate": 1.8288265153506646e-06, "loss": 0.524, "step": 6817 }, { "avg_step_time": 5.356799698839284, "epoch": 0.7271466666666667, "eta_time": 3.80630378600858, "step": 6817 }, { "epoch": 0.7272533333333333, "grad_norm": 2.0972911110763426, "learning_rate": 1.8274911208153262e-06, "loss": 0.4537, "step": 6818 }, { "avg_step_time": 5.35571435966877, "epoch": 0.7272533333333333, "eta_time": 3.804044893798068, "step": 6818 }, { "epoch": 0.72736, "grad_norm": 1.8875116364843498, "learning_rate": 1.8261561049737946e-06, "loss": 0.4449, "step": 6819 }, { "avg_step_time": 5.3683112510527025, "epoch": 0.72736, "eta_time": 3.811500988247419, "step": 6819 }, { "epoch": 0.7274666666666667, "grad_norm": 1.6786418022957, "learning_rate": 1.8248214679854298e-06, "loss": 0.4546, "step": 6820 }, { "avg_step_time": 5.367365690192791, "epoch": 0.7274666666666667, "eta_time": 3.8093387051229395, "step": 6820 }, { "epoch": 0.7275733333333333, "grad_norm": 1.9343038597146562, "learning_rate": 1.8234872100095445e-06, "loss": 0.4967, "step": 6821 }, { "avg_step_time": 5.368256503885442, "epoch": 0.7275733333333333, "eta_time": 3.8084797530342835, "step": 6821 }, { "epoch": 0.72768, "grad_norm": 1.6676488978503958, "learning_rate": 1.8221533312054024e-06, "loss": 0.3889, "step": 6822 }, { "avg_step_time": 5.367880334757795, "epoch": 0.72768, "eta_time": 3.8067218040657367, "step": 6822 }, { "epoch": 0.7277866666666667, "grad_norm": 0.6769325528242863, "learning_rate": 1.820819831732229e-06, "loss": 0.446, "step": 6823 }, { "avg_step_time": 5.330677889814281, "epoch": 0.7277866666666667, "eta_time": 3.7788583263350124, "step": 6823 }, { "epoch": 0.7278933333333333, "grad_norm": 1.818557190741047, "learning_rate": 1.8194867117491978e-06, "loss": 0.4959, "step": 6824 }, { "avg_step_time": 5.324028268004909, "epoch": 0.7278933333333333, "eta_time": 3.772665586577923, "step": 6824 }, { "epoch": 0.728, "grad_norm": 1.809505228340761, "learning_rate": 1.818153971415439e-06, "loss": 0.4051, "step": 6825 }, { "avg_step_time": 5.322822327565665, "epoch": 0.728, "eta_time": 3.770332482025679, "step": 6825 }, { "epoch": 0.7281066666666667, "grad_norm": 2.0850780722400795, "learning_rate": 1.8168216108900389e-06, "loss": 0.5079, "step": 6826 }, { "avg_step_time": 5.331933621204261, "epoch": 0.7281066666666667, "eta_time": 3.775305222347128, "step": 6826 }, { "epoch": 0.7282133333333334, "grad_norm": 1.655728131699054, "learning_rate": 1.8154896303320402e-06, "loss": 0.4348, "step": 6827 }, { "avg_step_time": 5.3370748264621, "epoch": 0.7282133333333334, "eta_time": 3.777462960507064, "step": 6827 }, { "epoch": 0.72832, "grad_norm": 1.9080396766368397, "learning_rate": 1.8141580299004342e-06, "loss": 0.4466, "step": 6828 }, { "avg_step_time": 5.337430905814123, "epoch": 0.72832, "eta_time": 3.7762323658634918, "step": 6828 }, { "epoch": 0.7284266666666667, "grad_norm": 2.6113694148072253, "learning_rate": 1.812826809754174e-06, "loss": 0.5248, "step": 6829 }, { "avg_step_time": 5.39179735472708, "epoch": 0.7284266666666667, "eta_time": 3.813198906981985, "step": 6829 }, { "epoch": 0.7285333333333334, "grad_norm": 1.811002289478342, "learning_rate": 1.8114959700521606e-06, "loss": 0.5165, "step": 6830 }, { "avg_step_time": 5.391271241987594, "epoch": 0.7285333333333334, "eta_time": 3.81132925301623, "step": 6830 }, { "epoch": 0.72864, "grad_norm": 1.8903763212974638, "learning_rate": 1.8101655109532552e-06, "loss": 0.512, "step": 6831 }, { "avg_step_time": 5.392900719787136, "epoch": 0.72864, "eta_time": 3.8109831753162426, "step": 6831 }, { "epoch": 0.7287466666666667, "grad_norm": 1.9397014117962574, "learning_rate": 1.8088354326162683e-06, "loss": 0.42, "step": 6832 }, { "avg_step_time": 5.389212273588084, "epoch": 0.7287466666666667, "eta_time": 3.8068796699262495, "step": 6832 }, { "epoch": 0.7288533333333334, "grad_norm": 1.6623278280218965, "learning_rate": 1.8075057351999714e-06, "loss": 0.5282, "step": 6833 }, { "avg_step_time": 5.396324718841399, "epoch": 0.7288533333333334, "eta_time": 3.810404843137454, "step": 6833 }, { "epoch": 0.72896, "grad_norm": 1.8410616991130209, "learning_rate": 1.8061764188630831e-06, "loss": 0.3884, "step": 6834 }, { "avg_step_time": 5.431737076152455, "epoch": 0.72896, "eta_time": 3.833901086250941, "step": 6834 }, { "epoch": 0.7290666666666666, "grad_norm": 2.1460969404320815, "learning_rate": 1.8048474837642821e-06, "loss": 0.4213, "step": 6835 }, { "avg_step_time": 5.427923985201903, "epoch": 0.7290666666666666, "eta_time": 3.8297019228924536, "step": 6835 }, { "epoch": 0.7291733333333333, "grad_norm": 1.9610018836243313, "learning_rate": 1.8035189300622019e-06, "loss": 0.4953, "step": 6836 }, { "avg_step_time": 5.428149615875398, "epoch": 0.7291733333333333, "eta_time": 3.8283532985298985, "step": 6836 }, { "epoch": 0.72928, "grad_norm": 1.7557104686941243, "learning_rate": 1.8021907579154257e-06, "loss": 0.4701, "step": 6837 }, { "avg_step_time": 5.421762608518504, "epoch": 0.72928, "eta_time": 3.8223426390055457, "step": 6837 }, { "epoch": 0.7293866666666666, "grad_norm": 1.757933185338754, "learning_rate": 1.8008629674824928e-06, "loss": 0.4183, "step": 6838 }, { "avg_step_time": 5.421239946827744, "epoch": 0.7293866666666666, "eta_time": 3.8204682625283293, "step": 6838 }, { "epoch": 0.7294933333333333, "grad_norm": 1.7680105996377633, "learning_rate": 1.7995355589219e-06, "loss": 0.4209, "step": 6839 }, { "avg_step_time": 5.42047370323027, "epoch": 0.7294933333333333, "eta_time": 3.818422586497768, "step": 6839 }, { "epoch": 0.7296, "grad_norm": 1.9574217997130283, "learning_rate": 1.7982085323920973e-06, "loss": 0.499, "step": 6840 }, { "avg_step_time": 5.449682845009698, "epoch": 0.7296, "eta_time": 3.8374850033609955, "step": 6840 }, { "epoch": 0.7297066666666666, "grad_norm": 1.5801825125613036, "learning_rate": 1.7968818880514855e-06, "loss": 0.474, "step": 6841 }, { "avg_step_time": 5.4968022288698135, "epoch": 0.7297066666666666, "eta_time": 3.869138013321141, "step": 6841 }, { "epoch": 0.7298133333333333, "grad_norm": 2.1204377400906056, "learning_rate": 1.7955556260584256e-06, "loss": 0.4953, "step": 6842 }, { "avg_step_time": 5.539848997135355, "epoch": 0.7298133333333333, "eta_time": 3.8978993082621813, "step": 6842 }, { "epoch": 0.72992, "grad_norm": 0.641599575777067, "learning_rate": 1.7942297465712282e-06, "loss": 0.4157, "step": 6843 }, { "avg_step_time": 5.5369713330509684, "epoch": 0.72992, "eta_time": 3.8943365042458478, "step": 6843 }, { "epoch": 0.7300266666666667, "grad_norm": 2.083733141033828, "learning_rate": 1.792904249748157e-06, "loss": 0.4648, "step": 6844 }, { "avg_step_time": 5.534801420539316, "epoch": 0.7300266666666667, "eta_time": 3.891272887606947, "step": 6844 }, { "epoch": 0.7301333333333333, "grad_norm": 1.9304646903368214, "learning_rate": 1.7915791357474394e-06, "loss": 0.5235, "step": 6845 }, { "avg_step_time": 5.545378740387734, "epoch": 0.7301333333333333, "eta_time": 3.897168948105824, "step": 6845 }, { "epoch": 0.73024, "grad_norm": 1.8883450167269016, "learning_rate": 1.7902544047272468e-06, "loss": 0.4977, "step": 6846 }, { "avg_step_time": 5.582773331439856, "epoch": 0.73024, "eta_time": 3.921898265336499, "step": 6846 }, { "epoch": 0.7303466666666667, "grad_norm": 1.5190113042510935, "learning_rate": 1.7889300568457085e-06, "loss": 0.3882, "step": 6847 }, { "avg_step_time": 5.580131542803061, "epoch": 0.7303466666666667, "eta_time": 3.918492372279483, "step": 6847 }, { "epoch": 0.7304533333333333, "grad_norm": 1.9183372297343129, "learning_rate": 1.78760609226091e-06, "loss": 0.4899, "step": 6848 }, { "avg_step_time": 5.5807800461547545, "epoch": 0.7304533333333333, "eta_time": 3.9173975490647406, "step": 6848 }, { "epoch": 0.73056, "grad_norm": 1.4752580876342036, "learning_rate": 1.7862825111308873e-06, "loss": 0.4428, "step": 6849 }, { "avg_step_time": 5.587401390075684, "epoch": 0.73056, "eta_time": 3.920493308703105, "step": 6849 }, { "epoch": 0.7306666666666667, "grad_norm": 1.75406568602393, "learning_rate": 1.784959313613634e-06, "loss": 0.49, "step": 6850 }, { "avg_step_time": 5.587644969574129, "epoch": 0.7306666666666667, "eta_time": 3.9191120967151876, "step": 6850 }, { "epoch": 0.7307733333333334, "grad_norm": 1.8420113020785214, "learning_rate": 1.783636499867098e-06, "loss": 0.5049, "step": 6851 }, { "avg_step_time": 5.585933109726569, "epoch": 0.7307733333333334, "eta_time": 3.916359769152739, "step": 6851 }, { "epoch": 0.73088, "grad_norm": 1.915993602947003, "learning_rate": 1.7823140700491786e-06, "loss": 0.4774, "step": 6852 }, { "avg_step_time": 5.5843479055346865, "epoch": 0.73088, "eta_time": 3.913697157128893, "step": 6852 }, { "epoch": 0.7309866666666667, "grad_norm": 1.8031358360693555, "learning_rate": 1.7809920243177287e-06, "loss": 0.4268, "step": 6853 }, { "avg_step_time": 5.587092399597168, "epoch": 0.7309866666666667, "eta_time": 3.914068619940016, "step": 6853 }, { "epoch": 0.7310933333333334, "grad_norm": 1.8937918678198675, "learning_rate": 1.7796703628305596e-06, "loss": 0.5299, "step": 6854 }, { "avg_step_time": 5.553574749917695, "epoch": 0.7310933333333334, "eta_time": 3.8890449845951416, "step": 6854 }, { "epoch": 0.7312, "grad_norm": 1.8866180883855985, "learning_rate": 1.7783490857454354e-06, "loss": 0.497, "step": 6855 }, { "avg_step_time": 5.550640310903992, "epoch": 0.7312, "eta_time": 3.8854482176327942, "step": 6855 }, { "epoch": 0.7313066666666667, "grad_norm": 2.063040544087124, "learning_rate": 1.7770281932200706e-06, "loss": 0.4579, "step": 6856 }, { "avg_step_time": 5.554757433708268, "epoch": 0.7313066666666667, "eta_time": 3.8867872154197576, "step": 6856 }, { "epoch": 0.7314133333333334, "grad_norm": 2.0587381095216615, "learning_rate": 1.7757076854121396e-06, "loss": 0.5179, "step": 6857 }, { "avg_step_time": 5.561001418816923, "epoch": 0.7314133333333334, "eta_time": 3.8896115479391695, "step": 6857 }, { "epoch": 0.73152, "grad_norm": 1.6863390137370367, "learning_rate": 1.7743875624792662e-06, "loss": 0.4185, "step": 6858 }, { "avg_step_time": 5.5582763257652825, "epoch": 0.73152, "eta_time": 3.88616153109756, "step": 6858 }, { "epoch": 0.7316266666666666, "grad_norm": 1.8689105796502343, "learning_rate": 1.7730678245790283e-06, "loss": 0.4812, "step": 6859 }, { "avg_step_time": 5.547250309375801, "epoch": 0.7316266666666666, "eta_time": 3.876911605108199, "step": 6859 }, { "epoch": 0.7317333333333333, "grad_norm": 1.7989882739861156, "learning_rate": 1.771748471868961e-06, "loss": 0.4569, "step": 6860 }, { "avg_step_time": 5.546312211739896, "epoch": 0.7317333333333333, "eta_time": 3.874715336812733, "step": 6860 }, { "epoch": 0.73184, "grad_norm": 1.8978871531932935, "learning_rate": 1.770429504506554e-06, "loss": 0.5426, "step": 6861 }, { "avg_step_time": 5.567213780952223, "epoch": 0.73184, "eta_time": 3.887770957031636, "step": 6861 }, { "epoch": 0.7319466666666666, "grad_norm": 1.946016835826234, "learning_rate": 1.7691109226492448e-06, "loss": 0.496, "step": 6862 }, { "avg_step_time": 5.568622707116483, "epoch": 0.7319466666666666, "eta_time": 3.887208017495478, "step": 6862 }, { "epoch": 0.7320533333333333, "grad_norm": 1.790693761855838, "learning_rate": 1.767792726454433e-06, "loss": 0.4399, "step": 6863 }, { "avg_step_time": 5.568322740419947, "epoch": 0.7320533333333333, "eta_time": 3.8854518677596963, "step": 6863 }, { "epoch": 0.73216, "grad_norm": 1.9014520537068857, "learning_rate": 1.7664749160794642e-06, "loss": 0.4604, "step": 6864 }, { "avg_step_time": 5.569468828162762, "epoch": 0.73216, "eta_time": 3.8847045076435265, "step": 6864 }, { "epoch": 0.7322666666666666, "grad_norm": 1.7414218124265552, "learning_rate": 1.765157491681646e-06, "loss": 0.4611, "step": 6865 }, { "avg_step_time": 5.595991886023319, "epoch": 0.7322666666666666, "eta_time": 3.901649898310703, "step": 6865 }, { "epoch": 0.7323733333333333, "grad_norm": 2.070583838397362, "learning_rate": 1.7638404534182313e-06, "loss": 0.5673, "step": 6866 }, { "avg_step_time": 5.595800727304786, "epoch": 0.7323733333333333, "eta_time": 3.8999622291132523, "step": 6866 }, { "epoch": 0.73248, "grad_norm": 2.1115440417200224, "learning_rate": 1.7625238014464358e-06, "loss": 0.4437, "step": 6867 }, { "avg_step_time": 5.592148248595421, "epoch": 0.73248, "eta_time": 3.8958632798548094, "step": 6867 }, { "epoch": 0.7325866666666667, "grad_norm": 1.8495306120906985, "learning_rate": 1.761207535923422e-06, "loss": 0.4499, "step": 6868 }, { "avg_step_time": 5.58779587167682, "epoch": 0.7325866666666667, "eta_time": 3.8912789584149414, "step": 6868 }, { "epoch": 0.7326933333333333, "grad_norm": 1.9324260340577275, "learning_rate": 1.7598916570063064e-06, "loss": 0.396, "step": 6869 }, { "avg_step_time": 5.586036108961009, "epoch": 0.7326933333333333, "eta_time": 3.8885018025156355, "step": 6869 }, { "epoch": 0.7328, "grad_norm": 1.7172894574824853, "learning_rate": 1.7585761648521688e-06, "loss": 0.5075, "step": 6870 }, { "avg_step_time": 5.583670057431616, "epoch": 0.7328, "eta_time": 3.885303748296166, "step": 6870 }, { "epoch": 0.7329066666666667, "grad_norm": 1.8901175172679459, "learning_rate": 1.7572610596180316e-06, "loss": 0.5484, "step": 6871 }, { "avg_step_time": 5.583944580771706, "epoch": 0.7329066666666667, "eta_time": 3.8839436750700975, "step": 6871 }, { "epoch": 0.7330133333333333, "grad_norm": 1.7264900706763882, "learning_rate": 1.7559463414608747e-06, "loss": 0.4305, "step": 6872 }, { "avg_step_time": 5.619211495524705, "epoch": 0.7330133333333333, "eta_time": 3.9069128814717597, "step": 6872 }, { "epoch": 0.73312, "grad_norm": 2.1540525004881386, "learning_rate": 1.7546320105376346e-06, "loss": 0.5507, "step": 6873 }, { "avg_step_time": 5.620829760426223, "epoch": 0.73312, "eta_time": 3.906476683496225, "step": 6873 }, { "epoch": 0.7332266666666667, "grad_norm": 2.3156186208842082, "learning_rate": 1.7533180670051974e-06, "loss": 0.4469, "step": 6874 }, { "avg_step_time": 5.657934138269136, "epoch": 0.7332266666666667, "eta_time": 3.9306925777253077, "step": 6874 }, { "epoch": 0.7333333333333333, "grad_norm": 2.097140187241999, "learning_rate": 1.752004511020406e-06, "loss": 0.4759, "step": 6875 }, { "avg_step_time": 5.65769578952982, "epoch": 0.7333333333333333, "eta_time": 3.928955409395708, "step": 6875 }, { "epoch": 0.73344, "grad_norm": 0.6289040844996839, "learning_rate": 1.750691342740058e-06, "loss": 0.424, "step": 6876 }, { "avg_step_time": 5.63000099586718, "epoch": 0.73344, "eta_time": 3.908159024631134, "step": 6876 }, { "epoch": 0.7335466666666667, "grad_norm": 1.8287354029089666, "learning_rate": 1.7493785623209009e-06, "loss": 0.4597, "step": 6877 }, { "avg_step_time": 5.6358805304825905, "epoch": 0.7335466666666667, "eta_time": 3.910674879207086, "step": 6877 }, { "epoch": 0.7336533333333334, "grad_norm": 0.6528161573850796, "learning_rate": 1.7480661699196356e-06, "loss": 0.4572, "step": 6878 }, { "avg_step_time": 5.60475980633437, "epoch": 0.7336533333333334, "eta_time": 3.8875236767824783, "step": 6878 }, { "epoch": 0.73376, "grad_norm": 2.033753028309985, "learning_rate": 1.746754165692921e-06, "loss": 0.4632, "step": 6879 }, { "avg_step_time": 5.623073394852455, "epoch": 0.73376, "eta_time": 3.8986642204310358, "step": 6879 }, { "epoch": 0.7338666666666667, "grad_norm": 1.8034124950288148, "learning_rate": 1.7454425497973692e-06, "loss": 0.3999, "step": 6880 }, { "avg_step_time": 5.6199981756884645, "epoch": 0.7338666666666667, "eta_time": 3.8949709578729776, "step": 6880 }, { "epoch": 0.7339733333333334, "grad_norm": 1.811099686737478, "learning_rate": 1.7441313223895412e-06, "loss": 0.4574, "step": 6881 }, { "avg_step_time": 5.620898299747044, "epoch": 0.7339733333333334, "eta_time": 3.8940334332136466, "step": 6881 }, { "epoch": 0.73408, "grad_norm": 1.5024785002337793, "learning_rate": 1.742820483625957e-06, "loss": 0.4349, "step": 6882 }, { "avg_step_time": 5.624986571494979, "epoch": 0.73408, "eta_time": 3.895303200760273, "step": 6882 }, { "epoch": 0.7341866666666667, "grad_norm": 1.5197434842421647, "learning_rate": 1.7415100336630858e-06, "loss": 0.4502, "step": 6883 }, { "avg_step_time": 5.660381914389254, "epoch": 0.7341866666666667, "eta_time": 3.9182421474050058, "step": 6883 }, { "epoch": 0.7342933333333334, "grad_norm": 1.8157754360308753, "learning_rate": 1.740199972657355e-06, "loss": 0.4364, "step": 6884 }, { "avg_step_time": 5.69083337591152, "epoch": 0.7342933333333334, "eta_time": 3.937740538720999, "step": 6884 }, { "epoch": 0.7344, "grad_norm": 0.6423502608182051, "learning_rate": 1.7388903007651398e-06, "loss": 0.4532, "step": 6885 }, { "avg_step_time": 5.6553343594676315, "epoch": 0.7344, "eta_time": 3.911606265298445, "step": 6885 }, { "epoch": 0.7345066666666666, "grad_norm": 0.6247561965339697, "learning_rate": 1.7375810181427755e-06, "loss": 0.42, "step": 6886 }, { "avg_step_time": 5.62096166129064, "epoch": 0.7345066666666666, "eta_time": 3.886270437486779, "step": 6886 }, { "epoch": 0.7346133333333333, "grad_norm": 1.7758886515850187, "learning_rate": 1.7362721249465448e-06, "loss": 0.4877, "step": 6887 }, { "avg_step_time": 5.66424295155689, "epoch": 0.7346133333333333, "eta_time": 3.9146212398537616, "step": 6887 }, { "epoch": 0.73472, "grad_norm": 1.7890568093078798, "learning_rate": 1.7349636213326876e-06, "loss": 0.5696, "step": 6888 }, { "avg_step_time": 5.675950050354004, "epoch": 0.73472, "eta_time": 3.9211354931195577, "step": 6888 }, { "epoch": 0.7348266666666666, "grad_norm": 2.068549141005807, "learning_rate": 1.7336555074573985e-06, "loss": 0.5007, "step": 6889 }, { "avg_step_time": 5.694123788313433, "epoch": 0.7348266666666666, "eta_time": 3.9321088160408872, "step": 6889 }, { "epoch": 0.7349333333333333, "grad_norm": 1.8534932814838547, "learning_rate": 1.732347783476822e-06, "loss": 0.4936, "step": 6890 }, { "avg_step_time": 5.739171832498878, "epoch": 0.7349333333333333, "eta_time": 3.961622778822142, "step": 6890 }, { "epoch": 0.73504, "grad_norm": 1.9355166438531612, "learning_rate": 1.7310404495470557e-06, "loss": 0.5511, "step": 6891 }, { "avg_step_time": 5.771434735770177, "epoch": 0.73504, "eta_time": 3.9822899676814223, "step": 6891 }, { "epoch": 0.7351466666666666, "grad_norm": 1.6601312965565398, "learning_rate": 1.729733505824156e-06, "loss": 0.4675, "step": 6892 }, { "avg_step_time": 5.790246436090181, "epoch": 0.7351466666666666, "eta_time": 3.9936616391144217, "step": 6892 }, { "epoch": 0.7352533333333333, "grad_norm": 1.911815701035206, "learning_rate": 1.7284269524641262e-06, "loss": 0.4632, "step": 6893 }, { "avg_step_time": 5.788672220827353, "epoch": 0.7352533333333333, "eta_time": 3.9909679033593024, "step": 6893 }, { "epoch": 0.73536, "grad_norm": 2.3094508759721153, "learning_rate": 1.727120789622927e-06, "loss": 0.6001, "step": 6894 }, { "avg_step_time": 5.787437913393734, "epoch": 0.73536, "eta_time": 3.9885092953138486, "step": 6894 }, { "epoch": 0.7354666666666667, "grad_norm": 1.728679084236953, "learning_rate": 1.7258150174564737e-06, "loss": 0.4519, "step": 6895 }, { "avg_step_time": 5.796327504244718, "epoch": 0.7354666666666667, "eta_time": 3.99302561403525, "step": 6895 }, { "epoch": 0.7355733333333333, "grad_norm": 2.474757704167454, "learning_rate": 1.7245096361206304e-06, "loss": 0.5202, "step": 6896 }, { "avg_step_time": 5.78186934162872, "epoch": 0.7355733333333333, "eta_time": 3.9814594716382214, "step": 6896 }, { "epoch": 0.73568, "grad_norm": 1.5756502168792432, "learning_rate": 1.7232046457712164e-06, "loss": 0.3649, "step": 6897 }, { "avg_step_time": 5.781274841289328, "epoch": 0.73568, "eta_time": 3.9794441824208207, "step": 6897 }, { "epoch": 0.7357866666666667, "grad_norm": 0.630168676128889, "learning_rate": 1.7219000465640057e-06, "loss": 0.4485, "step": 6898 }, { "avg_step_time": 5.740925945416845, "epoch": 0.7357866666666667, "eta_time": 3.95007599077709, "step": 6898 }, { "epoch": 0.7358933333333333, "grad_norm": 2.2783529130746274, "learning_rate": 1.7205958386547273e-06, "loss": 0.5936, "step": 6899 }, { "avg_step_time": 5.742089261912336, "epoch": 0.7358933333333333, "eta_time": 3.9492813923597065, "step": 6899 }, { "epoch": 0.736, "grad_norm": 1.71394649479624, "learning_rate": 1.7192920221990566e-06, "loss": 0.4067, "step": 6900 }, { "avg_step_time": 5.741589832787562, "epoch": 0.736, "eta_time": 3.9473430100414486, "step": 6900 }, { "epoch": 0.7361066666666667, "grad_norm": 2.2159390144090274, "learning_rate": 1.7179885973526305e-06, "loss": 0.5228, "step": 6901 }, { "avg_step_time": 5.780288339865328, "epoch": 0.7361066666666667, "eta_time": 3.9723425980074505, "step": 6901 }, { "epoch": 0.7362133333333334, "grad_norm": 2.145334089889002, "learning_rate": 1.7166855642710333e-06, "loss": 0.5304, "step": 6902 }, { "avg_step_time": 5.776731659667661, "epoch": 0.7362133333333334, "eta_time": 3.968293720655035, "step": 6902 }, { "epoch": 0.73632, "grad_norm": 1.6499065218341196, "learning_rate": 1.7153829231098018e-06, "loss": 0.3955, "step": 6903 }, { "avg_step_time": 5.775838871194859, "epoch": 0.73632, "eta_time": 3.9660760248871365, "step": 6903 }, { "epoch": 0.7364266666666667, "grad_norm": 0.6478485362639982, "learning_rate": 1.7140806740244354e-06, "loss": 0.4539, "step": 6904 }, { "avg_step_time": 5.742565297117137, "epoch": 0.7364266666666667, "eta_time": 3.941633013660124, "step": 6904 }, { "epoch": 0.7365333333333334, "grad_norm": 2.1783110731423205, "learning_rate": 1.7127788171703757e-06, "loss": 0.4764, "step": 6905 }, { "avg_step_time": 5.746134151111949, "epoch": 0.7365333333333334, "eta_time": 3.942486487012921, "step": 6905 }, { "epoch": 0.73664, "grad_norm": 1.7946346470379801, "learning_rate": 1.7114773527030215e-06, "loss": 0.5037, "step": 6906 }, { "avg_step_time": 5.764098945290152, "epoch": 0.73664, "eta_time": 3.9532111933114957, "step": 6906 }, { "epoch": 0.7367466666666667, "grad_norm": 1.9039629135600469, "learning_rate": 1.7101762807777277e-06, "loss": 0.4764, "step": 6907 }, { "avg_step_time": 5.767357281964235, "epoch": 0.7367466666666667, "eta_time": 3.9538438255243697, "step": 6907 }, { "epoch": 0.7368533333333334, "grad_norm": 2.018180893888504, "learning_rate": 1.7088756015497966e-06, "loss": 0.4634, "step": 6908 }, { "avg_step_time": 5.800856118250375, "epoch": 0.7368533333333334, "eta_time": 3.9751977899232434, "step": 6908 }, { "epoch": 0.73696, "grad_norm": 1.8802655082211965, "learning_rate": 1.7075753151744885e-06, "loss": 0.4727, "step": 6909 }, { "avg_step_time": 5.805895053979122, "epoch": 0.73696, "eta_time": 3.9770381119756983, "step": 6909 }, { "epoch": 0.7370666666666666, "grad_norm": 1.9106674080753068, "learning_rate": 1.706275421807016e-06, "loss": 0.5255, "step": 6910 }, { "avg_step_time": 5.795405676870635, "epoch": 0.7370666666666666, "eta_time": 3.968243053746143, "step": 6910 }, { "epoch": 0.7371733333333333, "grad_norm": 2.1147384648944048, "learning_rate": 1.704975921602543e-06, "loss": 0.4818, "step": 6911 }, { "avg_step_time": 5.790244401103318, "epoch": 0.7371733333333333, "eta_time": 3.9631006123107158, "step": 6911 }, { "epoch": 0.73728, "grad_norm": 1.9886931510791253, "learning_rate": 1.7036768147161853e-06, "loss": 0.4573, "step": 6912 }, { "avg_step_time": 5.820203472869565, "epoch": 0.73728, "eta_time": 3.981989209354927, "step": 6912 }, { "epoch": 0.7373866666666666, "grad_norm": 1.8073067227834911, "learning_rate": 1.7023781013030162e-06, "loss": 0.4772, "step": 6913 }, { "avg_step_time": 5.820624363542807, "epoch": 0.7373866666666666, "eta_time": 3.980660328622886, "step": 6913 }, { "epoch": 0.7374933333333333, "grad_norm": 1.4794914349980814, "learning_rate": 1.70107978151806e-06, "loss": 0.4216, "step": 6914 }, { "avg_step_time": 5.821631975848265, "epoch": 0.7374933333333333, "eta_time": 3.9797323034896057, "step": 6914 }, { "epoch": 0.7376, "grad_norm": 1.9683253460972843, "learning_rate": 1.6997818555162915e-06, "loss": 0.4833, "step": 6915 }, { "avg_step_time": 5.8227988734389795, "epoch": 0.7376, "eta_time": 3.978912563516636, "step": 6915 }, { "epoch": 0.7377066666666666, "grad_norm": 1.7433048417205939, "learning_rate": 1.6984843234526433e-06, "loss": 0.5387, "step": 6916 }, { "avg_step_time": 5.8249945207075635, "epoch": 0.7377066666666666, "eta_time": 3.978794868449972, "step": 6916 }, { "epoch": 0.7378133333333333, "grad_norm": 1.6469301831161103, "learning_rate": 1.697187185481996e-06, "loss": 0.41, "step": 6917 }, { "avg_step_time": 5.833825434097136, "epoch": 0.7378133333333333, "eta_time": 3.983206365836322, "step": 6917 }, { "epoch": 0.73792, "grad_norm": 1.857693486164994, "learning_rate": 1.6958904417591853e-06, "loss": 0.4025, "step": 6918 }, { "avg_step_time": 5.817608243287212, "epoch": 0.73792, "eta_time": 3.970517626043522, "step": 6918 }, { "epoch": 0.7380266666666667, "grad_norm": 1.7685211280221598, "learning_rate": 1.6945940924390009e-06, "loss": 0.4944, "step": 6919 }, { "avg_step_time": 5.820904071884926, "epoch": 0.7380266666666667, "eta_time": 3.971150111263716, "step": 6919 }, { "epoch": 0.7381333333333333, "grad_norm": 1.8062089329454576, "learning_rate": 1.6932981376761858e-06, "loss": 0.5169, "step": 6920 }, { "avg_step_time": 5.819846777000812, "epoch": 0.7381333333333333, "eta_time": 3.9688121770936093, "step": 6920 }, { "epoch": 0.73824, "grad_norm": 2.007362737117702, "learning_rate": 1.6920025776254334e-06, "loss": 0.4039, "step": 6921 }, { "avg_step_time": 5.822913384196734, "epoch": 0.73824, "eta_time": 3.969285956894107, "step": 6921 }, { "epoch": 0.7383466666666667, "grad_norm": 2.122940859165975, "learning_rate": 1.690707412441388e-06, "loss": 0.5618, "step": 6922 }, { "avg_step_time": 5.854776637722748, "epoch": 0.7383466666666667, "eta_time": 3.989379747870528, "step": 6922 }, { "epoch": 0.7384533333333333, "grad_norm": 1.8436293771949746, "learning_rate": 1.689412642278656e-06, "loss": 0.506, "step": 6923 }, { "avg_step_time": 5.853955579526497, "epoch": 0.7384533333333333, "eta_time": 3.9871941891663805, "step": 6923 }, { "epoch": 0.73856, "grad_norm": 1.764916147843102, "learning_rate": 1.6881182672917879e-06, "loss": 0.4335, "step": 6924 }, { "avg_step_time": 5.856252846091684, "epoch": 0.73856, "eta_time": 3.9871321460474216, "step": 6924 }, { "epoch": 0.7386666666666667, "grad_norm": 1.594945235040291, "learning_rate": 1.686824287635288e-06, "loss": 0.4049, "step": 6925 }, { "avg_step_time": 5.859651242843782, "epoch": 0.7386666666666667, "eta_time": 3.9878182069353514, "step": 6925 }, { "epoch": 0.7387733333333333, "grad_norm": 2.144274033446138, "learning_rate": 1.685530703463618e-06, "loss": 0.4918, "step": 6926 }, { "avg_step_time": 5.856499382943818, "epoch": 0.7387733333333333, "eta_time": 3.9840463857859474, "step": 6926 }, { "epoch": 0.73888, "grad_norm": 1.7569091035879316, "learning_rate": 1.6842375149311868e-06, "loss": 0.4781, "step": 6927 }, { "avg_step_time": 5.853912382414847, "epoch": 0.73888, "eta_time": 3.9806604200420956, "step": 6927 }, { "epoch": 0.7389866666666667, "grad_norm": 2.0891940673066736, "learning_rate": 1.6829447221923606e-06, "loss": 0.5215, "step": 6928 }, { "avg_step_time": 5.800897776478469, "epoch": 0.7389866666666667, "eta_time": 3.9429991275118925, "step": 6928 }, { "epoch": 0.7390933333333334, "grad_norm": 1.8539196831038847, "learning_rate": 1.6816523254014577e-06, "loss": 0.5117, "step": 6929 }, { "avg_step_time": 5.799783514003561, "epoch": 0.7390933333333334, "eta_time": 3.9406306875701977, "step": 6929 }, { "epoch": 0.7392, "grad_norm": 1.6049231425520334, "learning_rate": 1.680360324712746e-06, "loss": 0.4678, "step": 6930 }, { "avg_step_time": 5.810722276417896, "epoch": 0.7392, "eta_time": 3.9464488794004873, "step": 6930 }, { "epoch": 0.7393066666666667, "grad_norm": 1.9915936008168342, "learning_rate": 1.6790687202804473e-06, "loss": 0.4459, "step": 6931 }, { "avg_step_time": 5.805267796371922, "epoch": 0.7393066666666667, "eta_time": 3.9411318039813827, "step": 6931 }, { "epoch": 0.7394133333333334, "grad_norm": 1.8539753738193077, "learning_rate": 1.6777775122587387e-06, "loss": 0.5111, "step": 6932 }, { "avg_step_time": 5.803239875369602, "epoch": 0.7394133333333334, "eta_time": 3.938143059868872, "step": 6932 }, { "epoch": 0.73952, "grad_norm": 1.7148657497064415, "learning_rate": 1.6764867008017493e-06, "loss": 0.4709, "step": 6933 }, { "avg_step_time": 5.8274580300456345, "epoch": 0.73952, "eta_time": 3.9529590303809554, "step": 6933 }, { "epoch": 0.7396266666666667, "grad_norm": 1.7501006919195357, "learning_rate": 1.6751962860635562e-06, "loss": 0.5167, "step": 6934 }, { "avg_step_time": 5.828715801239014, "epoch": 0.7396266666666667, "eta_time": 3.9521931307845644, "step": 6934 }, { "epoch": 0.7397333333333334, "grad_norm": 2.053005418767407, "learning_rate": 1.673906268198197e-06, "loss": 0.4732, "step": 6935 }, { "avg_step_time": 5.828283355693625, "epoch": 0.7397333333333334, "eta_time": 3.9502809410812345, "step": 6935 }, { "epoch": 0.73984, "grad_norm": 1.678756216882824, "learning_rate": 1.672616647359655e-06, "loss": 0.4011, "step": 6936 }, { "avg_step_time": 5.830395898433647, "epoch": 0.73984, "eta_time": 3.950093221188796, "step": 6936 }, { "epoch": 0.7399466666666666, "grad_norm": 2.0250095895722082, "learning_rate": 1.6713274237018679e-06, "loss": 0.4927, "step": 6937 }, { "avg_step_time": 5.8341857062445746, "epoch": 0.7399466666666666, "eta_time": 3.951040208840076, "step": 6937 }, { "epoch": 0.7400533333333333, "grad_norm": 0.6455055272086483, "learning_rate": 1.6700385973787282e-06, "loss": 0.4288, "step": 6938 }, { "avg_step_time": 5.799448728561401, "epoch": 0.7400533333333333, "eta_time": 3.9259045976400375, "step": 6938 }, { "epoch": 0.74016, "grad_norm": 1.5457098809777705, "learning_rate": 1.668750168544081e-06, "loss": 0.4586, "step": 6939 }, { "avg_step_time": 5.802079790770406, "epoch": 0.74016, "eta_time": 3.9260739917546412, "step": 6939 }, { "epoch": 0.7402666666666666, "grad_norm": 1.841220478371325, "learning_rate": 1.667462137351719e-06, "loss": 0.483, "step": 6940 }, { "avg_step_time": 5.788949566658097, "epoch": 0.7402666666666666, "eta_time": 3.915581165225685, "step": 6940 }, { "epoch": 0.7403733333333333, "grad_norm": 1.777350660457109, "learning_rate": 1.6661745039553955e-06, "loss": 0.4914, "step": 6941 }, { "avg_step_time": 5.7824692629804515, "epoch": 0.7403733333333333, "eta_time": 3.9095917183595605, "step": 6941 }, { "epoch": 0.74048, "grad_norm": 1.778058776019714, "learning_rate": 1.664887268508808e-06, "loss": 0.5074, "step": 6942 }, { "avg_step_time": 5.816033534329347, "epoch": 0.74048, "eta_time": 3.9306693302842506, "step": 6942 }, { "epoch": 0.7405866666666666, "grad_norm": 1.939899350329214, "learning_rate": 1.663600431165613e-06, "loss": 0.4142, "step": 6943 }, { "avg_step_time": 5.81867281355039, "epoch": 0.7405866666666666, "eta_time": 3.930836745154041, "step": 6943 }, { "epoch": 0.7406933333333333, "grad_norm": 1.8360075996072363, "learning_rate": 1.6623139920794135e-06, "loss": 0.4039, "step": 6944 }, { "avg_step_time": 5.804813503014921, "epoch": 0.7406933333333333, "eta_time": 3.9198615627303535, "step": 6944 }, { "epoch": 0.7408, "grad_norm": 0.659929458795033, "learning_rate": 1.6610279514037725e-06, "loss": 0.444, "step": 6945 }, { "avg_step_time": 5.766281578275892, "epoch": 0.7408, "eta_time": 3.8922400653362272, "step": 6945 }, { "epoch": 0.7409066666666667, "grad_norm": 1.7730351977359036, "learning_rate": 1.6597423092921972e-06, "loss": 0.4718, "step": 6946 }, { "avg_step_time": 5.7690879142645635, "epoch": 0.7409066666666667, "eta_time": 3.8925318177079515, "step": 6946 }, { "epoch": 0.7410133333333333, "grad_norm": 1.7587648782475929, "learning_rate": 1.658457065898153e-06, "loss": 0.483, "step": 6947 }, { "avg_step_time": 5.767121599178122, "epoch": 0.7410133333333333, "eta_time": 3.889603123001244, "step": 6947 }, { "epoch": 0.74112, "grad_norm": 1.9716960635164156, "learning_rate": 1.657172221375058e-06, "loss": 0.4164, "step": 6948 }, { "avg_step_time": 5.760301710379244, "epoch": 0.74112, "eta_time": 3.8834034030806737, "step": 6948 }, { "epoch": 0.7412266666666667, "grad_norm": 1.9635404772639622, "learning_rate": 1.6558877758762782e-06, "loss": 0.4857, "step": 6949 }, { "avg_step_time": 5.757139374511411, "epoch": 0.7412266666666667, "eta_time": 3.8796722562679675, "step": 6949 }, { "epoch": 0.7413333333333333, "grad_norm": 1.9904772212801742, "learning_rate": 1.6546037295551332e-06, "loss": 0.4574, "step": 6950 }, { "avg_step_time": 5.755772963918821, "epoch": 0.7413333333333333, "eta_time": 3.87715262152865, "step": 6950 }, { "epoch": 0.74144, "grad_norm": 0.6544696332428405, "learning_rate": 1.6533200825648993e-06, "loss": 0.4485, "step": 6951 }, { "avg_step_time": 5.722652334155458, "epoch": 0.74144, "eta_time": 3.853252571664675, "step": 6951 }, { "epoch": 0.7415466666666667, "grad_norm": 1.9034737438269471, "learning_rate": 1.6520368350587984e-06, "loss": 0.4357, "step": 6952 }, { "avg_step_time": 5.726273459617538, "epoch": 0.7415466666666667, "eta_time": 3.854100164625915, "step": 6952 }, { "epoch": 0.7416533333333334, "grad_norm": 1.9176382606843798, "learning_rate": 1.6507539871900109e-06, "loss": 0.4982, "step": 6953 }, { "avg_step_time": 5.732146636404172, "epoch": 0.7416533333333334, "eta_time": 3.8564608759363628, "step": 6953 }, { "epoch": 0.74176, "grad_norm": 0.6129779369493608, "learning_rate": 1.6494715391116671e-06, "loss": 0.3954, "step": 6954 }, { "avg_step_time": 5.69653348730068, "epoch": 0.74176, "eta_time": 3.8309187702097076, "step": 6954 }, { "epoch": 0.7418666666666667, "grad_norm": 0.6628697462276153, "learning_rate": 1.6481894909768492e-06, "loss": 0.4308, "step": 6955 }, { "avg_step_time": 5.658936710068674, "epoch": 0.7418666666666667, "eta_time": 3.804063010657275, "step": 6955 }, { "epoch": 0.7419733333333334, "grad_norm": 1.7509395731111548, "learning_rate": 1.6469078429385893e-06, "loss": 0.4674, "step": 6956 }, { "avg_step_time": 5.673848026930684, "epoch": 0.7419733333333334, "eta_time": 3.8125106603181456, "step": 6956 }, { "epoch": 0.74208, "grad_norm": 1.7054882853174074, "learning_rate": 1.6456265951498763e-06, "loss": 0.4941, "step": 6957 }, { "avg_step_time": 5.67328670771435, "epoch": 0.74208, "eta_time": 3.8105575720148055, "step": 6957 }, { "epoch": 0.7421866666666667, "grad_norm": 2.0400270026047513, "learning_rate": 1.6443457477636505e-06, "loss": 0.5614, "step": 6958 }, { "avg_step_time": 5.6729665838106715, "epoch": 0.7421866666666667, "eta_time": 3.8087667314084426, "step": 6958 }, { "epoch": 0.7422933333333334, "grad_norm": 1.7567511690463697, "learning_rate": 1.6430653009328002e-06, "loss": 0.4654, "step": 6959 }, { "avg_step_time": 5.668895699761131, "epoch": 0.7422933333333334, "eta_time": 3.804458891839692, "step": 6959 }, { "epoch": 0.7424, "grad_norm": 2.172673406734448, "learning_rate": 1.641785254810172e-06, "loss": 0.5562, "step": 6960 }, { "avg_step_time": 5.651981775206749, "epoch": 0.7424, "eta_time": 3.7915377742011938, "step": 6960 }, { "epoch": 0.7425066666666666, "grad_norm": 1.9492686843009932, "learning_rate": 1.64050560954856e-06, "loss": 0.4659, "step": 6961 }, { "avg_step_time": 5.652229790735727, "epoch": 0.7425066666666666, "eta_time": 3.790134087454457, "step": 6961 }, { "epoch": 0.7426133333333333, "grad_norm": 1.8049793638462919, "learning_rate": 1.639226365300709e-06, "loss": 0.4859, "step": 6962 }, { "avg_step_time": 5.653134793946237, "epoch": 0.7426133333333333, "eta_time": 3.78917062716452, "step": 6962 }, { "epoch": 0.74272, "grad_norm": 1.7994375316319908, "learning_rate": 1.6379475222193248e-06, "loss": 0.4721, "step": 6963 }, { "avg_step_time": 5.657888398025975, "epoch": 0.74272, "eta_time": 3.790785226677403, "step": 6963 }, { "epoch": 0.7428266666666666, "grad_norm": 1.6077606257718475, "learning_rate": 1.6366690804570567e-06, "loss": 0.4596, "step": 6964 }, { "avg_step_time": 5.641647550794813, "epoch": 0.7428266666666666, "eta_time": 3.7783367347128594, "step": 6964 }, { "epoch": 0.7429333333333333, "grad_norm": 1.8891461350960432, "learning_rate": 1.635391040166507e-06, "loss": 0.5161, "step": 6965 }, { "avg_step_time": 5.645140219216395, "epoch": 0.7429333333333333, "eta_time": 3.7791077578643084, "step": 6965 }, { "epoch": 0.74304, "grad_norm": 1.8357236814112499, "learning_rate": 1.6341134015002352e-06, "loss": 0.4908, "step": 6966 }, { "avg_step_time": 5.645554092195299, "epoch": 0.74304, "eta_time": 3.777816613360688, "step": 6966 }, { "epoch": 0.7431466666666666, "grad_norm": 1.6831909746355447, "learning_rate": 1.6328361646107465e-06, "loss": 0.4189, "step": 6967 }, { "avg_step_time": 5.644012718489676, "epoch": 0.7431466666666666, "eta_time": 3.775217396145316, "step": 6967 }, { "epoch": 0.7432533333333333, "grad_norm": 1.8637585081074264, "learning_rate": 1.6315593296505039e-06, "loss": 0.5684, "step": 6968 }, { "avg_step_time": 5.646683497862383, "epoch": 0.7432533333333333, "eta_time": 3.7754353275985433, "step": 6968 }, { "epoch": 0.74336, "grad_norm": 1.6919688257762822, "learning_rate": 1.6302828967719175e-06, "loss": 0.4282, "step": 6969 }, { "avg_step_time": 5.646638995469218, "epoch": 0.74336, "eta_time": 3.773837061971928, "step": 6969 }, { "epoch": 0.7434666666666667, "grad_norm": 1.6001782483793021, "learning_rate": 1.6290068661273539e-06, "loss": 0.3923, "step": 6970 }, { "avg_step_time": 5.646091892261698, "epoch": 0.7434666666666667, "eta_time": 3.771903055802606, "step": 6970 }, { "epoch": 0.7435733333333333, "grad_norm": 1.9360851139823896, "learning_rate": 1.6277312378691268e-06, "loss": 0.486, "step": 6971 }, { "avg_step_time": 5.687137716948384, "epoch": 0.7435733333333333, "eta_time": 3.7977441865399766, "step": 6971 }, { "epoch": 0.74368, "grad_norm": 1.8462973616726548, "learning_rate": 1.626456012149506e-06, "loss": 0.4694, "step": 6972 }, { "avg_step_time": 5.707923641108503, "epoch": 0.74368, "eta_time": 3.810039030439926, "step": 6972 }, { "epoch": 0.7437866666666667, "grad_norm": 1.927595462447402, "learning_rate": 1.6251811891207132e-06, "loss": 0.4634, "step": 6973 }, { "avg_step_time": 5.70510024494595, "epoch": 0.7437866666666667, "eta_time": 3.806569663433381, "step": 6973 }, { "epoch": 0.7438933333333333, "grad_norm": 1.7544327041639425, "learning_rate": 1.6239067689349186e-06, "loss": 0.4963, "step": 6974 }, { "avg_step_time": 5.704326716336337, "epoch": 0.7438933333333333, "eta_time": 3.8044690127565404, "step": 6974 }, { "epoch": 0.744, "grad_norm": 1.9530376439090298, "learning_rate": 1.6226327517442453e-06, "loss": 0.4711, "step": 6975 }, { "avg_step_time": 5.739309354261919, "epoch": 0.744, "eta_time": 3.8262062361746128, "step": 6975 }, { "epoch": 0.7441066666666667, "grad_norm": 2.0725333802326067, "learning_rate": 1.6213591377007708e-06, "loss": 0.4905, "step": 6976 }, { "avg_step_time": 5.7305267049808695, "epoch": 0.7441066666666667, "eta_time": 3.8187593236803075, "step": 6976 }, { "epoch": 0.7442133333333333, "grad_norm": 2.1899619240623944, "learning_rate": 1.6200859269565244e-06, "loss": 0.592, "step": 6977 }, { "avg_step_time": 5.763017760382758, "epoch": 0.7442133333333333, "eta_time": 3.838810163721626, "step": 6977 }, { "epoch": 0.74432, "grad_norm": 1.7987605488662144, "learning_rate": 1.6188131196634827e-06, "loss": 0.5874, "step": 6978 }, { "avg_step_time": 5.776063707139757, "epoch": 0.74432, "eta_time": 3.845895751670555, "step": 6978 }, { "epoch": 0.7444266666666667, "grad_norm": 1.5158109930306858, "learning_rate": 1.6175407159735807e-06, "loss": 0.5062, "step": 6979 }, { "avg_step_time": 5.793172556944568, "epoch": 0.7444266666666667, "eta_time": 3.85567817956644, "step": 6979 }, { "epoch": 0.7445333333333334, "grad_norm": 1.6956358940477563, "learning_rate": 1.6162687160386998e-06, "loss": 0.429, "step": 6980 }, { "avg_step_time": 5.793267767838757, "epoch": 0.7445333333333334, "eta_time": 3.8541323066593955, "step": 6980 }, { "epoch": 0.74464, "grad_norm": 2.3023082865022144, "learning_rate": 1.6149971200106723e-06, "loss": 0.5007, "step": 6981 }, { "avg_step_time": 5.787909897890958, "epoch": 0.74464, "eta_time": 3.848960082097487, "step": 6981 }, { "epoch": 0.7447466666666667, "grad_norm": 0.6386821948896992, "learning_rate": 1.6137259280412909e-06, "loss": 0.4335, "step": 6982 }, { "avg_step_time": 5.75729988560532, "epoch": 0.7447466666666667, "eta_time": 3.8270051739593147, "step": 6982 }, { "epoch": 0.7448533333333334, "grad_norm": 1.8078866866113779, "learning_rate": 1.6124551402822925e-06, "loss": 0.5101, "step": 6983 }, { "avg_step_time": 5.730324099762271, "epoch": 0.7448533333333334, "eta_time": 3.8074820129531535, "step": 6983 }, { "epoch": 0.74496, "grad_norm": 1.8667173336613707, "learning_rate": 1.6111847568853645e-06, "loss": 0.5237, "step": 6984 }, { "avg_step_time": 5.763028270066386, "epoch": 0.74496, "eta_time": 3.8276112760357583, "step": 6984 }, { "epoch": 0.7450666666666667, "grad_norm": 0.6226214380158231, "learning_rate": 1.6099147780021534e-06, "loss": 0.4251, "step": 6985 }, { "avg_step_time": 5.762744352070972, "epoch": 0.7450666666666667, "eta_time": 3.8258219448471174, "step": 6985 }, { "epoch": 0.7451733333333334, "grad_norm": 2.04139541770659, "learning_rate": 1.6086452037842493e-06, "loss": 0.564, "step": 6986 }, { "avg_step_time": 5.754168715139832, "epoch": 0.7451733333333334, "eta_time": 3.8185302945747384, "step": 6986 }, { "epoch": 0.74528, "grad_norm": 1.7948991876302893, "learning_rate": 1.6073760343831996e-06, "loss": 0.4628, "step": 6987 }, { "avg_step_time": 5.745973700224751, "epoch": 0.74528, "eta_time": 3.8114958878157514, "step": 6987 }, { "epoch": 0.7453866666666666, "grad_norm": 1.6097458912767921, "learning_rate": 1.6061072699505037e-06, "loss": 0.3867, "step": 6988 }, { "avg_step_time": 5.728136298632381, "epoch": 0.7453866666666666, "eta_time": 3.7980725957876373, "step": 6988 }, { "epoch": 0.7454933333333333, "grad_norm": 0.6721941176042445, "learning_rate": 1.6048389106376083e-06, "loss": 0.4316, "step": 6989 }, { "avg_step_time": 5.682742015279905, "epoch": 0.7454933333333333, "eta_time": 3.7663951245716256, "step": 6989 }, { "epoch": 0.7456, "grad_norm": 2.088527461122074, "learning_rate": 1.603570956595913e-06, "loss": 0.4255, "step": 6990 }, { "avg_step_time": 5.681813878242416, "epoch": 0.7456, "eta_time": 3.7642016943356005, "step": 6990 }, { "epoch": 0.7457066666666666, "grad_norm": 1.8005487788424028, "learning_rate": 1.6023034079767707e-06, "loss": 0.5272, "step": 6991 }, { "avg_step_time": 5.6677983577805335, "epoch": 0.7457066666666666, "eta_time": 3.753342023596887, "step": 6991 }, { "epoch": 0.7458133333333333, "grad_norm": 2.282129955200495, "learning_rate": 1.6010362649314881e-06, "loss": 0.4864, "step": 6992 }, { "avg_step_time": 5.669442766844624, "epoch": 0.7458133333333333, "eta_time": 3.7528561426085387, "step": 6992 }, { "epoch": 0.74592, "grad_norm": 2.1861751666136784, "learning_rate": 1.5997695276113168e-06, "loss": 0.5116, "step": 6993 }, { "avg_step_time": 5.669427717574919, "epoch": 0.74592, "eta_time": 3.751271339795405, "step": 6993 }, { "epoch": 0.7460266666666666, "grad_norm": 1.8332543764006308, "learning_rate": 1.5985031961674669e-06, "loss": 0.5326, "step": 6994 }, { "avg_step_time": 5.6540462344583835, "epoch": 0.7460266666666666, "eta_time": 3.7395233567348365, "step": 6994 }, { "epoch": 0.7461333333333333, "grad_norm": 2.0144020098314073, "learning_rate": 1.597237270751096e-06, "loss": 0.537, "step": 6995 }, { "avg_step_time": 5.654236437094332, "epoch": 0.7461333333333333, "eta_time": 3.738078533412364, "step": 6995 }, { "epoch": 0.74624, "grad_norm": 1.8658300617338066, "learning_rate": 1.595971751513311e-06, "loss": 0.4782, "step": 6996 }, { "avg_step_time": 5.658151342411234, "epoch": 0.74624, "eta_time": 3.73909501211009, "step": 6996 }, { "epoch": 0.7463466666666667, "grad_norm": 1.9945184308960726, "learning_rate": 1.5947066386051774e-06, "loss": 0.4434, "step": 6997 }, { "avg_step_time": 5.691158075525303, "epoch": 0.7463466666666667, "eta_time": 3.759326084333103, "step": 6997 }, { "epoch": 0.7464533333333333, "grad_norm": 1.6339612137812864, "learning_rate": 1.5934419321777083e-06, "loss": 0.4899, "step": 6998 }, { "avg_step_time": 5.692027166636303, "epoch": 0.7464533333333333, "eta_time": 3.758319048637359, "step": 6998 }, { "epoch": 0.74656, "grad_norm": 1.9959224217921576, "learning_rate": 1.5921776323818655e-06, "loss": 0.465, "step": 6999 }, { "avg_step_time": 5.693113001910123, "epoch": 0.74656, "eta_time": 3.757454581260681, "step": 6999 }, { "epoch": 0.7466666666666667, "grad_norm": 1.7559196203632572, "learning_rate": 1.590913739368568e-06, "loss": 0.3763, "step": 7000 }, { "avg_step_time": 5.686112206391614, "epoch": 0.7466666666666667, "eta_time": 3.751254580605578, "step": 7000 }, { "epoch": 0.7467733333333333, "grad_norm": 1.7034663786529494, "learning_rate": 1.589650253288681e-06, "loss": 0.4858, "step": 7001 }, { "avg_step_time": 5.692807399865353, "epoch": 0.7467733333333333, "eta_time": 3.75409021313343, "step": 7001 }, { "epoch": 0.74688, "grad_norm": 1.9118798176905147, "learning_rate": 1.5883871742930257e-06, "loss": 0.473, "step": 7002 }, { "avg_step_time": 5.695416532381617, "epoch": 0.74688, "eta_time": 3.754228730928216, "step": 7002 }, { "epoch": 0.7469866666666667, "grad_norm": 1.7542242806655879, "learning_rate": 1.5871245025323695e-06, "loss": 0.387, "step": 7003 }, { "avg_step_time": 5.729566203223334, "epoch": 0.7469866666666667, "eta_time": 3.7751475094571525, "step": 7003 }, { "epoch": 0.7470933333333334, "grad_norm": 1.7917565613087811, "learning_rate": 1.5858622381574373e-06, "loss": 0.4295, "step": 7004 }, { "avg_step_time": 5.728885510955194, "epoch": 0.7470933333333334, "eta_time": 3.773107651798546, "step": 7004 }, { "epoch": 0.7472, "grad_norm": 1.9782664040720725, "learning_rate": 1.5846003813188993e-06, "loss": 0.4778, "step": 7005 }, { "avg_step_time": 5.709156652893683, "epoch": 0.7472, "eta_time": 3.7585281298216744, "step": 7005 }, { "epoch": 0.7473066666666667, "grad_norm": 1.7541439746393268, "learning_rate": 1.5833389321673808e-06, "loss": 0.414, "step": 7006 }, { "avg_step_time": 5.706264963053694, "epoch": 0.7473066666666667, "eta_time": 3.7550393604095, "step": 7006 }, { "epoch": 0.7474133333333334, "grad_norm": 2.168928285797157, "learning_rate": 1.5820778908534595e-06, "loss": 0.4177, "step": 7007 }, { "avg_step_time": 5.708999910739937, "epoch": 0.7474133333333334, "eta_time": 3.7552532746200473, "step": 7007 }, { "epoch": 0.74752, "grad_norm": 1.8043661444584504, "learning_rate": 1.5808172575276615e-06, "loss": 0.4202, "step": 7008 }, { "avg_step_time": 5.708450914633395, "epoch": 0.74752, "eta_time": 3.753306476371457, "step": 7008 }, { "epoch": 0.7476266666666667, "grad_norm": 2.0872202966181748, "learning_rate": 1.579557032340463e-06, "loss": 0.4408, "step": 7009 }, { "avg_step_time": 5.711161786859686, "epoch": 0.7476266666666667, "eta_time": 3.75350244103056, "step": 7009 }, { "epoch": 0.7477333333333334, "grad_norm": 2.0336720530788206, "learning_rate": 1.578297215442297e-06, "loss": 0.5238, "step": 7010 }, { "avg_step_time": 5.733304960559113, "epoch": 0.7477333333333334, "eta_time": 3.766462842145084, "step": 7010 }, { "epoch": 0.74784, "grad_norm": 1.884974293194816, "learning_rate": 1.5770378069835412e-06, "loss": 0.44, "step": 7011 }, { "avg_step_time": 5.736138500348486, "epoch": 0.74784, "eta_time": 3.7667309485621723, "step": 7011 }, { "epoch": 0.7479466666666666, "grad_norm": 1.721489642582542, "learning_rate": 1.5757788071145291e-06, "loss": 0.4668, "step": 7012 }, { "avg_step_time": 5.730713781684336, "epoch": 0.7479466666666666, "eta_time": 3.7615768517000236, "step": 7012 }, { "epoch": 0.7480533333333333, "grad_norm": 2.045000889915717, "learning_rate": 1.5745202159855466e-06, "loss": 0.4717, "step": 7013 }, { "avg_step_time": 5.728956653614237, "epoch": 0.7480533333333333, "eta_time": 3.7588321155102298, "step": 7013 }, { "epoch": 0.74816, "grad_norm": 2.02376472216819, "learning_rate": 1.5732620337468258e-06, "loss": 0.4793, "step": 7014 }, { "avg_step_time": 5.728049309566767, "epoch": 0.74816, "eta_time": 3.7566456721908716, "step": 7014 }, { "epoch": 0.7482666666666666, "grad_norm": 1.6100476744724457, "learning_rate": 1.5720042605485497e-06, "loss": 0.459, "step": 7015 }, { "avg_step_time": 5.724196224501639, "epoch": 0.7482666666666666, "eta_time": 3.7525286360621855, "step": 7015 }, { "epoch": 0.7483733333333333, "grad_norm": 2.0069295048563496, "learning_rate": 1.5707468965408618e-06, "loss": 0.5341, "step": 7016 }, { "avg_step_time": 5.717597479772086, "epoch": 0.7483733333333333, "eta_time": 3.746614570772875, "step": 7016 }, { "epoch": 0.74848, "grad_norm": 1.7937338146273623, "learning_rate": 1.5694899418738462e-06, "loss": 0.4081, "step": 7017 }, { "avg_step_time": 5.720856377572725, "epoch": 0.74848, "eta_time": 3.7471609273101345, "step": 7017 }, { "epoch": 0.7485866666666666, "grad_norm": 1.9021859268630632, "learning_rate": 1.5682333966975421e-06, "loss": 0.5322, "step": 7018 }, { "avg_step_time": 5.719353133981878, "epoch": 0.7485866666666666, "eta_time": 3.7445875935542463, "step": 7018 }, { "epoch": 0.7486933333333333, "grad_norm": 2.172397314057241, "learning_rate": 1.566977261161942e-06, "loss": 0.4961, "step": 7019 }, { "avg_step_time": 5.719989181769015, "epoch": 0.7486933333333333, "eta_time": 3.7434151422910555, "step": 7019 }, { "epoch": 0.7488, "grad_norm": 1.8182910058546646, "learning_rate": 1.5657215354169841e-06, "loss": 0.4532, "step": 7020 }, { "avg_step_time": 5.718101631511342, "epoch": 0.7488, "eta_time": 3.7405914839470027, "step": 7020 }, { "epoch": 0.7489066666666667, "grad_norm": 1.7780655952672804, "learning_rate": 1.5644662196125649e-06, "loss": 0.5318, "step": 7021 }, { "avg_step_time": 5.724006864759657, "epoch": 0.7489066666666667, "eta_time": 3.7428644887900644, "step": 7021 }, { "epoch": 0.7490133333333333, "grad_norm": 1.65386397307202, "learning_rate": 1.5632113138985245e-06, "loss": 0.5255, "step": 7022 }, { "avg_step_time": 5.7223122770136055, "epoch": 0.7490133333333333, "eta_time": 3.7401668855036148, "step": 7022 }, { "epoch": 0.74912, "grad_norm": 1.6321494623669566, "learning_rate": 1.561956818424661e-06, "loss": 0.4829, "step": 7023 }, { "avg_step_time": 5.720799708607221, "epoch": 0.74912, "eta_time": 3.737589142956718, "step": 7023 }, { "epoch": 0.7492266666666667, "grad_norm": 1.7158900237888084, "learning_rate": 1.5607027333407165e-06, "loss": 0.467, "step": 7024 }, { "avg_step_time": 5.7120264178574685, "epoch": 0.7492266666666667, "eta_time": 3.730270585661919, "step": 7024 }, { "epoch": 0.7493333333333333, "grad_norm": 1.8476243214972314, "learning_rate": 1.5594490587963896e-06, "loss": 0.4722, "step": 7025 }, { "avg_step_time": 5.711876719889014, "epoch": 0.7493333333333333, "eta_time": 3.728586192149773, "step": 7025 }, { "epoch": 0.74944, "grad_norm": 1.7046828578297137, "learning_rate": 1.5581957949413295e-06, "loss": 0.4118, "step": 7026 }, { "avg_step_time": 5.714725479935154, "epoch": 0.74944, "eta_time": 3.7288583756576883, "step": 7026 }, { "epoch": 0.7495466666666667, "grad_norm": 1.7027431492159446, "learning_rate": 1.5569429419251337e-06, "loss": 0.44, "step": 7027 }, { "avg_step_time": 5.7157230810685595, "epoch": 0.7495466666666667, "eta_time": 3.727921609541383, "step": 7027 }, { "epoch": 0.7496533333333333, "grad_norm": 1.8963640897573288, "learning_rate": 1.5556904998973498e-06, "loss": 0.4598, "step": 7028 }, { "avg_step_time": 5.7141803298333675, "epoch": 0.7496533333333333, "eta_time": 3.7253281205885873, "step": 7028 }, { "epoch": 0.74976, "grad_norm": 1.8608380325387768, "learning_rate": 1.554438469007482e-06, "loss": 0.5047, "step": 7029 }, { "avg_step_time": 5.702682911747634, "epoch": 0.74976, "eta_time": 3.7162483641555415, "step": 7029 }, { "epoch": 0.7498666666666667, "grad_norm": 1.8951339925555197, "learning_rate": 1.553186849404979e-06, "loss": 0.4319, "step": 7030 }, { "avg_step_time": 5.704039229287042, "epoch": 0.7498666666666667, "eta_time": 3.71554777574392, "step": 7030 }, { "epoch": 0.7499733333333334, "grad_norm": 1.977463220202103, "learning_rate": 1.5519356412392433e-06, "loss": 0.4661, "step": 7031 }, { "avg_step_time": 5.699015321153583, "epoch": 0.7499733333333334, "eta_time": 3.710692197995555, "step": 7031 }, { "epoch": 0.75008, "grad_norm": 1.779899462672832, "learning_rate": 1.5506848446596317e-06, "loss": 0.4437, "step": 7032 }, { "avg_step_time": 5.673966400551073, "epoch": 0.75008, "eta_time": 3.6928064656919903, "step": 7032 }, { "epoch": 0.7501866666666667, "grad_norm": 1.8982994579813781, "learning_rate": 1.549434459815446e-06, "loss": 0.4312, "step": 7033 }, { "avg_step_time": 5.6678796946400345, "epoch": 0.7501866666666667, "eta_time": 3.6872706235686006, "step": 7033 }, { "epoch": 0.7502933333333334, "grad_norm": 2.0578550983419923, "learning_rate": 1.5481844868559392e-06, "loss": 0.4723, "step": 7034 }, { "avg_step_time": 5.669998968490447, "epoch": 0.7502933333333334, "eta_time": 3.68707432923226, "step": 7034 }, { "epoch": 0.7504, "grad_norm": 1.9716258234552277, "learning_rate": 1.546934925930319e-06, "loss": 0.4931, "step": 7035 }, { "avg_step_time": 5.668301124765415, "epoch": 0.7504, "eta_time": 3.68439573109752, "step": 7035 }, { "epoch": 0.7505066666666667, "grad_norm": 1.836471078038559, "learning_rate": 1.5456857771877443e-06, "loss": 0.4672, "step": 7036 }, { "avg_step_time": 5.666209786829322, "epoch": 0.7505066666666667, "eta_time": 3.681462414276051, "step": 7036 }, { "epoch": 0.7506133333333334, "grad_norm": 1.7450071073080131, "learning_rate": 1.544437040777319e-06, "loss": 0.4256, "step": 7037 }, { "avg_step_time": 5.701696814912738, "epoch": 0.7506133333333334, "eta_time": 3.7029353203516617, "step": 7037 }, { "epoch": 0.75072, "grad_norm": 1.8246611738311385, "learning_rate": 1.5431887168481051e-06, "loss": 0.5289, "step": 7038 }, { "avg_step_time": 5.70210666126675, "epoch": 0.75072, "eta_time": 3.701617574272332, "step": 7038 }, { "epoch": 0.7508266666666666, "grad_norm": 1.769901931643997, "learning_rate": 1.5419408055491091e-06, "loss": 0.5011, "step": 7039 }, { "avg_step_time": 5.71192956211591, "epoch": 0.7508266666666666, "eta_time": 3.7064076269729904, "step": 7039 }, { "epoch": 0.7509333333333333, "grad_norm": 2.2090878752616714, "learning_rate": 1.5406933070292884e-06, "loss": 0.5545, "step": 7040 }, { "avg_step_time": 5.708805390078612, "epoch": 0.7509333333333333, "eta_time": 3.7027946071759885, "step": 7040 }, { "epoch": 0.75104, "grad_norm": 1.9588446965544974, "learning_rate": 1.5394462214375593e-06, "loss": 0.4297, "step": 7041 }, { "avg_step_time": 5.709852859227344, "epoch": 0.75104, "eta_time": 3.701887937065728, "step": 7041 }, { "epoch": 0.7511466666666666, "grad_norm": 1.9213195269406596, "learning_rate": 1.5381995489227801e-06, "loss": 0.4769, "step": 7042 }, { "avg_step_time": 5.71120466126336, "epoch": 0.7511466666666666, "eta_time": 3.7011779096465056, "step": 7042 }, { "epoch": 0.7512533333333333, "grad_norm": 1.648078308264909, "learning_rate": 1.5369532896337614e-06, "loss": 0.3249, "step": 7043 }, { "avg_step_time": 5.718476324370413, "epoch": 0.7512533333333333, "eta_time": 3.7043018856755006, "step": 7043 }, { "epoch": 0.75136, "grad_norm": 1.825616313864167, "learning_rate": 1.5357074437192688e-06, "loss": 0.4008, "step": 7044 }, { "avg_step_time": 5.753331692531855, "epoch": 0.75136, "eta_time": 3.7252822709143762, "step": 7044 }, { "epoch": 0.7514666666666666, "grad_norm": 1.8400282143955033, "learning_rate": 1.5344620113280123e-06, "loss": 0.4411, "step": 7045 }, { "avg_step_time": 5.751087805237433, "epoch": 0.7514666666666666, "eta_time": 3.722231829500894, "step": 7045 }, { "epoch": 0.7515733333333333, "grad_norm": 1.9703661186355044, "learning_rate": 1.5332169926086576e-06, "loss": 0.5157, "step": 7046 }, { "avg_step_time": 5.754677789379852, "epoch": 0.7515733333333333, "eta_time": 3.7229568254071324, "step": 7046 }, { "epoch": 0.75168, "grad_norm": 1.9024027617195773, "learning_rate": 1.5319723877098202e-06, "loss": 0.4729, "step": 7047 }, { "avg_step_time": 5.756105919076939, "epoch": 0.75168, "eta_time": 3.7222818276697534, "step": 7047 }, { "epoch": 0.7517866666666667, "grad_norm": 2.178564671804337, "learning_rate": 1.5307281967800646e-06, "loss": 0.5146, "step": 7048 }, { "avg_step_time": 5.75572295863219, "epoch": 0.7517866666666667, "eta_time": 3.7204353679825295, "step": 7048 }, { "epoch": 0.7518933333333333, "grad_norm": 1.7897517073085096, "learning_rate": 1.5294844199679044e-06, "loss": 0.435, "step": 7049 }, { "avg_step_time": 5.753924210866292, "epoch": 0.7518933333333333, "eta_time": 3.717674365131943, "step": 7049 }, { "epoch": 0.752, "grad_norm": 1.7902949155757464, "learning_rate": 1.5282410574218072e-06, "loss": 0.4241, "step": 7050 }, { "avg_step_time": 5.790797479224928, "epoch": 0.752, "eta_time": 3.7398900386660987, "step": 7050 }, { "epoch": 0.7521066666666667, "grad_norm": 0.6506358509756831, "learning_rate": 1.526998109290192e-06, "loss": 0.4195, "step": 7051 }, { "avg_step_time": 5.75207547948818, "epoch": 0.7521066666666667, "eta_time": 3.713284281758481, "step": 7051 }, { "epoch": 0.7522133333333333, "grad_norm": 1.9107606541357238, "learning_rate": 1.5257555757214222e-06, "loss": 0.4803, "step": 7052 }, { "avg_step_time": 5.768465456336435, "epoch": 0.7522133333333333, "eta_time": 3.7222625708526498, "step": 7052 }, { "epoch": 0.75232, "grad_norm": 1.967347396181142, "learning_rate": 1.5245134568638197e-06, "loss": 0.5065, "step": 7053 }, { "avg_step_time": 5.803809252652255, "epoch": 0.75232, "eta_time": 3.743456967960704, "step": 7053 }, { "epoch": 0.7524266666666667, "grad_norm": 1.7083993625492537, "learning_rate": 1.5232717528656504e-06, "loss": 0.4957, "step": 7054 }, { "avg_step_time": 5.840784927811286, "epoch": 0.7524266666666667, "eta_time": 3.765683838180554, "step": 7054 }, { "epoch": 0.7525333333333334, "grad_norm": 0.6590729949987908, "learning_rate": 1.5220304638751327e-06, "loss": 0.4289, "step": 7055 }, { "avg_step_time": 5.78590540452437, "epoch": 0.7525333333333334, "eta_time": 3.728694594026816, "step": 7055 }, { "epoch": 0.75264, "grad_norm": 1.7940346646638894, "learning_rate": 1.5207895900404363e-06, "loss": 0.5537, "step": 7056 }, { "avg_step_time": 5.79136270224446, "epoch": 0.75264, "eta_time": 3.730602807362473, "step": 7056 }, { "epoch": 0.7527466666666667, "grad_norm": 1.937976487226293, "learning_rate": 1.5195491315096833e-06, "loss": 0.506, "step": 7057 }, { "avg_step_time": 5.7882778500065655, "epoch": 0.7527466666666667, "eta_time": 3.727007793420894, "step": 7057 }, { "epoch": 0.7528533333333334, "grad_norm": 1.8715555277605174, "learning_rate": 1.518309088430941e-06, "loss": 0.5044, "step": 7058 }, { "avg_step_time": 5.788265719558254, "epoch": 0.7528533333333334, "eta_time": 3.725392131171243, "step": 7058 }, { "epoch": 0.75296, "grad_norm": 0.6562000408341121, "learning_rate": 1.5170694609522306e-06, "loss": 0.4477, "step": 7059 }, { "avg_step_time": 5.749470758919764, "epoch": 0.75296, "eta_time": 3.6988261882383813, "step": 7059 }, { "epoch": 0.7530666666666667, "grad_norm": 1.848999355109062, "learning_rate": 1.5158302492215248e-06, "loss": 0.426, "step": 7060 }, { "avg_step_time": 5.775708133524114, "epoch": 0.7530666666666667, "eta_time": 3.71410120253009, "step": 7060 }, { "epoch": 0.7531733333333334, "grad_norm": 0.6141697484838649, "learning_rate": 1.5145914533867445e-06, "loss": 0.4159, "step": 7061 }, { "avg_step_time": 5.741275192511202, "epoch": 0.7531733333333334, "eta_time": 3.690364109853034, "step": 7061 }, { "epoch": 0.75328, "grad_norm": 2.0316024306180633, "learning_rate": 1.5133530735957586e-06, "loss": 0.473, "step": 7062 }, { "avg_step_time": 5.764706142020948, "epoch": 0.75328, "eta_time": 3.703823696248459, "step": 7062 }, { "epoch": 0.7533866666666666, "grad_norm": 1.824557810243191, "learning_rate": 1.5121151099963928e-06, "loss": 0.4973, "step": 7063 }, { "avg_step_time": 5.765458783718071, "epoch": 0.7533866666666666, "eta_time": 3.70270575221005, "step": 7063 }, { "epoch": 0.7534933333333333, "grad_norm": 2.0019530289502625, "learning_rate": 1.5108775627364163e-06, "loss": 0.5286, "step": 7064 }, { "avg_step_time": 5.764120793101763, "epoch": 0.7534933333333333, "eta_time": 3.700245320238382, "step": 7064 }, { "epoch": 0.7536, "grad_norm": 1.850856670096033, "learning_rate": 1.5096404319635533e-06, "loss": 0.4793, "step": 7065 }, { "avg_step_time": 5.837886280483669, "epoch": 0.7536, "eta_time": 3.745977029977021, "step": 7065 }, { "epoch": 0.7537066666666666, "grad_norm": 1.7288950727994177, "learning_rate": 1.5084037178254784e-06, "loss": 0.4266, "step": 7066 }, { "avg_step_time": 5.843145570369682, "epoch": 0.7537066666666666, "eta_time": 3.7477286449954432, "step": 7066 }, { "epoch": 0.7538133333333333, "grad_norm": 1.9000984465345492, "learning_rate": 1.5071674204698133e-06, "loss": 0.4874, "step": 7067 }, { "avg_step_time": 5.841271265588626, "epoch": 0.7538133333333333, "eta_time": 3.74490391138293, "step": 7067 }, { "epoch": 0.75392, "grad_norm": 1.7105156395226102, "learning_rate": 1.50593154004413e-06, "loss": 0.3976, "step": 7068 }, { "avg_step_time": 5.842920671809804, "epoch": 0.75392, "eta_time": 3.744338330518116, "step": 7068 }, { "epoch": 0.7540266666666666, "grad_norm": 1.79180544778017, "learning_rate": 1.504696076695953e-06, "loss": 0.4468, "step": 7069 }, { "avg_step_time": 5.844237994666051, "epoch": 0.7540266666666666, "eta_time": 3.7435591154721983, "step": 7069 }, { "epoch": 0.7541333333333333, "grad_norm": 1.6537161914928102, "learning_rate": 1.5034610305727588e-06, "loss": 0.4845, "step": 7070 }, { "avg_step_time": 5.803341853498209, "epoch": 0.7541333333333333, "eta_time": 3.715750825642603, "step": 7070 }, { "epoch": 0.75424, "grad_norm": 2.0503711928502657, "learning_rate": 1.502226401821968e-06, "loss": 0.4315, "step": 7071 }, { "avg_step_time": 5.7843450536631575, "epoch": 0.75424, "eta_time": 3.701980834344421, "step": 7071 }, { "epoch": 0.7543466666666667, "grad_norm": 1.7108698222713166, "learning_rate": 1.5009921905909575e-06, "loss": 0.4126, "step": 7072 }, { "avg_step_time": 5.768330162221735, "epoch": 0.7543466666666667, "eta_time": 3.69012898988796, "step": 7072 }, { "epoch": 0.7544533333333333, "grad_norm": 1.7616065606084457, "learning_rate": 1.4997583970270508e-06, "loss": 0.4781, "step": 7073 }, { "avg_step_time": 5.768725722727149, "epoch": 0.7544533333333333, "eta_time": 3.688779614921638, "step": 7073 }, { "epoch": 0.75456, "grad_norm": 1.8542009684134695, "learning_rate": 1.498525021277521e-06, "loss": 0.5009, "step": 7074 }, { "avg_step_time": 5.764635264271438, "epoch": 0.75456, "eta_time": 3.684562706413494, "step": 7074 }, { "epoch": 0.7546666666666667, "grad_norm": 1.551148062060027, "learning_rate": 1.4972920634895943e-06, "loss": 0.3923, "step": 7075 }, { "avg_step_time": 5.7781550330345075, "epoch": 0.7546666666666667, "eta_time": 3.6915990488831576, "step": 7075 }, { "epoch": 0.7547733333333333, "grad_norm": 1.7283212868959608, "learning_rate": 1.496059523810447e-06, "loss": 0.4077, "step": 7076 }, { "avg_step_time": 5.780176721438013, "epoch": 0.7547733333333333, "eta_time": 3.691285078496109, "step": 7076 }, { "epoch": 0.75488, "grad_norm": 1.614926450517917, "learning_rate": 1.4948274023872005e-06, "loss": 0.503, "step": 7077 }, { "avg_step_time": 5.750621906434647, "epoch": 0.75488, "eta_time": 3.670813650274116, "step": 7077 }, { "epoch": 0.7549866666666667, "grad_norm": 1.6413231728584374, "learning_rate": 1.4935956993669338e-06, "loss": 0.4578, "step": 7078 }, { "avg_step_time": 5.734426688666296, "epoch": 0.7549866666666667, "eta_time": 3.658882806629578, "step": 7078 }, { "epoch": 0.7550933333333333, "grad_norm": 0.6380625974284622, "learning_rate": 1.4923644148966682e-06, "loss": 0.4318, "step": 7079 }, { "avg_step_time": 5.724633794842345, "epoch": 0.7550933333333333, "eta_time": 3.6510442202661175, "step": 7079 }, { "epoch": 0.7552, "grad_norm": 1.6144239685847355, "learning_rate": 1.4911335491233818e-06, "loss": 0.5034, "step": 7080 }, { "avg_step_time": 5.722423476402206, "epoch": 0.7552, "eta_time": 3.648044966206406, "step": 7080 }, { "epoch": 0.7553066666666667, "grad_norm": 1.7501714005675097, "learning_rate": 1.4899031021939974e-06, "loss": 0.4914, "step": 7081 }, { "avg_step_time": 5.7506801191002435, "epoch": 0.7553066666666667, "eta_time": 3.6644611647822107, "step": 7081 }, { "epoch": 0.7554133333333334, "grad_norm": 1.6024122529692295, "learning_rate": 1.4886730742553923e-06, "loss": 0.398, "step": 7082 }, { "avg_step_time": 5.748407819054344, "epoch": 0.7554133333333334, "eta_time": 3.6614164247476695, "step": 7082 }, { "epoch": 0.75552, "grad_norm": 1.7097501514254692, "learning_rate": 1.487443465454389e-06, "loss": 0.4294, "step": 7083 }, { "avg_step_time": 5.743771170124863, "epoch": 0.75552, "eta_time": 3.6568676449794966, "step": 7083 }, { "epoch": 0.7556266666666667, "grad_norm": 1.692440665871571, "learning_rate": 1.4862142759377646e-06, "loss": 0.5025, "step": 7084 }, { "avg_step_time": 5.776560275241582, "epoch": 0.7556266666666667, "eta_time": 3.676138775160685, "step": 7084 }, { "epoch": 0.7557333333333334, "grad_norm": 1.7201585177464482, "learning_rate": 1.4849855058522445e-06, "loss": 0.5207, "step": 7085 }, { "avg_step_time": 5.786469247606066, "epoch": 0.7557333333333334, "eta_time": 3.6808373825049694, "step": 7085 }, { "epoch": 0.75584, "grad_norm": 1.5224447085489659, "learning_rate": 1.483757155344503e-06, "loss": 0.4946, "step": 7086 }, { "avg_step_time": 5.78739156145038, "epoch": 0.75584, "eta_time": 3.6798164678222, "step": 7086 }, { "epoch": 0.7559466666666667, "grad_norm": 2.0664316067182895, "learning_rate": 1.4825292245611633e-06, "loss": 0.556, "step": 7087 }, { "avg_step_time": 5.794704608242921, "epoch": 0.7559466666666667, "eta_time": 3.682856706572168, "step": 7087 }, { "epoch": 0.7560533333333334, "grad_norm": 1.998556643296805, "learning_rate": 1.4813017136488028e-06, "loss": 0.5725, "step": 7088 }, { "avg_step_time": 5.829754477799541, "epoch": 0.7560533333333334, "eta_time": 3.7035134696465417, "step": 7088 }, { "epoch": 0.75616, "grad_norm": 1.6735969783306672, "learning_rate": 1.4800746227539437e-06, "loss": 0.4018, "step": 7089 }, { "avg_step_time": 5.831584287412239, "epoch": 0.75616, "eta_time": 3.703056022506772, "step": 7089 }, { "epoch": 0.7562666666666666, "grad_norm": 0.6324025988873949, "learning_rate": 1.478847952023062e-06, "loss": 0.4395, "step": 7090 }, { "avg_step_time": 5.795867804324988, "epoch": 0.7562666666666666, "eta_time": 3.6787660924673884, "step": 7090 }, { "epoch": 0.7563733333333333, "grad_norm": 1.8469308940322922, "learning_rate": 1.477621701602583e-06, "loss": 0.5409, "step": 7091 }, { "avg_step_time": 5.79673599233531, "epoch": 0.7563733333333333, "eta_time": 3.677706946248291, "step": 7091 }, { "epoch": 0.75648, "grad_norm": 1.9532210740273361, "learning_rate": 1.4763958716388798e-06, "loss": 0.4492, "step": 7092 }, { "avg_step_time": 5.796970959865686, "epoch": 0.75648, "eta_time": 3.6762457503814887, "step": 7092 }, { "epoch": 0.7565866666666666, "grad_norm": 2.083953915932276, "learning_rate": 1.4751704622782754e-06, "loss": 0.5395, "step": 7093 }, { "avg_step_time": 5.797530294668795, "epoch": 0.7565866666666666, "eta_time": 3.674990036787275, "step": 7093 }, { "epoch": 0.7566933333333333, "grad_norm": 1.9050138457667338, "learning_rate": 1.4739454736670438e-06, "loss": 0.4281, "step": 7094 }, { "avg_step_time": 5.798205650213993, "epoch": 0.7566933333333333, "eta_time": 3.6738075244828106, "step": 7094 }, { "epoch": 0.7568, "grad_norm": 1.6197931287852785, "learning_rate": 1.4727209059514114e-06, "loss": 0.3908, "step": 7095 }, { "avg_step_time": 5.79606752925449, "epoch": 0.7568, "eta_time": 3.6708427685278435, "step": 7095 }, { "epoch": 0.7569066666666666, "grad_norm": 2.035735451656076, "learning_rate": 1.4714967592775481e-06, "loss": 0.433, "step": 7096 }, { "avg_step_time": 5.798777898152669, "epoch": 0.7569066666666666, "eta_time": 3.670948563858315, "step": 7096 }, { "epoch": 0.7570133333333333, "grad_norm": 2.0964200228866194, "learning_rate": 1.4702730337915794e-06, "loss": 0.494, "step": 7097 }, { "avg_step_time": 5.796869875204684, "epoch": 0.7570133333333333, "eta_time": 3.668130437698964, "step": 7097 }, { "epoch": 0.75712, "grad_norm": 1.6275101521330975, "learning_rate": 1.4690497296395773e-06, "loss": 0.4601, "step": 7098 }, { "avg_step_time": 5.795736840277007, "epoch": 0.75712, "eta_time": 3.665803551475207, "step": 7098 }, { "epoch": 0.7572266666666667, "grad_norm": 1.776032957519127, "learning_rate": 1.467826846967561e-06, "loss": 0.4964, "step": 7099 }, { "avg_step_time": 5.797223856954863, "epoch": 0.7572266666666667, "eta_time": 3.665133749563686, "step": 7099 }, { "epoch": 0.7573333333333333, "grad_norm": 1.9939804134882895, "learning_rate": 1.466604385921509e-06, "loss": 0.4711, "step": 7100 }, { "avg_step_time": 5.790662760686392, "epoch": 0.7573333333333333, "eta_time": 3.659377161267095, "step": 7100 }, { "epoch": 0.75744, "grad_norm": 2.003965126265499, "learning_rate": 1.46538234664734e-06, "loss": 0.4601, "step": 7101 }, { "avg_step_time": 5.789991848396532, "epoch": 0.75744, "eta_time": 3.6573448509038093, "step": 7101 }, { "epoch": 0.7575466666666667, "grad_norm": 1.8151244429190483, "learning_rate": 1.4641607292909237e-06, "loss": 0.5794, "step": 7102 }, { "avg_step_time": 5.787975224581632, "epoch": 0.7575466666666667, "eta_time": 3.6544632459650135, "step": 7102 }, { "epoch": 0.7576533333333333, "grad_norm": 1.9842797499781337, "learning_rate": 1.4629395339980828e-06, "loss": 0.4932, "step": 7103 }, { "avg_step_time": 5.786683443820838, "epoch": 0.7576533333333333, "eta_time": 3.6520402178780396, "step": 7103 }, { "epoch": 0.75776, "grad_norm": 1.866418968361465, "learning_rate": 1.4617187609145906e-06, "loss": 0.5329, "step": 7104 }, { "avg_step_time": 5.788289279648752, "epoch": 0.75776, "eta_time": 3.651445820578421, "step": 7104 }, { "epoch": 0.7578666666666667, "grad_norm": 2.009174424038269, "learning_rate": 1.460498410186163e-06, "loss": 0.4901, "step": 7105 }, { "avg_step_time": 5.785732719633314, "epoch": 0.7578666666666667, "eta_time": 3.64822590932434, "step": 7105 }, { "epoch": 0.7579733333333334, "grad_norm": 1.7645392165059788, "learning_rate": 1.4592784819584742e-06, "loss": 0.4814, "step": 7106 }, { "avg_step_time": 5.8061004407478105, "epoch": 0.7579733333333334, "eta_time": 3.659456083349106, "step": 7106 }, { "epoch": 0.75808, "grad_norm": 2.111326922398194, "learning_rate": 1.4580589763771413e-06, "loss": 0.4443, "step": 7107 }, { "avg_step_time": 5.798850863870948, "epoch": 0.75808, "eta_time": 3.653276044238697, "step": 7107 }, { "epoch": 0.7581866666666667, "grad_norm": 1.6931350287602596, "learning_rate": 1.4568398935877326e-06, "loss": 0.4394, "step": 7108 }, { "avg_step_time": 5.798280186123318, "epoch": 0.7581866666666667, "eta_time": 3.651305883872656, "step": 7108 }, { "epoch": 0.7582933333333334, "grad_norm": 2.0741374249783524, "learning_rate": 1.455621233735768e-06, "loss": 0.4918, "step": 7109 }, { "avg_step_time": 5.774860225542628, "epoch": 0.7582933333333334, "eta_time": 3.6349536864109986, "step": 7109 }, { "epoch": 0.7584, "grad_norm": 1.8399414598978654, "learning_rate": 1.4544029969667167e-06, "loss": 0.4402, "step": 7110 }, { "avg_step_time": 5.771927587913744, "epoch": 0.7584, "eta_time": 3.631504440729064, "step": 7110 }, { "epoch": 0.7585066666666667, "grad_norm": 1.808894217081373, "learning_rate": 1.4531851834259937e-06, "loss": 0.3924, "step": 7111 }, { "avg_step_time": 5.784985665119056, "epoch": 0.7585066666666667, "eta_time": 3.638113207174873, "step": 7111 }, { "epoch": 0.7586133333333334, "grad_norm": 1.715872681012491, "learning_rate": 1.4519677932589693e-06, "loss": 0.5235, "step": 7112 }, { "avg_step_time": 5.787869366732511, "epoch": 0.7586133333333334, "eta_time": 3.6383189935876867, "step": 7112 }, { "epoch": 0.75872, "grad_norm": 1.7469337339616466, "learning_rate": 1.4507508266109565e-06, "loss": 0.4165, "step": 7113 }, { "avg_step_time": 5.799615953907822, "epoch": 0.75872, "eta_time": 3.644092024372082, "step": 7113 }, { "epoch": 0.7588266666666666, "grad_norm": 1.7818991295218072, "learning_rate": 1.4495342836272252e-06, "loss": 0.4313, "step": 7114 }, { "avg_step_time": 5.80167468870529, "epoch": 0.7588266666666666, "eta_time": 3.643774019767406, "step": 7114 }, { "epoch": 0.7589333333333333, "grad_norm": 2.079106767649122, "learning_rate": 1.448318164452987e-06, "loss": 0.4208, "step": 7115 }, { "avg_step_time": 5.796613358487987, "epoch": 0.7589333333333333, "eta_time": 3.6389850528285694, "step": 7115 }, { "epoch": 0.75904, "grad_norm": 2.021426106912378, "learning_rate": 1.4471024692334101e-06, "loss": 0.504, "step": 7116 }, { "avg_step_time": 5.791998692233153, "epoch": 0.75904, "eta_time": 3.6344791793763034, "step": 7116 }, { "epoch": 0.7591466666666666, "grad_norm": 1.9898237900560627, "learning_rate": 1.4458871981136074e-06, "loss": 0.5215, "step": 7117 }, { "avg_step_time": 5.793871366616451, "epoch": 0.7591466666666666, "eta_time": 3.634044873838874, "step": 7117 }, { "epoch": 0.7592533333333333, "grad_norm": 0.6679734720531814, "learning_rate": 1.4446723512386391e-06, "loss": 0.4511, "step": 7118 }, { "avg_step_time": 5.759403243209377, "epoch": 0.7592533333333333, "eta_time": 3.6108258666454343, "step": 7118 }, { "epoch": 0.75936, "grad_norm": 1.8096715622100674, "learning_rate": 1.4434579287535244e-06, "loss": 0.4926, "step": 7119 }, { "avg_step_time": 5.762121689440024, "epoch": 0.75936, "eta_time": 3.610929592049082, "step": 7119 }, { "epoch": 0.7594666666666666, "grad_norm": 1.9845122801930817, "learning_rate": 1.4422439308032228e-06, "loss": 0.5049, "step": 7120 }, { "avg_step_time": 5.761093209488223, "epoch": 0.7594666666666666, "eta_time": 3.6086847742766506, "step": 7120 }, { "epoch": 0.7595733333333333, "grad_norm": 0.6463788985986815, "learning_rate": 1.4410303575326446e-06, "loss": 0.4242, "step": 7121 }, { "avg_step_time": 5.729625974038635, "epoch": 0.7595733333333333, "eta_time": 3.587382484856412, "step": 7121 }, { "epoch": 0.75968, "grad_norm": 1.9263892230093407, "learning_rate": 1.439817209086653e-06, "loss": 0.3632, "step": 7122 }, { "avg_step_time": 5.750513088823569, "epoch": 0.75968, "eta_time": 3.598862774755417, "step": 7122 }, { "epoch": 0.7597866666666667, "grad_norm": 1.92996199798992, "learning_rate": 1.4386044856100562e-06, "loss": 0.4016, "step": 7123 }, { "avg_step_time": 5.753974587026269, "epoch": 0.7597866666666667, "eta_time": 3.599430769439766, "step": 7123 }, { "epoch": 0.7598933333333333, "grad_norm": 1.9121192351486502, "learning_rate": 1.4373921872476143e-06, "loss": 0.5446, "step": 7124 }, { "avg_step_time": 5.754899058679138, "epoch": 0.7598933333333333, "eta_time": 3.5984104947463162, "step": 7124 }, { "epoch": 0.76, "grad_norm": 1.564575070773428, "learning_rate": 1.4361803141440384e-06, "loss": 0.4235, "step": 7125 }, { "avg_step_time": 5.75304395261437, "epoch": 0.76, "eta_time": 3.5956524703839814, "step": 7125 }, { "epoch": 0.7601066666666667, "grad_norm": 1.9382785427080798, "learning_rate": 1.4349688664439848e-06, "loss": 0.5328, "step": 7126 }, { "avg_step_time": 5.753441923796529, "epoch": 0.7601066666666667, "eta_time": 3.5943030240606646, "step": 7126 }, { "epoch": 0.7602133333333333, "grad_norm": 1.8194747339545587, "learning_rate": 1.4337578442920592e-06, "loss": 0.394, "step": 7127 }, { "avg_step_time": 5.755970730926052, "epoch": 0.7602133333333333, "eta_time": 3.5942839453116013, "step": 7127 }, { "epoch": 0.76032, "grad_norm": 1.6979375524792704, "learning_rate": 1.432547247832819e-06, "loss": 0.5044, "step": 7128 }, { "avg_step_time": 5.754112925192322, "epoch": 0.76032, "eta_time": 3.5915254841408744, "step": 7128 }, { "epoch": 0.7604266666666667, "grad_norm": 1.7677342626355077, "learning_rate": 1.4313370772107715e-06, "loss": 0.5771, "step": 7129 }, { "avg_step_time": 5.756732726337934, "epoch": 0.7604266666666667, "eta_time": 3.591561584265278, "step": 7129 }, { "epoch": 0.7605333333333333, "grad_norm": 1.8893118037217729, "learning_rate": 1.430127332570369e-06, "loss": 0.4909, "step": 7130 }, { "avg_step_time": 5.757978058824635, "epoch": 0.7605333333333333, "eta_time": 3.59073909501703, "step": 7130 }, { "epoch": 0.76064, "grad_norm": 1.7089244396967656, "learning_rate": 1.4289180140560189e-06, "loss": 0.5428, "step": 7131 }, { "avg_step_time": 5.804212037963096, "epoch": 0.76064, "eta_time": 3.617958836996997, "step": 7131 }, { "epoch": 0.7607466666666667, "grad_norm": 1.6281638385240156, "learning_rate": 1.4277091218120715e-06, "loss": 0.4659, "step": 7132 }, { "avg_step_time": 5.809933474569609, "epoch": 0.7607466666666667, "eta_time": 3.6199113287387874, "step": 7132 }, { "epoch": 0.7608533333333334, "grad_norm": 1.8654420126145377, "learning_rate": 1.4265006559828282e-06, "loss": 0.463, "step": 7133 }, { "avg_step_time": 5.8372551335228815, "epoch": 0.7608533333333334, "eta_time": 3.6353127803773058, "step": 7133 }, { "epoch": 0.76096, "grad_norm": 1.940623720189188, "learning_rate": 1.4252926167125413e-06, "loss": 0.4953, "step": 7134 }, { "avg_step_time": 5.835194308348377, "epoch": 0.76096, "eta_time": 3.6324084569468646, "step": 7134 }, { "epoch": 0.7610666666666667, "grad_norm": 2.010774471432542, "learning_rate": 1.4240850041454136e-06, "loss": 0.4651, "step": 7135 }, { "avg_step_time": 5.833576016955906, "epoch": 0.7610666666666667, "eta_time": 3.6297806327725635, "step": 7135 }, { "epoch": 0.7611733333333334, "grad_norm": 2.0035735457658546, "learning_rate": 1.4228778184255908e-06, "loss": 0.5056, "step": 7136 }, { "avg_step_time": 5.833362940585975, "epoch": 0.7611733333333334, "eta_time": 3.6280276733255548, "step": 7136 }, { "epoch": 0.76128, "grad_norm": 1.7224062562712386, "learning_rate": 1.421671059697175e-06, "loss": 0.4934, "step": 7137 }, { "avg_step_time": 5.833672460883554, "epoch": 0.76128, "eta_time": 3.62659971318261, "step": 7137 }, { "epoch": 0.7613866666666667, "grad_norm": 0.6735631644306922, "learning_rate": 1.42046472810421e-06, "loss": 0.4509, "step": 7138 }, { "avg_step_time": 5.7918275341843115, "epoch": 0.7613866666666667, "eta_time": 3.5989772761028624, "step": 7138 }, { "epoch": 0.7614933333333334, "grad_norm": 1.9528670049492645, "learning_rate": 1.4192588237906957e-06, "loss": 0.4483, "step": 7139 }, { "avg_step_time": 5.795871272231594, "epoch": 0.7614933333333334, "eta_time": 3.5998800457527342, "step": 7139 }, { "epoch": 0.7616, "grad_norm": 1.5096657744292707, "learning_rate": 1.418053346900574e-06, "loss": 0.5086, "step": 7140 }, { "avg_step_time": 5.793969127866957, "epoch": 0.7616, "eta_time": 3.5970891668840688, "step": 7140 }, { "epoch": 0.7617066666666666, "grad_norm": 1.7696634005325313, "learning_rate": 1.4168482975777441e-06, "loss": 0.457, "step": 7141 }, { "avg_step_time": 5.824379053982821, "epoch": 0.7617066666666666, "eta_time": 3.6143507796104504, "step": 7141 }, { "epoch": 0.7618133333333333, "grad_norm": 1.9580376009822356, "learning_rate": 1.4156436759660447e-06, "loss": 0.5183, "step": 7142 }, { "avg_step_time": 5.8213224555506855, "epoch": 0.7618133333333333, "eta_time": 3.610836956456856, "step": 7142 }, { "epoch": 0.76192, "grad_norm": 1.985797500490134, "learning_rate": 1.4144394822092712e-06, "loss": 0.5125, "step": 7143 }, { "avg_step_time": 5.82323294456559, "epoch": 0.76192, "eta_time": 3.6104044256306658, "step": 7143 }, { "epoch": 0.7620266666666666, "grad_norm": 0.637752729256277, "learning_rate": 1.4132357164511652e-06, "loss": 0.4341, "step": 7144 }, { "avg_step_time": 5.789326443816677, "epoch": 0.7620266666666666, "eta_time": 3.587774248931946, "step": 7144 }, { "epoch": 0.7621333333333333, "grad_norm": 2.206691798660641, "learning_rate": 1.4120323788354156e-06, "loss": 0.5482, "step": 7145 }, { "avg_step_time": 5.785117137311685, "epoch": 0.7621333333333333, "eta_time": 3.583558671168072, "step": 7145 }, { "epoch": 0.76224, "grad_norm": 1.7319057151202337, "learning_rate": 1.4108294695056606e-06, "loss": 0.4444, "step": 7146 }, { "avg_step_time": 5.782803232019598, "epoch": 0.76224, "eta_time": 3.580519001158801, "step": 7146 }, { "epoch": 0.7623466666666666, "grad_norm": 1.7871238998448122, "learning_rate": 1.4096269886054904e-06, "loss": 0.4369, "step": 7147 }, { "avg_step_time": 5.784826384650336, "epoch": 0.7623466666666666, "eta_time": 3.580164773611375, "step": 7147 }, { "epoch": 0.7624533333333333, "grad_norm": 1.822522592321467, "learning_rate": 1.408424936278442e-06, "loss": 0.4565, "step": 7148 }, { "avg_step_time": 5.79137453647575, "epoch": 0.7624533333333333, "eta_time": 3.58260863686986, "step": 7148 }, { "epoch": 0.76256, "grad_norm": 0.6479277259976208, "learning_rate": 1.4072233126679985e-06, "loss": 0.4318, "step": 7149 }, { "avg_step_time": 5.754698678700611, "epoch": 0.76256, "eta_time": 3.5583220163298774, "step": 7149 }, { "epoch": 0.7626666666666667, "grad_norm": 0.6593148577714908, "learning_rate": 1.4060221179175976e-06, "loss": 0.4382, "step": 7150 }, { "avg_step_time": 5.753903458816836, "epoch": 0.7626666666666667, "eta_time": 3.5562319988520725, "step": 7150 }, { "epoch": 0.7627733333333333, "grad_norm": 1.693512022084201, "learning_rate": 1.404821352170621e-06, "loss": 0.5052, "step": 7151 }, { "avg_step_time": 5.739383897396049, "epoch": 0.7627733333333333, "eta_time": 3.5456638299468928, "step": 7151 }, { "epoch": 0.76288, "grad_norm": 2.0761282476550953, "learning_rate": 1.4036210155703989e-06, "loss": 0.5148, "step": 7152 }, { "avg_step_time": 5.7457449773345335, "epoch": 0.76288, "eta_time": 3.5479975235040744, "step": 7152 }, { "epoch": 0.7629866666666667, "grad_norm": 1.759680513539172, "learning_rate": 1.4024211082602168e-06, "loss": 0.4498, "step": 7153 }, { "avg_step_time": 5.74296239168957, "epoch": 0.7629866666666667, "eta_time": 3.544684009537285, "step": 7153 }, { "epoch": 0.7630933333333333, "grad_norm": 1.7491665108130408, "learning_rate": 1.401221630383302e-06, "loss": 0.446, "step": 7154 }, { "avg_step_time": 5.7809500068125095, "epoch": 0.7630933333333333, "eta_time": 3.566524990314051, "step": 7154 }, { "epoch": 0.7632, "grad_norm": 0.6599619804521056, "learning_rate": 1.4000225820828317e-06, "loss": 0.4467, "step": 7155 }, { "avg_step_time": 5.741251528865159, "epoch": 0.7632, "eta_time": 3.5404384428001814, "step": 7155 }, { "epoch": 0.7633066666666667, "grad_norm": 1.7054756850682038, "learning_rate": 1.3988239635019357e-06, "loss": 0.4835, "step": 7156 }, { "avg_step_time": 5.7406388220160895, "epoch": 0.7633066666666667, "eta_time": 3.538465985014917, "step": 7156 }, { "epoch": 0.7634133333333334, "grad_norm": 2.1239365457600403, "learning_rate": 1.3976257747836875e-06, "loss": 0.4991, "step": 7157 }, { "avg_step_time": 5.738726644804983, "epoch": 0.7634133333333334, "eta_time": 3.5356932494937374, "step": 7157 }, { "epoch": 0.76352, "grad_norm": 1.6389138599086752, "learning_rate": 1.3964280160711119e-06, "loss": 0.3823, "step": 7158 }, { "avg_step_time": 5.770009546568899, "epoch": 0.76352, "eta_time": 3.5533642124286806, "step": 7158 }, { "epoch": 0.7636266666666667, "grad_norm": 1.7656539702819931, "learning_rate": 1.3952306875071847e-06, "loss": 0.4171, "step": 7159 }, { "avg_step_time": 5.745506912770898, "epoch": 0.7636266666666667, "eta_time": 3.536678699638975, "step": 7159 }, { "epoch": 0.7637333333333334, "grad_norm": 0.6145620529824064, "learning_rate": 1.3940337892348255e-06, "loss": 0.4129, "step": 7160 }, { "avg_step_time": 5.745604430786287, "epoch": 0.7637333333333334, "eta_time": 3.53514272616434, "step": 7160 }, { "epoch": 0.76384, "grad_norm": 1.7943553196139783, "learning_rate": 1.3928373213969038e-06, "loss": 0.4576, "step": 7161 }, { "avg_step_time": 5.731907543509897, "epoch": 0.76384, "eta_time": 3.5251231392585867, "step": 7161 }, { "epoch": 0.7639466666666667, "grad_norm": 2.0266119653121755, "learning_rate": 1.3916412841362404e-06, "loss": 0.4846, "step": 7162 }, { "avg_step_time": 5.734509456037271, "epoch": 0.7639466666666667, "eta_time": 3.525130396169578, "step": 7162 }, { "epoch": 0.7640533333333334, "grad_norm": 2.272849247350629, "learning_rate": 1.3904456775956044e-06, "loss": 0.5526, "step": 7163 }, { "avg_step_time": 5.729924136942083, "epoch": 0.7640533333333334, "eta_time": 3.520720053032191, "step": 7163 }, { "epoch": 0.76416, "grad_norm": 2.0164127813579347, "learning_rate": 1.38925050191771e-06, "loss": 0.4569, "step": 7164 }, { "avg_step_time": 5.6751117995291045, "epoch": 0.76416, "eta_time": 3.485464496877458, "step": 7164 }, { "epoch": 0.7642666666666666, "grad_norm": 1.9082199752392652, "learning_rate": 1.3880557572452213e-06, "loss": 0.4875, "step": 7165 }, { "avg_step_time": 5.693711772109523, "epoch": 0.7642666666666666, "eta_time": 3.495306393433902, "step": 7165 }, { "epoch": 0.7643733333333333, "grad_norm": 1.9004461949077713, "learning_rate": 1.3868614437207545e-06, "loss": 0.4892, "step": 7166 }, { "avg_step_time": 5.6934761856541485, "epoch": 0.7643733333333333, "eta_time": 3.4935802483638927, "step": 7166 }, { "epoch": 0.76448, "grad_norm": 1.9858943112522975, "learning_rate": 1.3856675614868687e-06, "loss": 0.4421, "step": 7167 }, { "avg_step_time": 5.6946977099986995, "epoch": 0.76448, "eta_time": 3.492747928799202, "step": 7167 }, { "epoch": 0.7645866666666666, "grad_norm": 2.0553389198051275, "learning_rate": 1.3844741106860759e-06, "loss": 0.5062, "step": 7168 }, { "avg_step_time": 5.69056207483465, "epoch": 0.7645866666666666, "eta_time": 3.488630694211132, "step": 7168 }, { "epoch": 0.7646933333333333, "grad_norm": 1.6838874386759344, "learning_rate": 1.3832810914608364e-06, "loss": 0.3886, "step": 7169 }, { "avg_step_time": 5.689320400507763, "epoch": 0.7646933333333333, "eta_time": 3.4862891120889237, "step": 7169 }, { "epoch": 0.7648, "grad_norm": 0.6272580839192728, "learning_rate": 1.3820885039535564e-06, "loss": 0.4292, "step": 7170 }, { "avg_step_time": 5.651290975435816, "epoch": 0.7648, "eta_time": 3.4614157224544373, "step": 7170 }, { "epoch": 0.7649066666666666, "grad_norm": 2.1837632330588312, "learning_rate": 1.3808963483065902e-06, "loss": 0.4286, "step": 7171 }, { "avg_step_time": 5.630957131433969, "epoch": 0.7649066666666666, "eta_time": 3.4473970882445744, "step": 7171 }, { "epoch": 0.7650133333333333, "grad_norm": 1.684293557382297, "learning_rate": 1.3797046246622431e-06, "loss": 0.3546, "step": 7172 }, { "avg_step_time": 5.632079548305935, "epoch": 0.7650133333333333, "eta_time": 3.446519790254993, "step": 7172 }, { "epoch": 0.76512, "grad_norm": 1.8002544206351616, "learning_rate": 1.378513333162771e-06, "loss": 0.5392, "step": 7173 }, { "avg_step_time": 5.632601636828798, "epoch": 0.76512, "eta_time": 3.4452746678602812, "step": 7173 }, { "epoch": 0.7652266666666667, "grad_norm": 1.805882857902705, "learning_rate": 1.3773224739503704e-06, "loss": 0.5356, "step": 7174 }, { "avg_step_time": 5.622080157501529, "epoch": 0.7652266666666667, "eta_time": 3.4372773407391293, "step": 7174 }, { "epoch": 0.7653333333333333, "grad_norm": 2.0871150234514544, "learning_rate": 1.3761320471671951e-06, "loss": 0.5361, "step": 7175 }, { "avg_step_time": 5.618914454874366, "epoch": 0.7653333333333333, "eta_time": 3.433781055756557, "step": 7175 }, { "epoch": 0.76544, "grad_norm": 1.6781422462150357, "learning_rate": 1.3749420529553414e-06, "loss": 0.4472, "step": 7176 }, { "avg_step_time": 5.631929530037774, "epoch": 0.76544, "eta_time": 3.440170287931407, "step": 7176 }, { "epoch": 0.7655466666666667, "grad_norm": 0.6649728961288794, "learning_rate": 1.3737524914568523e-06, "loss": 0.4427, "step": 7177 }, { "avg_step_time": 5.596117212314798, "epoch": 0.7655466666666667, "eta_time": 3.4167404535188686, "step": 7177 }, { "epoch": 0.7656533333333333, "grad_norm": 1.8792338851292412, "learning_rate": 1.3725633628137292e-06, "loss": 0.513, "step": 7178 }, { "avg_step_time": 5.609646558761597, "epoch": 0.7656533333333333, "eta_time": 3.4234426359997854, "step": 7178 }, { "epoch": 0.76576, "grad_norm": 1.6576223830914993, "learning_rate": 1.3713746671679112e-06, "loss": 0.4446, "step": 7179 }, { "avg_step_time": 5.610595457481615, "epoch": 0.76576, "eta_time": 3.4224632290637853, "step": 7179 }, { "epoch": 0.7658666666666667, "grad_norm": 1.986445358232073, "learning_rate": 1.3701864046612888e-06, "loss": 0.496, "step": 7180 }, { "avg_step_time": 5.61670515994833, "epoch": 0.7658666666666667, "eta_time": 3.424629951690718, "step": 7180 }, { "epoch": 0.7659733333333333, "grad_norm": 1.7332013285557648, "learning_rate": 1.3689985754357054e-06, "loss": 0.4826, "step": 7181 }, { "avg_step_time": 5.623831580383609, "epoch": 0.7659733333333333, "eta_time": 3.4274129131560107, "step": 7181 }, { "epoch": 0.76608, "grad_norm": 1.9266745060655355, "learning_rate": 1.3678111796329446e-06, "loss": 0.4396, "step": 7182 }, { "avg_step_time": 5.621371182528409, "epoch": 0.76608, "eta_time": 3.4243519453568894, "step": 7182 }, { "epoch": 0.7661866666666667, "grad_norm": 1.7034879226556296, "learning_rate": 1.3666242173947447e-06, "loss": 0.4745, "step": 7183 }, { "avg_step_time": 5.6379544638624095, "epoch": 0.7661866666666667, "eta_time": 3.4328878291073335, "step": 7183 }, { "epoch": 0.7662933333333334, "grad_norm": 1.8433409454055247, "learning_rate": 1.3654376888627918e-06, "loss": 0.4139, "step": 7184 }, { "avg_step_time": 5.63097024445582, "epoch": 0.7662933333333334, "eta_time": 3.427071057111861, "step": 7184 }, { "epoch": 0.7664, "grad_norm": 1.7838275311413665, "learning_rate": 1.3642515941787171e-06, "loss": 0.4827, "step": 7185 }, { "avg_step_time": 5.639087221839211, "epoch": 0.7664, "eta_time": 3.430444726618853, "step": 7185 }, { "epoch": 0.7665066666666667, "grad_norm": 0.6528319553333545, "learning_rate": 1.3630659334841002e-06, "loss": 0.4611, "step": 7186 }, { "avg_step_time": 5.603295208227755, "epoch": 0.7665066666666667, "eta_time": 3.40711478078071, "step": 7186 }, { "epoch": 0.7666133333333334, "grad_norm": 2.0638880993845103, "learning_rate": 1.3618807069204708e-06, "loss": 0.5905, "step": 7187 }, { "avg_step_time": 5.6020614233883945, "epoch": 0.7666133333333334, "eta_time": 3.404808442881613, "step": 7187 }, { "epoch": 0.76672, "grad_norm": 2.000630108286053, "learning_rate": 1.3606959146293086e-06, "loss": 0.4658, "step": 7188 }, { "avg_step_time": 5.600753550577646, "epoch": 0.76672, "eta_time": 3.40245778197592, "step": 7188 }, { "epoch": 0.7668266666666667, "grad_norm": 1.846699662319991, "learning_rate": 1.3595115567520361e-06, "loss": 0.4745, "step": 7189 }, { "avg_step_time": 5.6321232005803274, "epoch": 0.7668266666666667, "eta_time": 3.4199503656857213, "step": 7189 }, { "epoch": 0.7669333333333334, "grad_norm": 1.7385038380447815, "learning_rate": 1.3583276334300295e-06, "loss": 0.4353, "step": 7190 }, { "avg_step_time": 5.634538171267269, "epoch": 0.7669333333333334, "eta_time": 3.4198516400608288, "step": 7190 }, { "epoch": 0.76704, "grad_norm": 2.0700427803465566, "learning_rate": 1.3571441448046086e-06, "loss": 0.4795, "step": 7191 }, { "avg_step_time": 5.633159808438234, "epoch": 0.76704, "eta_time": 3.417450283785862, "step": 7191 }, { "epoch": 0.7671466666666666, "grad_norm": 1.8592530797414701, "learning_rate": 1.3559610910170423e-06, "loss": 0.4151, "step": 7192 }, { "avg_step_time": 5.633521629102303, "epoch": 0.7671466666666666, "eta_time": 3.4161049212028685, "step": 7192 }, { "epoch": 0.7672533333333333, "grad_norm": 1.7683179758259786, "learning_rate": 1.3547784722085505e-06, "loss": 0.4683, "step": 7193 }, { "avg_step_time": 5.63115336437418, "epoch": 0.7672533333333333, "eta_time": 3.413104622517906, "step": 7193 }, { "epoch": 0.76736, "grad_norm": 1.9444295791483934, "learning_rate": 1.3535962885202997e-06, "loss": 0.5034, "step": 7194 }, { "avg_step_time": 5.630914996368716, "epoch": 0.76736, "eta_time": 3.4113960019667138, "step": 7194 }, { "epoch": 0.7674666666666666, "grad_norm": 1.946432754356923, "learning_rate": 1.3524145400934019e-06, "loss": 0.4742, "step": 7195 }, { "avg_step_time": 5.630798428949683, "epoch": 0.7674666666666666, "eta_time": 3.409761270863975, "step": 7195 }, { "epoch": 0.7675733333333333, "grad_norm": 1.928565081545484, "learning_rate": 1.35123322706892e-06, "loss": 0.4251, "step": 7196 }, { "avg_step_time": 5.631135013368395, "epoch": 0.7675733333333333, "eta_time": 3.408400887258259, "step": 7196 }, { "epoch": 0.76768, "grad_norm": 1.9633548995852241, "learning_rate": 1.350052349587866e-06, "loss": 0.4345, "step": 7197 }, { "avg_step_time": 5.633777237901784, "epoch": 0.76768, "eta_time": 3.4084352289305793, "step": 7197 }, { "epoch": 0.7677866666666666, "grad_norm": 1.7240300890430564, "learning_rate": 1.3488719077911965e-06, "loss": 0.4168, "step": 7198 }, { "avg_step_time": 5.631385273403591, "epoch": 0.7677866666666666, "eta_time": 3.4054238167221165, "step": 7198 }, { "epoch": 0.7678933333333333, "grad_norm": 0.6126034502039851, "learning_rate": 1.3476919018198159e-06, "loss": 0.4177, "step": 7199 }, { "avg_step_time": 5.597882309345284, "epoch": 0.7678933333333333, "eta_time": 3.3836088625375935, "step": 7199 }, { "epoch": 0.768, "grad_norm": 1.6973749994986624, "learning_rate": 1.3465123318145817e-06, "loss": 0.4432, "step": 7200 }, { "avg_step_time": 5.595623030807033, "epoch": 0.768, "eta_time": 3.3806889144459156, "step": 7200 }, { "epoch": 0.7681066666666667, "grad_norm": 1.9709643757957578, "learning_rate": 1.3453331979162932e-06, "loss": 0.4386, "step": 7201 }, { "avg_step_time": 5.596140418389831, "epoch": 0.7681066666666667, "eta_time": 3.379447019327637, "step": 7201 }, { "epoch": 0.7682133333333333, "grad_norm": 1.5228059629947808, "learning_rate": 1.3441545002657008e-06, "loss": 0.419, "step": 7202 }, { "avg_step_time": 5.602527249943126, "epoch": 0.7682133333333333, "eta_time": 3.3817476983684482, "step": 7202 }, { "epoch": 0.76832, "grad_norm": 1.59635993842992, "learning_rate": 1.342976239003505e-06, "loss": 0.4223, "step": 7203 }, { "avg_step_time": 5.598690890302562, "epoch": 0.76832, "eta_time": 3.3778768371492123, "step": 7203 }, { "epoch": 0.7684266666666667, "grad_norm": 1.6613521147999522, "learning_rate": 1.34179841427035e-06, "loss": 0.4318, "step": 7204 }, { "avg_step_time": 5.611257598857687, "epoch": 0.7684266666666667, "eta_time": 3.3839000686444556, "step": 7204 }, { "epoch": 0.7685333333333333, "grad_norm": 1.6708592924876857, "learning_rate": 1.340621026206828e-06, "loss": 0.3719, "step": 7205 }, { "avg_step_time": 5.588787389524056, "epoch": 0.7685333333333333, "eta_time": 3.368796843129778, "step": 7205 }, { "epoch": 0.76864, "grad_norm": 1.3656751148788946, "learning_rate": 1.339444074953482e-06, "loss": 0.3744, "step": 7206 }, { "avg_step_time": 5.587194423482876, "epoch": 0.76864, "eta_time": 3.3662846401484323, "step": 7206 }, { "epoch": 0.7687466666666667, "grad_norm": 2.1167604395751494, "learning_rate": 1.3382675606508028e-06, "loss": 0.487, "step": 7207 }, { "avg_step_time": 5.58457537130876, "epoch": 0.7687466666666667, "eta_time": 3.363155390277053, "step": 7207 }, { "epoch": 0.7688533333333334, "grad_norm": 1.887768281416314, "learning_rate": 1.3370914834392251e-06, "loss": 0.4266, "step": 7208 }, { "avg_step_time": 5.618440221054385, "epoch": 0.7688533333333334, "eta_time": 3.381988877506904, "step": 7208 }, { "epoch": 0.76896, "grad_norm": 1.8366912167265115, "learning_rate": 1.335915843459137e-06, "loss": 0.507, "step": 7209 }, { "avg_step_time": 5.619335740503638, "epoch": 0.76896, "eta_time": 3.3809670038696895, "step": 7209 }, { "epoch": 0.7690666666666667, "grad_norm": 1.715783434553747, "learning_rate": 1.3347406408508695e-06, "loss": 0.4543, "step": 7210 }, { "avg_step_time": 5.669548677675651, "epoch": 0.7690666666666667, "eta_time": 3.4096035797688296, "step": 7210 }, { "epoch": 0.7691733333333334, "grad_norm": 1.6549392174892898, "learning_rate": 1.3335658757547015e-06, "loss": 0.4224, "step": 7211 }, { "avg_step_time": 5.667403187414612, "epoch": 0.7691733333333334, "eta_time": 3.4067390271014504, "step": 7211 }, { "epoch": 0.76928, "grad_norm": 1.9010192633189902, "learning_rate": 1.3323915483108662e-06, "loss": 0.5104, "step": 7212 }, { "avg_step_time": 5.65860771410393, "epoch": 0.76928, "eta_time": 3.3998801348907777, "step": 7212 }, { "epoch": 0.7693866666666667, "grad_norm": 1.9282988563892203, "learning_rate": 1.3312176586595377e-06, "loss": 0.4937, "step": 7213 }, { "avg_step_time": 5.658182498180505, "epoch": 0.7693866666666667, "eta_time": 3.3980529336295144, "step": 7213 }, { "epoch": 0.7694933333333334, "grad_norm": 1.9394850531671108, "learning_rate": 1.330044206940838e-06, "loss": 0.5039, "step": 7214 }, { "avg_step_time": 5.659759169877177, "epoch": 0.7694933333333334, "eta_time": 3.3974276572512725, "step": 7214 }, { "epoch": 0.7696, "grad_norm": 1.9264368302901274, "learning_rate": 1.3288711932948427e-06, "loss": 0.5421, "step": 7215 }, { "avg_step_time": 5.6604441873955, "epoch": 0.7696, "eta_time": 3.3962665124373004, "step": 7215 }, { "epoch": 0.7697066666666667, "grad_norm": 2.078521900083327, "learning_rate": 1.3276986178615676e-06, "loss": 0.4678, "step": 7216 }, { "avg_step_time": 5.660000991339635, "epoch": 0.7697066666666667, "eta_time": 3.394428372306187, "step": 7216 }, { "epoch": 0.7698133333333333, "grad_norm": 2.0471276214062506, "learning_rate": 1.3265264807809824e-06, "loss": 0.5164, "step": 7217 }, { "avg_step_time": 5.691988605441469, "epoch": 0.7698133333333333, "eta_time": 3.4120309473729695, "step": 7217 }, { "epoch": 0.76992, "grad_norm": 2.094702035869417, "learning_rate": 1.3253547821930002e-06, "loss": 0.4974, "step": 7218 }, { "avg_step_time": 5.689339221125901, "epoch": 0.76992, "eta_time": 3.4088624166579358, "step": 7218 }, { "epoch": 0.7700266666666666, "grad_norm": 1.87797174785016, "learning_rate": 1.3241835222374855e-06, "loss": 0.3927, "step": 7219 }, { "avg_step_time": 5.687116690356322, "epoch": 0.7700266666666666, "eta_time": 3.405950995668953, "step": 7219 }, { "epoch": 0.7701333333333333, "grad_norm": 1.710426123306875, "learning_rate": 1.323012701054246e-06, "loss": 0.4804, "step": 7220 }, { "avg_step_time": 5.73747221387998, "epoch": 0.7701333333333333, "eta_time": 3.434514616919821, "step": 7220 }, { "epoch": 0.77024, "grad_norm": 1.8352977629449818, "learning_rate": 1.3218423187830409e-06, "loss": 0.5113, "step": 7221 }, { "avg_step_time": 5.719757472625886, "epoch": 0.77024, "eta_time": 3.4223215544544887, "step": 7221 }, { "epoch": 0.7703466666666666, "grad_norm": 1.5090837331347962, "learning_rate": 1.3206723755635765e-06, "loss": 0.4321, "step": 7222 }, { "avg_step_time": 5.7116680819578844, "epoch": 0.7703466666666666, "eta_time": 3.415894827904257, "step": 7222 }, { "epoch": 0.7704533333333333, "grad_norm": 1.844330771874745, "learning_rate": 1.3195028715355046e-06, "loss": 0.4587, "step": 7223 }, { "avg_step_time": 5.7084554301367865, "epoch": 0.7704533333333333, "eta_time": 3.412387801570657, "step": 7223 }, { "epoch": 0.77056, "grad_norm": 1.83137051817292, "learning_rate": 1.3183338068384243e-06, "loss": 0.5327, "step": 7224 }, { "avg_step_time": 5.715989095996124, "epoch": 0.77056, "eta_time": 3.4153034848576844, "step": 7224 }, { "epoch": 0.7706666666666667, "grad_norm": 1.8548408076699037, "learning_rate": 1.317165181611887e-06, "loss": 0.4939, "step": 7225 }, { "avg_step_time": 5.715519343963777, "epoch": 0.7706666666666667, "eta_time": 3.4134351637561444, "step": 7225 }, { "epoch": 0.7707733333333333, "grad_norm": 1.7788385638639332, "learning_rate": 1.315996995995385e-06, "loss": 0.4238, "step": 7226 }, { "avg_step_time": 5.743872059716119, "epoch": 0.7707733333333333, "eta_time": 3.4287725156472058, "step": 7226 }, { "epoch": 0.77088, "grad_norm": 1.9204844360736237, "learning_rate": 1.3148292501283627e-06, "loss": 0.5106, "step": 7227 }, { "avg_step_time": 5.744818641681864, "epoch": 0.77088, "eta_time": 3.4277417895368454, "step": 7227 }, { "epoch": 0.7709866666666667, "grad_norm": 2.022058732726783, "learning_rate": 1.3136619441502124e-06, "loss": 0.3993, "step": 7228 }, { "avg_step_time": 5.741229570273197, "epoch": 0.7709866666666667, "eta_time": 3.4240055242712653, "step": 7228 }, { "epoch": 0.7710933333333333, "grad_norm": 1.8419457494632892, "learning_rate": 1.312495078200271e-06, "loss": 0.3864, "step": 7229 }, { "avg_step_time": 5.743501200820461, "epoch": 0.7710933333333333, "eta_time": 3.4237648824890856, "step": 7229 }, { "epoch": 0.7712, "grad_norm": 1.905273162430716, "learning_rate": 1.3113286524178232e-06, "loss": 0.5011, "step": 7230 }, { "avg_step_time": 5.697093951581705, "epoch": 0.7712, "eta_time": 3.3945184794840992, "step": 7230 }, { "epoch": 0.7713066666666667, "grad_norm": 0.6622082736423819, "learning_rate": 1.3101626669421019e-06, "loss": 0.432, "step": 7231 }, { "avg_step_time": 5.662217896394055, "epoch": 0.7713066666666667, "eta_time": 3.3721653249635706, "step": 7231 }, { "epoch": 0.7714133333333333, "grad_norm": 2.1237375076537446, "learning_rate": 1.308997121912291e-06, "loss": 0.5401, "step": 7232 }, { "avg_step_time": 5.633136905805029, "epoch": 0.7714133333333333, "eta_time": 3.3532812192056043, "step": 7232 }, { "epoch": 0.77152, "grad_norm": 1.6895544473305883, "learning_rate": 1.3078320174675141e-06, "loss": 0.448, "step": 7233 }, { "avg_step_time": 5.63720305038221, "epoch": 0.77152, "eta_time": 3.3541358149774148, "step": 7233 }, { "epoch": 0.7716266666666667, "grad_norm": 1.9124980735078356, "learning_rate": 1.3066673537468499e-06, "loss": 0.4768, "step": 7234 }, { "avg_step_time": 5.63553244417364, "epoch": 0.7716266666666667, "eta_time": 3.3515763786043786, "step": 7234 }, { "epoch": 0.7717333333333334, "grad_norm": 1.4904547991135477, "learning_rate": 1.3055031308893206e-06, "loss": 0.4062, "step": 7235 }, { "avg_step_time": 5.63174200780464, "epoch": 0.7717333333333334, "eta_time": 3.3477577490838692, "step": 7235 }, { "epoch": 0.77184, "grad_norm": 2.114768925134022, "learning_rate": 1.3043393490338918e-06, "loss": 0.4828, "step": 7236 }, { "avg_step_time": 5.629335256538006, "epoch": 0.77184, "eta_time": 3.3447633649263318, "step": 7236 }, { "epoch": 0.7719466666666667, "grad_norm": 0.6368045441026643, "learning_rate": 1.3031760083194884e-06, "loss": 0.4329, "step": 7237 }, { "avg_step_time": 5.6277176876260775, "epoch": 0.7719466666666667, "eta_time": 3.342239004484598, "step": 7237 }, { "epoch": 0.7720533333333334, "grad_norm": 1.8326921311288442, "learning_rate": 1.3020131088849714e-06, "loss": 0.3905, "step": 7238 }, { "avg_step_time": 5.639745596683387, "epoch": 0.7720533333333334, "eta_time": 3.3478156500312215, "step": 7238 }, { "epoch": 0.77216, "grad_norm": 1.8801774309057968, "learning_rate": 1.3008506508691516e-06, "loss": 0.4842, "step": 7239 }, { "avg_step_time": 5.641284258678706, "epoch": 0.77216, "eta_time": 3.347161993482699, "step": 7239 }, { "epoch": 0.7722666666666667, "grad_norm": 1.564521572057267, "learning_rate": 1.29968863441079e-06, "loss": 0.469, "step": 7240 }, { "avg_step_time": 5.60980046156681, "epoch": 0.7722666666666667, "eta_time": 3.326923329290316, "step": 7240 }, { "epoch": 0.7723733333333334, "grad_norm": 0.6598946613918849, "learning_rate": 1.2985270596485949e-06, "loss": 0.4529, "step": 7241 }, { "avg_step_time": 5.573471714751889, "epoch": 0.7723733333333334, "eta_time": 3.3038301775779257, "step": 7241 }, { "epoch": 0.77248, "grad_norm": 1.9425901814784443, "learning_rate": 1.2973659267212173e-06, "loss": 0.4982, "step": 7242 }, { "avg_step_time": 5.570919020007355, "epoch": 0.77248, "eta_time": 3.3007695193543576, "step": 7242 }, { "epoch": 0.7725866666666666, "grad_norm": 2.103356483813854, "learning_rate": 1.2962052357672617e-06, "loss": 0.5326, "step": 7243 }, { "avg_step_time": 5.605719706024787, "epoch": 0.7725866666666666, "eta_time": 3.3198317814569016, "step": 7243 }, { "epoch": 0.7726933333333333, "grad_norm": 0.6434574152620615, "learning_rate": 1.295044986925275e-06, "loss": 0.4251, "step": 7244 }, { "avg_step_time": 5.570929028771141, "epoch": 0.7726933333333333, "eta_time": 3.2976804889753613, "step": 7244 }, { "epoch": 0.7728, "grad_norm": 1.7627710458896346, "learning_rate": 1.2938851803337516e-06, "loss": 0.4407, "step": 7245 }, { "avg_step_time": 5.582870437641336, "epoch": 0.7728, "eta_time": 3.303198342271124, "step": 7245 }, { "epoch": 0.7729066666666666, "grad_norm": 1.8014238672533578, "learning_rate": 1.2927258161311357e-06, "loss": 0.4212, "step": 7246 }, { "avg_step_time": 5.584382683339745, "epoch": 0.7729066666666666, "eta_time": 3.3025418702306437, "step": 7246 }, { "epoch": 0.7730133333333333, "grad_norm": 2.1338932988073314, "learning_rate": 1.2915668944558192e-06, "loss": 0.4588, "step": 7247 }, { "avg_step_time": 5.582269622822, "epoch": 0.7730133333333333, "eta_time": 3.2997415992681156, "step": 7247 }, { "epoch": 0.77312, "grad_norm": 1.9032755594045296, "learning_rate": 1.290408415446136e-06, "loss": 0.4896, "step": 7248 }, { "avg_step_time": 5.618154638945454, "epoch": 0.77312, "eta_time": 3.3193930325102725, "step": 7248 }, { "epoch": 0.7732266666666666, "grad_norm": 1.828698036335369, "learning_rate": 1.2892503792403737e-06, "loss": 0.5097, "step": 7249 }, { "avg_step_time": 5.654328425725301, "epoch": 0.7732266666666666, "eta_time": 3.339195064747775, "step": 7249 }, { "epoch": 0.7733333333333333, "grad_norm": 1.7015679903136778, "learning_rate": 1.2880927859767617e-06, "loss": 0.4812, "step": 7250 }, { "avg_step_time": 5.648268160193857, "epoch": 0.7733333333333333, "eta_time": 3.3340471778922076, "step": 7250 }, { "epoch": 0.77344, "grad_norm": 2.041474995913473, "learning_rate": 1.2869356357934815e-06, "loss": 0.4116, "step": 7251 }, { "avg_step_time": 5.655558670410002, "epoch": 0.77344, "eta_time": 3.3367796155419014, "step": 7251 }, { "epoch": 0.7735466666666667, "grad_norm": 1.759590362079206, "learning_rate": 1.2857789288286553e-06, "loss": 0.589, "step": 7252 }, { "avg_step_time": 5.653987800232088, "epoch": 0.7735466666666667, "eta_time": 3.3342822499702005, "step": 7252 }, { "epoch": 0.7736533333333333, "grad_norm": 2.352993964342639, "learning_rate": 1.2846226652203602e-06, "loss": 0.5489, "step": 7253 }, { "avg_step_time": 5.647492208866158, "epoch": 0.7736533333333333, "eta_time": 3.3288829075594406, "step": 7253 }, { "epoch": 0.77376, "grad_norm": 1.7539930168448383, "learning_rate": 1.2834668451066118e-06, "loss": 0.3598, "step": 7254 }, { "avg_step_time": 5.684845950868395, "epoch": 0.77376, "eta_time": 3.3493217393866295, "step": 7254 }, { "epoch": 0.7738666666666667, "grad_norm": 0.6745607040681632, "learning_rate": 1.2823114686253802e-06, "loss": 0.4119, "step": 7255 }, { "avg_step_time": 5.674996383262403, "epoch": 0.7738666666666667, "eta_time": 3.3419423145878597, "step": 7255 }, { "epoch": 0.7739733333333333, "grad_norm": 1.7984584471661813, "learning_rate": 1.28115653591458e-06, "loss": 0.5004, "step": 7256 }, { "avg_step_time": 5.68872797127926, "epoch": 0.7739733333333333, "eta_time": 3.3484484919835418, "step": 7256 }, { "epoch": 0.77408, "grad_norm": 1.728583843315965, "learning_rate": 1.2800020471120717e-06, "loss": 0.4867, "step": 7257 }, { "avg_step_time": 5.691505937865286, "epoch": 0.77408, "eta_time": 3.3485026601107433, "step": 7257 }, { "epoch": 0.7741866666666667, "grad_norm": 1.902820768291074, "learning_rate": 1.2788480023556615e-06, "loss": 0.4975, "step": 7258 }, { "avg_step_time": 5.70063997037483, "epoch": 0.7741866666666667, "eta_time": 3.3522930048009765, "step": 7258 }, { "epoch": 0.7742933333333333, "grad_norm": 1.7812292359168456, "learning_rate": 1.2776944017831071e-06, "loss": 0.4621, "step": 7259 }, { "avg_step_time": 5.733549623778372, "epoch": 0.7742933333333333, "eta_time": 3.3700530566430653, "step": 7259 }, { "epoch": 0.7744, "grad_norm": 1.7695870812104342, "learning_rate": 1.276541245532109e-06, "loss": 0.4452, "step": 7260 }, { "avg_step_time": 5.718103878425829, "epoch": 0.7744, "eta_time": 3.3593860285751744, "step": 7260 }, { "epoch": 0.7745066666666667, "grad_norm": 1.711089199150384, "learning_rate": 1.275388533740317e-06, "loss": 0.4995, "step": 7261 }, { "avg_step_time": 5.717540020894522, "epoch": 0.7745066666666667, "eta_time": 3.357466556714172, "step": 7261 }, { "epoch": 0.7746133333333334, "grad_norm": 0.630429319497292, "learning_rate": 1.274236266545329e-06, "loss": 0.4193, "step": 7262 }, { "avg_step_time": 5.6846726904011735, "epoch": 0.7746133333333334, "eta_time": 3.336587054116022, "step": 7262 }, { "epoch": 0.77472, "grad_norm": 1.7477796059536774, "learning_rate": 1.2730844440846862e-06, "loss": 0.4603, "step": 7263 }, { "avg_step_time": 5.678303407900261, "epoch": 0.77472, "eta_time": 3.33127133263482, "step": 7263 }, { "epoch": 0.7748266666666667, "grad_norm": 2.1302012423149463, "learning_rate": 1.2719330664958767e-06, "loss": 0.4805, "step": 7264 }, { "avg_step_time": 5.65580854993878, "epoch": 0.7748266666666667, "eta_time": 3.316503291366879, "step": 7264 }, { "epoch": 0.7749333333333334, "grad_norm": 1.7537494814456491, "learning_rate": 1.27078213391634e-06, "loss": 0.3901, "step": 7265 }, { "avg_step_time": 5.653978374269274, "epoch": 0.7749333333333334, "eta_time": 3.3138595471411576, "step": 7265 }, { "epoch": 0.77504, "grad_norm": 0.6443569202190976, "learning_rate": 1.2696316464834607e-06, "loss": 0.4551, "step": 7266 }, { "avg_step_time": 5.619180289181796, "epoch": 0.77504, "eta_time": 3.291903119412335, "step": 7266 }, { "epoch": 0.7751466666666667, "grad_norm": 0.6322075166410316, "learning_rate": 1.268481604334566e-06, "loss": 0.4498, "step": 7267 }, { "avg_step_time": 5.591224145407629, "epoch": 0.7751466666666667, "eta_time": 3.2739723606998, "step": 7267 }, { "epoch": 0.7752533333333333, "grad_norm": 1.5511556950590757, "learning_rate": 1.2673320076069363e-06, "loss": 0.4386, "step": 7268 }, { "avg_step_time": 5.5951291431080215, "epoch": 0.7752533333333333, "eta_time": 3.2747047512579446, "step": 7268 }, { "epoch": 0.77536, "grad_norm": 1.9874691275209024, "learning_rate": 1.2661828564377948e-06, "loss": 0.4846, "step": 7269 }, { "avg_step_time": 5.655830643393776, "epoch": 0.77536, "eta_time": 3.3086609263853592, "step": 7269 }, { "epoch": 0.7754666666666666, "grad_norm": 1.8556686348354463, "learning_rate": 1.2650341509643116e-06, "loss": 0.4536, "step": 7270 }, { "avg_step_time": 5.684451033370664, "epoch": 0.7754666666666666, "eta_time": 3.323824840345902, "step": 7270 }, { "epoch": 0.7755733333333333, "grad_norm": 2.0020712892066292, "learning_rate": 1.2638858913236045e-06, "loss": 0.4832, "step": 7271 }, { "avg_step_time": 5.6826138159241335, "epoch": 0.7755733333333333, "eta_time": 3.321172074640105, "step": 7271 }, { "epoch": 0.77568, "grad_norm": 2.0680911558375623, "learning_rate": 1.2627380776527415e-06, "loss": 0.4522, "step": 7272 }, { "avg_step_time": 5.718771178312976, "epoch": 0.77568, "eta_time": 3.340715496664497, "step": 7272 }, { "epoch": 0.7757866666666666, "grad_norm": 1.8139471399592784, "learning_rate": 1.2615907100887298e-06, "loss": 0.4622, "step": 7273 }, { "avg_step_time": 5.717911811790081, "epoch": 0.7757866666666666, "eta_time": 3.338625174550764, "step": 7273 }, { "epoch": 0.7758933333333333, "grad_norm": 1.9769576824948363, "learning_rate": 1.2604437887685306e-06, "loss": 0.4573, "step": 7274 }, { "avg_step_time": 5.717694333105376, "epoch": 0.7758933333333333, "eta_time": 3.336909942737332, "step": 7274 }, { "epoch": 0.776, "grad_norm": 0.6424651407319942, "learning_rate": 1.259297313829046e-06, "loss": 0.4468, "step": 7275 }, { "avg_step_time": 5.671751357088185, "epoch": 0.776, "eta_time": 3.308521624968108, "step": 7275 }, { "epoch": 0.7761066666666666, "grad_norm": 1.9599259907267326, "learning_rate": 1.258151285407131e-06, "loss": 0.545, "step": 7276 }, { "avg_step_time": 5.7100757637409245, "epoch": 0.7761066666666666, "eta_time": 3.3292913966922777, "step": 7276 }, { "epoch": 0.7762133333333333, "grad_norm": 1.7785115256018602, "learning_rate": 1.25700570363958e-06, "loss": 0.4707, "step": 7277 }, { "avg_step_time": 5.7076824265297015, "epoch": 0.7762133333333333, "eta_time": 3.326310480794254, "step": 7277 }, { "epoch": 0.77632, "grad_norm": 0.6540939024328768, "learning_rate": 1.255860568663142e-06, "loss": 0.4429, "step": 7278 }, { "avg_step_time": 5.674453053811584, "epoch": 0.77632, "eta_time": 3.3053689038452476, "step": 7278 }, { "epoch": 0.7764266666666667, "grad_norm": 1.8776631680680793, "learning_rate": 1.2547158806145049e-06, "loss": 0.5258, "step": 7279 }, { "avg_step_time": 5.6765925980577565, "epoch": 0.7764266666666667, "eta_time": 3.3050383570914046, "step": 7279 }, { "epoch": 0.7765333333333333, "grad_norm": 1.8632752236308874, "learning_rate": 1.2535716396303093e-06, "loss": 0.4821, "step": 7280 }, { "avg_step_time": 5.664966551944463, "epoch": 0.7765333333333333, "eta_time": 3.296695812867681, "step": 7280 }, { "epoch": 0.77664, "grad_norm": 2.037716841074163, "learning_rate": 1.2524278458471411e-06, "loss": 0.4823, "step": 7281 }, { "avg_step_time": 5.665527172762938, "epoch": 0.77664, "eta_time": 3.295448305490442, "step": 7281 }, { "epoch": 0.7767466666666667, "grad_norm": 1.741569800873938, "learning_rate": 1.2512844994015304e-06, "loss": 0.3774, "step": 7282 }, { "avg_step_time": 5.649635647282456, "epoch": 0.7767466666666667, "eta_time": 3.2846353916006055, "step": 7282 }, { "epoch": 0.7768533333333333, "grad_norm": 1.856442483032992, "learning_rate": 1.2501416004299537e-06, "loss": 0.4085, "step": 7283 }, { "avg_step_time": 5.644868506325616, "epoch": 0.7768533333333333, "eta_time": 3.2802958097869968, "step": 7283 }, { "epoch": 0.77696, "grad_norm": 2.0804576359032945, "learning_rate": 1.248999149068838e-06, "loss": 0.5275, "step": 7284 }, { "avg_step_time": 5.633514611407964, "epoch": 0.77696, "eta_time": 3.272133070126126, "step": 7284 }, { "epoch": 0.7770666666666667, "grad_norm": 1.7044928057055446, "learning_rate": 1.2478571454545558e-06, "loss": 0.5344, "step": 7285 }, { "avg_step_time": 5.659317481397379, "epoch": 0.7770666666666667, "eta_time": 3.2855482044779225, "step": 7285 }, { "epoch": 0.7771733333333334, "grad_norm": 1.7864918270998011, "learning_rate": 1.2467155897234212e-06, "loss": 0.4586, "step": 7286 }, { "avg_step_time": 5.663447252427689, "epoch": 0.7771733333333334, "eta_time": 3.2863725862004007, "step": 7286 }, { "epoch": 0.77728, "grad_norm": 1.842217601536085, "learning_rate": 1.2455744820117028e-06, "loss": 0.4485, "step": 7287 }, { "avg_step_time": 5.662743553970799, "epoch": 0.77728, "eta_time": 3.2843912613030635, "step": 7287 }, { "epoch": 0.7773866666666667, "grad_norm": 1.846006611575319, "learning_rate": 1.244433822455609e-06, "loss": 0.4611, "step": 7288 }, { "avg_step_time": 5.723081051701247, "epoch": 0.7773866666666667, "eta_time": 3.3177972652501397, "step": 7288 }, { "epoch": 0.7774933333333334, "grad_norm": 2.26530260378985, "learning_rate": 1.2432936111912946e-06, "loss": 0.4688, "step": 7289 }, { "avg_step_time": 5.722886608104513, "epoch": 0.7774933333333334, "eta_time": 3.316094851251671, "step": 7289 }, { "epoch": 0.7776, "grad_norm": 1.7844461131567901, "learning_rate": 1.2421538483548706e-06, "loss": 0.4898, "step": 7290 }, { "avg_step_time": 5.735081670260189, "epoch": 0.7776, "eta_time": 3.3215681340256924, "step": 7290 }, { "epoch": 0.7777066666666667, "grad_norm": 2.165574083818122, "learning_rate": 1.2410145340823827e-06, "loss": 0.5305, "step": 7291 }, { "avg_step_time": 5.7408298458715885, "epoch": 0.7777066666666667, "eta_time": 3.3233026107767754, "step": 7291 }, { "epoch": 0.7778133333333334, "grad_norm": 1.6444334120477526, "learning_rate": 1.2398756685098272e-06, "loss": 0.4419, "step": 7292 }, { "avg_step_time": 5.743589557782568, "epoch": 0.7778133333333334, "eta_time": 3.3233047357947467, "step": 7292 }, { "epoch": 0.77792, "grad_norm": 0.6555189728327248, "learning_rate": 1.2387372517731505e-06, "loss": 0.4535, "step": 7293 }, { "avg_step_time": 5.707855518418129, "epoch": 0.77792, "eta_time": 3.3010431081518177, "step": 7293 }, { "epoch": 0.7780266666666666, "grad_norm": 1.989400106393026, "learning_rate": 1.237599284008239e-06, "loss": 0.5273, "step": 7294 }, { "avg_step_time": 5.709820923179087, "epoch": 0.7780266666666666, "eta_time": 3.300593705871022, "step": 7294 }, { "epoch": 0.7781333333333333, "grad_norm": 1.9815159706349104, "learning_rate": 1.2364617653509302e-06, "loss": 0.4804, "step": 7295 }, { "avg_step_time": 5.764831928291706, "epoch": 0.7781333333333333, "eta_time": 3.330791780790763, "step": 7295 }, { "epoch": 0.77824, "grad_norm": 2.32693592338272, "learning_rate": 1.2353246959370086e-06, "loss": 0.4935, "step": 7296 }, { "avg_step_time": 5.765356157765244, "epoch": 0.77824, "eta_time": 3.3294931811094286, "step": 7296 }, { "epoch": 0.7783466666666666, "grad_norm": 1.865351183525935, "learning_rate": 1.2341880759022013e-06, "loss": 0.4937, "step": 7297 }, { "avg_step_time": 5.765466644306375, "epoch": 0.7783466666666666, "eta_time": 3.327955468574624, "step": 7297 }, { "epoch": 0.7784533333333333, "grad_norm": 1.618583112129339, "learning_rate": 1.2330519053821821e-06, "loss": 0.3843, "step": 7298 }, { "avg_step_time": 5.802152469904736, "epoch": 0.7784533333333333, "eta_time": 3.3475196333311494, "step": 7298 }, { "epoch": 0.77856, "grad_norm": 1.9995160215341534, "learning_rate": 1.2319161845125744e-06, "loss": 0.4783, "step": 7299 }, { "avg_step_time": 5.82390520066926, "epoch": 0.77856, "eta_time": 3.3584519990526065, "step": 7299 }, { "epoch": 0.7786666666666666, "grad_norm": 0.6377068060830818, "learning_rate": 1.2307809134289466e-06, "loss": 0.4357, "step": 7300 }, { "avg_step_time": 5.794846146997779, "epoch": 0.7786666666666666, "eta_time": 3.340084931950109, "step": 7300 }, { "epoch": 0.7787733333333333, "grad_norm": 1.8430318055771042, "learning_rate": 1.2296460922668113e-06, "loss": 0.4767, "step": 7301 }, { "avg_step_time": 5.795425342791008, "epoch": 0.7787733333333333, "eta_time": 3.3388089335968196, "step": 7301 }, { "epoch": 0.77888, "grad_norm": 1.8103608928197668, "learning_rate": 1.228511721161631e-06, "loss": 0.4441, "step": 7302 }, { "avg_step_time": 5.797021309534709, "epoch": 0.77888, "eta_time": 3.3381181040737364, "step": 7302 }, { "epoch": 0.7789866666666667, "grad_norm": 2.0105917044864077, "learning_rate": 1.2273778002488117e-06, "loss": 0.48, "step": 7303 }, { "avg_step_time": 5.823499002841988, "epoch": 0.7789866666666667, "eta_time": 3.351747203857944, "step": 7303 }, { "epoch": 0.7790933333333333, "grad_norm": 0.6530400415748492, "learning_rate": 1.226244329663705e-06, "loss": 0.4027, "step": 7304 }, { "avg_step_time": 5.7903523445129395, "epoch": 0.7790933333333333, "eta_time": 3.3310610293017495, "step": 7304 }, { "epoch": 0.7792, "grad_norm": 2.00775372508975, "learning_rate": 1.2251113095416113e-06, "loss": 0.4809, "step": 7305 }, { "avg_step_time": 5.8067270914713545, "epoch": 0.7792, "eta_time": 3.3388680775960284, "step": 7305 }, { "epoch": 0.7793066666666667, "grad_norm": 1.7990162837666852, "learning_rate": 1.2239787400177771e-06, "loss": 0.4969, "step": 7306 }, { "avg_step_time": 5.808821331370961, "epoch": 0.7793066666666667, "eta_time": 3.338458704057366, "step": 7306 }, { "epoch": 0.7794133333333333, "grad_norm": 2.0816678475862767, "learning_rate": 1.2228466212273926e-06, "loss": 0.4267, "step": 7307 }, { "avg_step_time": 5.775887987830422, "epoch": 0.7794133333333333, "eta_time": 3.317926766342587, "step": 7307 }, { "epoch": 0.77952, "grad_norm": 1.853979911444011, "learning_rate": 1.2217149533055976e-06, "loss": 0.4277, "step": 7308 }, { "avg_step_time": 5.777961721323957, "epoch": 0.77952, "eta_time": 3.3175130216601723, "step": 7308 }, { "epoch": 0.7796266666666667, "grad_norm": 1.8365455281653487, "learning_rate": 1.220583736387474e-06, "loss": 0.4629, "step": 7309 }, { "avg_step_time": 5.71381915458525, "epoch": 0.7796266666666667, "eta_time": 3.27909732593698, "step": 7309 }, { "epoch": 0.7797333333333333, "grad_norm": 1.9038138158240852, "learning_rate": 1.2194529706080543e-06, "loss": 0.5598, "step": 7310 }, { "avg_step_time": 5.725882421840321, "epoch": 0.7797333333333333, "eta_time": 3.2844297780834064, "step": 7310 }, { "epoch": 0.77984, "grad_norm": 1.8988058264857952, "learning_rate": 1.2183226561023132e-06, "loss": 0.4787, "step": 7311 }, { "avg_step_time": 5.724492884645558, "epoch": 0.77984, "eta_time": 3.282042587196787, "step": 7311 }, { "epoch": 0.7799466666666667, "grad_norm": 0.6306409759692966, "learning_rate": 1.2171927930051747e-06, "loss": 0.4247, "step": 7312 }, { "avg_step_time": 5.691276632174097, "epoch": 0.7799466666666667, "eta_time": 3.261417692270878, "step": 7312 }, { "epoch": 0.7800533333333334, "grad_norm": 1.9238654835266562, "learning_rate": 1.2160633814515072e-06, "loss": 0.4865, "step": 7313 }, { "avg_step_time": 5.712884902954102, "epoch": 0.7800533333333334, "eta_time": 3.272213519414266, "step": 7313 }, { "epoch": 0.78016, "grad_norm": 1.7168935151360631, "learning_rate": 1.2149344215761216e-06, "loss": 0.4507, "step": 7314 }, { "avg_step_time": 5.71500754838038, "epoch": 0.78016, "eta_time": 3.271841821447768, "step": 7314 }, { "epoch": 0.7802666666666667, "grad_norm": 1.793562206824196, "learning_rate": 1.213805913513786e-06, "loss": 0.4835, "step": 7315 }, { "avg_step_time": 5.715216207985926, "epoch": 0.7802666666666667, "eta_time": 3.270373719014169, "step": 7315 }, { "epoch": 0.7803733333333334, "grad_norm": 2.019540071014862, "learning_rate": 1.2126778573992031e-06, "loss": 0.5303, "step": 7316 }, { "avg_step_time": 5.720794617527663, "epoch": 0.7803733333333334, "eta_time": 3.2719766993026274, "step": 7316 }, { "epoch": 0.78048, "grad_norm": 2.0294442875139778, "learning_rate": 1.2115502533670253e-06, "loss": 0.466, "step": 7317 }, { "avg_step_time": 5.723090215162798, "epoch": 0.78048, "eta_time": 3.271699906334733, "step": 7317 }, { "epoch": 0.7805866666666667, "grad_norm": 2.0992493464014474, "learning_rate": 1.2104231015518535e-06, "loss": 0.5069, "step": 7318 }, { "avg_step_time": 5.724112725017046, "epoch": 0.7805866666666667, "eta_time": 3.2706944098222404, "step": 7318 }, { "epoch": 0.7806933333333334, "grad_norm": 1.8078029855517106, "learning_rate": 1.2092964020882315e-06, "loss": 0.4271, "step": 7319 }, { "avg_step_time": 5.705298361152109, "epoch": 0.7806933333333334, "eta_time": 3.258359286257982, "step": 7319 }, { "epoch": 0.7808, "grad_norm": 1.5957954279078437, "learning_rate": 1.2081701551106506e-06, "loss": 0.4186, "step": 7320 }, { "avg_step_time": 5.749940378497345, "epoch": 0.7808, "eta_time": 3.282257632725568, "step": 7320 }, { "epoch": 0.7809066666666666, "grad_norm": 1.67810171004564, "learning_rate": 1.2070443607535498e-06, "loss": 0.475, "step": 7321 }, { "avg_step_time": 5.7509546376237966, "epoch": 0.7809066666666666, "eta_time": 3.281239118244244, "step": 7321 }, { "epoch": 0.7810133333333333, "grad_norm": 1.9648700932746086, "learning_rate": 1.2059190191513104e-06, "loss": 0.4845, "step": 7322 }, { "avg_step_time": 5.753339321926386, "epoch": 0.7810133333333333, "eta_time": 3.2810015633096863, "step": 7322 }, { "epoch": 0.78112, "grad_norm": 2.1745588550506905, "learning_rate": 1.20479413043826e-06, "loss": 0.5224, "step": 7323 }, { "avg_step_time": 5.74765742186344, "epoch": 0.78112, "eta_time": 3.276164730462161, "step": 7323 }, { "epoch": 0.7812266666666666, "grad_norm": 1.623589565224116, "learning_rate": 1.2036696947486748e-06, "loss": 0.4801, "step": 7324 }, { "avg_step_time": 5.748721512881192, "epoch": 0.7812266666666666, "eta_time": 3.2751743952553682, "step": 7324 }, { "epoch": 0.7813333333333333, "grad_norm": 1.91950286577583, "learning_rate": 1.2025457122167777e-06, "loss": 0.4854, "step": 7325 }, { "avg_step_time": 5.734520630402998, "epoch": 0.7813333333333333, "eta_time": 3.2654909145350404, "step": 7325 }, { "epoch": 0.78144, "grad_norm": 1.857676777302817, "learning_rate": 1.201422182976732e-06, "loss": 0.4431, "step": 7326 }, { "avg_step_time": 5.7349490469152276, "epoch": 0.78144, "eta_time": 3.264141832535917, "step": 7326 }, { "epoch": 0.7815466666666666, "grad_norm": 1.9285530221565577, "learning_rate": 1.2002991071626534e-06, "loss": 0.4773, "step": 7327 }, { "avg_step_time": 5.73829948300063, "epoch": 0.7815466666666666, "eta_time": 3.264454816995914, "step": 7327 }, { "epoch": 0.7816533333333333, "grad_norm": 1.6435149038791181, "learning_rate": 1.199176484908598e-06, "loss": 0.525, "step": 7328 }, { "avg_step_time": 5.736755857563982, "epoch": 0.7816533333333333, "eta_time": 3.261983122342631, "step": 7328 }, { "epoch": 0.78176, "grad_norm": 1.9062797550004027, "learning_rate": 1.1980543163485726e-06, "loss": 0.503, "step": 7329 }, { "avg_step_time": 5.739931540055708, "epoch": 0.78176, "eta_time": 3.2621944252649944, "step": 7329 }, { "epoch": 0.7818666666666667, "grad_norm": 1.715780907650408, "learning_rate": 1.1969326016165239e-06, "loss": 0.5159, "step": 7330 }, { "avg_step_time": 5.772570532981796, "epoch": 0.7818666666666667, "eta_time": 3.2791407610966035, "step": 7330 }, { "epoch": 0.7819733333333333, "grad_norm": 2.0902563432521237, "learning_rate": 1.1958113408463518e-06, "loss": 0.5388, "step": 7331 }, { "avg_step_time": 5.771238153631037, "epoch": 0.7819733333333333, "eta_time": 3.2767807738949553, "step": 7331 }, { "epoch": 0.78208, "grad_norm": 1.8072520832399108, "learning_rate": 1.1946905341718951e-06, "loss": 0.4854, "step": 7332 }, { "avg_step_time": 5.7704683795119776, "epoch": 0.78208, "eta_time": 3.2747408053730473, "step": 7332 }, { "epoch": 0.7821866666666667, "grad_norm": 1.9294990916492685, "learning_rate": 1.193570181726943e-06, "loss": 0.5371, "step": 7333 }, { "avg_step_time": 5.775477257641879, "epoch": 0.7821866666666667, "eta_time": 3.2759790444735324, "step": 7333 }, { "epoch": 0.7822933333333333, "grad_norm": 0.6502180570194069, "learning_rate": 1.1924502836452294e-06, "loss": 0.4537, "step": 7334 }, { "avg_step_time": 5.742288536495632, "epoch": 0.7822933333333333, "eta_time": 3.2555585841632184, "step": 7334 }, { "epoch": 0.7824, "grad_norm": 1.6926532027423538, "learning_rate": 1.1913308400604339e-06, "loss": 0.5132, "step": 7335 }, { "avg_step_time": 5.744157417856082, "epoch": 0.7824, "eta_time": 3.255022536785113, "step": 7335 }, { "epoch": 0.7825066666666667, "grad_norm": 1.8665428647020106, "learning_rate": 1.1902118511061783e-06, "loss": 0.4613, "step": 7336 }, { "avg_step_time": 5.7782029407192965, "epoch": 0.7825066666666667, "eta_time": 3.2727099433685125, "step": 7336 }, { "epoch": 0.7826133333333334, "grad_norm": 2.412584453069593, "learning_rate": 1.1890933169160374e-06, "loss": 0.4717, "step": 7337 }, { "avg_step_time": 5.763616578747528, "epoch": 0.7826133333333334, "eta_time": 3.262847385413184, "step": 7337 }, { "epoch": 0.78272, "grad_norm": 1.5003287855070648, "learning_rate": 1.1879752376235231e-06, "loss": 0.4942, "step": 7338 }, { "avg_step_time": 5.765298511042739, "epoch": 0.78272, "eta_time": 3.262198074165017, "step": 7338 }, { "epoch": 0.7828266666666667, "grad_norm": 1.7129711389596636, "learning_rate": 1.1868576133621012e-06, "loss": 0.4933, "step": 7339 }, { "avg_step_time": 5.766994399253768, "epoch": 0.7828266666666667, "eta_time": 3.261555721355742, "step": 7339 }, { "epoch": 0.7829333333333334, "grad_norm": 0.6356437004105433, "learning_rate": 1.1857404442651788e-06, "loss": 0.4395, "step": 7340 }, { "avg_step_time": 5.769920830774789, "epoch": 0.7829333333333334, "eta_time": 3.261608025174082, "step": 7340 }, { "epoch": 0.78304, "grad_norm": 1.6415661397541896, "learning_rate": 1.1846237304661095e-06, "loss": 0.4193, "step": 7341 }, { "avg_step_time": 5.7763356945731426, "epoch": 0.78304, "eta_time": 3.2636296674338254, "step": 7341 }, { "epoch": 0.7831466666666667, "grad_norm": 1.98662073294995, "learning_rate": 1.18350747209819e-06, "loss": 0.5023, "step": 7342 }, { "avg_step_time": 5.776892305624606, "epoch": 0.7831466666666667, "eta_time": 3.262339460370784, "step": 7342 }, { "epoch": 0.7832533333333334, "grad_norm": 1.923508048798286, "learning_rate": 1.182391669294667e-06, "loss": 0.5158, "step": 7343 }, { "avg_step_time": 5.812209668785635, "epoch": 0.7832533333333334, "eta_time": 3.2806694574923365, "step": 7343 }, { "epoch": 0.78336, "grad_norm": 1.9135807878248148, "learning_rate": 1.181276322188732e-06, "loss": 0.489, "step": 7344 }, { "avg_step_time": 5.802824268437395, "epoch": 0.78336, "eta_time": 3.273760024776764, "step": 7344 }, { "epoch": 0.7834666666666666, "grad_norm": 1.8083954722805995, "learning_rate": 1.1801614309135178e-06, "loss": 0.4232, "step": 7345 }, { "avg_step_time": 5.801191411837183, "epoch": 0.7834666666666666, "eta_time": 3.271227379452634, "step": 7345 }, { "epoch": 0.7835733333333333, "grad_norm": 0.6552389736887523, "learning_rate": 1.1790469956021095e-06, "loss": 0.4453, "step": 7346 }, { "avg_step_time": 5.78749648970787, "epoch": 0.7835733333333333, "eta_time": 3.2618973271159075, "step": 7346 }, { "epoch": 0.78368, "grad_norm": 2.244211265790716, "learning_rate": 1.1779330163875325e-06, "loss": 0.484, "step": 7347 }, { "avg_step_time": 5.787210144177831, "epoch": 0.78368, "eta_time": 3.2601283812201785, "step": 7347 }, { "epoch": 0.7837866666666666, "grad_norm": 1.892402017711736, "learning_rate": 1.1768194934027565e-06, "loss": 0.4853, "step": 7348 }, { "avg_step_time": 5.78608362843292, "epoch": 0.7837866666666666, "eta_time": 3.257886531898202, "step": 7348 }, { "epoch": 0.7838933333333333, "grad_norm": 1.7591049488241821, "learning_rate": 1.175706426780706e-06, "loss": 0.5551, "step": 7349 }, { "avg_step_time": 5.793564794039486, "epoch": 0.7838933333333333, "eta_time": 3.2604895202011104, "step": 7349 }, { "epoch": 0.784, "grad_norm": 1.8155163212435157, "learning_rate": 1.1745938166542414e-06, "loss": 0.5134, "step": 7350 }, { "avg_step_time": 5.800822664992978, "epoch": 0.784, "eta_time": 3.26296274905855, "step": 7350 }, { "epoch": 0.7841066666666666, "grad_norm": 2.042939128404025, "learning_rate": 1.1734816631561702e-06, "loss": 0.5255, "step": 7351 }, { "avg_step_time": 5.814197000831064, "epoch": 0.7841066666666666, "eta_time": 3.2688707582450207, "step": 7351 }, { "epoch": 0.7842133333333333, "grad_norm": 1.8089960541479038, "learning_rate": 1.1723699664192507e-06, "loss": 0.4647, "step": 7352 }, { "avg_step_time": 5.878846520125264, "epoch": 0.7842133333333333, "eta_time": 3.3035851417259465, "step": 7352 }, { "epoch": 0.78432, "grad_norm": 0.6696513617297318, "learning_rate": 1.1712587265761799e-06, "loss": 0.4782, "step": 7353 }, { "avg_step_time": 5.843509546434037, "epoch": 0.78432, "eta_time": 3.2821045285804504, "step": 7353 }, { "epoch": 0.7844266666666667, "grad_norm": 2.114754780376424, "learning_rate": 1.1701479437596054e-06, "loss": 0.474, "step": 7354 }, { "avg_step_time": 5.856258703000618, "epoch": 0.7844266666666667, "eta_time": 3.2876385663234027, "step": 7354 }, { "epoch": 0.7845333333333333, "grad_norm": 2.087842834496199, "learning_rate": 1.169037618102119e-06, "loss": 0.4743, "step": 7355 }, { "avg_step_time": 5.881535927454631, "epoch": 0.7845333333333333, "eta_time": 3.3001951592939873, "step": 7355 }, { "epoch": 0.78464, "grad_norm": 2.025241470248404, "learning_rate": 1.1679277497362563e-06, "loss": 0.4954, "step": 7356 }, { "avg_step_time": 5.880516774726637, "epoch": 0.78464, "eta_time": 3.2979898244925225, "step": 7356 }, { "epoch": 0.7847466666666667, "grad_norm": 2.0393943026499444, "learning_rate": 1.166818338794498e-06, "loss": 0.4809, "step": 7357 }, { "avg_step_time": 5.8688313455292676, "epoch": 0.7847466666666667, "eta_time": 3.2898060153550173, "step": 7357 }, { "epoch": 0.7848533333333333, "grad_norm": 1.9818216682900225, "learning_rate": 1.1657093854092727e-06, "loss": 0.5686, "step": 7358 }, { "avg_step_time": 5.86882581132831, "epoch": 0.7848533333333333, "eta_time": 3.2881726837358887, "step": 7358 }, { "epoch": 0.78496, "grad_norm": 0.6482603128743409, "learning_rate": 1.1646008897129546e-06, "loss": 0.4332, "step": 7359 }, { "avg_step_time": 5.83504665259159, "epoch": 0.78496, "eta_time": 3.26762612545129, "step": 7359 }, { "epoch": 0.7850666666666667, "grad_norm": 1.793432658045795, "learning_rate": 1.1634928518378602e-06, "loss": 0.4396, "step": 7360 }, { "avg_step_time": 5.831507044609147, "epoch": 0.7850666666666667, "eta_time": 3.2640240819131754, "step": 7360 }, { "epoch": 0.7851733333333333, "grad_norm": 1.5309684171740772, "learning_rate": 1.162385271916252e-06, "loss": 0.4457, "step": 7361 }, { "avg_step_time": 5.867857270770603, "epoch": 0.7851733333333333, "eta_time": 3.282740150925554, "step": 7361 }, { "epoch": 0.78528, "grad_norm": 1.9194478940324602, "learning_rate": 1.161278150080341e-06, "loss": 0.503, "step": 7362 }, { "avg_step_time": 5.8582027705028805, "epoch": 0.78528, "eta_time": 3.2757117158395275, "step": 7362 }, { "epoch": 0.7853866666666667, "grad_norm": 2.0530620593423894, "learning_rate": 1.16017148646228e-06, "loss": 0.606, "step": 7363 }, { "avg_step_time": 5.8904504655587555, "epoch": 0.7853866666666667, "eta_time": 3.292107315751171, "step": 7363 }, { "epoch": 0.7854933333333334, "grad_norm": 2.1481165145815, "learning_rate": 1.1590652811941677e-06, "loss": 0.5749, "step": 7364 }, { "avg_step_time": 5.891472997087421, "epoch": 0.7854933333333334, "eta_time": 3.291042276984112, "step": 7364 }, { "epoch": 0.7856, "grad_norm": 0.6596464316886693, "learning_rate": 1.157959534408052e-06, "loss": 0.4224, "step": 7365 }, { "avg_step_time": 5.9133857789665765, "epoch": 0.7856, "eta_time": 3.3016403932563385, "step": 7365 }, { "epoch": 0.7857066666666667, "grad_norm": 1.8334336820022057, "learning_rate": 1.1568542462359206e-06, "loss": 0.4538, "step": 7366 }, { "avg_step_time": 5.943626105183303, "epoch": 0.7857066666666667, "eta_time": 3.3168735681425714, "step": 7366 }, { "epoch": 0.7858133333333334, "grad_norm": 1.9680170902273688, "learning_rate": 1.1557494168097077e-06, "loss": 0.4788, "step": 7367 }, { "avg_step_time": 5.939652271945067, "epoch": 0.7858133333333334, "eta_time": 3.3130060450182484, "step": 7367 }, { "epoch": 0.78592, "grad_norm": 1.9478300958808514, "learning_rate": 1.1546450462612951e-06, "loss": 0.4521, "step": 7368 }, { "avg_step_time": 5.917170238013219, "epoch": 0.78592, "eta_time": 3.29882240769237, "step": 7368 }, { "epoch": 0.7860266666666667, "grad_norm": 1.918310838115386, "learning_rate": 1.1535411347225096e-06, "loss": 0.4651, "step": 7369 }, { "avg_step_time": 5.887781843994603, "epoch": 0.7860266666666667, "eta_time": 3.2808028830703257, "step": 7369 }, { "epoch": 0.7861333333333334, "grad_norm": 1.9609120401215738, "learning_rate": 1.15243768232512e-06, "loss": 0.4928, "step": 7370 }, { "avg_step_time": 5.887893811620847, "epoch": 0.7861333333333334, "eta_time": 3.279229747861055, "step": 7370 }, { "epoch": 0.78624, "grad_norm": 1.817492461040751, "learning_rate": 1.151334689200845e-06, "loss": 0.4933, "step": 7371 }, { "avg_step_time": 5.8493145282822425, "epoch": 0.78624, "eta_time": 3.256118420743782, "step": 7371 }, { "epoch": 0.7863466666666666, "grad_norm": 1.6422326725694198, "learning_rate": 1.1502321554813429e-06, "loss": 0.448, "step": 7372 }, { "avg_step_time": 5.853003150284892, "epoch": 0.7863466666666666, "eta_time": 3.256545919450178, "step": 7372 }, { "epoch": 0.7864533333333333, "grad_norm": 1.7510716025472102, "learning_rate": 1.1491300812982216e-06, "loss": 0.4373, "step": 7373 }, { "avg_step_time": 5.850339135738334, "epoch": 0.7864533333333333, "eta_time": 3.2534385971522624, "step": 7373 }, { "epoch": 0.78656, "grad_norm": 2.036763221165797, "learning_rate": 1.1480284667830343e-06, "loss": 0.5595, "step": 7374 }, { "avg_step_time": 5.880613989300198, "epoch": 0.78656, "eta_time": 3.26864127571936, "step": 7374 }, { "epoch": 0.7866666666666666, "grad_norm": 1.712216897144084, "learning_rate": 1.1469273120672764e-06, "loss": 0.4709, "step": 7375 }, { "avg_step_time": 5.875668311359907, "epoch": 0.7866666666666666, "eta_time": 3.2642601729777256, "step": 7375 }, { "epoch": 0.7867733333333333, "grad_norm": 2.0245504101701255, "learning_rate": 1.1458266172823879e-06, "loss": 0.4508, "step": 7376 }, { "avg_step_time": 5.887025016726869, "epoch": 0.7867733333333333, "eta_time": 3.268934169010281, "step": 7376 }, { "epoch": 0.78688, "grad_norm": 1.654650847508526, "learning_rate": 1.1447263825597577e-06, "loss": 0.474, "step": 7377 }, { "avg_step_time": 5.921669297748142, "epoch": 0.78688, "eta_time": 3.2865264602502187, "step": 7377 }, { "epoch": 0.7869866666666666, "grad_norm": 2.0657397288536563, "learning_rate": 1.143626608030719e-06, "loss": 0.485, "step": 7378 }, { "avg_step_time": 5.926935492139874, "epoch": 0.7869866666666666, "eta_time": 3.287802827167591, "step": 7378 }, { "epoch": 0.7870933333333333, "grad_norm": 1.9040586759593956, "learning_rate": 1.1425272938265463e-06, "loss": 0.5088, "step": 7379 }, { "avg_step_time": 5.926760220768476, "epoch": 0.7870933333333333, "eta_time": 3.286059277959411, "step": 7379 }, { "epoch": 0.7872, "grad_norm": 1.7708302637920021, "learning_rate": 1.1414284400784643e-06, "loss": 0.4928, "step": 7380 }, { "avg_step_time": 5.981569369633992, "epoch": 0.7872, "eta_time": 3.3147863590055042, "step": 7380 }, { "epoch": 0.7873066666666667, "grad_norm": 1.6790147038741297, "learning_rate": 1.1403300469176387e-06, "loss": 0.4079, "step": 7381 }, { "avg_step_time": 5.985181037825767, "epoch": 0.7873066666666667, "eta_time": 3.3151252748401614, "step": 7381 }, { "epoch": 0.7874133333333333, "grad_norm": 1.7517584770023933, "learning_rate": 1.1392321144751805e-06, "loss": 0.4385, "step": 7382 }, { "avg_step_time": 5.989405887295502, "epoch": 0.7874133333333333, "eta_time": 3.3158016481610932, "step": 7382 }, { "epoch": 0.78752, "grad_norm": 2.042184786417262, "learning_rate": 1.1381346428821482e-06, "loss": 0.4869, "step": 7383 }, { "avg_step_time": 5.988908459441831, "epoch": 0.78752, "eta_time": 3.313862680891146, "step": 7383 }, { "epoch": 0.7876266666666667, "grad_norm": 1.8632959836825966, "learning_rate": 1.1370376322695458e-06, "loss": 0.4641, "step": 7384 }, { "avg_step_time": 5.989685378893458, "epoch": 0.7876266666666667, "eta_time": 3.3126287748269094, "step": 7384 }, { "epoch": 0.7877333333333333, "grad_norm": 2.0685986800511937, "learning_rate": 1.1359410827683177e-06, "loss": 0.4783, "step": 7385 }, { "avg_step_time": 5.98707457744714, "epoch": 0.7877333333333333, "eta_time": 3.3095217803110577, "step": 7385 }, { "epoch": 0.78784, "grad_norm": 1.9377323740691248, "learning_rate": 1.134844994509358e-06, "loss": 0.4354, "step": 7386 }, { "avg_step_time": 5.98729609238981, "epoch": 0.78784, "eta_time": 3.30798109104537, "step": 7386 }, { "epoch": 0.7879466666666667, "grad_norm": 1.5901835415783956, "learning_rate": 1.1337493676235023e-06, "loss": 0.4165, "step": 7387 }, { "avg_step_time": 5.92634178412081, "epoch": 0.7879466666666667, "eta_time": 3.272657629675603, "step": 7387 }, { "epoch": 0.7880533333333334, "grad_norm": 1.7408913330487494, "learning_rate": 1.1326542022415343e-06, "loss": 0.4783, "step": 7388 }, { "avg_step_time": 5.924419417525783, "epoch": 0.7880533333333334, "eta_time": 3.2699503840621476, "step": 7388 }, { "epoch": 0.78816, "grad_norm": 1.7978638409787677, "learning_rate": 1.1315594984941786e-06, "loss": 0.4476, "step": 7389 }, { "avg_step_time": 5.9301455285814075, "epoch": 0.78816, "eta_time": 3.2714636166007436, "step": 7389 }, { "epoch": 0.7882666666666667, "grad_norm": 1.9126874717822302, "learning_rate": 1.13046525651211e-06, "loss": 0.4018, "step": 7390 }, { "avg_step_time": 5.922564077858973, "epoch": 0.7882666666666667, "eta_time": 3.265636026263906, "step": 7390 }, { "epoch": 0.7883733333333334, "grad_norm": 1.8993064091751721, "learning_rate": 1.1293714764259418e-06, "loss": 0.4407, "step": 7391 }, { "avg_step_time": 5.956227300143001, "epoch": 0.7883733333333334, "eta_time": 3.282543045412143, "step": 7391 }, { "epoch": 0.78848, "grad_norm": 1.7182936255610732, "learning_rate": 1.1282781583662372e-06, "loss": 0.4991, "step": 7392 }, { "avg_step_time": 5.9917544981445925, "epoch": 0.78848, "eta_time": 3.30045810272798, "step": 7392 }, { "epoch": 0.7885866666666667, "grad_norm": 1.8842601204959195, "learning_rate": 1.127185302463505e-06, "loss": 0.4225, "step": 7393 }, { "avg_step_time": 5.992695158178156, "epoch": 0.7885866666666667, "eta_time": 3.2993116120858628, "step": 7393 }, { "epoch": 0.7886933333333334, "grad_norm": 1.8571160917062337, "learning_rate": 1.1260929088481932e-06, "loss": 0.4797, "step": 7394 }, { "avg_step_time": 5.937505288557573, "epoch": 0.7886933333333334, "eta_time": 3.267277215731265, "step": 7394 }, { "epoch": 0.7888, "grad_norm": 1.6356615002680235, "learning_rate": 1.1250009776506982e-06, "loss": 0.4554, "step": 7395 }, { "avg_step_time": 5.965189560495242, "epoch": 0.7888, "eta_time": 3.2808542582723828, "step": 7395 }, { "epoch": 0.7889066666666666, "grad_norm": 1.9038555571586784, "learning_rate": 1.123909509001363e-06, "loss": 0.4512, "step": 7396 }, { "avg_step_time": 5.968816448943784, "epoch": 0.7889066666666666, "eta_time": 3.28119104234993, "step": 7396 }, { "epoch": 0.7890133333333333, "grad_norm": 2.227360320299822, "learning_rate": 1.12281850303047e-06, "loss": 0.4816, "step": 7397 }, { "avg_step_time": 5.9797851894841045, "epoch": 0.7890133333333333, "eta_time": 3.285559751333211, "step": 7397 }, { "epoch": 0.78912, "grad_norm": 1.904749895063668, "learning_rate": 1.1217279598682518e-06, "loss": 0.5499, "step": 7398 }, { "avg_step_time": 5.9592639364377415, "epoch": 0.78912, "eta_time": 3.272629111760393, "step": 7398 }, { "epoch": 0.7892266666666666, "grad_norm": 2.20735943776092, "learning_rate": 1.1206378796448847e-06, "loss": 0.4674, "step": 7399 }, { "avg_step_time": 5.992082128621111, "epoch": 0.7892266666666666, "eta_time": 3.28898730170981, "step": 7399 }, { "epoch": 0.7893333333333333, "grad_norm": 1.8241884362535252, "learning_rate": 1.119548262490487e-06, "loss": 0.5483, "step": 7400 }, { "avg_step_time": 6.002049638767435, "epoch": 0.7893333333333333, "eta_time": 3.2927911212682455, "step": 7400 }, { "epoch": 0.78944, "grad_norm": 1.9159728538349583, "learning_rate": 1.118459108535122e-06, "loss": 0.476, "step": 7401 }, { "avg_step_time": 6.002515019792499, "epoch": 0.78944, "eta_time": 3.2913790691862204, "step": 7401 }, { "epoch": 0.7895466666666666, "grad_norm": 0.6393977872556162, "learning_rate": 1.1173704179088007e-06, "loss": 0.4389, "step": 7402 }, { "avg_step_time": 5.9295166863335504, "epoch": 0.7895466666666666, "eta_time": 3.249704561704471, "step": 7402 }, { "epoch": 0.7896533333333333, "grad_norm": 1.9011195466975699, "learning_rate": 1.1162821907414789e-06, "loss": 0.4656, "step": 7403 }, { "avg_step_time": 5.96212666684931, "epoch": 0.7896533333333333, "eta_time": 3.265920496396344, "step": 7403 }, { "epoch": 0.78976, "grad_norm": 1.7074255348834244, "learning_rate": 1.1151944271630517e-06, "loss": 0.4371, "step": 7404 }, { "avg_step_time": 5.951256951900444, "epoch": 0.78976, "eta_time": 3.2583131811654926, "step": 7404 }, { "epoch": 0.7898666666666667, "grad_norm": 2.1859620145349603, "learning_rate": 1.114107127303366e-06, "loss": 0.5297, "step": 7405 }, { "avg_step_time": 5.952856612927986, "epoch": 0.7898666666666667, "eta_time": 3.257535424296704, "step": 7405 }, { "epoch": 0.7899733333333333, "grad_norm": 1.9177857258550437, "learning_rate": 1.1130202912922077e-06, "loss": 0.4246, "step": 7406 }, { "avg_step_time": 5.952726954161519, "epoch": 0.7899733333333333, "eta_time": 3.255810936873342, "step": 7406 }, { "epoch": 0.79008, "grad_norm": 1.9011666565109047, "learning_rate": 1.1119339192593077e-06, "loss": 0.4252, "step": 7407 }, { "avg_step_time": 5.951734102133549, "epoch": 0.79008, "eta_time": 3.2536146424996732, "step": 7407 }, { "epoch": 0.7901866666666667, "grad_norm": 2.078948176800779, "learning_rate": 1.1108480113343478e-06, "loss": 0.4952, "step": 7408 }, { "avg_step_time": 5.954623359622377, "epoch": 0.7901866666666667, "eta_time": 3.2535400412158935, "step": 7408 }, { "epoch": 0.7902933333333333, "grad_norm": 1.8162538156167871, "learning_rate": 1.1097625676469475e-06, "loss": 0.4603, "step": 7409 }, { "avg_step_time": 5.943418664161605, "epoch": 0.7902933333333333, "eta_time": 3.24576697048381, "step": 7409 }, { "epoch": 0.7904, "grad_norm": 1.87946457969583, "learning_rate": 1.1086775883266725e-06, "loss": 0.4961, "step": 7410 }, { "avg_step_time": 5.943599397485906, "epoch": 0.7904, "eta_time": 3.2442146711277235, "step": 7410 }, { "epoch": 0.7905066666666667, "grad_norm": 1.9057720718897748, "learning_rate": 1.107593073503036e-06, "loss": 0.5154, "step": 7411 }, { "avg_step_time": 5.977593629047124, "epoch": 0.7905066666666667, "eta_time": 3.2611094131801535, "step": 7411 }, { "epoch": 0.7906133333333333, "grad_norm": 1.9152117482370532, "learning_rate": 1.1065090233054908e-06, "loss": 0.4627, "step": 7412 }, { "avg_step_time": 5.954545928974344, "epoch": 0.7906133333333333, "eta_time": 3.246881571826844, "step": 7412 }, { "epoch": 0.79072, "grad_norm": 2.246906362112646, "learning_rate": 1.1054254378634399e-06, "loss": 0.5057, "step": 7413 }, { "avg_step_time": 5.955601273160992, "epoch": 0.79072, "eta_time": 3.2458026938727405, "step": 7413 }, { "epoch": 0.7908266666666667, "grad_norm": 2.1070519075716936, "learning_rate": 1.1043423173062257e-06, "loss": 0.4964, "step": 7414 }, { "avg_step_time": 5.95247224123791, "epoch": 0.7908266666666667, "eta_time": 3.242443906963206, "step": 7414 }, { "epoch": 0.7909333333333334, "grad_norm": 1.9316060723931032, "learning_rate": 1.1032596617631392e-06, "loss": 0.4846, "step": 7415 }, { "avg_step_time": 5.95115398879003, "epoch": 0.7909333333333334, "eta_time": 3.2400727272301273, "step": 7415 }, { "epoch": 0.79104, "grad_norm": 1.9892643988031125, "learning_rate": 1.102177471363412e-06, "loss": 0.4832, "step": 7416 }, { "avg_step_time": 5.9488466002724385, "epoch": 0.79104, "eta_time": 3.237164024981585, "step": 7416 }, { "epoch": 0.7911466666666667, "grad_norm": 0.675468932898771, "learning_rate": 1.1010957462362233e-06, "loss": 0.4434, "step": 7417 }, { "avg_step_time": 5.912862570598872, "epoch": 0.7911466666666667, "eta_time": 3.2159402536757193, "step": 7417 }, { "epoch": 0.7912533333333334, "grad_norm": 1.8443329668860566, "learning_rate": 1.1000144865106976e-06, "loss": 0.4859, "step": 7418 }, { "avg_step_time": 5.913945378679218, "epoch": 0.7912533333333334, "eta_time": 3.2148864183542303, "step": 7418 }, { "epoch": 0.79136, "grad_norm": 1.6961741055266932, "learning_rate": 1.0989336923158999e-06, "loss": 0.4702, "step": 7419 }, { "avg_step_time": 5.869243116089792, "epoch": 0.79136, "eta_time": 3.188955426408787, "step": 7419 }, { "epoch": 0.7914666666666667, "grad_norm": 1.7616801539379103, "learning_rate": 1.0978533637808403e-06, "loss": 0.4295, "step": 7420 }, { "avg_step_time": 5.869515325083877, "epoch": 0.7914666666666667, "eta_time": 3.1874729057052718, "step": 7420 }, { "epoch": 0.7915733333333334, "grad_norm": 1.6140388784021482, "learning_rate": 1.0967735010344765e-06, "loss": 0.5427, "step": 7421 }, { "avg_step_time": 5.871397892634074, "epoch": 0.7915733333333334, "eta_time": 3.1868643006130504, "step": 7421 }, { "epoch": 0.79168, "grad_norm": 1.7052441369612548, "learning_rate": 1.0956941042057106e-06, "loss": 0.482, "step": 7422 }, { "avg_step_time": 5.892068003163193, "epoch": 0.79168, "eta_time": 3.1964468917160325, "step": 7422 }, { "epoch": 0.7917866666666666, "grad_norm": 2.0267302638179285, "learning_rate": 1.0946151734233834e-06, "loss": 0.5335, "step": 7423 }, { "avg_step_time": 5.889869374458236, "epoch": 0.7917866666666666, "eta_time": 3.1936180608173546, "step": 7423 }, { "epoch": 0.7918933333333333, "grad_norm": 0.6552391017643397, "learning_rate": 1.0935367088162873e-06, "loss": 0.4278, "step": 7424 }, { "avg_step_time": 5.839506286563295, "epoch": 0.7918933333333333, "eta_time": 3.1646879903013856, "step": 7424 }, { "epoch": 0.792, "grad_norm": 1.7549619478465626, "learning_rate": 1.0924587105131546e-06, "loss": 0.4298, "step": 7425 }, { "avg_step_time": 5.83855916755368, "epoch": 0.792, "eta_time": 3.1625528824249103, "step": 7425 }, { "epoch": 0.7921066666666666, "grad_norm": 1.8340588230494423, "learning_rate": 1.0913811786426597e-06, "loss": 0.4571, "step": 7426 }, { "avg_step_time": 5.834321376049157, "epoch": 0.7921066666666666, "eta_time": 3.1586367671999467, "step": 7426 }, { "epoch": 0.7922133333333333, "grad_norm": 1.8441226893065896, "learning_rate": 1.0903041133334309e-06, "loss": 0.4508, "step": 7427 }, { "avg_step_time": 5.836770654928805, "epoch": 0.7922133333333333, "eta_time": 3.1583414543892534, "step": 7427 }, { "epoch": 0.79232, "grad_norm": 1.7237217560863518, "learning_rate": 1.0892275147140307e-06, "loss": 0.515, "step": 7428 }, { "avg_step_time": 5.83408865543327, "epoch": 0.79232, "eta_time": 3.15526961448016, "step": 7428 }, { "epoch": 0.7924266666666666, "grad_norm": 1.799185152981554, "learning_rate": 1.0881513829129696e-06, "loss": 0.5029, "step": 7429 }, { "avg_step_time": 5.835315533358641, "epoch": 0.7924266666666666, "eta_time": 3.154312229976643, "step": 7429 }, { "epoch": 0.7925333333333333, "grad_norm": 1.7687396012963932, "learning_rate": 1.0870757180587044e-06, "loss": 0.4173, "step": 7430 }, { "avg_step_time": 5.839453379313151, "epoch": 0.7925333333333333, "eta_time": 3.1549268952122445, "step": 7430 }, { "epoch": 0.79264, "grad_norm": 1.6916558727021516, "learning_rate": 1.086000520279632e-06, "loss": 0.4107, "step": 7431 }, { "avg_step_time": 5.838203213431618, "epoch": 0.79264, "eta_time": 3.152629735253074, "step": 7431 }, { "epoch": 0.7927466666666667, "grad_norm": 2.1037642166338655, "learning_rate": 1.084925789704097e-06, "loss": 0.4472, "step": 7432 }, { "avg_step_time": 5.833896750151509, "epoch": 0.7927466666666667, "eta_time": 3.148683718206773, "step": 7432 }, { "epoch": 0.7928533333333333, "grad_norm": 1.7790520904028837, "learning_rate": 1.0838515264603893e-06, "loss": 0.393, "step": 7433 }, { "avg_step_time": 5.875158675993331, "epoch": 0.7928533333333333, "eta_time": 3.1693217079941802, "step": 7433 }, { "epoch": 0.79296, "grad_norm": 1.8367377177715112, "learning_rate": 1.0827777306767384e-06, "loss": 0.4858, "step": 7434 }, { "avg_step_time": 5.8810530190516, "epoch": 0.79296, "eta_time": 3.1708677527719873, "step": 7434 }, { "epoch": 0.7930666666666667, "grad_norm": 2.2872300692710748, "learning_rate": 1.0817044024813189e-06, "loss": 0.5483, "step": 7435 }, { "avg_step_time": 5.883839722835656, "epoch": 0.7930666666666667, "eta_time": 3.1707358506392147, "step": 7435 }, { "epoch": 0.7931733333333333, "grad_norm": 1.713263124146832, "learning_rate": 1.0806315420022535e-06, "loss": 0.4466, "step": 7436 }, { "avg_step_time": 5.885814399430246, "epoch": 0.7931733333333333, "eta_time": 3.170165033470902, "step": 7436 }, { "epoch": 0.79328, "grad_norm": 2.026596764670015, "learning_rate": 1.0795591493676072e-06, "loss": 0.4545, "step": 7437 }, { "avg_step_time": 5.888230747646755, "epoch": 0.79328, "eta_time": 3.169830885816503, "step": 7437 }, { "epoch": 0.7933866666666667, "grad_norm": 1.5411455678238668, "learning_rate": 1.0784872247053863e-06, "loss": 0.406, "step": 7438 }, { "avg_step_time": 5.88579184599597, "epoch": 0.7933866666666667, "eta_time": 3.166883001581721, "step": 7438 }, { "epoch": 0.7934933333333334, "grad_norm": 2.110229530170845, "learning_rate": 1.0774157681435455e-06, "loss": 0.5246, "step": 7439 }, { "avg_step_time": 5.916389474965105, "epoch": 0.7934933333333334, "eta_time": 3.1817027843145675, "step": 7439 }, { "epoch": 0.7936, "grad_norm": 1.9840241599056057, "learning_rate": 1.0763447798099813e-06, "loss": 0.433, "step": 7440 }, { "avg_step_time": 5.929888551885432, "epoch": 0.7936, "eta_time": 3.1873150966384194, "step": 7440 }, { "epoch": 0.7937066666666667, "grad_norm": 2.0613911403103278, "learning_rate": 1.0752742598325332e-06, "loss": 0.4738, "step": 7441 }, { "avg_step_time": 5.937081799362645, "epoch": 0.7937066666666667, "eta_time": 3.1895322777687096, "step": 7441 }, { "epoch": 0.7938133333333334, "grad_norm": 1.8360816184053306, "learning_rate": 1.074204208338987e-06, "loss": 0.4495, "step": 7442 }, { "avg_step_time": 5.93929703789528, "epoch": 0.7938133333333334, "eta_time": 3.1890725484032156, "step": 7442 }, { "epoch": 0.79392, "grad_norm": 1.8552024564195198, "learning_rate": 1.0731346254570735e-06, "loss": 0.5399, "step": 7443 }, { "avg_step_time": 5.938980940616492, "epoch": 0.79392, "eta_time": 3.1872531047975174, "step": 7443 }, { "epoch": 0.7940266666666667, "grad_norm": 2.201270564458132, "learning_rate": 1.0720655113144635e-06, "loss": 0.5473, "step": 7444 }, { "avg_step_time": 5.937986665301853, "epoch": 0.7940266666666667, "eta_time": 3.1850700696382996, "step": 7444 }, { "epoch": 0.7941333333333334, "grad_norm": 1.864543476099014, "learning_rate": 1.0709968660387766e-06, "loss": 0.4414, "step": 7445 }, { "avg_step_time": 5.9526940812968245, "epoch": 0.7941333333333334, "eta_time": 3.191305438028575, "step": 7445 }, { "epoch": 0.79424, "grad_norm": 1.9886248896752488, "learning_rate": 1.0699286897575718e-06, "loss": 0.4828, "step": 7446 }, { "avg_step_time": 5.952040171382403, "epoch": 0.79424, "eta_time": 3.1893015251657375, "step": 7446 }, { "epoch": 0.7943466666666666, "grad_norm": 1.8261603542325557, "learning_rate": 1.0688609825983565e-06, "loss": 0.4363, "step": 7447 }, { "avg_step_time": 5.952378622209183, "epoch": 0.7943466666666666, "eta_time": 3.1878294398942515, "step": 7447 }, { "epoch": 0.7944533333333333, "grad_norm": 0.6586234227318368, "learning_rate": 1.0677937446885784e-06, "loss": 0.441, "step": 7448 }, { "avg_step_time": 5.909233218491679, "epoch": 0.7944533333333333, "eta_time": 3.1630812255648517, "step": 7448 }, { "epoch": 0.79456, "grad_norm": 0.6365955542425659, "learning_rate": 1.066726976155632e-06, "loss": 0.4266, "step": 7449 }, { "avg_step_time": 5.858022725943363, "epoch": 0.79456, "eta_time": 3.1340421583796996, "step": 7449 }, { "epoch": 0.7946666666666666, "grad_norm": 1.824309938523754, "learning_rate": 1.065660677126853e-06, "loss": 0.5153, "step": 7450 }, { "avg_step_time": 5.854419869605941, "epoch": 0.7946666666666666, "eta_time": 3.130488402497621, "step": 7450 }, { "epoch": 0.7947733333333333, "grad_norm": 1.7009034416742683, "learning_rate": 1.0645948477295236e-06, "loss": 0.489, "step": 7451 }, { "avg_step_time": 5.787491145760122, "epoch": 0.7947733333333333, "eta_time": 3.0930924901229098, "step": 7451 }, { "epoch": 0.79488, "grad_norm": 1.6598638283707394, "learning_rate": 1.0635294880908702e-06, "loss": 0.4251, "step": 7452 }, { "avg_step_time": 5.818246651177454, "epoch": 0.79488, "eta_time": 3.107913419503957, "step": 7452 }, { "epoch": 0.7949866666666666, "grad_norm": 2.0426305326370464, "learning_rate": 1.0624645983380611e-06, "loss": 0.4446, "step": 7453 }, { "avg_step_time": 5.816818962193499, "epoch": 0.7949866666666666, "eta_time": 3.1055350125933066, "step": 7453 }, { "epoch": 0.7950933333333333, "grad_norm": 1.9259141742930819, "learning_rate": 1.061400178598207e-06, "loss": 0.5096, "step": 7454 }, { "avg_step_time": 5.7823545932769775, "epoch": 0.7950933333333333, "eta_time": 3.085528659356965, "step": 7454 }, { "epoch": 0.7952, "grad_norm": 1.7794915698459157, "learning_rate": 1.0603362289983687e-06, "loss": 0.5336, "step": 7455 }, { "avg_step_time": 5.783135919859915, "epoch": 0.7952, "eta_time": 3.084339157258621, "step": 7455 }, { "epoch": 0.7953066666666667, "grad_norm": 1.7539838296225905, "learning_rate": 1.0592727496655431e-06, "loss": 0.397, "step": 7456 }, { "avg_step_time": 5.786070036165642, "epoch": 0.7953066666666667, "eta_time": 3.08429677761163, "step": 7456 }, { "epoch": 0.7954133333333333, "grad_norm": 1.8025146779825971, "learning_rate": 1.0582097407266772e-06, "loss": 0.5061, "step": 7457 }, { "avg_step_time": 5.790789002119893, "epoch": 0.7954133333333333, "eta_time": 3.085203696129432, "step": 7457 }, { "epoch": 0.79552, "grad_norm": 1.6558257010291364, "learning_rate": 1.0571472023086604e-06, "loss": 0.4422, "step": 7458 }, { "avg_step_time": 5.826039897070991, "epoch": 0.79552, "eta_time": 3.1023662451903027, "step": 7458 }, { "epoch": 0.7956266666666667, "grad_norm": 2.023810543614651, "learning_rate": 1.0560851345383233e-06, "loss": 0.5076, "step": 7459 }, { "avg_step_time": 5.830868277886902, "epoch": 0.7956266666666667, "eta_time": 3.103317672342029, "step": 7459 }, { "epoch": 0.7957333333333333, "grad_norm": 1.9527276562386733, "learning_rate": 1.0550235375424416e-06, "loss": 0.5526, "step": 7460 }, { "avg_step_time": 5.829763995276557, "epoch": 0.7957333333333333, "eta_time": 3.1011105697096126, "step": 7460 }, { "epoch": 0.79584, "grad_norm": 1.9260298674848024, "learning_rate": 1.053962411447736e-06, "loss": 0.5249, "step": 7461 }, { "avg_step_time": 5.827901307982628, "epoch": 0.79584, "eta_time": 3.09850086207743, "step": 7461 }, { "epoch": 0.7959466666666667, "grad_norm": 1.9799254153596637, "learning_rate": 1.0529017563808719e-06, "loss": 0.469, "step": 7462 }, { "avg_step_time": 5.796539576366694, "epoch": 0.7959466666666667, "eta_time": 3.080216724885968, "step": 7462 }, { "epoch": 0.7960533333333333, "grad_norm": 1.9112945171194362, "learning_rate": 1.051841572468454e-06, "loss": 0.4885, "step": 7463 }, { "avg_step_time": 5.794056047092784, "epoch": 0.7960533333333333, "eta_time": 3.077287545011501, "step": 7463 }, { "epoch": 0.79616, "grad_norm": 1.7702503695071252, "learning_rate": 1.0507818598370355e-06, "loss": 0.4611, "step": 7464 }, { "avg_step_time": 5.8077460033725, "epoch": 0.79616, "eta_time": 3.082945170123569, "step": 7464 }, { "epoch": 0.7962666666666667, "grad_norm": 1.759122008736957, "learning_rate": 1.0497226186131104e-06, "loss": 0.5043, "step": 7465 }, { "avg_step_time": 5.810950996899845, "epoch": 0.7962666666666667, "eta_time": 3.083032334466307, "step": 7465 }, { "epoch": 0.7963733333333334, "grad_norm": 1.7364514607468153, "learning_rate": 1.0486638489231187e-06, "loss": 0.5233, "step": 7466 }, { "avg_step_time": 5.812004927432898, "epoch": 0.7963733333333334, "eta_time": 3.0819770573526117, "step": 7466 }, { "epoch": 0.79648, "grad_norm": 1.9176754048227742, "learning_rate": 1.0476055508934408e-06, "loss": 0.4767, "step": 7467 }, { "avg_step_time": 5.848435057534112, "epoch": 0.79648, "eta_time": 3.099670580493079, "step": 7467 }, { "epoch": 0.7965866666666667, "grad_norm": 1.8594982237825597, "learning_rate": 1.0465477246504059e-06, "loss": 0.4152, "step": 7468 }, { "avg_step_time": 5.850392541500053, "epoch": 0.7965866666666667, "eta_time": 3.0990829379557225, "step": 7468 }, { "epoch": 0.7966933333333334, "grad_norm": 0.648093882762039, "learning_rate": 1.0454903703202807e-06, "loss": 0.4276, "step": 7469 }, { "avg_step_time": 5.815358954246598, "epoch": 0.7966933333333334, "eta_time": 3.0789094907761156, "step": 7469 }, { "epoch": 0.7968, "grad_norm": 1.9010520911489477, "learning_rate": 1.0444334880292794e-06, "loss": 0.4207, "step": 7470 }, { "avg_step_time": 5.822148320650814, "epoch": 0.7968, "eta_time": 3.080886819677722, "step": 7470 }, { "epoch": 0.7969066666666667, "grad_norm": 0.636687713894042, "learning_rate": 1.0433770779035618e-06, "loss": 0.4318, "step": 7471 }, { "avg_step_time": 5.785305420557658, "epoch": 0.7969066666666667, "eta_time": 3.059783755761606, "step": 7471 }, { "epoch": 0.7970133333333334, "grad_norm": 1.590293431229865, "learning_rate": 1.0423211400692274e-06, "loss": 0.4192, "step": 7472 }, { "avg_step_time": 5.7895164826903684, "epoch": 0.7970133333333334, "eta_time": 3.0604027407110475, "step": 7472 }, { "epoch": 0.79712, "grad_norm": 1.9021546043993316, "learning_rate": 1.0412656746523182e-06, "loss": 0.5281, "step": 7473 }, { "avg_step_time": 5.794800351364444, "epoch": 0.79712, "eta_time": 3.0615861856375477, "step": 7473 }, { "epoch": 0.7972266666666666, "grad_norm": 1.8034358710281273, "learning_rate": 1.0402106817788255e-06, "loss": 0.508, "step": 7474 }, { "avg_step_time": 5.799283073406027, "epoch": 0.7972266666666666, "eta_time": 3.0623436451513495, "step": 7474 }, { "epoch": 0.7973333333333333, "grad_norm": 1.905199344121917, "learning_rate": 1.0391561615746782e-06, "loss": 0.4334, "step": 7475 }, { "avg_step_time": 5.8009929584734365, "epoch": 0.7973333333333333, "eta_time": 3.061635172527647, "step": 7475 }, { "epoch": 0.79744, "grad_norm": 1.8823661314889093, "learning_rate": 1.0381021141657526e-06, "loss": 0.4192, "step": 7476 }, { "avg_step_time": 5.810960213343303, "epoch": 0.79744, "eta_time": 3.065281512538592, "step": 7476 }, { "epoch": 0.7975466666666666, "grad_norm": 1.6773069873662971, "learning_rate": 1.0370485396778696e-06, "loss": 0.4558, "step": 7477 }, { "avg_step_time": 5.799961008206762, "epoch": 0.7975466666666666, "eta_time": 3.0578683315490096, "step": 7477 }, { "epoch": 0.7976533333333333, "grad_norm": 1.7590336777676645, "learning_rate": 1.0359954382367898e-06, "loss": 0.4793, "step": 7478 }, { "avg_step_time": 5.801946399187801, "epoch": 0.7976533333333333, "eta_time": 3.057303422016461, "step": 7478 }, { "epoch": 0.79776, "grad_norm": 1.9240177509037095, "learning_rate": 1.0349428099682173e-06, "loss": 0.5581, "step": 7479 }, { "avg_step_time": 5.745011084007494, "epoch": 0.79776, "eta_time": 3.0257058375772803, "step": 7479 }, { "epoch": 0.7978666666666666, "grad_norm": 1.887612114327506, "learning_rate": 1.0338906549978035e-06, "loss": 0.5141, "step": 7480 }, { "avg_step_time": 5.74284619996042, "epoch": 0.7978666666666666, "eta_time": 3.0229704302569433, "step": 7480 }, { "epoch": 0.7979733333333333, "grad_norm": 1.8628842098201615, "learning_rate": 1.0328389734511424e-06, "loss": 0.4517, "step": 7481 }, { "avg_step_time": 5.737830918244641, "epoch": 0.7979733333333333, "eta_time": 3.0187365997653752, "step": 7481 }, { "epoch": 0.79808, "grad_norm": 2.1681799674226117, "learning_rate": 1.0317877654537672e-06, "loss": 0.4682, "step": 7482 }, { "avg_step_time": 5.737366404196228, "epoch": 0.79808, "eta_time": 3.0168985008731832, "step": 7482 }, { "epoch": 0.7981866666666667, "grad_norm": 1.7560695186741515, "learning_rate": 1.0307370311311615e-06, "loss": 0.5873, "step": 7483 }, { "avg_step_time": 5.7656741310851745, "epoch": 0.7981866666666667, "eta_time": 3.030182071114764, "step": 7483 }, { "epoch": 0.7982933333333333, "grad_norm": 1.9682692965256239, "learning_rate": 1.029686770608746e-06, "loss": 0.5619, "step": 7484 }, { "avg_step_time": 5.793113934873331, "epoch": 0.7982933333333333, "eta_time": 3.042994014123741, "step": 7484 }, { "epoch": 0.7984, "grad_norm": 1.917819464611507, "learning_rate": 1.0286369840118859e-06, "loss": 0.5161, "step": 7485 }, { "avg_step_time": 5.795049915410051, "epoch": 0.7984, "eta_time": 3.042401205590277, "step": 7485 }, { "epoch": 0.7985066666666667, "grad_norm": 1.607767818256635, "learning_rate": 1.027587671465896e-06, "loss": 0.5302, "step": 7486 }, { "avg_step_time": 5.798216783639156, "epoch": 0.7985066666666667, "eta_time": 3.042453195637324, "step": 7486 }, { "epoch": 0.7986133333333333, "grad_norm": 1.8946126141565782, "learning_rate": 1.026538833096028e-06, "loss": 0.4295, "step": 7487 }, { "avg_step_time": 5.795546131904679, "epoch": 0.7986133333333333, "eta_time": 3.0394419713988983, "step": 7487 }, { "epoch": 0.79872, "grad_norm": 1.923574685692178, "learning_rate": 1.025490469027477e-06, "loss": 0.482, "step": 7488 }, { "avg_step_time": 5.778030756748084, "epoch": 0.79872, "eta_time": 3.028651121662121, "step": 7488 }, { "epoch": 0.7988266666666667, "grad_norm": 1.9379832665126404, "learning_rate": 1.0244425793853857e-06, "loss": 0.4404, "step": 7489 }, { "avg_step_time": 5.78195959148985, "epoch": 0.7988266666666667, "eta_time": 3.0291043859860713, "step": 7489 }, { "epoch": 0.7989333333333334, "grad_norm": 1.780497236750991, "learning_rate": 1.023395164294836e-06, "loss": 0.4126, "step": 7490 }, { "avg_step_time": 5.7485737054034916, "epoch": 0.7989333333333334, "eta_time": 3.010017065190439, "step": 7490 }, { "epoch": 0.79904, "grad_norm": 1.8104082170867646, "learning_rate": 1.0223482238808557e-06, "loss": 0.5009, "step": 7491 }, { "avg_step_time": 5.775625313171233, "epoch": 0.79904, "eta_time": 3.0225772472262786, "step": 7491 }, { "epoch": 0.7991466666666667, "grad_norm": 1.908860822926354, "learning_rate": 1.021301758268417e-06, "loss": 0.5385, "step": 7492 }, { "avg_step_time": 5.77075983779599, "epoch": 0.7991466666666667, "eta_time": 3.0184279929360693, "step": 7492 }, { "epoch": 0.7992533333333334, "grad_norm": 1.6929417275707574, "learning_rate": 1.020255767582432e-06, "loss": 0.4872, "step": 7493 }, { "avg_step_time": 5.77345390030832, "epoch": 0.7992533333333334, "eta_time": 3.0182334001056272, "step": 7493 }, { "epoch": 0.79936, "grad_norm": 2.1065717769087464, "learning_rate": 1.0192102519477565e-06, "loss": 0.4628, "step": 7494 }, { "avg_step_time": 5.743810111826116, "epoch": 0.79936, "eta_time": 3.001140783429146, "step": 7494 }, { "epoch": 0.7994666666666667, "grad_norm": 1.7367743691783346, "learning_rate": 1.0181652114891926e-06, "loss": 0.4457, "step": 7495 }, { "avg_step_time": 5.742681910293271, "epoch": 0.7994666666666667, "eta_time": 2.998956108708708, "step": 7495 }, { "epoch": 0.7995733333333334, "grad_norm": 1.7731488642961994, "learning_rate": 1.0171206463314848e-06, "loss": 0.4212, "step": 7496 }, { "avg_step_time": 5.7277769946088695, "epoch": 0.7995733333333334, "eta_time": 2.9895813813527963, "step": 7496 }, { "epoch": 0.79968, "grad_norm": 1.9916147595958005, "learning_rate": 1.016076556599318e-06, "loss": 0.4948, "step": 7497 }, { "avg_step_time": 5.731682772588248, "epoch": 0.79968, "eta_time": 2.990027846366869, "step": 7497 }, { "epoch": 0.7997866666666666, "grad_norm": 1.910430967206561, "learning_rate": 1.0150329424173243e-06, "loss": 0.4728, "step": 7498 }, { "avg_step_time": 5.75588372259429, "epoch": 0.7997866666666666, "eta_time": 3.0010538186970783, "step": 7498 }, { "epoch": 0.7998933333333333, "grad_norm": 1.720882559748293, "learning_rate": 1.013989803910076e-06, "loss": 0.4405, "step": 7499 }, { "avg_step_time": 5.738896540921144, "epoch": 0.7998933333333333, "eta_time": 2.9906027529911294, "step": 7499 }, { "epoch": 0.8, "grad_norm": 2.2028825820373634, "learning_rate": 1.0129471412020886e-06, "loss": 0.5223, "step": 7500 }, { "avg_step_time": 5.746897552952622, "epoch": 0.8, "eta_time": 2.993175808829491, "step": 7500 }, { "epoch": 0.8001066666666666, "grad_norm": 2.0535816573804433, "learning_rate": 1.0119049544178233e-06, "loss": 0.4813, "step": 7501 }, { "avg_step_time": 5.781787607404921, "epoch": 0.8001066666666666, "eta_time": 3.009741660076895, "step": 7501 }, { "epoch": 0.8002133333333333, "grad_norm": 1.551235005505911, "learning_rate": 1.010863243681684e-06, "loss": 0.4314, "step": 7502 }, { "avg_step_time": 5.798808651741105, "epoch": 0.8002133333333333, "eta_time": 3.0169912790864135, "step": 7502 }, { "epoch": 0.80032, "grad_norm": 1.659018369644192, "learning_rate": 1.0098220091180145e-06, "loss": 0.4423, "step": 7503 }, { "avg_step_time": 5.803734947936704, "epoch": 0.80032, "eta_time": 3.017942172927086, "step": 7503 }, { "epoch": 0.8004266666666666, "grad_norm": 1.9170338461269671, "learning_rate": 1.008781250851107e-06, "loss": 0.5241, "step": 7504 }, { "avg_step_time": 5.810679984815193, "epoch": 0.8004266666666666, "eta_time": 3.019939514330341, "step": 7504 }, { "epoch": 0.8005333333333333, "grad_norm": 1.7815745100547216, "learning_rate": 1.007740969005191e-06, "loss": 0.5252, "step": 7505 }, { "avg_step_time": 5.810518344243367, "epoch": 0.8005333333333333, "eta_time": 3.018241473259749, "step": 7505 }, { "epoch": 0.80064, "grad_norm": 1.6715495873062438, "learning_rate": 1.006701163704445e-06, "loss": 0.4431, "step": 7506 }, { "avg_step_time": 5.8121946243324665, "epoch": 0.80064, "eta_time": 3.0174977091326056, "step": 7506 }, { "epoch": 0.8007466666666667, "grad_norm": 1.8308041468137262, "learning_rate": 1.0056618350729851e-06, "loss": 0.4258, "step": 7507 }, { "avg_step_time": 5.813087070831145, "epoch": 0.8007466666666667, "eta_time": 3.0163462911979386, "step": 7507 }, { "epoch": 0.8008533333333333, "grad_norm": 2.0033087011348956, "learning_rate": 1.0046229832348758e-06, "loss": 0.4637, "step": 7508 }, { "avg_step_time": 5.848517552770749, "epoch": 0.8008533333333333, "eta_time": 3.033106186395275, "step": 7508 }, { "epoch": 0.80096, "grad_norm": 1.7367491158115655, "learning_rate": 1.0035846083141193e-06, "loss": 0.5297, "step": 7509 }, { "avg_step_time": 5.848843865924412, "epoch": 0.80096, "eta_time": 3.0316507371708203, "step": 7509 }, { "epoch": 0.8010666666666667, "grad_norm": 0.662992165536956, "learning_rate": 1.0025467104346653e-06, "loss": 0.4192, "step": 7510 }, { "avg_step_time": 5.8181098350370775, "epoch": 0.8010666666666667, "eta_time": 3.014104122873375, "step": 7510 }, { "epoch": 0.8011733333333333, "grad_norm": 1.986506184431002, "learning_rate": 1.0015092897204053e-06, "loss": 0.4721, "step": 7511 }, { "avg_step_time": 5.820735086094249, "epoch": 0.8011733333333333, "eta_time": 3.0138472779110224, "step": 7511 }, { "epoch": 0.80128, "grad_norm": 1.8769396559976843, "learning_rate": 1.0004723462951732e-06, "loss": 0.5115, "step": 7512 }, { "avg_step_time": 5.849595915187489, "epoch": 0.80128, "eta_time": 3.027165886109526, "step": 7512 }, { "epoch": 0.8013866666666667, "grad_norm": 1.7585383445061757, "learning_rate": 9.994358802827437e-07, "loss": 0.4294, "step": 7513 }, { "avg_step_time": 5.849566883511013, "epoch": 0.8013866666666667, "eta_time": 3.025525982527085, "step": 7513 }, { "epoch": 0.8014933333333333, "grad_norm": 2.1803172046448074, "learning_rate": 9.983998918068389e-07, "loss": 0.489, "step": 7514 }, { "avg_step_time": 5.851461176920419, "epoch": 0.8014933333333333, "eta_time": 3.024880347291361, "step": 7514 }, { "epoch": 0.8016, "grad_norm": 2.367876814174205, "learning_rate": 9.973643809911238e-07, "loss": 0.5077, "step": 7515 }, { "avg_step_time": 5.850051679996529, "epoch": 0.8016, "eta_time": 3.02252670133154, "step": 7515 }, { "epoch": 0.8017066666666667, "grad_norm": 1.7813305495734508, "learning_rate": 9.963293479592006e-07, "loss": 0.4564, "step": 7516 }, { "avg_step_time": 5.885347903376878, "epoch": 0.8017066666666667, "eta_time": 3.039128264549338, "step": 7516 }, { "epoch": 0.8018133333333334, "grad_norm": 1.6012065387756198, "learning_rate": 9.952947928346218e-07, "loss": 0.435, "step": 7517 }, { "avg_step_time": 5.8876209427612, "epoch": 0.8018133333333334, "eta_time": 3.0386665865695304, "step": 7517 }, { "epoch": 0.80192, "grad_norm": 1.7929099199452616, "learning_rate": 9.942607157408784e-07, "loss": 0.4259, "step": 7518 }, { "avg_step_time": 5.912635379367405, "epoch": 0.80192, "eta_time": 3.0499344165236866, "step": 7518 }, { "epoch": 0.8020266666666667, "grad_norm": 1.8260138538329533, "learning_rate": 9.932271168014035e-07, "loss": 0.5679, "step": 7519 }, { "avg_step_time": 5.91485142226171, "epoch": 0.8020266666666667, "eta_time": 3.049434511032704, "step": 7519 }, { "epoch": 0.8021333333333334, "grad_norm": 1.8439834155727344, "learning_rate": 9.921939961395767e-07, "loss": 0.417, "step": 7520 }, { "avg_step_time": 5.914910658441409, "epoch": 0.8021333333333334, "eta_time": 3.0478220198357815, "step": 7520 }, { "epoch": 0.80224, "grad_norm": 2.0433094431733476, "learning_rate": 9.911613538787196e-07, "loss": 0.5406, "step": 7521 }, { "avg_step_time": 5.894377559122413, "epoch": 0.80224, "eta_time": 3.0356044429480424, "step": 7521 }, { "epoch": 0.8023466666666667, "grad_norm": 1.8999324464057743, "learning_rate": 9.901291901420939e-07, "loss": 0.5542, "step": 7522 }, { "avg_step_time": 5.921531043871485, "epoch": 0.8023466666666667, "eta_time": 3.047943617859406, "step": 7522 }, { "epoch": 0.8024533333333334, "grad_norm": 0.647892477217178, "learning_rate": 9.890975050529084e-07, "loss": 0.4563, "step": 7523 }, { "avg_step_time": 5.92233774878762, "epoch": 0.8024533333333334, "eta_time": 3.0467137529874093, "step": 7523 }, { "epoch": 0.80256, "grad_norm": 0.6505828195502957, "learning_rate": 9.880662987343103e-07, "loss": 0.4744, "step": 7524 }, { "avg_step_time": 5.897872040970157, "epoch": 0.80256, "eta_time": 3.0324892077321555, "step": 7524 }, { "epoch": 0.8026666666666666, "grad_norm": 2.126802232555281, "learning_rate": 9.870355713093942e-07, "loss": 0.5551, "step": 7525 }, { "avg_step_time": 5.898954020606147, "epoch": 0.8026666666666666, "eta_time": 3.0314069272559365, "step": 7525 }, { "epoch": 0.8027733333333333, "grad_norm": 2.362603435472163, "learning_rate": 9.860053229011929e-07, "loss": 0.5551, "step": 7526 }, { "avg_step_time": 5.89735777931984, "epoch": 0.8027733333333333, "eta_time": 3.0289484816562178, "step": 7526 }, { "epoch": 0.80288, "grad_norm": 1.8189594443894916, "learning_rate": 9.849755536326866e-07, "loss": 0.4834, "step": 7527 }, { "avg_step_time": 5.8983761999342175, "epoch": 0.80288, "eta_time": 3.0278331159662315, "step": 7527 }, { "epoch": 0.8029866666666666, "grad_norm": 1.5982671462766513, "learning_rate": 9.839462636267944e-07, "loss": 0.4473, "step": 7528 }, { "avg_step_time": 5.895498037338257, "epoch": 0.8029866666666666, "eta_time": 3.0247180208232667, "step": 7528 }, { "epoch": 0.8030933333333333, "grad_norm": 2.0842453382331314, "learning_rate": 9.829174530063795e-07, "loss": 0.4587, "step": 7529 }, { "avg_step_time": 5.889432341161401, "epoch": 0.8030933333333333, "eta_time": 3.019970028273318, "step": 7529 }, { "epoch": 0.8032, "grad_norm": 1.7943111962840792, "learning_rate": 9.818891218942511e-07, "loss": 0.5243, "step": 7530 }, { "avg_step_time": 5.887148281540534, "epoch": 0.8032, "eta_time": 3.0171634942895236, "step": 7530 }, { "epoch": 0.8033066666666666, "grad_norm": 0.6572209083655319, "learning_rate": 9.808612704131565e-07, "loss": 0.4213, "step": 7531 }, { "avg_step_time": 5.853629557773321, "epoch": 0.8033066666666666, "eta_time": 2.9983591401483345, "step": 7531 }, { "epoch": 0.8034133333333333, "grad_norm": 1.97810659798156, "learning_rate": 9.798338986857863e-07, "loss": 0.5206, "step": 7532 }, { "avg_step_time": 5.850328669403538, "epoch": 0.8034133333333333, "eta_time": 2.9950432604752, "step": 7532 }, { "epoch": 0.80352, "grad_norm": 1.8975851562704478, "learning_rate": 9.78807006834777e-07, "loss": 0.4995, "step": 7533 }, { "avg_step_time": 5.844845658600932, "epoch": 0.80352, "eta_time": 2.990612695317477, "step": 7533 }, { "epoch": 0.8036266666666667, "grad_norm": 0.6620624181815261, "learning_rate": 9.777805949827046e-07, "loss": 0.4457, "step": 7534 }, { "avg_step_time": 5.813304491717406, "epoch": 0.8036266666666667, "eta_time": 2.972859324792151, "step": 7534 }, { "epoch": 0.8037333333333333, "grad_norm": 1.9837377081353103, "learning_rate": 9.767546632520892e-07, "loss": 0.4458, "step": 7535 }, { "avg_step_time": 5.812565052148067, "epoch": 0.8037333333333333, "eta_time": 2.970866582209012, "step": 7535 }, { "epoch": 0.80384, "grad_norm": 1.6981271593426683, "learning_rate": 9.757292117653955e-07, "loss": 0.4482, "step": 7536 }, { "avg_step_time": 5.809878407102643, "epoch": 0.80384, "eta_time": 2.9678795529616, "step": 7536 }, { "epoch": 0.8039466666666667, "grad_norm": 1.4716903659116713, "learning_rate": 9.747042406450275e-07, "loss": 0.4661, "step": 7537 }, { "avg_step_time": 5.817506891308409, "epoch": 0.8039466666666667, "eta_time": 2.9701604628402376, "step": 7537 }, { "epoch": 0.8040533333333333, "grad_norm": 1.6060368850972881, "learning_rate": 9.736797500133316e-07, "loss": 0.3859, "step": 7538 }, { "avg_step_time": 5.818133985153352, "epoch": 0.8040533333333333, "eta_time": 2.968864480757419, "step": 7538 }, { "epoch": 0.80416, "grad_norm": 1.593500937388674, "learning_rate": 9.726557399925995e-07, "loss": 0.4145, "step": 7539 }, { "avg_step_time": 5.796834384552156, "epoch": 0.80416, "eta_time": 2.9563855361215996, "step": 7539 }, { "epoch": 0.8042666666666667, "grad_norm": 2.138272312103208, "learning_rate": 9.71632210705067e-07, "loss": 0.5042, "step": 7540 }, { "avg_step_time": 5.793611745641689, "epoch": 0.8042666666666667, "eta_time": 2.9531326536812497, "step": 7540 }, { "epoch": 0.8043733333333334, "grad_norm": 1.8877008745987507, "learning_rate": 9.706091622729065e-07, "loss": 0.5043, "step": 7541 }, { "avg_step_time": 5.792989078194204, "epoch": 0.8043733333333334, "eta_time": 2.951206102613381, "step": 7541 }, { "epoch": 0.80448, "grad_norm": 1.8445484373907766, "learning_rate": 9.695865948182392e-07, "loss": 0.3803, "step": 7542 }, { "avg_step_time": 5.800819110388708, "epoch": 0.80448, "eta_time": 2.953583730372917, "step": 7542 }, { "epoch": 0.8045866666666667, "grad_norm": 1.8134278887477533, "learning_rate": 9.685645084631251e-07, "loss": 0.5418, "step": 7543 }, { "avg_step_time": 5.801677487113259, "epoch": 0.8045866666666667, "eta_time": 2.9524092101087476, "step": 7543 }, { "epoch": 0.8046933333333334, "grad_norm": 1.855572165189988, "learning_rate": 9.675429033295652e-07, "loss": 0.5081, "step": 7544 }, { "avg_step_time": 5.806525203916761, "epoch": 0.8046933333333334, "eta_time": 2.9532632356587754, "step": 7544 }, { "epoch": 0.8048, "grad_norm": 2.1523686012612244, "learning_rate": 9.66521779539511e-07, "loss": 0.5317, "step": 7545 }, { "avg_step_time": 5.805528696137245, "epoch": 0.8048, "eta_time": 2.9511437538697667, "step": 7545 }, { "epoch": 0.8049066666666667, "grad_norm": 1.576684640699917, "learning_rate": 9.655011372148487e-07, "loss": 0.3872, "step": 7546 }, { "avg_step_time": 5.8082979110756305, "epoch": 0.8049066666666667, "eta_time": 2.9509380220437027, "step": 7546 }, { "epoch": 0.8050133333333334, "grad_norm": 1.7289857209485782, "learning_rate": 9.644809764774082e-07, "loss": 0.4303, "step": 7547 }, { "avg_step_time": 5.853566034875735, "epoch": 0.8050133333333334, "eta_time": 2.972310753264679, "step": 7547 }, { "epoch": 0.80512, "grad_norm": 1.9427465949436036, "learning_rate": 9.63461297448966e-07, "loss": 0.4969, "step": 7548 }, { "avg_step_time": 5.8837605245185625, "epoch": 0.80512, "eta_time": 2.9860084661931707, "step": 7548 }, { "epoch": 0.8052266666666666, "grad_norm": 2.061024067636916, "learning_rate": 9.624421002512358e-07, "loss": 0.4415, "step": 7549 }, { "avg_step_time": 5.875188302512121, "epoch": 0.8052266666666666, "eta_time": 2.9800260667742036, "step": 7549 }, { "epoch": 0.8053333333333333, "grad_norm": 1.623848916162069, "learning_rate": 9.61423385005878e-07, "loss": 0.4195, "step": 7550 }, { "avg_step_time": 5.8739486655803645, "epoch": 0.8053333333333333, "eta_time": 2.9777656429678236, "step": 7550 }, { "epoch": 0.80544, "grad_norm": 1.6892217864551957, "learning_rate": 9.604051518344948e-07, "loss": 0.4426, "step": 7551 }, { "avg_step_time": 5.908222723488856, "epoch": 0.80544, "eta_time": 2.9934995132343536, "step": 7551 }, { "epoch": 0.8055466666666666, "grad_norm": 1.9937041149826265, "learning_rate": 9.593874008586285e-07, "loss": 0.4362, "step": 7552 }, { "avg_step_time": 5.910311571275345, "epoch": 0.8055466666666666, "eta_time": 2.992916109565265, "step": 7552 }, { "epoch": 0.8056533333333333, "grad_norm": 1.9740069645752514, "learning_rate": 9.583701321997645e-07, "loss": 0.5056, "step": 7553 }, { "avg_step_time": 5.913781238324715, "epoch": 0.8056533333333333, "eta_time": 2.993030393396564, "step": 7553 }, { "epoch": 0.80576, "grad_norm": 1.8044187519979222, "learning_rate": 9.57353345979332e-07, "loss": 0.3905, "step": 7554 }, { "avg_step_time": 5.910759711506391, "epoch": 0.80576, "eta_time": 2.98985928740365, "step": 7554 }, { "epoch": 0.8058666666666666, "grad_norm": 2.1246211263779036, "learning_rate": 9.563370423187046e-07, "loss": 0.5921, "step": 7555 }, { "avg_step_time": 5.94211130672031, "epoch": 0.8058666666666666, "eta_time": 3.0040673828419346, "step": 7555 }, { "epoch": 0.8059733333333333, "grad_norm": 1.9118032021644777, "learning_rate": 9.553212213391933e-07, "loss": 0.4946, "step": 7556 }, { "avg_step_time": 5.936890450390902, "epoch": 0.8059733333333333, "eta_time": 2.9997788136836254, "step": 7556 }, { "epoch": 0.80608, "grad_norm": 1.8948040441371445, "learning_rate": 9.543058831620528e-07, "loss": 0.5218, "step": 7557 }, { "avg_step_time": 5.938697345329054, "epoch": 0.80608, "eta_time": 2.999042159391172, "step": 7557 }, { "epoch": 0.8061866666666667, "grad_norm": 1.7972612782042907, "learning_rate": 9.532910279084822e-07, "loss": 0.4955, "step": 7558 }, { "avg_step_time": 5.934375134381381, "epoch": 0.8061866666666667, "eta_time": 2.995211005325269, "step": 7558 }, { "epoch": 0.8062933333333333, "grad_norm": 2.1858749229927117, "learning_rate": 9.522766556996243e-07, "loss": 0.4894, "step": 7559 }, { "avg_step_time": 5.933855454126994, "epoch": 0.8062933333333333, "eta_time": 2.9933004179707283, "step": 7559 }, { "epoch": 0.8064, "grad_norm": 2.2160696750519415, "learning_rate": 9.512627666565588e-07, "loss": 0.5429, "step": 7560 }, { "avg_step_time": 5.933818612435852, "epoch": 0.8064, "eta_time": 2.9916335504364087, "step": 7560 }, { "epoch": 0.8065066666666667, "grad_norm": 1.7837308672501018, "learning_rate": 9.502493609003138e-07, "loss": 0.4711, "step": 7561 }, { "avg_step_time": 5.940157608552412, "epoch": 0.8065066666666667, "eta_time": 2.9931794171983546, "step": 7561 }, { "epoch": 0.8066133333333333, "grad_norm": 1.7683532215016204, "learning_rate": 9.492364385518554e-07, "loss": 0.5744, "step": 7562 }, { "avg_step_time": 5.943239999539925, "epoch": 0.8066133333333333, "eta_time": 2.993081699768301, "step": 7562 }, { "epoch": 0.80672, "grad_norm": 1.768218585854218, "learning_rate": 9.482239997320903e-07, "loss": 0.422, "step": 7563 }, { "avg_step_time": 5.941915671030681, "epoch": 0.80672, "eta_time": 2.9907642210854424, "step": 7563 }, { "epoch": 0.8068266666666667, "grad_norm": 2.2330057455956935, "learning_rate": 9.47212044561876e-07, "loss": 0.4336, "step": 7564 }, { "avg_step_time": 5.943635998350201, "epoch": 0.8068266666666667, "eta_time": 2.9899791091700596, "step": 7564 }, { "epoch": 0.8069333333333333, "grad_norm": 1.8226003253472958, "learning_rate": 9.46200573162005e-07, "loss": 0.4514, "step": 7565 }, { "avg_step_time": 5.941663660184301, "epoch": 0.8069333333333333, "eta_time": 2.98733645137044, "step": 7565 }, { "epoch": 0.80704, "grad_norm": 1.8969649851194001, "learning_rate": 9.451895856532117e-07, "loss": 0.5018, "step": 7566 }, { "avg_step_time": 5.903383377826575, "epoch": 0.80704, "eta_time": 2.966450147357854, "step": 7566 }, { "epoch": 0.8071466666666667, "grad_norm": 1.7814200833852714, "learning_rate": 9.441790821561781e-07, "loss": 0.4625, "step": 7567 }, { "avg_step_time": 5.904011805852254, "epoch": 0.8071466666666667, "eta_time": 2.965125929161354, "step": 7567 }, { "epoch": 0.8072533333333334, "grad_norm": 0.6754130814413393, "learning_rate": 9.431690627915218e-07, "loss": 0.4762, "step": 7568 }, { "avg_step_time": 5.906612663558035, "epoch": 0.8072533333333334, "eta_time": 2.964791411958158, "step": 7568 }, { "epoch": 0.80736, "grad_norm": 2.3703338274585377, "learning_rate": 9.421595276798084e-07, "loss": 0.5129, "step": 7569 }, { "avg_step_time": 5.904467589927442, "epoch": 0.80736, "eta_time": 2.9620745742802668, "step": 7569 }, { "epoch": 0.8074666666666667, "grad_norm": 1.8266369156303048, "learning_rate": 9.411504769415447e-07, "loss": 0.4154, "step": 7570 }, { "avg_step_time": 5.9343698121080495, "epoch": 0.8074666666666667, "eta_time": 2.975427086348619, "step": 7570 }, { "epoch": 0.8075733333333334, "grad_norm": 1.9619307671107258, "learning_rate": 9.401419106971765e-07, "loss": 0.5201, "step": 7571 }, { "avg_step_time": 5.932168950938215, "epoch": 0.8075733333333334, "eta_time": 2.9726757743034837, "step": 7571 }, { "epoch": 0.80768, "grad_norm": 0.6276049176136289, "learning_rate": 9.39133829067092e-07, "loss": 0.4299, "step": 7572 }, { "avg_step_time": 5.895000756388963, "epoch": 0.80768, "eta_time": 2.9524128788248056, "step": 7572 }, { "epoch": 0.8077866666666667, "grad_norm": 1.8068610317169413, "learning_rate": 9.381262321716255e-07, "loss": 0.4997, "step": 7573 }, { "avg_step_time": 5.904418559989544, "epoch": 0.8077866666666667, "eta_time": 2.9554895125281, "step": 7573 }, { "epoch": 0.8078933333333334, "grad_norm": 1.745353690373721, "learning_rate": 9.371191201310515e-07, "loss": 0.4939, "step": 7574 }, { "avg_step_time": 5.890354614065151, "epoch": 0.8078933333333334, "eta_time": 2.9468135166475937, "step": 7574 }, { "epoch": 0.808, "grad_norm": 1.9218482596859061, "learning_rate": 9.361124930655841e-07, "loss": 0.4562, "step": 7575 }, { "avg_step_time": 5.880801788484208, "epoch": 0.808, "eta_time": 2.940400894242104, "step": 7575 }, { "epoch": 0.8081066666666666, "grad_norm": 1.8071226226392871, "learning_rate": 9.351063510953845e-07, "loss": 0.4618, "step": 7576 }, { "avg_step_time": 5.880904443336256, "epoch": 0.8081066666666666, "eta_time": 2.9388186371005345, "step": 7576 }, { "epoch": 0.8082133333333333, "grad_norm": 2.1113546330567505, "learning_rate": 9.341006943405511e-07, "loss": 0.5529, "step": 7577 }, { "avg_step_time": 5.879044255825004, "epoch": 0.8082133333333333, "eta_time": 2.9362559922148215, "step": 7577 }, { "epoch": 0.80832, "grad_norm": 1.7281406963213441, "learning_rate": 9.330955229211259e-07, "loss": 0.4211, "step": 7578 }, { "avg_step_time": 5.884153862192173, "epoch": 0.80832, "eta_time": 2.9371734695442595, "step": 7578 }, { "epoch": 0.8084266666666666, "grad_norm": 1.9291382407653956, "learning_rate": 9.320908369570941e-07, "loss": 0.4997, "step": 7579 }, { "avg_step_time": 5.882413998998777, "epoch": 0.8084266666666666, "eta_time": 2.934670983944945, "step": 7579 }, { "epoch": 0.8085333333333333, "grad_norm": 2.056317485025849, "learning_rate": 9.310866365683846e-07, "loss": 0.4645, "step": 7580 }, { "avg_step_time": 5.889121484274816, "epoch": 0.8085333333333333, "eta_time": 2.936381406742582, "step": 7580 }, { "epoch": 0.80864, "grad_norm": 2.111909024007186, "learning_rate": 9.300829218748625e-07, "loss": 0.4202, "step": 7581 }, { "avg_step_time": 5.8896569218298405, "epoch": 0.80864, "eta_time": 2.935012366045204, "step": 7581 }, { "epoch": 0.8087466666666666, "grad_norm": 1.829397024617348, "learning_rate": 9.290796929963414e-07, "loss": 0.4595, "step": 7582 }, { "avg_step_time": 5.862808754949858, "epoch": 0.8087466666666666, "eta_time": 2.9200044715625264, "step": 7582 }, { "epoch": 0.8088533333333333, "grad_norm": 2.1756179431427496, "learning_rate": 9.280769500525716e-07, "loss": 0.4966, "step": 7583 }, { "avg_step_time": 5.832416240615074, "epoch": 0.8088533333333333, "eta_time": 2.9032471953283925, "step": 7583 }, { "epoch": 0.80896, "grad_norm": 1.9205519565357339, "learning_rate": 9.270746931632501e-07, "loss": 0.5308, "step": 7584 }, { "avg_step_time": 5.831707270458491, "epoch": 0.80896, "eta_time": 2.9012743670530994, "step": 7584 }, { "epoch": 0.8090666666666667, "grad_norm": 1.7625844521052894, "learning_rate": 9.260729224480114e-07, "loss": 0.4436, "step": 7585 }, { "avg_step_time": 5.8326597069249, "epoch": 0.8090666666666667, "eta_time": 2.9001280209432148, "step": 7585 }, { "epoch": 0.8091733333333333, "grad_norm": 2.0668867570079934, "learning_rate": 9.250716380264368e-07, "loss": 0.4764, "step": 7586 }, { "avg_step_time": 5.841781112882826, "epoch": 0.8091733333333333, "eta_time": 2.9030406697076043, "step": 7586 }, { "epoch": 0.80928, "grad_norm": 1.7568433303168718, "learning_rate": 9.240708400180437e-07, "loss": 0.5232, "step": 7587 }, { "avg_step_time": 5.84365194494074, "epoch": 0.80928, "eta_time": 2.902347132653901, "step": 7587 }, { "epoch": 0.8093866666666667, "grad_norm": 1.782427289851169, "learning_rate": 9.23070528542297e-07, "loss": 0.497, "step": 7588 }, { "avg_step_time": 5.840803620791195, "epoch": 0.8093866666666667, "eta_time": 2.89931001954274, "step": 7588 }, { "epoch": 0.8094933333333333, "grad_norm": 1.880004292200279, "learning_rate": 9.220707037186011e-07, "loss": 0.4379, "step": 7589 }, { "avg_step_time": 5.840649354337442, "epoch": 0.8094933333333333, "eta_time": 2.8976110407907423, "step": 7589 }, { "epoch": 0.8096, "grad_norm": 1.873760029943459, "learning_rate": 9.210713656663023e-07, "loss": 0.4382, "step": 7590 }, { "avg_step_time": 5.816735961220481, "epoch": 0.8096, "eta_time": 2.8841315807718217, "step": 7590 }, { "epoch": 0.8097066666666667, "grad_norm": 1.7994152248435609, "learning_rate": 9.200725145046868e-07, "loss": 0.4863, "step": 7591 }, { "avg_step_time": 5.818477315132064, "epoch": 0.8097066666666667, "eta_time": 2.8833787583876673, "step": 7591 }, { "epoch": 0.8098133333333334, "grad_norm": 1.8426509067191328, "learning_rate": 9.190741503529876e-07, "loss": 0.4432, "step": 7592 }, { "avg_step_time": 5.814222400838679, "epoch": 0.8098133333333334, "eta_time": 2.8796551501931567, "step": 7592 }, { "epoch": 0.80992, "grad_norm": 1.6781245089959484, "learning_rate": 9.180762733303745e-07, "loss": 0.538, "step": 7593 }, { "avg_step_time": 5.817419996165266, "epoch": 0.80992, "eta_time": 2.8796228981018066, "step": 7593 }, { "epoch": 0.8100266666666667, "grad_norm": 2.126404152055593, "learning_rate": 9.170788835559624e-07, "loss": 0.4974, "step": 7594 }, { "avg_step_time": 5.813410655416623, "epoch": 0.8100266666666667, "eta_time": 2.8760234381380574, "step": 7594 }, { "epoch": 0.8101333333333334, "grad_norm": 0.6295153515599085, "learning_rate": 9.160819811488081e-07, "loss": 0.4476, "step": 7595 }, { "avg_step_time": 5.780006035409793, "epoch": 0.8101333333333334, "eta_time": 2.857891873063731, "step": 7595 }, { "epoch": 0.81024, "grad_norm": 2.1345509234913105, "learning_rate": 9.150855662279079e-07, "loss": 0.4755, "step": 7596 }, { "avg_step_time": 5.773434742532595, "epoch": 0.81024, "eta_time": 2.8530390019348575, "step": 7596 }, { "epoch": 0.8103466666666667, "grad_norm": 1.7734524744577647, "learning_rate": 9.14089638912199e-07, "loss": 0.4775, "step": 7597 }, { "avg_step_time": 5.757709753633749, "epoch": 0.8103466666666667, "eta_time": 2.843668872766891, "step": 7597 }, { "epoch": 0.8104533333333334, "grad_norm": 0.6369556084800064, "learning_rate": 9.130941993205672e-07, "loss": 0.4538, "step": 7598 }, { "avg_step_time": 5.723316917515764, "epoch": 0.8104533333333334, "eta_time": 2.825092822895976, "step": 7598 }, { "epoch": 0.81056, "grad_norm": 1.6118096815520486, "learning_rate": 9.120992475718333e-07, "loss": 0.4279, "step": 7599 }, { "avg_step_time": 5.714019864496558, "epoch": 0.81056, "eta_time": 2.818916466484969, "step": 7599 }, { "epoch": 0.8106666666666666, "grad_norm": 2.0566381682171095, "learning_rate": 9.111047837847603e-07, "loss": 0.54, "step": 7600 }, { "avg_step_time": 5.713222166504523, "epoch": 0.8106666666666666, "eta_time": 2.8169359293182024, "step": 7600 }, { "epoch": 0.8107733333333333, "grad_norm": 1.8798902560246158, "learning_rate": 9.101108080780574e-07, "loss": 0.5269, "step": 7601 }, { "avg_step_time": 5.707952229663579, "epoch": 0.8107733333333333, "eta_time": 2.8127520153953305, "step": 7601 }, { "epoch": 0.81088, "grad_norm": 1.6714828206326091, "learning_rate": 9.091173205703708e-07, "loss": 0.4438, "step": 7602 }, { "avg_step_time": 5.706032415833136, "epoch": 0.81088, "eta_time": 2.8102209647978196, "step": 7602 }, { "epoch": 0.8109866666666666, "grad_norm": 2.1661976650208814, "learning_rate": 9.081243213802904e-07, "loss": 0.4627, "step": 7603 }, { "avg_step_time": 5.695860323279795, "epoch": 0.8109866666666666, "eta_time": 2.8036290257921657, "step": 7603 }, { "epoch": 0.8110933333333333, "grad_norm": 1.8484067152408714, "learning_rate": 9.071318106263499e-07, "loss": 0.4941, "step": 7604 }, { "avg_step_time": 5.696846954750292, "epoch": 0.8110933333333333, "eta_time": 2.8025322102396575, "step": 7604 }, { "epoch": 0.8112, "grad_norm": 0.6531025182391816, "learning_rate": 9.061397884270217e-07, "loss": 0.4405, "step": 7605 }, { "avg_step_time": 5.659699040229874, "epoch": 0.8112, "eta_time": 2.7826853614463545, "step": 7605 }, { "epoch": 0.8113066666666666, "grad_norm": 1.7240808053579744, "learning_rate": 9.05148254900719e-07, "loss": 0.4379, "step": 7606 }, { "avg_step_time": 5.658706315840133, "epoch": 0.8113066666666666, "eta_time": 2.7806254090892213, "step": 7606 }, { "epoch": 0.8114133333333333, "grad_norm": 1.542319906556807, "learning_rate": 9.041572101657997e-07, "loss": 0.4746, "step": 7607 }, { "avg_step_time": 5.6245086602490355, "epoch": 0.8114133333333333, "eta_time": 2.7622586975889707, "step": 7607 }, { "epoch": 0.81152, "grad_norm": 1.5748202134618887, "learning_rate": 9.031666543405637e-07, "loss": 0.4367, "step": 7608 }, { "avg_step_time": 5.6249648922621605, "epoch": 0.81152, "eta_time": 2.7609202679520104, "step": 7608 }, { "epoch": 0.8116266666666667, "grad_norm": 1.8476716210131832, "learning_rate": 9.021765875432498e-07, "loss": 0.4904, "step": 7609 }, { "avg_step_time": 5.673512244465376, "epoch": 0.8116266666666667, "eta_time": 2.783172951034959, "step": 7609 }, { "epoch": 0.8117333333333333, "grad_norm": 1.6861743596445522, "learning_rate": 9.011870098920378e-07, "loss": 0.4477, "step": 7610 }, { "avg_step_time": 5.680248183433456, "epoch": 0.8117333333333333, "eta_time": 2.7848994566000136, "step": 7610 }, { "epoch": 0.81184, "grad_norm": 1.6605589675403116, "learning_rate": 9.001979215050544e-07, "loss": 0.4705, "step": 7611 }, { "avg_step_time": 5.648792079000762, "epoch": 0.81184, "eta_time": 2.7679081187103733, "step": 7611 }, { "epoch": 0.8119466666666667, "grad_norm": 2.008446442501573, "learning_rate": 8.992093225003606e-07, "loss": 0.4376, "step": 7612 }, { "avg_step_time": 5.671359531807177, "epoch": 0.8119466666666667, "eta_time": 2.7773907929377923, "step": 7612 }, { "epoch": 0.8120533333333333, "grad_norm": 1.9995155199765258, "learning_rate": 8.98221212995965e-07, "loss": 0.4982, "step": 7613 }, { "avg_step_time": 5.668972711370449, "epoch": 0.8120533333333333, "eta_time": 2.7746471992874255, "step": 7613 }, { "epoch": 0.81216, "grad_norm": 2.117631518804968, "learning_rate": 8.972335931098159e-07, "loss": 0.5176, "step": 7614 }, { "avg_step_time": 5.669097681238194, "epoch": 0.81216, "eta_time": 2.7731336157390167, "step": 7614 }, { "epoch": 0.8122666666666667, "grad_norm": 1.957634068523678, "learning_rate": 8.962464629598028e-07, "loss": 0.4759, "step": 7615 }, { "avg_step_time": 5.667565357805502, "epoch": 0.8122666666666667, "eta_time": 2.7708097304826897, "step": 7615 }, { "epoch": 0.8123733333333333, "grad_norm": 1.7592081954163346, "learning_rate": 8.952598226637549e-07, "loss": 0.4441, "step": 7616 }, { "avg_step_time": 5.661954983316287, "epoch": 0.8123733333333333, "eta_time": 2.7664941154592633, "step": 7616 }, { "epoch": 0.81248, "grad_norm": 1.7132903102242758, "learning_rate": 8.942736723394458e-07, "loss": 0.4323, "step": 7617 }, { "avg_step_time": 5.635495405004482, "epoch": 0.81248, "eta_time": 2.752000256110522, "step": 7617 }, { "epoch": 0.8125866666666667, "grad_norm": 2.039126355091553, "learning_rate": 8.932880121045911e-07, "loss": 0.487, "step": 7618 }, { "avg_step_time": 5.632856019819625, "epoch": 0.8125866666666667, "eta_time": 2.749146674117523, "step": 7618 }, { "epoch": 0.8126933333333334, "grad_norm": 1.8670857689702245, "learning_rate": 8.923028420768437e-07, "loss": 0.4782, "step": 7619 }, { "avg_step_time": 5.628810102289373, "epoch": 0.8126933333333334, "eta_time": 2.7456084832278163, "step": 7619 }, { "epoch": 0.8128, "grad_norm": 1.929269888622453, "learning_rate": 8.913181623738032e-07, "loss": 0.5164, "step": 7620 }, { "avg_step_time": 5.6309174600273675, "epoch": 0.8128, "eta_time": 2.7450722617633416, "step": 7620 }, { "epoch": 0.8129066666666667, "grad_norm": 1.6277288228846727, "learning_rate": 8.903339731130073e-07, "loss": 0.4256, "step": 7621 }, { "avg_step_time": 5.609137214795507, "epoch": 0.8129066666666667, "eta_time": 2.732896298542033, "step": 7621 }, { "epoch": 0.8130133333333334, "grad_norm": 1.9532092111112607, "learning_rate": 8.893502744119337e-07, "loss": 0.5079, "step": 7622 }, { "avg_step_time": 5.642277664608425, "epoch": 0.8130133333333334, "eta_time": 2.747475762794047, "step": 7622 }, { "epoch": 0.81312, "grad_norm": 1.9363860807077116, "learning_rate": 8.883670663880078e-07, "loss": 0.4063, "step": 7623 }, { "avg_step_time": 5.666161310793173, "epoch": 0.81312, "eta_time": 2.7575318379193443, "step": 7623 }, { "epoch": 0.8132266666666667, "grad_norm": 1.554900635755216, "learning_rate": 8.87384349158591e-07, "loss": 0.4728, "step": 7624 }, { "avg_step_time": 5.6759530871805515, "epoch": 0.8132266666666667, "eta_time": 2.760720515459207, "step": 7624 }, { "epoch": 0.8133333333333334, "grad_norm": 1.5845388542411398, "learning_rate": 8.864021228409853e-07, "loss": 0.4753, "step": 7625 }, { "avg_step_time": 5.674156420158617, "epoch": 0.8133333333333334, "eta_time": 2.7582704820215502, "step": 7625 }, { "epoch": 0.81344, "grad_norm": 0.6530708172957396, "learning_rate": 8.854203875524403e-07, "loss": 0.4688, "step": 7626 }, { "avg_step_time": 5.636522175085665, "epoch": 0.81344, "eta_time": 2.738410356729119, "step": 7626 }, { "epoch": 0.8135466666666666, "grad_norm": 1.9179267485805869, "learning_rate": 8.84439143410139e-07, "loss": 0.4667, "step": 7627 }, { "avg_step_time": 5.6393846044636735, "epoch": 0.8135466666666666, "eta_time": 2.738234524611806, "step": 7627 }, { "epoch": 0.8136533333333333, "grad_norm": 2.046604672860594, "learning_rate": 8.834583905312127e-07, "loss": 0.4479, "step": 7628 }, { "avg_step_time": 5.644484881198768, "epoch": 0.8136533333333333, "eta_time": 2.739143079848402, "step": 7628 }, { "epoch": 0.81376, "grad_norm": 1.7887356401775263, "learning_rate": 8.824781290327317e-07, "loss": 0.3935, "step": 7629 }, { "avg_step_time": 5.646444323086979, "epoch": 0.81376, "eta_time": 2.738525496697185, "step": 7629 }, { "epoch": 0.8138666666666666, "grad_norm": 1.9167864790638731, "learning_rate": 8.814983590317055e-07, "loss": 0.4811, "step": 7630 }, { "avg_step_time": 5.684947538857508, "epoch": 0.8138666666666666, "eta_time": 2.7556204042517645, "step": 7630 }, { "epoch": 0.8139733333333333, "grad_norm": 1.7620483620418044, "learning_rate": 8.805190806450858e-07, "loss": 0.4527, "step": 7631 }, { "avg_step_time": 5.698300693974351, "epoch": 0.8139733333333333, "eta_time": 2.7605101139697963, "step": 7631 }, { "epoch": 0.81408, "grad_norm": 1.7757542303007736, "learning_rate": 8.795402939897679e-07, "loss": 0.4783, "step": 7632 }, { "avg_step_time": 5.696362572486954, "epoch": 0.81408, "eta_time": 2.757988878845767, "step": 7632 }, { "epoch": 0.8141866666666666, "grad_norm": 1.8662296649868668, "learning_rate": 8.785619991825877e-07, "loss": 0.5014, "step": 7633 }, { "avg_step_time": 5.736697550975915, "epoch": 0.8141866666666666, "eta_time": 2.775924203833345, "step": 7633 }, { "epoch": 0.8142933333333333, "grad_norm": 1.8990542316380299, "learning_rate": 8.775841963403198e-07, "loss": 0.4687, "step": 7634 }, { "avg_step_time": 5.733956748789007, "epoch": 0.8142933333333333, "eta_time": 2.773005194344906, "step": 7634 }, { "epoch": 0.8144, "grad_norm": 1.9636581171631216, "learning_rate": 8.766068855796833e-07, "loss": 0.5396, "step": 7635 }, { "avg_step_time": 5.7348339340903545, "epoch": 0.8144, "eta_time": 2.7718364014770045, "step": 7635 }, { "epoch": 0.8145066666666667, "grad_norm": 2.118841797962223, "learning_rate": 8.756300670173368e-07, "loss": 0.4419, "step": 7636 }, { "avg_step_time": 5.727366240337641, "epoch": 0.8145066666666667, "eta_time": 2.7666360810964328, "step": 7636 }, { "epoch": 0.8146133333333333, "grad_norm": 1.7466256846883095, "learning_rate": 8.746537407698785e-07, "loss": 0.502, "step": 7637 }, { "avg_step_time": 5.730493039795847, "epoch": 0.8146133333333333, "eta_time": 2.7665546953236615, "step": 7637 }, { "epoch": 0.81472, "grad_norm": 1.772324185600739, "learning_rate": 8.736779069538521e-07, "loss": 0.3901, "step": 7638 }, { "avg_step_time": 5.736312259327281, "epoch": 0.81472, "eta_time": 2.7677706651254135, "step": 7638 }, { "epoch": 0.8148266666666667, "grad_norm": 1.80750316049811, "learning_rate": 8.727025656857407e-07, "loss": 0.4507, "step": 7639 }, { "avg_step_time": 5.7295193985255075, "epoch": 0.8148266666666667, "eta_time": 2.7629015766223004, "step": 7639 }, { "epoch": 0.8149333333333333, "grad_norm": 1.687260865664071, "learning_rate": 8.717277170819655e-07, "loss": 0.4103, "step": 7640 }, { "avg_step_time": 5.731312701196382, "epoch": 0.8149333333333333, "eta_time": 2.762174315715478, "step": 7640 }, { "epoch": 0.81504, "grad_norm": 2.2414615377591702, "learning_rate": 8.707533612588948e-07, "loss": 0.4858, "step": 7641 }, { "avg_step_time": 5.723455467609444, "epoch": 0.81504, "eta_time": 2.7567977168985487, "step": 7641 }, { "epoch": 0.8151466666666667, "grad_norm": 1.6489619756945921, "learning_rate": 8.697794983328317e-07, "loss": 0.4779, "step": 7642 }, { "avg_step_time": 5.722460079674769, "epoch": 0.8151466666666667, "eta_time": 2.7547286994656597, "step": 7642 }, { "epoch": 0.8152533333333334, "grad_norm": 1.8644274887200052, "learning_rate": 8.688061284200266e-07, "loss": 0.4019, "step": 7643 }, { "avg_step_time": 5.718205066642376, "epoch": 0.8152533333333334, "eta_time": 2.7510919931734987, "step": 7643 }, { "epoch": 0.81536, "grad_norm": 1.855391311284953, "learning_rate": 8.67833251636665e-07, "loss": 0.3975, "step": 7644 }, { "avg_step_time": 5.718295831872959, "epoch": 0.81536, "eta_time": 2.749547245825581, "step": 7644 }, { "epoch": 0.8154666666666667, "grad_norm": 1.9599214893214725, "learning_rate": 8.668608680988794e-07, "loss": 0.4579, "step": 7645 }, { "avg_step_time": 5.718862437238597, "epoch": 0.8154666666666667, "eta_time": 2.7482311156729926, "step": 7645 }, { "epoch": 0.8155733333333334, "grad_norm": 1.8513567962362991, "learning_rate": 8.658889779227376e-07, "loss": 0.4933, "step": 7646 }, { "avg_step_time": 5.772019273102885, "epoch": 0.8155733333333334, "eta_time": 2.772172589776358, "step": 7646 }, { "epoch": 0.81568, "grad_norm": 1.9496825132883477, "learning_rate": 8.649175812242532e-07, "loss": 0.5227, "step": 7647 }, { "avg_step_time": 5.777853780322605, "epoch": 0.81568, "eta_time": 2.7733698145548504, "step": 7647 }, { "epoch": 0.8157866666666667, "grad_norm": 1.697567571451199, "learning_rate": 8.639466781193812e-07, "loss": 0.4722, "step": 7648 }, { "avg_step_time": 5.799723461420849, "epoch": 0.8157866666666667, "eta_time": 2.7822562271871685, "step": 7648 }, { "epoch": 0.8158933333333334, "grad_norm": 1.6239834706833514, "learning_rate": 8.629762687240129e-07, "loss": 0.521, "step": 7649 }, { "avg_step_time": 5.800254157095244, "epoch": 0.8158933333333334, "eta_time": 2.7808996319851085, "step": 7649 }, { "epoch": 0.816, "grad_norm": 1.7892100192655167, "learning_rate": 8.62006353153983e-07, "loss": 0.3795, "step": 7650 }, { "avg_step_time": 5.7851291786540635, "epoch": 0.816, "eta_time": 2.7720410647717384, "step": 7650 }, { "epoch": 0.8161066666666666, "grad_norm": 1.637414375284214, "learning_rate": 8.610369315250694e-07, "loss": 0.4525, "step": 7651 }, { "avg_step_time": 5.782812956607703, "epoch": 0.8161066666666666, "eta_time": 2.7693248714421337, "step": 7651 }, { "epoch": 0.8162133333333333, "grad_norm": 0.6503454361106948, "learning_rate": 8.600680039529896e-07, "loss": 0.4296, "step": 7652 }, { "avg_step_time": 5.74162059841734, "epoch": 0.8162133333333333, "eta_time": 2.748003414186966, "step": 7652 }, { "epoch": 0.81632, "grad_norm": 1.9090333826727413, "learning_rate": 8.590995705533994e-07, "loss": 0.5731, "step": 7653 }, { "avg_step_time": 5.744523484297473, "epoch": 0.81632, "eta_time": 2.747797066655625, "step": 7653 }, { "epoch": 0.8164266666666666, "grad_norm": 1.9248891380152156, "learning_rate": 8.581316314419019e-07, "loss": 0.541, "step": 7654 }, { "avg_step_time": 5.726338988602763, "epoch": 0.8164266666666666, "eta_time": 2.737508166495932, "step": 7654 }, { "epoch": 0.8165333333333333, "grad_norm": 2.286563184645543, "learning_rate": 8.571641867340346e-07, "loss": 0.4307, "step": 7655 }, { "avg_step_time": 5.726413861669675, "epoch": 0.8165333333333333, "eta_time": 2.7359532894644003, "step": 7655 }, { "epoch": 0.81664, "grad_norm": 1.920414364326115, "learning_rate": 8.561972365452775e-07, "loss": 0.5418, "step": 7656 }, { "avg_step_time": 5.727635959182122, "epoch": 0.81664, "eta_time": 2.7349461705094633, "step": 7656 }, { "epoch": 0.8167466666666666, "grad_norm": 1.5965077502503904, "learning_rate": 8.552307809910565e-07, "loss": 0.4782, "step": 7657 }, { "avg_step_time": 5.732744491461552, "epoch": 0.8167466666666666, "eta_time": 2.735793065647485, "step": 7657 }, { "epoch": 0.8168533333333333, "grad_norm": 0.6503950372333934, "learning_rate": 8.542648201867337e-07, "loss": 0.4668, "step": 7658 }, { "avg_step_time": 5.703157952337554, "epoch": 0.8168533333333333, "eta_time": 2.72008950115655, "step": 7658 }, { "epoch": 0.81696, "grad_norm": 2.0288337599689408, "learning_rate": 8.532993542476108e-07, "loss": 0.5268, "step": 7659 }, { "avg_step_time": 5.712879662561899, "epoch": 0.81696, "eta_time": 2.7231393058211717, "step": 7659 }, { "epoch": 0.8170666666666667, "grad_norm": 0.6131359278312927, "learning_rate": 8.523343832889358e-07, "loss": 0.4214, "step": 7660 }, { "avg_step_time": 5.676382336953674, "epoch": 0.8170666666666667, "eta_time": 2.704165474409875, "step": 7660 }, { "epoch": 0.8171733333333333, "grad_norm": 1.7166859397060548, "learning_rate": 8.513699074258924e-07, "loss": 0.4912, "step": 7661 }, { "avg_step_time": 5.677413184233386, "epoch": 0.8171733333333333, "eta_time": 2.703079499382229, "step": 7661 }, { "epoch": 0.81728, "grad_norm": 1.8784583150540317, "learning_rate": 8.504059267736097e-07, "loss": 0.4732, "step": 7662 }, { "avg_step_time": 5.679476798182786, "epoch": 0.81728, "eta_time": 2.702484376468642, "step": 7662 }, { "epoch": 0.8173866666666667, "grad_norm": 2.070197277684544, "learning_rate": 8.494424414471536e-07, "loss": 0.5391, "step": 7663 }, { "avg_step_time": 5.6737363723793415, "epoch": 0.8173866666666667, "eta_time": 2.69817685264262, "step": 7663 }, { "epoch": 0.8174933333333333, "grad_norm": 2.095003239351318, "learning_rate": 8.484794515615341e-07, "loss": 0.5582, "step": 7664 }, { "avg_step_time": 5.681230328299782, "epoch": 0.8174933333333333, "eta_time": 2.7001625254780355, "step": 7664 }, { "epoch": 0.8176, "grad_norm": 1.9044349548620385, "learning_rate": 8.475169572316988e-07, "loss": 0.4902, "step": 7665 }, { "avg_step_time": 5.710874451531304, "epoch": 0.8176, "eta_time": 2.7126653644773695, "step": 7665 }, { "epoch": 0.8177066666666667, "grad_norm": 1.8484185971911253, "learning_rate": 8.465549585725397e-07, "loss": 0.4972, "step": 7666 }, { "avg_step_time": 5.7184122836951055, "epoch": 0.8177066666666667, "eta_time": 2.7146573868985935, "step": 7666 }, { "epoch": 0.8178133333333333, "grad_norm": 1.991158269318335, "learning_rate": 8.455934556988888e-07, "loss": 0.4671, "step": 7667 }, { "avg_step_time": 5.74824303087562, "epoch": 0.8178133333333333, "eta_time": 2.727221971315433, "step": 7667 }, { "epoch": 0.81792, "grad_norm": 0.636919730772206, "learning_rate": 8.446324487255164e-07, "loss": 0.4561, "step": 7668 }, { "avg_step_time": 5.709560919289637, "epoch": 0.81792, "eta_time": 2.7072834692298366, "step": 7668 }, { "epoch": 0.8180266666666667, "grad_norm": 1.7826273081498218, "learning_rate": 8.436719377671349e-07, "loss": 0.4214, "step": 7669 }, { "avg_step_time": 5.718127785306988, "epoch": 0.8180266666666667, "eta_time": 2.709757222703812, "step": 7669 }, { "epoch": 0.8181333333333334, "grad_norm": 0.6443100499771954, "learning_rate": 8.427119229384001e-07, "loss": 0.4275, "step": 7670 }, { "avg_step_time": 5.68272099350438, "epoch": 0.8181333333333334, "eta_time": 2.6913998038680464, "step": 7670 }, { "epoch": 0.81824, "grad_norm": 2.156957319616196, "learning_rate": 8.417524043539038e-07, "loss": 0.4823, "step": 7671 }, { "avg_step_time": 5.712989881785229, "epoch": 0.81824, "eta_time": 2.7041485440450086, "step": 7671 }, { "epoch": 0.8183466666666667, "grad_norm": 0.6272995210593955, "learning_rate": 8.407933821281822e-07, "loss": 0.4463, "step": 7672 }, { "avg_step_time": 5.665008294461954, "epoch": 0.8183466666666667, "eta_time": 2.6798636459635294, "step": 7672 }, { "epoch": 0.8184533333333334, "grad_norm": 2.2451074295317572, "learning_rate": 8.398348563757125e-07, "loss": 0.5452, "step": 7673 }, { "avg_step_time": 5.666488093559188, "epoch": 0.8184533333333334, "eta_time": 2.67898964867715, "step": 7673 }, { "epoch": 0.81856, "grad_norm": 2.1207024676688215, "learning_rate": 8.388768272109105e-07, "loss": 0.4973, "step": 7674 }, { "avg_step_time": 5.666135571219704, "epoch": 0.81856, "eta_time": 2.67724905740131, "step": 7674 }, { "epoch": 0.8186666666666667, "grad_norm": 0.6326661650174814, "learning_rate": 8.379192947481319e-07, "loss": 0.4154, "step": 7675 }, { "avg_step_time": 5.654206615505797, "epoch": 0.8186666666666667, "eta_time": 2.670042012877737, "step": 7675 }, { "epoch": 0.8187733333333334, "grad_norm": 1.9506907719851496, "learning_rate": 8.369622591016762e-07, "loss": 0.4982, "step": 7676 }, { "avg_step_time": 5.654893619845612, "epoch": 0.8187733333333334, "eta_time": 2.6687956278104705, "step": 7676 }, { "epoch": 0.81888, "grad_norm": 0.6353031720926805, "learning_rate": 8.36005720385783e-07, "loss": 0.43, "step": 7677 }, { "avg_step_time": 5.616320622087729, "epoch": 0.81888, "eta_time": 2.649031226751379, "step": 7677 }, { "epoch": 0.8189866666666666, "grad_norm": 1.956862454946036, "learning_rate": 8.350496787146301e-07, "loss": 0.4206, "step": 7678 }, { "avg_step_time": 5.617862648434109, "epoch": 0.8189866666666666, "eta_time": 2.648198031775745, "step": 7678 }, { "epoch": 0.8190933333333333, "grad_norm": 1.828476909712441, "learning_rate": 8.34094134202339e-07, "loss": 0.5423, "step": 7679 }, { "avg_step_time": 5.6143583625254, "epoch": 0.8190933333333333, "eta_time": 2.6449866063452996, "step": 7679 }, { "epoch": 0.8192, "grad_norm": 1.6695914476938325, "learning_rate": 8.331390869629702e-07, "loss": 0.4705, "step": 7680 }, { "avg_step_time": 5.617164908033429, "epoch": 0.8192, "eta_time": 2.644748477532406, "step": 7680 }, { "epoch": 0.8193066666666666, "grad_norm": 1.562619984259286, "learning_rate": 8.321845371105225e-07, "loss": 0.4663, "step": 7681 }, { "avg_step_time": 5.619499276382754, "epoch": 0.8193066666666666, "eta_time": 2.6442866039423296, "step": 7681 }, { "epoch": 0.8194133333333333, "grad_norm": 1.7180703462833113, "learning_rate": 8.31230484758942e-07, "loss": 0.431, "step": 7682 }, { "avg_step_time": 5.620545519722833, "epoch": 0.8194133333333333, "eta_time": 2.643217656914099, "step": 7682 }, { "epoch": 0.81952, "grad_norm": 0.6319636569951851, "learning_rate": 8.302769300221098e-07, "loss": 0.4488, "step": 7683 }, { "avg_step_time": 5.589122856506194, "epoch": 0.81952, "eta_time": 2.6268877425579107, "step": 7683 }, { "epoch": 0.8196266666666666, "grad_norm": 1.9933072966070808, "learning_rate": 8.293238730138475e-07, "loss": 0.4978, "step": 7684 }, { "avg_step_time": 5.605296575661861, "epoch": 0.8196266666666666, "eta_time": 2.6329323637345023, "step": 7684 }, { "epoch": 0.8197333333333333, "grad_norm": 1.8013693713924959, "learning_rate": 8.283713138479216e-07, "loss": 0.5163, "step": 7685 }, { "avg_step_time": 5.598479779079707, "epoch": 0.8197333333333333, "eta_time": 2.628175229623529, "step": 7685 }, { "epoch": 0.81984, "grad_norm": 1.957735729919085, "learning_rate": 8.274192526380337e-07, "loss": 0.6063, "step": 7686 }, { "avg_step_time": 5.6050192659551445, "epoch": 0.81984, "eta_time": 2.6296882056106217, "step": 7686 }, { "epoch": 0.8199466666666667, "grad_norm": 2.144103297598993, "learning_rate": 8.264676894978307e-07, "loss": 0.5312, "step": 7687 }, { "avg_step_time": 5.608444695520883, "epoch": 0.8199466666666667, "eta_time": 2.6297374016775694, "step": 7687 }, { "epoch": 0.8200533333333333, "grad_norm": 1.941341280111174, "learning_rate": 8.255166245408985e-07, "loss": 0.4853, "step": 7688 }, { "avg_step_time": 5.606688191192319, "epoch": 0.8200533333333333, "eta_time": 2.6273563829281783, "step": 7688 }, { "epoch": 0.82016, "grad_norm": 2.012831051930901, "learning_rate": 8.24566057880763e-07, "loss": 0.4939, "step": 7689 }, { "avg_step_time": 5.6232465445393265, "epoch": 0.82016, "eta_time": 2.633553798359251, "step": 7689 }, { "epoch": 0.8202666666666667, "grad_norm": 1.7390245976785093, "learning_rate": 8.236159896308882e-07, "loss": 0.5065, "step": 7690 }, { "avg_step_time": 5.625498222582268, "epoch": 0.8202666666666667, "eta_time": 2.6330456958475335, "step": 7690 }, { "epoch": 0.8203733333333333, "grad_norm": 1.7133716914015253, "learning_rate": 8.226664199046835e-07, "loss": 0.436, "step": 7691 }, { "avg_step_time": 5.62693470174616, "epoch": 0.8203733333333333, "eta_time": 2.6321550104834817, "step": 7691 }, { "epoch": 0.82048, "grad_norm": 1.6049064199418306, "learning_rate": 8.217173488154972e-07, "loss": 0.44, "step": 7692 }, { "avg_step_time": 5.621307315248432, "epoch": 0.82048, "eta_time": 2.627961169878642, "step": 7692 }, { "epoch": 0.8205866666666667, "grad_norm": 1.700367199131526, "learning_rate": 8.207687764766148e-07, "loss": 0.3525, "step": 7693 }, { "avg_step_time": 5.624393561873773, "epoch": 0.8205866666666667, "eta_time": 2.6278416586310236, "step": 7693 }, { "epoch": 0.8206933333333334, "grad_norm": 1.3949619541894631, "learning_rate": 8.198207030012678e-07, "loss": 0.4192, "step": 7694 }, { "avg_step_time": 5.660413638509885, "epoch": 0.8206933333333334, "eta_time": 2.6430987017597545, "step": 7694 }, { "epoch": 0.8208, "grad_norm": 1.806871461698494, "learning_rate": 8.188731285026219e-07, "loss": 0.5145, "step": 7695 }, { "avg_step_time": 5.6641128930178555, "epoch": 0.8208, "eta_time": 2.6432526834083325, "step": 7695 }, { "epoch": 0.8209066666666667, "grad_norm": 1.7777967423870957, "learning_rate": 8.179260530937899e-07, "loss": 0.4983, "step": 7696 }, { "avg_step_time": 5.661251227060954, "epoch": 0.8209066666666667, "eta_time": 2.640344669509817, "step": 7696 }, { "epoch": 0.8210133333333334, "grad_norm": 2.007698807411898, "learning_rate": 8.169794768878186e-07, "loss": 0.5547, "step": 7697 }, { "avg_step_time": 5.6943337965493255, "epoch": 0.8210133333333334, "eta_time": 2.654192252947158, "step": 7697 }, { "epoch": 0.82112, "grad_norm": 1.7998339607589848, "learning_rate": 8.160333999977004e-07, "loss": 0.462, "step": 7698 }, { "avg_step_time": 5.7095898233278835, "epoch": 0.82112, "eta_time": 2.659717259366906, "step": 7698 }, { "epoch": 0.8212266666666667, "grad_norm": 1.8473856491453486, "learning_rate": 8.150878225363656e-07, "loss": 0.4835, "step": 7699 }, { "avg_step_time": 5.712622485979639, "epoch": 0.8212266666666667, "eta_time": 2.6595431351394097, "step": 7699 }, { "epoch": 0.8213333333333334, "grad_norm": 0.6264651223753929, "learning_rate": 8.141427446166822e-07, "loss": 0.4462, "step": 7700 }, { "avg_step_time": 5.675545991069138, "epoch": 0.8213333333333334, "eta_time": 2.640705426400224, "step": 7700 }, { "epoch": 0.82144, "grad_norm": 1.7184914867429157, "learning_rate": 8.131981663514665e-07, "loss": 0.4492, "step": 7701 }, { "avg_step_time": 5.670934987790657, "epoch": 0.82144, "eta_time": 2.6369847693226554, "step": 7701 }, { "epoch": 0.8215466666666666, "grad_norm": 1.9423115969899574, "learning_rate": 8.122540878534679e-07, "loss": 0.5349, "step": 7702 }, { "avg_step_time": 5.6763384245862865, "epoch": 0.8215466666666666, "eta_time": 2.6379206067591268, "step": 7702 }, { "epoch": 0.8216533333333333, "grad_norm": 0.651152456963011, "learning_rate": 8.113105092353774e-07, "loss": 0.4428, "step": 7703 }, { "avg_step_time": 5.640196807456739, "epoch": 0.8216533333333333, "eta_time": 2.6195580727965746, "step": 7703 }, { "epoch": 0.82176, "grad_norm": 0.6766033396616138, "learning_rate": 8.103674306098291e-07, "loss": 0.4644, "step": 7704 }, { "avg_step_time": 5.639879127945563, "epoch": 0.82176, "eta_time": 2.6178438952213985, "step": 7704 }, { "epoch": 0.8218666666666666, "grad_norm": 2.279590209449652, "learning_rate": 8.094248520893949e-07, "loss": 0.5267, "step": 7705 }, { "avg_step_time": 5.638576151144625, "epoch": 0.8218666666666666, "eta_time": 2.615672825669868, "step": 7705 }, { "epoch": 0.8219733333333333, "grad_norm": 1.676389821795552, "learning_rate": 8.084827737865875e-07, "loss": 0.4602, "step": 7706 }, { "avg_step_time": 5.636837785894221, "epoch": 0.8219733333333333, "eta_time": 2.613300629071515, "step": 7706 }, { "epoch": 0.82208, "grad_norm": 1.891044241732306, "learning_rate": 8.075411958138623e-07, "loss": 0.5547, "step": 7707 }, { "avg_step_time": 5.6389018790890475, "epoch": 0.82208, "eta_time": 2.6126912039779255, "step": 7707 }, { "epoch": 0.8221866666666666, "grad_norm": 2.162669308118254, "learning_rate": 8.066001182836114e-07, "loss": 0.5753, "step": 7708 }, { "avg_step_time": 5.624854155261107, "epoch": 0.8221866666666666, "eta_time": 2.604619965783407, "step": 7708 }, { "epoch": 0.8222933333333333, "grad_norm": 2.067667566594024, "learning_rate": 8.056595413081675e-07, "loss": 0.4446, "step": 7709 }, { "avg_step_time": 5.617369314636847, "epoch": 0.8222933333333333, "eta_time": 2.5995936883847186, "step": 7709 }, { "epoch": 0.8224, "grad_norm": 0.6480798344199847, "learning_rate": 8.047194649998063e-07, "loss": 0.4453, "step": 7710 }, { "avg_step_time": 5.583438620422825, "epoch": 0.8224, "eta_time": 2.5823403619455565, "step": 7710 }, { "epoch": 0.8225066666666667, "grad_norm": 1.8246476651366585, "learning_rate": 8.037798894707427e-07, "loss": 0.4367, "step": 7711 }, { "avg_step_time": 5.56250146904377, "epoch": 0.8225066666666667, "eta_time": 2.571111790135787, "step": 7711 }, { "epoch": 0.8226133333333333, "grad_norm": 0.6492434719280249, "learning_rate": 8.028408148331296e-07, "loss": 0.4252, "step": 7712 }, { "avg_step_time": 5.52857363344443, "epoch": 0.8226133333333333, "eta_time": 2.553893875671691, "step": 7712 }, { "epoch": 0.82272, "grad_norm": 1.965400307194683, "learning_rate": 8.019022411990634e-07, "loss": 0.4797, "step": 7713 }, { "avg_step_time": 5.529352676988852, "epoch": 0.82272, "eta_time": 2.552717819209853, "step": 7713 }, { "epoch": 0.8228266666666667, "grad_norm": 2.042316952818352, "learning_rate": 8.009641686805786e-07, "loss": 0.4227, "step": 7714 }, { "avg_step_time": 5.531383210962469, "epoch": 0.8228266666666667, "eta_time": 2.552118753724628, "step": 7714 }, { "epoch": 0.8229333333333333, "grad_norm": 1.921358707463457, "learning_rate": 8.000265973896487e-07, "loss": 0.4608, "step": 7715 }, { "avg_step_time": 5.532240154767277, "epoch": 0.8229333333333333, "eta_time": 2.5509774046982447, "step": 7715 }, { "epoch": 0.82304, "grad_norm": 2.0314807033756224, "learning_rate": 7.99089527438191e-07, "loss": 0.5053, "step": 7716 }, { "avg_step_time": 5.536141178824685, "epoch": 0.82304, "eta_time": 2.551238393241709, "step": 7716 }, { "epoch": 0.8231466666666667, "grad_norm": 1.7864752904801582, "learning_rate": 7.98152958938061e-07, "loss": 0.405, "step": 7717 }, { "avg_step_time": 5.54935325275768, "epoch": 0.8231466666666667, "eta_time": 2.5557854702978426, "step": 7717 }, { "epoch": 0.8232533333333333, "grad_norm": 0.6348964628194784, "learning_rate": 7.972168920010531e-07, "loss": 0.4283, "step": 7718 }, { "avg_step_time": 5.519239825431747, "epoch": 0.8232533333333333, "eta_time": 2.540383441872334, "step": 7718 }, { "epoch": 0.82336, "grad_norm": 1.9857007481724442, "learning_rate": 7.962813267389052e-07, "loss": 0.4631, "step": 7719 }, { "avg_step_time": 5.517910189098782, "epoch": 0.82336, "eta_time": 2.53823868698544, "step": 7719 }, { "epoch": 0.8234666666666667, "grad_norm": 1.935579492604969, "learning_rate": 7.953462632632903e-07, "loss": 0.5469, "step": 7720 }, { "avg_step_time": 5.527522455562245, "epoch": 0.8234666666666667, "eta_time": 2.54112490665431, "step": 7720 }, { "epoch": 0.8235733333333334, "grad_norm": 1.9497138522554422, "learning_rate": 7.944117016858272e-07, "loss": 0.6149, "step": 7721 }, { "avg_step_time": 5.5278826072962595, "epoch": 0.8235733333333334, "eta_time": 2.539754953463337, "step": 7721 }, { "epoch": 0.82368, "grad_norm": 1.6035447752618044, "learning_rate": 7.93477642118069e-07, "loss": 0.4265, "step": 7722 }, { "avg_step_time": 5.531854147862906, "epoch": 0.82368, "eta_time": 2.540043029560384, "step": 7722 }, { "epoch": 0.8237866666666667, "grad_norm": 1.8860712763390015, "learning_rate": 7.925440846715154e-07, "loss": 0.3997, "step": 7723 }, { "avg_step_time": 5.557127475738525, "epoch": 0.8237866666666667, "eta_time": 2.5501040527555676, "step": 7723 }, { "epoch": 0.8238933333333334, "grad_norm": 2.0773302710806467, "learning_rate": 7.916110294575996e-07, "loss": 0.5078, "step": 7724 }, { "avg_step_time": 5.558410972055762, "epoch": 0.8238933333333334, "eta_time": 2.5491490319066847, "step": 7724 }, { "epoch": 0.824, "grad_norm": 2.1954718907125432, "learning_rate": 7.906784765876985e-07, "loss": 0.5405, "step": 7725 }, { "avg_step_time": 5.646795520878801, "epoch": 0.824, "eta_time": 2.588114613736117, "step": 7725 }, { "epoch": 0.8241066666666667, "grad_norm": 1.8270109559947787, "learning_rate": 7.897464261731308e-07, "loss": 0.5175, "step": 7726 }, { "avg_step_time": 5.648398218732892, "epoch": 0.8241066666666667, "eta_time": 2.587280184080705, "step": 7726 }, { "epoch": 0.8242133333333334, "grad_norm": 2.09826805796941, "learning_rate": 7.888148783251509e-07, "loss": 0.5029, "step": 7727 }, { "avg_step_time": 5.665895276599461, "epoch": 0.8242133333333334, "eta_time": 2.593720948843308, "step": 7727 }, { "epoch": 0.82432, "grad_norm": 1.6544331860654262, "learning_rate": 7.878838331549538e-07, "loss": 0.4506, "step": 7728 }, { "avg_step_time": 5.669524491435349, "epoch": 0.82432, "eta_time": 2.5938074548316723, "step": 7728 }, { "epoch": 0.8244266666666666, "grad_norm": 1.6765684389367208, "learning_rate": 7.869532907736787e-07, "loss": 0.5352, "step": 7729 }, { "avg_step_time": 5.667210056324198, "epoch": 0.8244266666666666, "eta_time": 2.5911743757526744, "step": 7729 }, { "epoch": 0.8245333333333333, "grad_norm": 1.539214920173911, "learning_rate": 7.860232512923993e-07, "loss": 0.4322, "step": 7730 }, { "avg_step_time": 5.65114447083136, "epoch": 0.8245333333333333, "eta_time": 2.5822590706993296, "step": 7730 }, { "epoch": 0.82464, "grad_norm": 0.5979539430579167, "learning_rate": 7.850937148221332e-07, "loss": 0.4086, "step": 7731 }, { "avg_step_time": 5.61907979454657, "epoch": 0.82464, "eta_time": 2.5660464395096003, "step": 7731 }, { "epoch": 0.8247466666666666, "grad_norm": 1.5537210246952216, "learning_rate": 7.841646814738374e-07, "loss": 0.3686, "step": 7732 }, { "avg_step_time": 5.609843675536339, "epoch": 0.8247466666666666, "eta_time": 2.56027032191839, "step": 7732 }, { "epoch": 0.8248533333333333, "grad_norm": 1.8460444401149594, "learning_rate": 7.83236151358408e-07, "loss": 0.5067, "step": 7733 }, { "avg_step_time": 5.631560207617404, "epoch": 0.8248533333333333, "eta_time": 2.5686171835854936, "step": 7733 }, { "epoch": 0.82496, "grad_norm": 0.6355902326155881, "learning_rate": 7.823081245866776e-07, "loss": 0.4363, "step": 7734 }, { "avg_step_time": 5.594720067399921, "epoch": 0.82496, "eta_time": 2.550259897389797, "step": 7734 }, { "epoch": 0.8250666666666666, "grad_norm": 0.6638704525096084, "learning_rate": 7.813806012694275e-07, "loss": 0.4591, "step": 7735 }, { "avg_step_time": 5.559229848360775, "epoch": 0.8250666666666666, "eta_time": 2.5325380420310193, "step": 7735 }, { "epoch": 0.8251733333333333, "grad_norm": 1.8999292904288607, "learning_rate": 7.804535815173714e-07, "loss": 0.4839, "step": 7736 }, { "avg_step_time": 5.555075621364092, "epoch": 0.8251733333333333, "eta_time": 2.529102484282152, "step": 7736 }, { "epoch": 0.82528, "grad_norm": 1.9111357196135685, "learning_rate": 7.795270654411635e-07, "loss": 0.5526, "step": 7737 }, { "avg_step_time": 5.551459452118537, "epoch": 0.82528, "eta_time": 2.525914050713934, "step": 7737 }, { "epoch": 0.8253866666666667, "grad_norm": 0.6524165396208648, "learning_rate": 7.786010531514026e-07, "loss": 0.4551, "step": 7738 }, { "avg_step_time": 5.521537212410358, "epoch": 0.8253866666666667, "eta_time": 2.5107656713099322, "step": 7738 }, { "epoch": 0.8254933333333333, "grad_norm": 1.8680763499430404, "learning_rate": 7.776755447586209e-07, "loss": 0.4818, "step": 7739 }, { "avg_step_time": 5.519692507657138, "epoch": 0.8254933333333333, "eta_time": 2.5083935951464102, "step": 7739 }, { "epoch": 0.8256, "grad_norm": 2.0676017858990283, "learning_rate": 7.767505403732961e-07, "loss": 0.4773, "step": 7740 }, { "avg_step_time": 5.518097699290574, "epoch": 0.8256, "eta_time": 2.5061360384278024, "step": 7740 }, { "epoch": 0.8257066666666667, "grad_norm": 1.835701378027543, "learning_rate": 7.758260401058442e-07, "loss": 0.4461, "step": 7741 }, { "avg_step_time": 5.544443884281197, "epoch": 0.8257066666666667, "eta_time": 2.516561474143188, "step": 7741 }, { "epoch": 0.8258133333333333, "grad_norm": 1.7375899451112, "learning_rate": 7.749020440666188e-07, "loss": 0.3961, "step": 7742 }, { "avg_step_time": 5.543038556070039, "epoch": 0.8258133333333333, "eta_time": 2.5143838783506594, "step": 7742 }, { "epoch": 0.82592, "grad_norm": 1.941879618492904, "learning_rate": 7.739785523659144e-07, "loss": 0.4763, "step": 7743 }, { "avg_step_time": 5.560382310790245, "epoch": 0.82592, "eta_time": 2.520706647558244, "step": 7743 }, { "epoch": 0.8260266666666667, "grad_norm": 1.5674080284143526, "learning_rate": 7.73055565113966e-07, "loss": 0.4155, "step": 7744 }, { "avg_step_time": 5.558510857399064, "epoch": 0.8260266666666667, "eta_time": 2.51831422456052, "step": 7744 }, { "epoch": 0.8261333333333334, "grad_norm": 0.7090768248103886, "learning_rate": 7.721330824209495e-07, "loss": 0.4493, "step": 7745 }, { "avg_step_time": 5.470226063872829, "epoch": 0.8261333333333334, "eta_time": 2.4767968011424197, "step": 7745 }, { "epoch": 0.82624, "grad_norm": 2.098958581333925, "learning_rate": 7.712111043969772e-07, "loss": 0.4799, "step": 7746 }, { "avg_step_time": 5.463490840160485, "epoch": 0.82624, "eta_time": 2.47222960517262, "step": 7746 }, { "epoch": 0.8263466666666667, "grad_norm": 1.5685904236772787, "learning_rate": 7.702896311521052e-07, "loss": 0.3922, "step": 7747 }, { "avg_step_time": 5.440814357815367, "epoch": 0.8263466666666667, "eta_time": 2.4604571595898386, "step": 7747 }, { "epoch": 0.8264533333333334, "grad_norm": 1.822586426566822, "learning_rate": 7.69368662796326e-07, "loss": 0.4842, "step": 7748 }, { "avg_step_time": 5.442094340468898, "epoch": 0.8264533333333334, "eta_time": 2.4595243033174716, "step": 7748 }, { "epoch": 0.82656, "grad_norm": 2.3609407280512325, "learning_rate": 7.684481994395726e-07, "loss": 0.5308, "step": 7749 }, { "avg_step_time": 5.428108029895359, "epoch": 0.82656, "eta_time": 2.451695460169404, "step": 7749 }, { "epoch": 0.8266666666666667, "grad_norm": 1.8580816005730534, "learning_rate": 7.675282411917184e-07, "loss": 0.4791, "step": 7750 }, { "avg_step_time": 5.431362091892898, "epoch": 0.8266666666666667, "eta_time": 2.4516564998127666, "step": 7750 }, { "epoch": 0.8267733333333334, "grad_norm": 1.7694982691978258, "learning_rate": 7.666087881625778e-07, "loss": 0.4385, "step": 7751 }, { "avg_step_time": 5.465332423797761, "epoch": 0.8267733333333334, "eta_time": 2.46547218229099, "step": 7751 }, { "epoch": 0.82688, "grad_norm": 2.3813278024973417, "learning_rate": 7.656898404619029e-07, "loss": 0.5639, "step": 7752 }, { "avg_step_time": 5.465930589521774, "epoch": 0.82688, "eta_time": 2.464223707442733, "step": 7752 }, { "epoch": 0.8269866666666666, "grad_norm": 1.8521097207700339, "learning_rate": 7.647713981993843e-07, "loss": 0.4163, "step": 7753 }, { "avg_step_time": 5.471276557806767, "epoch": 0.8269866666666666, "eta_time": 2.4651140491007153, "step": 7753 }, { "epoch": 0.8270933333333333, "grad_norm": 1.812877309776721, "learning_rate": 7.638534614846548e-07, "loss": 0.4539, "step": 7754 }, { "avg_step_time": 5.473180000228111, "epoch": 0.8270933333333333, "eta_time": 2.464451327880491, "step": 7754 }, { "epoch": 0.8272, "grad_norm": 1.9262694787601258, "learning_rate": 7.629360304272882e-07, "loss": 0.4688, "step": 7755 }, { "avg_step_time": 5.470127510301994, "epoch": 0.8272, "eta_time": 2.4615573796358974, "step": 7755 }, { "epoch": 0.8273066666666666, "grad_norm": 2.1096619761309263, "learning_rate": 7.620191051367926e-07, "loss": 0.5857, "step": 7756 }, { "avg_step_time": 5.462595860163371, "epoch": 0.8273066666666666, "eta_time": 2.4566507493345826, "step": 7756 }, { "epoch": 0.8274133333333333, "grad_norm": 1.6609245631583485, "learning_rate": 7.611026857226212e-07, "loss": 0.4359, "step": 7757 }, { "avg_step_time": 5.4938239015714085, "epoch": 0.8274133333333333, "eta_time": 2.469168631317372, "step": 7757 }, { "epoch": 0.82752, "grad_norm": 0.6617497678101976, "learning_rate": 7.601867722941642e-07, "loss": 0.4404, "step": 7758 }, { "avg_step_time": 5.455357785176749, "epoch": 0.82752, "eta_time": 2.4503648718418893, "step": 7758 }, { "epoch": 0.8276266666666666, "grad_norm": 1.9566244001792084, "learning_rate": 7.59271364960748e-07, "loss": 0.6258, "step": 7759 }, { "avg_step_time": 5.484084618211996, "epoch": 0.8276266666666666, "eta_time": 2.4617446508418293, "step": 7759 }, { "epoch": 0.8277333333333333, "grad_norm": 1.8358558817601816, "learning_rate": 7.583564638316481e-07, "loss": 0.5285, "step": 7760 }, { "avg_step_time": 5.5577730169199935, "epoch": 0.8277333333333333, "eta_time": 2.4932787284238302, "step": 7760 }, { "epoch": 0.82784, "grad_norm": 1.7854633249427183, "learning_rate": 7.57442069016071e-07, "loss": 0.4299, "step": 7761 }, { "avg_step_time": 5.574459133726178, "epoch": 0.82784, "eta_time": 2.4992158449539033, "step": 7761 }, { "epoch": 0.8279466666666667, "grad_norm": 2.023250569616486, "learning_rate": 7.565281806231645e-07, "loss": 0.4405, "step": 7762 }, { "avg_step_time": 5.575832916028572, "epoch": 0.8279466666666667, "eta_time": 2.4982829148761354, "step": 7762 }, { "epoch": 0.8280533333333333, "grad_norm": 1.789535934428035, "learning_rate": 7.556147987620193e-07, "loss": 0.4767, "step": 7763 }, { "avg_step_time": 5.571086777581109, "epoch": 0.8280533333333333, "eta_time": 2.49460885707243, "step": 7763 }, { "epoch": 0.82816, "grad_norm": 1.9895105201008418, "learning_rate": 7.547019235416609e-07, "loss": 0.5527, "step": 7764 }, { "avg_step_time": 5.540071696946115, "epoch": 0.82816, "eta_time": 2.4791820843833867, "step": 7764 }, { "epoch": 0.8282666666666667, "grad_norm": 1.5322051675392998, "learning_rate": 7.537895550710583e-07, "loss": 0.4353, "step": 7765 }, { "avg_step_time": 5.531298001607259, "epoch": 0.8282666666666667, "eta_time": 2.473719384052135, "step": 7765 }, { "epoch": 0.8283733333333333, "grad_norm": 1.9029694222285993, "learning_rate": 7.528776934591186e-07, "loss": 0.4403, "step": 7766 }, { "avg_step_time": 5.534136651742338, "epoch": 0.8283733333333333, "eta_time": 2.4734516312926167, "step": 7766 }, { "epoch": 0.82848, "grad_norm": 1.6909236982370024, "learning_rate": 7.519663388146886e-07, "loss": 0.3485, "step": 7767 }, { "avg_step_time": 5.590600020957716, "epoch": 0.82848, "eta_time": 2.4971346760277795, "step": 7767 }, { "epoch": 0.8285866666666667, "grad_norm": 1.8788792401589909, "learning_rate": 7.510554912465517e-07, "loss": 0.4475, "step": 7768 }, { "avg_step_time": 5.585339970058865, "epoch": 0.8285866666666667, "eta_time": 2.4932337033012764, "step": 7768 }, { "epoch": 0.8286933333333333, "grad_norm": 1.9276176189380954, "learning_rate": 7.50145150863435e-07, "loss": 0.4708, "step": 7769 }, { "avg_step_time": 5.620409158745197, "epoch": 0.8286933333333333, "eta_time": 2.507326974706885, "step": 7769 }, { "epoch": 0.8288, "grad_norm": 2.1975134602177455, "learning_rate": 7.492353177740047e-07, "loss": 0.4938, "step": 7770 }, { "avg_step_time": 5.618040660415033, "epoch": 0.8288, "eta_time": 2.5047097944350356, "step": 7770 }, { "epoch": 0.8289066666666667, "grad_norm": 1.8546379127238968, "learning_rate": 7.48325992086863e-07, "loss": 0.5567, "step": 7771 }, { "avg_step_time": 5.6566513981482, "epoch": 0.8289066666666667, "eta_time": 2.520352456286031, "step": 7771 }, { "epoch": 0.8290133333333334, "grad_norm": 2.0216364133916787, "learning_rate": 7.474171739105551e-07, "loss": 0.4431, "step": 7772 }, { "avg_step_time": 5.658444339578802, "epoch": 0.8290133333333334, "eta_time": 2.5195795212068943, "step": 7772 }, { "epoch": 0.82912, "grad_norm": 1.891286910491915, "learning_rate": 7.465088633535639e-07, "loss": 0.4217, "step": 7773 }, { "avg_step_time": 5.660592353705204, "epoch": 0.82912, "eta_time": 2.5189635973988156, "step": 7773 }, { "epoch": 0.8292266666666667, "grad_norm": 1.8464725965020015, "learning_rate": 7.456010605243103e-07, "loss": 0.4632, "step": 7774 }, { "avg_step_time": 5.685306765816429, "epoch": 0.8292266666666667, "eta_time": 2.528382258908917, "step": 7774 }, { "epoch": 0.8293333333333334, "grad_norm": 2.0872242338030844, "learning_rate": 7.446937655311576e-07, "loss": 0.5135, "step": 7775 }, { "avg_step_time": 5.687187926937836, "epoch": 0.8293333333333334, "eta_time": 2.527639078639038, "step": 7775 }, { "epoch": 0.82944, "grad_norm": 1.8907392081126384, "learning_rate": 7.437869784824086e-07, "loss": 0.4803, "step": 7776 }, { "avg_step_time": 5.726222262238011, "epoch": 0.82944, "eta_time": 2.5433970548107165, "step": 7776 }, { "epoch": 0.8295466666666667, "grad_norm": 2.073526695973297, "learning_rate": 7.428806994863014e-07, "loss": 0.4534, "step": 7777 }, { "avg_step_time": 5.725127241828225, "epoch": 0.8295466666666667, "eta_time": 2.54132037012264, "step": 7777 }, { "epoch": 0.8296533333333334, "grad_norm": 1.7403785349217515, "learning_rate": 7.41974928651017e-07, "loss": 0.4428, "step": 7778 }, { "avg_step_time": 5.727529713601777, "epoch": 0.8296533333333334, "eta_time": 2.5407958201727885, "step": 7778 }, { "epoch": 0.82976, "grad_norm": 1.8057150982972952, "learning_rate": 7.410696660846761e-07, "loss": 0.3649, "step": 7779 }, { "avg_step_time": 5.724308283642085, "epoch": 0.82976, "eta_time": 2.5377766724146573, "step": 7779 }, { "epoch": 0.8298666666666666, "grad_norm": 1.7815824787358052, "learning_rate": 7.401649118953364e-07, "loss": 0.4862, "step": 7780 }, { "avg_step_time": 5.723928449129818, "epoch": 0.8298666666666666, "eta_time": 2.536018298989461, "step": 7780 }, { "epoch": 0.8299733333333333, "grad_norm": 1.7167486017773883, "learning_rate": 7.392606661909946e-07, "loss": 0.4769, "step": 7781 }, { "avg_step_time": 5.762385811468567, "epoch": 0.8299733333333333, "eta_time": 2.551456384300249, "step": 7781 }, { "epoch": 0.83008, "grad_norm": 1.5920553948999239, "learning_rate": 7.383569290795911e-07, "loss": 0.4062, "step": 7782 }, { "avg_step_time": 5.795921186004022, "epoch": 0.83008, "eta_time": 2.56469512480678, "step": 7782 }, { "epoch": 0.8301866666666666, "grad_norm": 2.098287852621799, "learning_rate": 7.374537006689991e-07, "loss": 0.5101, "step": 7783 }, { "avg_step_time": 5.777024447315871, "epoch": 0.8301866666666666, "eta_time": 2.55472858892413, "step": 7783 }, { "epoch": 0.8302933333333333, "grad_norm": 2.136184882946262, "learning_rate": 7.365509810670369e-07, "loss": 0.4389, "step": 7784 }, { "avg_step_time": 5.782295133128311, "epoch": 0.8302933333333333, "eta_time": 2.555453210224206, "step": 7784 }, { "epoch": 0.8304, "grad_norm": 1.5411825585027392, "learning_rate": 7.356487703814602e-07, "loss": 0.4568, "step": 7785 }, { "avg_step_time": 5.776867223508431, "epoch": 0.8304, "eta_time": 2.5514496903828903, "step": 7785 }, { "epoch": 0.8305066666666666, "grad_norm": 2.001370356245638, "learning_rate": 7.34747068719962e-07, "loss": 0.4383, "step": 7786 }, { "avg_step_time": 5.775712376893169, "epoch": 0.8305066666666666, "eta_time": 2.549335268578679, "step": 7786 }, { "epoch": 0.8306133333333333, "grad_norm": 1.88222356308296, "learning_rate": 7.338458761901757e-07, "loss": 0.4631, "step": 7787 }, { "avg_step_time": 5.776331961757005, "epoch": 0.8306133333333333, "eta_time": 2.5480042097972566, "step": 7787 }, { "epoch": 0.83072, "grad_norm": 2.063870908332553, "learning_rate": 7.329451928996745e-07, "loss": 0.516, "step": 7788 }, { "avg_step_time": 5.757362931665748, "epoch": 0.83072, "eta_time": 2.5380374923759836, "step": 7788 }, { "epoch": 0.8308266666666667, "grad_norm": 1.8739271371194444, "learning_rate": 7.320450189559719e-07, "loss": 0.441, "step": 7789 }, { "avg_step_time": 5.752521078995984, "epoch": 0.8308266666666667, "eta_time": 2.534305119802119, "step": 7789 }, { "epoch": 0.8309333333333333, "grad_norm": 2.050568104178868, "learning_rate": 7.311453544665175e-07, "loss": 0.5815, "step": 7790 }, { "avg_step_time": 5.752851271870161, "epoch": 0.8309333333333333, "eta_time": 2.532852573865057, "step": 7790 }, { "epoch": 0.83104, "grad_norm": 1.7737393392541256, "learning_rate": 7.302461995387033e-07, "loss": 0.424, "step": 7791 }, { "avg_step_time": 5.753379332898843, "epoch": 0.83104, "eta_time": 2.531486906475491, "step": 7791 }, { "epoch": 0.8311466666666667, "grad_norm": 2.367609353620626, "learning_rate": 7.293475542798589e-07, "loss": 0.5003, "step": 7792 }, { "avg_step_time": 5.754422084249631, "epoch": 0.8311466666666667, "eta_time": 2.5303472664908795, "step": 7792 }, { "epoch": 0.8312533333333333, "grad_norm": 0.6576769038530258, "learning_rate": 7.284494187972496e-07, "loss": 0.4357, "step": 7793 }, { "avg_step_time": 5.720297914562804, "epoch": 0.8312533333333333, "eta_time": 2.5137531391217656, "step": 7793 }, { "epoch": 0.83136, "grad_norm": 1.772849940871932, "learning_rate": 7.275517931980886e-07, "loss": 0.4159, "step": 7794 }, { "avg_step_time": 5.7414762588462445, "epoch": 0.83136, "eta_time": 2.521464990343309, "step": 7794 }, { "epoch": 0.8314666666666667, "grad_norm": 1.6245295186702768, "learning_rate": 7.266546775895212e-07, "loss": 0.4555, "step": 7795 }, { "avg_step_time": 5.732056468424171, "epoch": 0.8314666666666667, "eta_time": 2.515735894475053, "step": 7795 }, { "epoch": 0.8315733333333334, "grad_norm": 1.7669709559876252, "learning_rate": 7.257580720786317e-07, "loss": 0.5652, "step": 7796 }, { "avg_step_time": 5.736792126087227, "epoch": 0.8315733333333334, "eta_time": 2.5162207686365923, "step": 7796 }, { "epoch": 0.83168, "grad_norm": 1.5089607016777418, "learning_rate": 7.24861976772448e-07, "loss": 0.4319, "step": 7797 }, { "avg_step_time": 5.721833308537801, "epoch": 0.83168, "eta_time": 2.5080702669090695, "step": 7797 }, { "epoch": 0.8317866666666667, "grad_norm": 1.7204849938488382, "learning_rate": 7.239663917779327e-07, "loss": 0.4068, "step": 7798 }, { "avg_step_time": 5.718446553355515, "epoch": 0.8317866666666667, "eta_time": 2.504997281844902, "step": 7798 }, { "epoch": 0.8318933333333334, "grad_norm": 1.6826323761518787, "learning_rate": 7.230713172019899e-07, "loss": 0.4887, "step": 7799 }, { "avg_step_time": 5.745152507165466, "epoch": 0.8318933333333334, "eta_time": 2.5151000975813265, "step": 7799 }, { "epoch": 0.832, "grad_norm": 1.753710863017051, "learning_rate": 7.22176753151464e-07, "loss": 0.5014, "step": 7800 }, { "avg_step_time": 5.7431685129801435, "epoch": 0.832, "eta_time": 2.5126362244288125, "step": 7800 }, { "epoch": 0.8321066666666667, "grad_norm": 1.8836493596485493, "learning_rate": 7.212826997331352e-07, "loss": 0.4927, "step": 7801 }, { "avg_step_time": 5.740133157884232, "epoch": 0.8321066666666667, "eta_time": 2.509713775141606, "step": 7801 }, { "epoch": 0.8322133333333334, "grad_norm": 1.8930879773198115, "learning_rate": 7.203891570537225e-07, "loss": 0.4948, "step": 7802 }, { "avg_step_time": 5.7858359163457695, "epoch": 0.8322133333333334, "eta_time": 2.5280888601144156, "step": 7802 }, { "epoch": 0.83232, "grad_norm": 1.9073362564623437, "learning_rate": 7.194961252198885e-07, "loss": 0.4324, "step": 7803 }, { "avg_step_time": 5.820718784524937, "epoch": 0.83232, "eta_time": 2.541713869242556, "step": 7803 }, { "epoch": 0.8324266666666666, "grad_norm": 2.1321453469230605, "learning_rate": 7.186036043382311e-07, "loss": 0.5144, "step": 7804 }, { "avg_step_time": 5.821969499491682, "epoch": 0.8324266666666666, "eta_time": 2.540642801028176, "step": 7804 }, { "epoch": 0.8325333333333333, "grad_norm": 1.7868792586025535, "learning_rate": 7.177115945152885e-07, "loss": 0.463, "step": 7805 }, { "avg_step_time": 5.840701076719496, "epoch": 0.8325333333333333, "eta_time": 2.5471946362360027, "step": 7805 }, { "epoch": 0.83264, "grad_norm": 1.8402012023509855, "learning_rate": 7.168200958575361e-07, "loss": 0.4516, "step": 7806 }, { "avg_step_time": 5.8388003965820925, "epoch": 0.83264, "eta_time": 2.544743839510362, "step": 7806 }, { "epoch": 0.8327466666666666, "grad_norm": 1.9630053862174923, "learning_rate": 7.15929108471391e-07, "loss": 0.4906, "step": 7807 }, { "avg_step_time": 5.836084329720699, "epoch": 0.8327466666666666, "eta_time": 2.5419389525005713, "step": 7807 }, { "epoch": 0.8328533333333333, "grad_norm": 1.7112636402939188, "learning_rate": 7.150386324632069e-07, "loss": 0.438, "step": 7808 }, { "avg_step_time": 5.857340049261999, "epoch": 0.8328533333333333, "eta_time": 2.5495699603315423, "step": 7808 }, { "epoch": 0.83296, "grad_norm": 2.1139903415959234, "learning_rate": 7.141486679392778e-07, "loss": 0.5717, "step": 7809 }, { "avg_step_time": 5.920960693648367, "epoch": 0.83296, "eta_time": 2.57561790173704, "step": 7809 }, { "epoch": 0.8330666666666666, "grad_norm": 1.6910100478904648, "learning_rate": 7.132592150058382e-07, "loss": 0.496, "step": 7810 }, { "avg_step_time": 5.9283302336028125, "epoch": 0.8330666666666666, "eta_time": 2.5771768932190007, "step": 7810 }, { "epoch": 0.8331733333333333, "grad_norm": 1.7554929323759367, "learning_rate": 7.123702737690574e-07, "loss": 0.4551, "step": 7811 }, { "avg_step_time": 5.961725519161032, "epoch": 0.8331733333333333, "eta_time": 2.590038531102182, "step": 7811 }, { "epoch": 0.83328, "grad_norm": 1.7760974657981827, "learning_rate": 7.114818443350463e-07, "loss": 0.5451, "step": 7812 }, { "avg_step_time": 5.9645673819262575, "epoch": 0.83328, "eta_time": 2.5896163383196504, "step": 7812 }, { "epoch": 0.8333866666666667, "grad_norm": 1.920030814062967, "learning_rate": 7.105939268098544e-07, "loss": 0.5143, "step": 7813 }, { "avg_step_time": 5.9884175218717015, "epoch": 0.8333866666666667, "eta_time": 2.5983078247676663, "step": 7813 }, { "epoch": 0.8334933333333333, "grad_norm": 1.735256815622028, "learning_rate": 7.097065212994714e-07, "loss": 0.4371, "step": 7814 }, { "avg_step_time": 5.98772499778054, "epoch": 0.8334933333333333, "eta_time": 2.5963440893153953, "step": 7814 }, { "epoch": 0.8336, "grad_norm": 1.8094520940359475, "learning_rate": 7.088196279098225e-07, "loss": 0.4179, "step": 7815 }, { "avg_step_time": 5.984633498721653, "epoch": 0.8336, "eta_time": 2.5933411827793833, "step": 7815 }, { "epoch": 0.8337066666666667, "grad_norm": 2.0202692421430344, "learning_rate": 7.079332467467753e-07, "loss": 0.4284, "step": 7816 }, { "avg_step_time": 5.97271169315685, "epoch": 0.8337066666666667, "eta_time": 2.5865159804532025, "step": 7816 }, { "epoch": 0.8338133333333333, "grad_norm": 0.6501374008468613, "learning_rate": 7.070473779161346e-07, "loss": 0.4378, "step": 7817 }, { "avg_step_time": 5.969715462790595, "epoch": 0.8338133333333333, "eta_time": 2.583560191952152, "step": 7817 }, { "epoch": 0.83392, "grad_norm": 1.8342149359755804, "learning_rate": 7.061620215236415e-07, "loss": 0.4273, "step": 7818 }, { "avg_step_time": 5.967080908592301, "epoch": 0.83392, "eta_time": 2.58076249296617, "step": 7818 }, { "epoch": 0.8340266666666667, "grad_norm": 2.903101689716693, "learning_rate": 7.052771776749823e-07, "loss": 0.403, "step": 7819 }, { "avg_step_time": 5.953482011351922, "epoch": 0.8340266666666667, "eta_time": 2.573227224906553, "step": 7819 }, { "epoch": 0.8341333333333333, "grad_norm": 1.7897986398620995, "learning_rate": 7.043928464757776e-07, "loss": 0.4237, "step": 7820 }, { "avg_step_time": 5.953558784542662, "epoch": 0.8341333333333333, "eta_time": 2.571606641656622, "step": 7820 }, { "epoch": 0.83424, "grad_norm": 1.628997811306136, "learning_rate": 7.035090280315854e-07, "loss": 0.4216, "step": 7821 }, { "avg_step_time": 5.975739743974474, "epoch": 0.83424, "eta_time": 2.5795276561489815, "step": 7821 }, { "epoch": 0.8343466666666667, "grad_norm": 1.9668237720797406, "learning_rate": 7.026257224479067e-07, "loss": 0.5244, "step": 7822 }, { "avg_step_time": 5.941539540435329, "epoch": 0.8343466666666667, "eta_time": 2.563114140637796, "step": 7822 }, { "epoch": 0.8344533333333334, "grad_norm": 1.7862794764798107, "learning_rate": 7.017429298301792e-07, "loss": 0.4725, "step": 7823 }, { "avg_step_time": 5.950339336587925, "epoch": 0.8344533333333334, "eta_time": 2.565257402884572, "step": 7823 }, { "epoch": 0.83456, "grad_norm": 2.322122005543231, "learning_rate": 7.008606502837784e-07, "loss": 0.5498, "step": 7824 }, { "avg_step_time": 5.8999952499312585, "epoch": 0.83456, "eta_time": 2.541914620178717, "step": 7824 }, { "epoch": 0.8346666666666667, "grad_norm": 1.5852329023666858, "learning_rate": 6.999788839140214e-07, "loss": 0.4857, "step": 7825 }, { "avg_step_time": 5.898071948928062, "epoch": 0.8346666666666667, "eta_time": 2.53944764467736, "step": 7825 }, { "epoch": 0.8347733333333334, "grad_norm": 1.8683903241571407, "learning_rate": 6.99097630826161e-07, "loss": 0.3931, "step": 7826 }, { "avg_step_time": 5.882368333411939, "epoch": 0.8347733333333334, "eta_time": 2.531052374570859, "step": 7826 }, { "epoch": 0.83488, "grad_norm": 1.9252743266701586, "learning_rate": 6.982168911253895e-07, "loss": 0.4799, "step": 7827 }, { "avg_step_time": 5.883071872923109, "epoch": 0.83488, "eta_time": 2.529720905356937, "step": 7827 }, { "epoch": 0.8349866666666667, "grad_norm": 1.9619134409949663, "learning_rate": 6.973366649168389e-07, "loss": 0.5336, "step": 7828 }, { "avg_step_time": 5.890225747619012, "epoch": 0.8349866666666667, "eta_time": 2.5311608976573923, "step": 7828 }, { "epoch": 0.8350933333333334, "grad_norm": 1.8625451452821222, "learning_rate": 6.964569523055808e-07, "loss": 0.5054, "step": 7829 }, { "avg_step_time": 5.893694208125876, "epoch": 0.8350933333333334, "eta_time": 2.5310142349340565, "step": 7829 }, { "epoch": 0.8352, "grad_norm": 0.647463543689505, "learning_rate": 6.955777533966212e-07, "loss": 0.4487, "step": 7830 }, { "avg_step_time": 5.897674396784619, "epoch": 0.8352, "eta_time": 2.531085261953399, "step": 7830 }, { "epoch": 0.8353066666666666, "grad_norm": 1.6453172100453186, "learning_rate": 6.946990682949111e-07, "loss": 0.4534, "step": 7831 }, { "avg_step_time": 5.897263228291213, "epoch": 0.8353066666666666, "eta_time": 2.52927067346712, "step": 7831 }, { "epoch": 0.8354133333333333, "grad_norm": 1.9421096223906331, "learning_rate": 6.938208971053345e-07, "loss": 0.4874, "step": 7832 }, { "avg_step_time": 5.877616395853987, "epoch": 0.8354133333333333, "eta_time": 2.519211694111861, "step": 7832 }, { "epoch": 0.83552, "grad_norm": 1.9403365463807167, "learning_rate": 6.929432399327174e-07, "loss": 0.5347, "step": 7833 }, { "avg_step_time": 5.912210599340574, "epoch": 0.83552, "eta_time": 2.5323968733842124, "step": 7833 }, { "epoch": 0.8356266666666666, "grad_norm": 2.003442898152232, "learning_rate": 6.920660968818216e-07, "loss": 0.4944, "step": 7834 }, { "avg_step_time": 5.94716559516059, "epoch": 0.8356266666666666, "eta_time": 2.5457172728173525, "step": 7834 }, { "epoch": 0.8357333333333333, "grad_norm": 0.6232570758651474, "learning_rate": 6.911894680573522e-07, "loss": 0.4451, "step": 7835 }, { "avg_step_time": 5.914400392108494, "epoch": 0.8357333333333333, "eta_time": 2.530049056624189, "step": 7835 }, { "epoch": 0.83584, "grad_norm": 2.1256887564382345, "learning_rate": 6.903133535639467e-07, "loss": 0.5509, "step": 7836 }, { "avg_step_time": 5.918100133086696, "epoch": 0.83584, "eta_time": 2.5299878068945625, "step": 7836 }, { "epoch": 0.8359466666666666, "grad_norm": 1.7968658146691079, "learning_rate": 6.89437753506187e-07, "loss": 0.4674, "step": 7837 }, { "avg_step_time": 5.952428938162448, "epoch": 0.8359466666666666, "eta_time": 2.5430099185816233, "step": 7837 }, { "epoch": 0.8360533333333333, "grad_norm": 2.346518099568561, "learning_rate": 6.88562667988591e-07, "loss": 0.4033, "step": 7838 }, { "avg_step_time": 5.956738854899551, "epoch": 0.8360533333333333, "eta_time": 2.543196561105725, "step": 7838 }, { "epoch": 0.83616, "grad_norm": 1.8809184077313754, "learning_rate": 6.876880971156147e-07, "loss": 0.5118, "step": 7839 }, { "avg_step_time": 5.955234546854038, "epoch": 0.83616, "eta_time": 2.54090007332439, "step": 7839 }, { "epoch": 0.8362666666666667, "grad_norm": 2.0361842187640002, "learning_rate": 6.868140409916518e-07, "loss": 0.5249, "step": 7840 }, { "avg_step_time": 5.929024925135603, "epoch": 0.8362666666666667, "eta_time": 2.528070350023097, "step": 7840 }, { "epoch": 0.8363733333333333, "grad_norm": 1.9841857948882624, "learning_rate": 6.859404997210384e-07, "loss": 0.4412, "step": 7841 }, { "avg_step_time": 5.9289612529253715, "epoch": 0.8363733333333333, "eta_time": 2.526396267218755, "step": 7841 }, { "epoch": 0.83648, "grad_norm": 1.4789032558591102, "learning_rate": 6.850674734080454e-07, "loss": 0.4305, "step": 7842 }, { "avg_step_time": 5.914365421641957, "epoch": 0.83648, "eta_time": 2.5185339420492, "step": 7842 }, { "epoch": 0.8365866666666667, "grad_norm": 1.9643875088975544, "learning_rate": 6.841949621568833e-07, "loss": 0.4993, "step": 7843 }, { "avg_step_time": 5.911888606620558, "epoch": 0.8365866666666667, "eta_time": 2.51583704037297, "step": 7843 }, { "epoch": 0.8366933333333333, "grad_norm": 1.732455524186558, "learning_rate": 6.833229660717033e-07, "loss": 0.5103, "step": 7844 }, { "avg_step_time": 5.9557447409389, "epoch": 0.8366933333333333, "eta_time": 2.532845888438182, "step": 7844 }, { "epoch": 0.8368, "grad_norm": 1.9835943448360531, "learning_rate": 6.824514852565922e-07, "loss": 0.4741, "step": 7845 }, { "avg_step_time": 5.958139308775314, "epoch": 0.8368, "eta_time": 2.532209206229508, "step": 7845 }, { "epoch": 0.8369066666666667, "grad_norm": 2.096904084407385, "learning_rate": 6.815805198155745e-07, "loss": 0.49, "step": 7846 }, { "avg_step_time": 5.957222822940711, "epoch": 0.8369066666666667, "eta_time": 2.5301649156323185, "step": 7846 }, { "epoch": 0.8370133333333334, "grad_norm": 1.8668975951732807, "learning_rate": 6.80710069852617e-07, "loss": 0.4351, "step": 7847 }, { "avg_step_time": 5.95701661976901, "epoch": 0.8370133333333334, "eta_time": 2.52842260972418, "step": 7847 }, { "epoch": 0.83712, "grad_norm": 1.92461684005826, "learning_rate": 6.798401354716233e-07, "loss": 0.5134, "step": 7848 }, { "avg_step_time": 5.951622830496894, "epoch": 0.83712, "eta_time": 2.524480017269099, "step": 7848 }, { "epoch": 0.8372266666666667, "grad_norm": 1.9765667072309152, "learning_rate": 6.789707167764337e-07, "loss": 0.5634, "step": 7849 }, { "avg_step_time": 5.949925858565051, "epoch": 0.8372266666666667, "eta_time": 2.5221074611584076, "step": 7849 }, { "epoch": 0.8373333333333334, "grad_norm": 2.0397657707623065, "learning_rate": 6.7810181387083e-07, "loss": 0.5181, "step": 7850 }, { "avg_step_time": 5.949114358786381, "epoch": 0.8373333333333334, "eta_time": 2.520110943652564, "step": 7850 }, { "epoch": 0.83744, "grad_norm": 1.8445466283856842, "learning_rate": 6.772334268585296e-07, "loss": 0.4725, "step": 7851 }, { "avg_step_time": 5.947458866870765, "epoch": 0.83744, "eta_time": 2.5177575869752906, "step": 7851 }, { "epoch": 0.8375466666666667, "grad_norm": 1.6994094705228362, "learning_rate": 6.763655558431875e-07, "loss": 0.4854, "step": 7852 }, { "avg_step_time": 5.926025429157296, "epoch": 0.8375466666666667, "eta_time": 2.507037980168489, "step": 7852 }, { "epoch": 0.8376533333333334, "grad_norm": 1.643251246646634, "learning_rate": 6.754982009284039e-07, "loss": 0.5065, "step": 7853 }, { "avg_step_time": 5.925631022212481, "epoch": 0.8376533333333334, "eta_time": 2.5052251155020544, "step": 7853 }, { "epoch": 0.83776, "grad_norm": 1.6537243752803252, "learning_rate": 6.746313622177097e-07, "loss": 0.4697, "step": 7854 }, { "avg_step_time": 5.924308728690099, "epoch": 0.83776, "eta_time": 2.503020437871567, "step": 7854 }, { "epoch": 0.8378666666666666, "grad_norm": 1.8665824252070817, "learning_rate": 6.737650398145762e-07, "loss": 0.4981, "step": 7855 }, { "avg_step_time": 5.928348062014339, "epoch": 0.8378666666666666, "eta_time": 2.503080292850499, "step": 7855 }, { "epoch": 0.8379733333333333, "grad_norm": 1.8818581557632108, "learning_rate": 6.728992338224166e-07, "loss": 0.4941, "step": 7856 }, { "avg_step_time": 5.936766118714304, "epoch": 0.8379733333333333, "eta_time": 2.5049854817575077, "step": 7856 }, { "epoch": 0.83808, "grad_norm": 1.9895892648199243, "learning_rate": 6.720339443445772e-07, "loss": 0.4715, "step": 7857 }, { "avg_step_time": 5.967846752417208, "epoch": 0.83808, "eta_time": 2.5164420472692566, "step": 7857 }, { "epoch": 0.8381866666666666, "grad_norm": 2.0128935493307374, "learning_rate": 6.711691714843476e-07, "loss": 0.4404, "step": 7858 }, { "avg_step_time": 5.970735653482302, "epoch": 0.8381866666666666, "eta_time": 2.5160016628701816, "step": 7858 }, { "epoch": 0.8382933333333333, "grad_norm": 1.8529999548537497, "learning_rate": 6.703049153449509e-07, "loss": 0.5387, "step": 7859 }, { "avg_step_time": 5.89221308207271, "epoch": 0.8382933333333333, "eta_time": 2.4812763978950634, "step": 7859 }, { "epoch": 0.8384, "grad_norm": 1.9982492686771067, "learning_rate": 6.694411760295538e-07, "loss": 0.4672, "step": 7860 }, { "avg_step_time": 5.878573725921939, "epoch": 0.8384, "eta_time": 2.473899776325483, "step": 7860 }, { "epoch": 0.8385066666666666, "grad_norm": 1.8488403825027329, "learning_rate": 6.685779536412563e-07, "loss": 0.4678, "step": 7861 }, { "avg_step_time": 5.87758545442061, "epoch": 0.8385066666666666, "eta_time": 2.471851216109112, "step": 7861 }, { "epoch": 0.8386133333333333, "grad_norm": 1.776274260966707, "learning_rate": 6.67715248283099e-07, "loss": 0.4103, "step": 7862 }, { "avg_step_time": 5.876442798460372, "epoch": 0.8386133333333333, "eta_time": 2.4697383205751513, "step": 7862 }, { "epoch": 0.83872, "grad_norm": 1.81651340340786, "learning_rate": 6.66853060058063e-07, "loss": 0.4341, "step": 7863 }, { "avg_step_time": 5.875880602634314, "epoch": 0.83872, "eta_time": 2.467869853106412, "step": 7863 }, { "epoch": 0.8388266666666667, "grad_norm": 2.220830120329886, "learning_rate": 6.65991389069064e-07, "loss": 0.4902, "step": 7864 }, { "avg_step_time": 5.8741255673495205, "epoch": 0.8388266666666667, "eta_time": 2.4655010367403127, "step": 7864 }, { "epoch": 0.8389333333333333, "grad_norm": 1.626764419805977, "learning_rate": 6.651302354189559e-07, "loss": 0.4658, "step": 7865 }, { "avg_step_time": 5.883738113172127, "epoch": 0.8389333333333333, "eta_time": 2.4679012641360867, "step": 7865 }, { "epoch": 0.83904, "grad_norm": 1.9097786809896857, "learning_rate": 6.642695992105347e-07, "loss": 0.4703, "step": 7866 }, { "avg_step_time": 5.860858428357828, "epoch": 0.83904, "eta_time": 2.4566764912199894, "step": 7866 }, { "epoch": 0.8391466666666667, "grad_norm": 1.9184278621742281, "learning_rate": 6.634094805465296e-07, "loss": 0.4632, "step": 7867 }, { "avg_step_time": 5.869413207275699, "epoch": 0.8391466666666667, "eta_time": 2.458631976825487, "step": 7867 }, { "epoch": 0.8392533333333333, "grad_norm": 2.242184094867607, "learning_rate": 6.625498795296125e-07, "loss": 0.517, "step": 7868 }, { "avg_step_time": 5.869906945662065, "epoch": 0.8392533333333333, "eta_time": 2.4572082686424257, "step": 7868 }, { "epoch": 0.83936, "grad_norm": 1.857867287925083, "learning_rate": 6.61690796262392e-07, "loss": 0.4726, "step": 7869 }, { "avg_step_time": 5.872998738529707, "epoch": 0.83936, "eta_time": 2.456871138951594, "step": 7869 }, { "epoch": 0.8394666666666667, "grad_norm": 2.0480695280823533, "learning_rate": 6.608322308474141e-07, "loss": 0.4908, "step": 7870 }, { "avg_step_time": 5.8675098539602875, "epoch": 0.8394666666666667, "eta_time": 2.4529450917250646, "step": 7870 }, { "epoch": 0.8395733333333333, "grad_norm": 1.9123139440114114, "learning_rate": 6.59974183387161e-07, "loss": 0.5066, "step": 7871 }, { "avg_step_time": 5.869608662345192, "epoch": 0.8395733333333333, "eta_time": 2.452192063379769, "step": 7871 }, { "epoch": 0.83968, "grad_norm": 1.5735050860765967, "learning_rate": 6.591166539840599e-07, "loss": 0.3759, "step": 7872 }, { "avg_step_time": 5.867923141729952, "epoch": 0.83968, "eta_time": 2.449857911672255, "step": 7872 }, { "epoch": 0.8397866666666667, "grad_norm": 1.945267611375736, "learning_rate": 6.582596427404692e-07, "loss": 0.4399, "step": 7873 }, { "avg_step_time": 5.856557504095212, "epoch": 0.8397866666666667, "eta_time": 2.4434859364308354, "step": 7873 }, { "epoch": 0.8398933333333334, "grad_norm": 0.6408835927672571, "learning_rate": 6.574031497586874e-07, "loss": 0.4058, "step": 7874 }, { "avg_step_time": 5.843038703456069, "epoch": 0.8398933333333334, "eta_time": 2.4362225260798778, "step": 7874 }, { "epoch": 0.84, "grad_norm": 2.0390729881735545, "learning_rate": 6.565471751409541e-07, "loss": 0.4383, "step": 7875 }, { "avg_step_time": 5.837590802799571, "epoch": 0.84, "eta_time": 2.4323295011664876, "step": 7875 }, { "epoch": 0.8401066666666667, "grad_norm": 1.939009322174982, "learning_rate": 6.556917189894418e-07, "loss": 0.4809, "step": 7876 }, { "avg_step_time": 5.840150055259165, "epoch": 0.8401066666666667, "eta_time": 2.4317735924537462, "step": 7876 }, { "epoch": 0.8402133333333334, "grad_norm": 1.8932760356370504, "learning_rate": 6.548367814062656e-07, "loss": 0.4614, "step": 7877 }, { "avg_step_time": 5.83689434359772, "epoch": 0.8402133333333334, "eta_time": 2.428796590752607, "step": 7877 }, { "epoch": 0.84032, "grad_norm": 2.124792865375864, "learning_rate": 6.539823624934777e-07, "loss": 0.5039, "step": 7878 }, { "avg_step_time": 5.875331560770671, "epoch": 0.84032, "eta_time": 2.443158707353804, "step": 7878 }, { "epoch": 0.8404266666666667, "grad_norm": 2.1243620142523003, "learning_rate": 6.53128462353067e-07, "loss": 0.493, "step": 7879 }, { "avg_step_time": 5.8719131561240765, "epoch": 0.8404266666666667, "eta_time": 2.440106133767116, "step": 7879 }, { "epoch": 0.8405333333333334, "grad_norm": 1.8230771082656523, "learning_rate": 6.522750810869604e-07, "loss": 0.3955, "step": 7880 }, { "avg_step_time": 5.836965105750344, "epoch": 0.8405333333333334, "eta_time": 2.4239618980824345, "step": 7880 }, { "epoch": 0.84064, "grad_norm": 1.7163580610000668, "learning_rate": 6.514222187970248e-07, "loss": 0.415, "step": 7881 }, { "avg_step_time": 5.832338388520058, "epoch": 0.84064, "eta_time": 2.420420431235824, "step": 7881 }, { "epoch": 0.8407466666666666, "grad_norm": 1.568732286775206, "learning_rate": 6.505698755850648e-07, "loss": 0.4908, "step": 7882 }, { "avg_step_time": 5.836174266506927, "epoch": 0.8407466666666666, "eta_time": 2.4203911610819007, "step": 7882 }, { "epoch": 0.8408533333333333, "grad_norm": 1.9698449242896865, "learning_rate": 6.497180515528201e-07, "loss": 0.5036, "step": 7883 }, { "avg_step_time": 5.831685321499603, "epoch": 0.8408533333333333, "eta_time": 2.4169095832437244, "step": 7883 }, { "epoch": 0.84096, "grad_norm": 1.6360836231241935, "learning_rate": 6.488667468019727e-07, "loss": 0.4679, "step": 7884 }, { "avg_step_time": 5.833183358414004, "epoch": 0.84096, "eta_time": 2.4159101076098004, "step": 7884 }, { "epoch": 0.8410666666666666, "grad_norm": 1.908709338310002, "learning_rate": 6.480159614341402e-07, "loss": 0.4329, "step": 7885 }, { "avg_step_time": 5.83160378234555, "epoch": 0.8410666666666666, "eta_time": 2.413636009915242, "step": 7885 }, { "epoch": 0.8411733333333333, "grad_norm": 2.045581194132062, "learning_rate": 6.471656955508771e-07, "loss": 0.5357, "step": 7886 }, { "avg_step_time": 5.830769550920737, "epoch": 0.8411733333333333, "eta_time": 2.41167107258916, "step": 7886 }, { "epoch": 0.84128, "grad_norm": 1.7592787234299796, "learning_rate": 6.46315949253678e-07, "loss": 0.4701, "step": 7887 }, { "avg_step_time": 5.832511434651384, "epoch": 0.84128, "eta_time": 2.4107713929892394, "step": 7887 }, { "epoch": 0.8413866666666666, "grad_norm": 1.6427985031177839, "learning_rate": 6.45466722643976e-07, "loss": 0.4291, "step": 7888 }, { "avg_step_time": 5.8330754655780215, "epoch": 0.8413866666666666, "eta_time": 2.4093842270318104, "step": 7888 }, { "epoch": 0.8414933333333333, "grad_norm": 0.6305329948525346, "learning_rate": 6.446180158231397e-07, "loss": 0.409, "step": 7889 }, { "avg_step_time": 5.7995494086332995, "epoch": 0.8414933333333333, "eta_time": 2.3939251170080786, "step": 7889 }, { "epoch": 0.8416, "grad_norm": 1.9959998010471087, "learning_rate": 6.437698288924777e-07, "loss": 0.5044, "step": 7890 }, { "avg_step_time": 5.801496787504717, "epoch": 0.8416, "eta_time": 2.3931174248456957, "step": 7890 }, { "epoch": 0.8417066666666667, "grad_norm": 2.02037541486622, "learning_rate": 6.429221619532349e-07, "loss": 0.3395, "step": 7891 }, { "avg_step_time": 5.79931857128336, "epoch": 0.8417066666666667, "eta_time": 2.390607988829029, "step": 7891 }, { "epoch": 0.8418133333333333, "grad_norm": 1.6260089212663915, "learning_rate": 6.420750151065963e-07, "loss": 0.3543, "step": 7892 }, { "avg_step_time": 5.84781962211686, "epoch": 0.8418133333333333, "eta_time": 2.408976805444251, "step": 7892 }, { "epoch": 0.84192, "grad_norm": 1.8350808991907481, "learning_rate": 6.412283884536818e-07, "loss": 0.468, "step": 7893 }, { "avg_step_time": 5.829246711249303, "epoch": 0.84192, "eta_time": 2.39970656279763, "step": 7893 }, { "epoch": 0.8420266666666667, "grad_norm": 1.9815351364874834, "learning_rate": 6.40382282095553e-07, "loss": 0.522, "step": 7894 }, { "avg_step_time": 5.827732929075607, "epoch": 0.8420266666666667, "eta_time": 2.3974645744336036, "step": 7894 }, { "epoch": 0.8421333333333333, "grad_norm": 1.7214232278399506, "learning_rate": 6.395366961332061e-07, "loss": 0.5712, "step": 7895 }, { "avg_step_time": 5.823448980697478, "epoch": 0.8421333333333333, "eta_time": 2.3940845809534075, "step": 7895 }, { "epoch": 0.84224, "grad_norm": 1.7409806719727894, "learning_rate": 6.38691630667575e-07, "loss": 0.4514, "step": 7896 }, { "avg_step_time": 5.824268943131572, "epoch": 0.84224, "eta_time": 2.3928038241365543, "step": 7896 }, { "epoch": 0.8423466666666667, "grad_norm": 0.6719599324318714, "learning_rate": 6.378470857995362e-07, "loss": 0.4249, "step": 7897 }, { "avg_step_time": 5.814628642014783, "epoch": 0.8423466666666667, "eta_time": 2.387228092471625, "step": 7897 }, { "epoch": 0.8424533333333334, "grad_norm": 1.834708750727074, "learning_rate": 6.370030616298989e-07, "loss": 0.4844, "step": 7898 }, { "avg_step_time": 5.8213050365448, "epoch": 0.8424533333333334, "eta_time": 2.388352094160186, "step": 7898 }, { "epoch": 0.84256, "grad_norm": 1.733854679714461, "learning_rate": 6.36159558259411e-07, "loss": 0.5649, "step": 7899 }, { "avg_step_time": 5.8349536717540085, "epoch": 0.84256, "eta_time": 2.392331005419144, "step": 7899 }, { "epoch": 0.8426666666666667, "grad_norm": 1.6056756544793778, "learning_rate": 6.353165757887614e-07, "loss": 0.4774, "step": 7900 }, { "avg_step_time": 5.831912199656169, "epoch": 0.8426666666666667, "eta_time": 2.389464026248014, "step": 7900 }, { "epoch": 0.8427733333333334, "grad_norm": 2.2131736118849235, "learning_rate": 6.344741143185723e-07, "loss": 0.5282, "step": 7901 }, { "avg_step_time": 5.821779884473242, "epoch": 0.8427733333333334, "eta_time": 2.3836954304759885, "step": 7901 }, { "epoch": 0.84288, "grad_norm": 1.976425205216706, "learning_rate": 6.336321739494072e-07, "loss": 0.5227, "step": 7902 }, { "avg_step_time": 5.820745446465232, "epoch": 0.84288, "eta_time": 2.381655011845358, "step": 7902 }, { "epoch": 0.8429866666666667, "grad_norm": 1.5467227490600828, "learning_rate": 6.327907547817674e-07, "loss": 0.3794, "step": 7903 }, { "avg_step_time": 5.82029365048264, "epoch": 0.8429866666666667, "eta_time": 2.379853403752901, "step": 7903 }, { "epoch": 0.8430933333333334, "grad_norm": 1.5298614020090322, "learning_rate": 6.319498569160898e-07, "loss": 0.3645, "step": 7904 }, { "avg_step_time": 5.802769388815369, "epoch": 0.8430933333333334, "eta_time": 2.371076047485391, "step": 7904 }, { "epoch": 0.8432, "grad_norm": 0.6269188523197671, "learning_rate": 6.31109480452749e-07, "loss": 0.4461, "step": 7905 }, { "avg_step_time": 5.769053724077013, "epoch": 0.8432, "eta_time": 2.355696937331447, "step": 7905 }, { "epoch": 0.8433066666666666, "grad_norm": 2.024562202338779, "learning_rate": 6.302696254920598e-07, "loss": 0.5281, "step": 7906 }, { "avg_step_time": 5.766514132721255, "epoch": 0.8433066666666666, "eta_time": 2.3530581280465346, "step": 7906 }, { "epoch": 0.8434133333333333, "grad_norm": 1.9728950463977182, "learning_rate": 6.294302921342737e-07, "loss": 0.5308, "step": 7907 }, { "avg_step_time": 5.747885022500549, "epoch": 0.8434133333333333, "eta_time": 2.343859781397446, "step": 7907 }, { "epoch": 0.84352, "grad_norm": 2.01483485885898, "learning_rate": 6.285914804795784e-07, "loss": 0.53, "step": 7908 }, { "avg_step_time": 5.717764156033295, "epoch": 0.84352, "eta_time": 2.3299888935835673, "step": 7908 }, { "epoch": 0.8436266666666666, "grad_norm": 1.8639037725647318, "learning_rate": 6.27753190628102e-07, "loss": 0.5757, "step": 7909 }, { "avg_step_time": 5.71108380712644, "epoch": 0.8436266666666666, "eta_time": 2.3256802392353784, "step": 7909 }, { "epoch": 0.8437333333333333, "grad_norm": 2.1831364463788794, "learning_rate": 6.269154226799085e-07, "loss": 0.4912, "step": 7910 }, { "avg_step_time": 5.710299217339718, "epoch": 0.8437333333333333, "eta_time": 2.3237745426118575, "step": 7910 }, { "epoch": 0.84384, "grad_norm": 2.0031927262639635, "learning_rate": 6.260781767349983e-07, "loss": 0.4347, "step": 7911 }, { "avg_step_time": 5.709347703240135, "epoch": 0.84384, "eta_time": 2.321801399317655, "step": 7911 }, { "epoch": 0.8439466666666666, "grad_norm": 1.8420421952111894, "learning_rate": 6.252414528933126e-07, "loss": 0.451, "step": 7912 }, { "avg_step_time": 5.687641269028789, "epoch": 0.8439466666666666, "eta_time": 2.3113942157191993, "step": 7912 }, { "epoch": 0.8440533333333333, "grad_norm": 1.811219719368337, "learning_rate": 6.244052512547299e-07, "loss": 0.454, "step": 7913 }, { "avg_step_time": 5.688409824563999, "epoch": 0.8440533333333333, "eta_time": 2.3101264343090464, "step": 7913 }, { "epoch": 0.84416, "grad_norm": 0.6720491984405197, "learning_rate": 6.235695719190632e-07, "loss": 0.4535, "step": 7914 }, { "avg_step_time": 5.653378366219877, "epoch": 0.84416, "eta_time": 2.2943293869575663, "step": 7914 }, { "epoch": 0.8442666666666667, "grad_norm": 0.6398771085476895, "learning_rate": 6.227344149860665e-07, "loss": 0.4608, "step": 7915 }, { "avg_step_time": 5.617787257589475, "epoch": 0.8442666666666667, "eta_time": 2.2783248322446203, "step": 7915 }, { "epoch": 0.8443733333333333, "grad_norm": 0.6604848423279067, "learning_rate": 6.218997805554305e-07, "loss": 0.4569, "step": 7916 }, { "avg_step_time": 5.622324842395204, "epoch": 0.8443733333333333, "eta_time": 2.278603318070723, "step": 7916 }, { "epoch": 0.84448, "grad_norm": 2.123913062062391, "learning_rate": 6.210656687267835e-07, "loss": 0.4482, "step": 7917 }, { "avg_step_time": 5.622819934228454, "epoch": 0.84448, "eta_time": 2.2772420733625243, "step": 7917 }, { "epoch": 0.8445866666666667, "grad_norm": 2.3031244428578486, "learning_rate": 6.202320795996885e-07, "loss": 0.4533, "step": 7918 }, { "avg_step_time": 5.632499964550288, "epoch": 0.8445866666666667, "eta_time": 2.2795979023193804, "step": 7918 }, { "epoch": 0.8446933333333333, "grad_norm": 1.7705937915671504, "learning_rate": 6.193990132736527e-07, "loss": 0.4355, "step": 7919 }, { "avg_step_time": 5.634000207438613, "epoch": 0.8446933333333333, "eta_time": 2.2786400838973946, "step": 7919 }, { "epoch": 0.8448, "grad_norm": 1.960655756059195, "learning_rate": 6.185664698481137e-07, "loss": 0.5246, "step": 7920 }, { "avg_step_time": 5.610779923622054, "epoch": 0.8448, "eta_time": 2.2676902191305803, "step": 7920 }, { "epoch": 0.8449066666666667, "grad_norm": 2.190582020757668, "learning_rate": 6.177344494224513e-07, "loss": 0.4926, "step": 7921 }, { "avg_step_time": 5.610021711599948, "epoch": 0.8449066666666667, "eta_time": 2.2658254357406453, "step": 7921 }, { "epoch": 0.8450133333333333, "grad_norm": 1.7893237418029462, "learning_rate": 6.169029520959824e-07, "loss": 0.4591, "step": 7922 }, { "avg_step_time": 5.601738224125872, "epoch": 0.8450133333333333, "eta_time": 2.2609237887930256, "step": 7922 }, { "epoch": 0.84512, "grad_norm": 1.902177459615983, "learning_rate": 6.160719779679597e-07, "loss": 0.506, "step": 7923 }, { "avg_step_time": 5.5999152780783295, "epoch": 0.84512, "eta_time": 2.258632495491593, "step": 7923 }, { "epoch": 0.8452266666666667, "grad_norm": 1.5483060710701704, "learning_rate": 6.152415271375733e-07, "loss": 0.4975, "step": 7924 }, { "avg_step_time": 5.602930008763015, "epoch": 0.8452266666666667, "eta_time": 2.2582920674208706, "step": 7924 }, { "epoch": 0.8453333333333334, "grad_norm": 2.0963981654409674, "learning_rate": 6.144115997039529e-07, "loss": 0.5378, "step": 7925 }, { "avg_step_time": 5.5975984130242855, "epoch": 0.8453333333333334, "eta_time": 2.254588249690337, "step": 7925 }, { "epoch": 0.84544, "grad_norm": 1.947546472339703, "learning_rate": 6.135821957661658e-07, "loss": 0.506, "step": 7926 }, { "avg_step_time": 5.594297095982715, "epoch": 0.84544, "eta_time": 2.251704581133043, "step": 7926 }, { "epoch": 0.8455466666666667, "grad_norm": 1.7018598280264985, "learning_rate": 6.127533154232135e-07, "loss": 0.4328, "step": 7927 }, { "avg_step_time": 5.587152837502836, "epoch": 0.8455466666666667, "eta_time": 2.247277030195585, "step": 7927 }, { "epoch": 0.8456533333333334, "grad_norm": 1.7473693080497137, "learning_rate": 6.119249587740395e-07, "loss": 0.4626, "step": 7928 }, { "avg_step_time": 5.584871212641398, "epoch": 0.8456533333333334, "eta_time": 2.2448079568589177, "step": 7928 }, { "epoch": 0.84576, "grad_norm": 1.62422072994818, "learning_rate": 6.110971259175208e-07, "loss": 0.4526, "step": 7929 }, { "avg_step_time": 5.642547682078198, "epoch": 0.84576, "eta_time": 2.266423318968076, "step": 7929 }, { "epoch": 0.8458666666666667, "grad_norm": 1.6523051252545606, "learning_rate": 6.102698169524723e-07, "loss": 0.5211, "step": 7930 }, { "avg_step_time": 5.660079077036694, "epoch": 0.8458666666666667, "eta_time": 2.2718928517550063, "step": 7930 }, { "epoch": 0.8459733333333334, "grad_norm": 1.72099993056042, "learning_rate": 6.094430319776517e-07, "loss": 0.4319, "step": 7931 }, { "avg_step_time": 5.663704985319966, "epoch": 0.8459733333333334, "eta_time": 2.271774999667231, "step": 7931 }, { "epoch": 0.84608, "grad_norm": 2.0621843330499123, "learning_rate": 6.086167710917479e-07, "loss": 0.5717, "step": 7932 }, { "avg_step_time": 5.668674430461845, "epoch": 0.84608, "eta_time": 2.272193667543456, "step": 7932 }, { "epoch": 0.8461866666666666, "grad_norm": 1.7300809201129093, "learning_rate": 6.077910343933879e-07, "loss": 0.4261, "step": 7933 }, { "avg_step_time": 5.673520854025176, "epoch": 0.8461866666666666, "eta_time": 2.2725602976400845, "step": 7933 }, { "epoch": 0.8462933333333333, "grad_norm": 1.8594237230314976, "learning_rate": 6.069658219811403e-07, "loss": 0.4503, "step": 7934 }, { "avg_step_time": 5.721105891044694, "epoch": 0.8462933333333333, "eta_time": 2.290031552498723, "step": 7934 }, { "epoch": 0.8464, "grad_norm": 1.6518080668248525, "learning_rate": 6.061411339535062e-07, "loss": 0.495, "step": 7935 }, { "avg_step_time": 5.716631848402698, "epoch": 0.8464, "eta_time": 2.286652739361079, "step": 7935 }, { "epoch": 0.8465066666666666, "grad_norm": 1.8603201972069858, "learning_rate": 6.053169704089274e-07, "loss": 0.4352, "step": 7936 }, { "avg_step_time": 5.712018851077918, "epoch": 0.8465066666666666, "eta_time": 2.28322086852809, "step": 7936 }, { "epoch": 0.8466133333333333, "grad_norm": 1.73360457602111, "learning_rate": 6.044933314457829e-07, "loss": 0.4119, "step": 7937 }, { "avg_step_time": 5.706672299991954, "epoch": 0.8466133333333333, "eta_time": 2.279498546496786, "step": 7937 }, { "epoch": 0.84672, "grad_norm": 1.8140226253739886, "learning_rate": 6.036702171623876e-07, "loss": 0.4726, "step": 7938 }, { "avg_step_time": 5.711773202876852, "epoch": 0.84672, "eta_time": 2.2799494701483436, "step": 7938 }, { "epoch": 0.8468266666666666, "grad_norm": 1.9064669797666929, "learning_rate": 6.028476276569933e-07, "loss": 0.4499, "step": 7939 }, { "avg_step_time": 5.713166133321897, "epoch": 0.8468266666666666, "eta_time": 2.278918490958401, "step": 7939 }, { "epoch": 0.8469333333333333, "grad_norm": 1.7571854367315214, "learning_rate": 6.020255630277916e-07, "loss": 0.4498, "step": 7940 }, { "avg_step_time": 5.713966928347193, "epoch": 0.8469333333333333, "eta_time": 2.277650706160617, "step": 7940 }, { "epoch": 0.84704, "grad_norm": 2.036648069183405, "learning_rate": 6.012040233729105e-07, "loss": 0.421, "step": 7941 }, { "avg_step_time": 5.710961344266178, "epoch": 0.84704, "eta_time": 2.2748662687993613, "step": 7941 }, { "epoch": 0.8471466666666667, "grad_norm": 1.9941908711963805, "learning_rate": 6.003830087904133e-07, "loss": 0.4141, "step": 7942 }, { "avg_step_time": 5.712418758507931, "epoch": 0.8471466666666667, "eta_time": 2.273860022483851, "step": 7942 }, { "epoch": 0.8472533333333333, "grad_norm": 1.789279344845809, "learning_rate": 5.995625193783044e-07, "loss": 0.4444, "step": 7943 }, { "avg_step_time": 5.697640770613545, "epoch": 0.8472533333333333, "eta_time": 2.266394884310721, "step": 7943 }, { "epoch": 0.84736, "grad_norm": 1.9410699370674986, "learning_rate": 5.987425552345222e-07, "loss": 0.4734, "step": 7944 }, { "avg_step_time": 5.707113829526034, "epoch": 0.84736, "eta_time": 2.2685777472365984, "step": 7944 }, { "epoch": 0.8474666666666667, "grad_norm": 2.0016591401569515, "learning_rate": 5.979231164569426e-07, "loss": 0.4388, "step": 7945 }, { "avg_step_time": 5.734459754192468, "epoch": 0.8474666666666667, "eta_time": 2.2778548468042303, "step": 7945 }, { "epoch": 0.8475733333333333, "grad_norm": 1.8974963154735633, "learning_rate": 5.97104203143381e-07, "loss": 0.4352, "step": 7946 }, { "avg_step_time": 5.734800613287724, "epoch": 0.8475733333333333, "eta_time": 2.2763972434411546, "step": 7946 }, { "epoch": 0.84768, "grad_norm": 1.8096316446681475, "learning_rate": 5.962858153915896e-07, "loss": 0.432, "step": 7947 }, { "avg_step_time": 5.750813956212515, "epoch": 0.84768, "eta_time": 2.281156202630964, "step": 7947 }, { "epoch": 0.8477866666666667, "grad_norm": 0.6783752332405145, "learning_rate": 5.954679532992564e-07, "loss": 0.4384, "step": 7948 }, { "avg_step_time": 5.7143806303390345, "epoch": 0.8477866666666667, "eta_time": 2.2651169887482783, "step": 7948 }, { "epoch": 0.8478933333333334, "grad_norm": 2.1848350749576833, "learning_rate": 5.946506169640065e-07, "loss": 0.4542, "step": 7949 }, { "avg_step_time": 5.717667254534635, "epoch": 0.8478933333333334, "eta_time": 2.26483152915733, "step": 7949 }, { "epoch": 0.848, "grad_norm": 1.923697431553932, "learning_rate": 5.938338064834037e-07, "loss": 0.4143, "step": 7950 }, { "avg_step_time": 5.729067051049435, "epoch": 0.848, "eta_time": 2.267755707707068, "step": 7950 }, { "epoch": 0.8481066666666667, "grad_norm": 1.8517515331835286, "learning_rate": 5.930175219549494e-07, "loss": 0.4731, "step": 7951 }, { "avg_step_time": 5.728629962362424, "epoch": 0.8481066666666667, "eta_time": 2.2659914073344702, "step": 7951 }, { "epoch": 0.8482133333333334, "grad_norm": 2.0484433803041515, "learning_rate": 5.922017634760796e-07, "loss": 0.5954, "step": 7952 }, { "avg_step_time": 5.770136098669033, "epoch": 0.8482133333333334, "eta_time": 2.2808065745572317, "step": 7952 }, { "epoch": 0.84832, "grad_norm": 1.9273931584089954, "learning_rate": 5.913865311441714e-07, "loss": 0.4526, "step": 7953 }, { "avg_step_time": 5.770059055752224, "epoch": 0.84832, "eta_time": 2.2791733270221286, "step": 7953 }, { "epoch": 0.8484266666666667, "grad_norm": 1.9322814165589381, "learning_rate": 5.905718250565351e-07, "loss": 0.4919, "step": 7954 }, { "avg_step_time": 5.767730924818251, "epoch": 0.8484266666666667, "eta_time": 2.276651567824093, "step": 7954 }, { "epoch": 0.8485333333333334, "grad_norm": 1.9078815449202229, "learning_rate": 5.897576453104187e-07, "loss": 0.5317, "step": 7955 }, { "avg_step_time": 5.757830610178938, "epoch": 0.8485333333333334, "eta_time": 2.2711442962372477, "step": 7955 }, { "epoch": 0.84864, "grad_norm": 1.721111353601986, "learning_rate": 5.889439920030127e-07, "loss": 0.4607, "step": 7956 }, { "avg_step_time": 5.756500877515234, "epoch": 0.84864, "eta_time": 2.269020762553921, "step": 7956 }, { "epoch": 0.8487466666666666, "grad_norm": 1.9330714816273462, "learning_rate": 5.881308652314376e-07, "loss": 0.4691, "step": 7957 }, { "avg_step_time": 5.754587539518722, "epoch": 0.8487466666666666, "eta_time": 2.2666680919548745, "step": 7957 }, { "epoch": 0.8488533333333333, "grad_norm": 1.7450892960655713, "learning_rate": 5.873182650927545e-07, "loss": 0.5655, "step": 7958 }, { "avg_step_time": 5.758994810508959, "epoch": 0.8488533333333333, "eta_time": 2.2668043462475542, "step": 7958 }, { "epoch": 0.84896, "grad_norm": 1.8216888917221896, "learning_rate": 5.865061916839615e-07, "loss": 0.5283, "step": 7959 }, { "avg_step_time": 5.758757820033064, "epoch": 0.84896, "eta_time": 2.2651114092130054, "step": 7959 }, { "epoch": 0.8490666666666666, "grad_norm": 1.7723012551670276, "learning_rate": 5.856946451019952e-07, "loss": 0.4175, "step": 7960 }, { "avg_step_time": 5.757406123960861, "epoch": 0.8490666666666666, "eta_time": 2.262980462612394, "step": 7960 }, { "epoch": 0.8491733333333333, "grad_norm": 1.9688486142447779, "learning_rate": 5.848836254437251e-07, "loss": 0.4903, "step": 7961 }, { "avg_step_time": 5.75941029943601, "epoch": 0.8491733333333333, "eta_time": 2.262168378722922, "step": 7961 }, { "epoch": 0.84928, "grad_norm": 1.966377488532878, "learning_rate": 5.840731328059629e-07, "loss": 0.4928, "step": 7962 }, { "avg_step_time": 5.761730198908334, "epoch": 0.84928, "eta_time": 2.261479103071521, "step": 7962 }, { "epoch": 0.8493866666666666, "grad_norm": 1.7161675568943477, "learning_rate": 5.832631672854533e-07, "loss": 0.4494, "step": 7963 }, { "avg_step_time": 5.804069157802697, "epoch": 0.8493866666666666, "eta_time": 2.2764849030048353, "step": 7963 }, { "epoch": 0.8494933333333333, "grad_norm": 1.9413248743997726, "learning_rate": 5.824537289788789e-07, "loss": 0.4815, "step": 7964 }, { "avg_step_time": 5.793854802545875, "epoch": 0.8494933333333333, "eta_time": 2.270869201775619, "step": 7964 }, { "epoch": 0.8496, "grad_norm": 1.604504387526885, "learning_rate": 5.816448179828616e-07, "loss": 0.4441, "step": 7965 }, { "avg_step_time": 5.795181327395969, "epoch": 0.8496, "eta_time": 2.269779353230088, "step": 7965 }, { "epoch": 0.8497066666666667, "grad_norm": 1.8069869369259894, "learning_rate": 5.808364343939598e-07, "loss": 0.4608, "step": 7966 }, { "avg_step_time": 5.78748400765236, "epoch": 0.8497066666666667, "eta_time": 2.2651569352172705, "step": 7966 }, { "epoch": 0.8498133333333333, "grad_norm": 1.825911824701314, "learning_rate": 5.800285783086657e-07, "loss": 0.5439, "step": 7967 }, { "avg_step_time": 5.789130675672281, "epoch": 0.8498133333333333, "eta_time": 2.264193330929603, "step": 7967 }, { "epoch": 0.84992, "grad_norm": 1.714355230739594, "learning_rate": 5.792212498234134e-07, "loss": 0.4901, "step": 7968 }, { "avg_step_time": 5.789420241057271, "epoch": 0.84992, "eta_time": 2.2626984108798833, "step": 7968 }, { "epoch": 0.8500266666666667, "grad_norm": 2.040196166749567, "learning_rate": 5.784144490345689e-07, "loss": 0.4707, "step": 7969 }, { "avg_step_time": 5.796675836197053, "epoch": 0.8500266666666667, "eta_time": 2.2639239515814045, "step": 7969 }, { "epoch": 0.8501333333333333, "grad_norm": 1.64152851405655, "learning_rate": 5.776081760384406e-07, "loss": 0.4924, "step": 7970 }, { "avg_step_time": 5.792747726344099, "epoch": 0.8501333333333333, "eta_time": 2.2607807098648496, "step": 7970 }, { "epoch": 0.85024, "grad_norm": 2.029411276387877, "learning_rate": 5.768024309312681e-07, "loss": 0.5342, "step": 7971 }, { "avg_step_time": 5.7956942813565036, "epoch": 0.85024, "eta_time": 2.2603207697290366, "step": 7971 }, { "epoch": 0.8503466666666667, "grad_norm": 1.6428720435939144, "learning_rate": 5.75997213809234e-07, "loss": 0.4694, "step": 7972 }, { "avg_step_time": 5.807059943073928, "epoch": 0.8503466666666667, "eta_time": 2.2631403055924224, "step": 7972 }, { "epoch": 0.8504533333333333, "grad_norm": 1.6238394482705358, "learning_rate": 5.751925247684525e-07, "loss": 0.4475, "step": 7973 }, { "avg_step_time": 5.821214114776765, "epoch": 0.8504533333333333, "eta_time": 2.2670394969213956, "step": 7973 }, { "epoch": 0.85056, "grad_norm": 1.9164142327893847, "learning_rate": 5.74388363904978e-07, "loss": 0.4829, "step": 7974 }, { "avg_step_time": 5.823089129997022, "epoch": 0.85056, "eta_time": 2.266152186423841, "step": 7974 }, { "epoch": 0.8506666666666667, "grad_norm": 1.943752470503093, "learning_rate": 5.735847313148024e-07, "loss": 0.4849, "step": 7975 }, { "avg_step_time": 5.819072090014063, "epoch": 0.8506666666666667, "eta_time": 2.2629724794499135, "step": 7975 }, { "epoch": 0.8507733333333334, "grad_norm": 1.8318524170748216, "learning_rate": 5.727816270938514e-07, "loss": 0.4363, "step": 7976 }, { "avg_step_time": 5.8253485963802145, "epoch": 0.8507733333333334, "eta_time": 2.2637951906488665, "step": 7976 }, { "epoch": 0.85088, "grad_norm": 1.6985671494607097, "learning_rate": 5.719790513379891e-07, "loss": 0.4972, "step": 7977 }, { "avg_step_time": 5.792836042365643, "epoch": 0.85088, "eta_time": 2.2495513297853247, "step": 7977 }, { "epoch": 0.8509866666666667, "grad_norm": 1.6482340116931495, "learning_rate": 5.711770041430187e-07, "loss": 0.5283, "step": 7978 }, { "avg_step_time": 5.793730434745249, "epoch": 0.8509866666666667, "eta_time": 2.248289282594198, "step": 7978 }, { "epoch": 0.8510933333333334, "grad_norm": 2.0413765909406343, "learning_rate": 5.703754856046767e-07, "loss": 0.4559, "step": 7979 }, { "avg_step_time": 5.791212024110736, "epoch": 0.8510933333333334, "eta_time": 2.245703329349608, "step": 7979 }, { "epoch": 0.8512, "grad_norm": 1.98260639402084, "learning_rate": 5.695744958186383e-07, "loss": 0.4752, "step": 7980 }, { "avg_step_time": 5.796369458689834, "epoch": 0.8512, "eta_time": 2.2460931652423106, "step": 7980 }, { "epoch": 0.8513066666666667, "grad_norm": 2.043885531814621, "learning_rate": 5.687740348805171e-07, "loss": 0.5112, "step": 7981 }, { "avg_step_time": 5.794166593840628, "epoch": 0.8513066666666667, "eta_time": 2.243630064392732, "step": 7981 }, { "epoch": 0.8514133333333334, "grad_norm": 1.8147840669757385, "learning_rate": 5.67974102885861e-07, "loss": 0.468, "step": 7982 }, { "avg_step_time": 5.793514386572019, "epoch": 0.8514133333333334, "eta_time": 2.241768205693006, "step": 7982 }, { "epoch": 0.85152, "grad_norm": 1.641043196699434, "learning_rate": 5.671746999301542e-07, "loss": 0.4493, "step": 7983 }, { "avg_step_time": 5.823458979828189, "epoch": 0.85152, "eta_time": 2.251737472200233, "step": 7983 }, { "epoch": 0.8516266666666666, "grad_norm": 0.6276070594065266, "learning_rate": 5.663758261088209e-07, "loss": 0.4091, "step": 7984 }, { "avg_step_time": 5.787785166441792, "epoch": 0.8516266666666666, "eta_time": 2.236335879589037, "step": 7984 }, { "epoch": 0.8517333333333333, "grad_norm": 0.6493733204106801, "learning_rate": 5.655774815172211e-07, "loss": 0.4275, "step": 7985 }, { "avg_step_time": 5.754400792748037, "epoch": 0.8517333333333333, "eta_time": 2.2218380838666034, "step": 7985 }, { "epoch": 0.85184, "grad_norm": 1.9611944373933754, "learning_rate": 5.647796662506493e-07, "loss": 0.4685, "step": 7986 }, { "avg_step_time": 5.750019644245957, "epoch": 0.85184, "eta_time": 2.2185492460715652, "step": 7986 }, { "epoch": 0.8519466666666666, "grad_norm": 1.6791044404027422, "learning_rate": 5.639823804043403e-07, "loss": 0.5187, "step": 7987 }, { "avg_step_time": 5.753951364093357, "epoch": 0.8519466666666666, "eta_time": 2.218467914822661, "step": 7987 }, { "epoch": 0.8520533333333333, "grad_norm": 1.8784176077696149, "learning_rate": 5.631856240734629e-07, "loss": 0.4468, "step": 7988 }, { "avg_step_time": 5.789727854006218, "epoch": 0.8520533333333333, "eta_time": 2.2306534815296177, "step": 7988 }, { "epoch": 0.85216, "grad_norm": 1.7828489216471184, "learning_rate": 5.623893973531225e-07, "loss": 0.4324, "step": 7989 }, { "avg_step_time": 5.787807495907099, "epoch": 0.85216, "eta_time": 2.2283058859242333, "step": 7989 }, { "epoch": 0.8522666666666666, "grad_norm": 1.7427807876219, "learning_rate": 5.615937003383654e-07, "loss": 0.461, "step": 7990 }, { "avg_step_time": 5.787755193132343, "epoch": 0.8522666666666666, "eta_time": 2.226678039580082, "step": 7990 }, { "epoch": 0.8523733333333333, "grad_norm": 1.8136387831487673, "learning_rate": 5.607985331241705e-07, "loss": 0.4793, "step": 7991 }, { "avg_step_time": 5.772140153730758, "epoch": 0.8523733333333333, "eta_time": 2.2190672146564916, "step": 7991 }, { "epoch": 0.85248, "grad_norm": 2.0829439607809, "learning_rate": 5.600038958054538e-07, "loss": 0.5922, "step": 7992 }, { "avg_step_time": 5.77077628626968, "epoch": 0.85248, "eta_time": 2.2169398899752686, "step": 7992 }, { "epoch": 0.8525866666666667, "grad_norm": 1.8615169485041567, "learning_rate": 5.592097884770709e-07, "loss": 0.4781, "step": 7993 }, { "avg_step_time": 5.788830273079149, "epoch": 0.8525866666666667, "eta_time": 2.222267621498718, "step": 7993 }, { "epoch": 0.8526933333333333, "grad_norm": 0.6474158966320614, "learning_rate": 5.584162112338099e-07, "loss": 0.4389, "step": 7994 }, { "avg_step_time": 5.756732326565367, "epoch": 0.8526933333333333, "eta_time": 2.2083464841629925, "step": 7994 }, { "epoch": 0.8528, "grad_norm": 1.9982135608020088, "learning_rate": 5.576231641703994e-07, "loss": 0.449, "step": 7995 }, { "avg_step_time": 5.755664673718539, "epoch": 0.8528, "eta_time": 2.20633812492544, "step": 7995 }, { "epoch": 0.8529066666666667, "grad_norm": 0.6486765762907694, "learning_rate": 5.568306473815044e-07, "loss": 0.4485, "step": 7996 }, { "avg_step_time": 5.736534626796992, "epoch": 0.8529066666666667, "eta_time": 2.1974114584314033, "step": 7996 }, { "epoch": 0.8530133333333333, "grad_norm": 1.699904124687206, "learning_rate": 5.560386609617235e-07, "loss": 0.4008, "step": 7997 }, { "avg_step_time": 5.728929847177833, "epoch": 0.8530133333333333, "eta_time": 2.1929070359475147, "step": 7997 }, { "epoch": 0.85312, "grad_norm": 1.8884495956733716, "learning_rate": 5.552472050055946e-07, "loss": 0.4704, "step": 7998 }, { "avg_step_time": 5.718300513546876, "epoch": 0.85312, "eta_time": 2.18724994643168, "step": 7998 }, { "epoch": 0.8532266666666667, "grad_norm": 1.762992242784458, "learning_rate": 5.544562796075909e-07, "loss": 0.4085, "step": 7999 }, { "avg_step_time": 5.721377358292088, "epoch": 0.8532266666666667, "eta_time": 2.186837568058309, "step": 7999 }, { "epoch": 0.8533333333333334, "grad_norm": 1.7218240766948218, "learning_rate": 5.536658848621257e-07, "loss": 0.4826, "step": 8000 }, { "avg_step_time": 5.728915999634097, "epoch": 0.8533333333333334, "eta_time": 2.188127638749134, "step": 8000 }, { "epoch": 0.85344, "grad_norm": 1.975626004709929, "learning_rate": 5.528760208635436e-07, "loss": 0.4833, "step": 8001 }, { "avg_step_time": 5.729257660682755, "epoch": 0.85344, "eta_time": 2.1866666738272516, "step": 8001 }, { "epoch": 0.8535466666666667, "grad_norm": 1.6045830338952656, "learning_rate": 5.520866877061293e-07, "loss": 0.3854, "step": 8002 }, { "avg_step_time": 5.728049131354901, "epoch": 0.8535466666666667, "eta_time": 2.1846142937084108, "step": 8002 }, { "epoch": 0.8536533333333334, "grad_norm": 1.8097071941567624, "learning_rate": 5.512978854841028e-07, "loss": 0.5021, "step": 8003 }, { "avg_step_time": 5.727723680361353, "epoch": 0.8536533333333334, "eta_time": 2.182899135959938, "step": 8003 }, { "epoch": 0.85376, "grad_norm": 1.861365929357489, "learning_rate": 5.505096142916233e-07, "loss": 0.5519, "step": 8004 }, { "avg_step_time": 5.764348531010175, "epoch": 0.85376, "eta_time": 2.1952560655597084, "step": 8004 }, { "epoch": 0.8538666666666667, "grad_norm": 0.6652238138336617, "learning_rate": 5.497218742227817e-07, "loss": 0.4253, "step": 8005 }, { "avg_step_time": 5.735739048081215, "epoch": 0.8538666666666667, "eta_time": 2.1827673599642403, "step": 8005 }, { "epoch": 0.8539733333333334, "grad_norm": 1.9804630088795603, "learning_rate": 5.489346653716116e-07, "loss": 0.5622, "step": 8006 }, { "avg_step_time": 5.732758466643516, "epoch": 0.8539733333333334, "eta_time": 2.180040650231937, "step": 8006 }, { "epoch": 0.85408, "grad_norm": 2.003211150045876, "learning_rate": 5.481479878320784e-07, "loss": 0.42, "step": 8007 }, { "avg_step_time": 5.732339606140599, "epoch": 0.85408, "eta_time": 2.1782890503334276, "step": 8007 }, { "epoch": 0.8541866666666666, "grad_norm": 1.9868509462754362, "learning_rate": 5.473618416980831e-07, "loss": 0.4402, "step": 8008 }, { "avg_step_time": 5.730977913345954, "epoch": 0.8541866666666666, "eta_time": 2.1761796687621997, "step": 8008 }, { "epoch": 0.8542933333333333, "grad_norm": 1.8673869674071675, "learning_rate": 5.465762270634705e-07, "loss": 0.5549, "step": 8009 }, { "avg_step_time": 5.741836189019559, "epoch": 0.8542933333333333, "eta_time": 2.178707842833533, "step": 8009 }, { "epoch": 0.8544, "grad_norm": 1.6018789280558732, "learning_rate": 5.457911440220154e-07, "loss": 0.4274, "step": 8010 }, { "avg_step_time": 5.739488235627762, "epoch": 0.8544, "eta_time": 2.176222622675527, "step": 8010 }, { "epoch": 0.8545066666666666, "grad_norm": 0.692759160586265, "learning_rate": 5.450065926674297e-07, "loss": 0.4215, "step": 8011 }, { "avg_step_time": 5.701325021608912, "epoch": 0.8545066666666666, "eta_time": 2.160168702631821, "step": 8011 }, { "epoch": 0.8546133333333333, "grad_norm": 2.111422466699169, "learning_rate": 5.442225730933653e-07, "loss": 0.5202, "step": 8012 }, { "avg_step_time": 5.70224522821831, "epoch": 0.8546133333333333, "eta_time": 2.1589334016837656, "step": 8012 }, { "epoch": 0.85472, "grad_norm": 1.5524626453938573, "learning_rate": 5.434390853934063e-07, "loss": 0.4941, "step": 8013 }, { "avg_step_time": 5.734174754884508, "epoch": 0.85472, "eta_time": 2.1694294489313055, "step": 8013 }, { "epoch": 0.8548266666666666, "grad_norm": 2.001441560095621, "learning_rate": 5.426561296610766e-07, "loss": 0.4758, "step": 8014 }, { "avg_step_time": 5.77124268358404, "epoch": 0.8548266666666666, "eta_time": 2.1818503589883, "step": 8014 }, { "epoch": 0.8549333333333333, "grad_norm": 2.0397019128630363, "learning_rate": 5.418737059898365e-07, "loss": 0.4906, "step": 8015 }, { "avg_step_time": 5.802491681744354, "epoch": 0.8549333333333333, "eta_time": 2.1920524131034225, "step": 8015 }, { "epoch": 0.85504, "grad_norm": 2.2879262301251386, "learning_rate": 5.410918144730815e-07, "loss": 0.4989, "step": 8016 }, { "avg_step_time": 5.805301278528541, "epoch": 0.85504, "eta_time": 2.1915012326445242, "step": 8016 }, { "epoch": 0.8551466666666667, "grad_norm": 1.8388016655103379, "learning_rate": 5.403104552041416e-07, "loss": 0.4109, "step": 8017 }, { "avg_step_time": 5.7947141040455215, "epoch": 0.8551466666666667, "eta_time": 2.185894931470505, "step": 8017 }, { "epoch": 0.8552533333333333, "grad_norm": 1.6948780561106376, "learning_rate": 5.39529628276288e-07, "loss": 0.5391, "step": 8018 }, { "avg_step_time": 5.7942601165386165, "epoch": 0.8552533333333333, "eta_time": 2.184114160595251, "step": 8018 }, { "epoch": 0.85536, "grad_norm": 2.6264877595927762, "learning_rate": 5.387493337827254e-07, "loss": 0.5062, "step": 8019 }, { "avg_step_time": 5.7926051544420645, "epoch": 0.85536, "eta_time": 2.1818812748398444, "step": 8019 }, { "epoch": 0.8554666666666667, "grad_norm": 1.6239897412690247, "learning_rate": 5.379695718165945e-07, "loss": 0.5247, "step": 8020 }, { "avg_step_time": 5.791057916602703, "epoch": 0.8554666666666667, "eta_time": 2.1796898547212953, "step": 8020 }, { "epoch": 0.8555733333333333, "grad_norm": 2.003608923842402, "learning_rate": 5.371903424709746e-07, "loss": 0.3753, "step": 8021 }, { "avg_step_time": 5.79536966121558, "epoch": 0.8555733333333333, "eta_time": 2.1797029225794153, "step": 8021 }, { "epoch": 0.85568, "grad_norm": 2.03411015939399, "learning_rate": 5.364116458388802e-07, "loss": 0.4683, "step": 8022 }, { "avg_step_time": 5.796018913538769, "epoch": 0.85568, "eta_time": 2.178337108338321, "step": 8022 }, { "epoch": 0.8557866666666667, "grad_norm": 2.2038744264037233, "learning_rate": 5.356334820132602e-07, "loss": 0.4291, "step": 8023 }, { "avg_step_time": 5.793020956444018, "epoch": 0.8557866666666667, "eta_time": 2.1756012036423087, "step": 8023 }, { "epoch": 0.8558933333333333, "grad_norm": 2.1041606455789297, "learning_rate": 5.348558510870033e-07, "loss": 0.5048, "step": 8024 }, { "avg_step_time": 5.842529104213522, "epoch": 0.8558933333333333, "eta_time": 2.1925713388312413, "step": 8024 }, { "epoch": 0.856, "grad_norm": 2.007457451790508, "learning_rate": 5.340787531529346e-07, "loss": 0.4676, "step": 8025 }, { "avg_step_time": 5.842744740572843, "epoch": 0.856, "eta_time": 2.191029277714816, "step": 8025 }, { "epoch": 0.8561066666666667, "grad_norm": 1.8200250829886446, "learning_rate": 5.333021883038114e-07, "loss": 0.4324, "step": 8026 }, { "avg_step_time": 5.8409440493342855, "epoch": 0.8561066666666667, "eta_time": 2.1887315340422084, "step": 8026 }, { "epoch": 0.8562133333333334, "grad_norm": 1.6516097203187452, "learning_rate": 5.325261566323331e-07, "loss": 0.4235, "step": 8027 }, { "avg_step_time": 5.842019018500742, "epoch": 0.8562133333333334, "eta_time": 2.187511565816389, "step": 8027 }, { "epoch": 0.85632, "grad_norm": 1.994411284198192, "learning_rate": 5.3175065823113e-07, "loss": 0.4807, "step": 8028 }, { "avg_step_time": 5.813470799513538, "epoch": 0.85632, "eta_time": 2.175206990817982, "step": 8028 }, { "epoch": 0.8564266666666667, "grad_norm": 2.1648510607687954, "learning_rate": 5.309756931927728e-07, "loss": 0.5378, "step": 8029 }, { "avg_step_time": 5.79443390923317, "epoch": 0.8564266666666667, "eta_time": 2.1664744560632907, "step": 8029 }, { "epoch": 0.8565333333333334, "grad_norm": 2.188305548622773, "learning_rate": 5.302012616097652e-07, "loss": 0.554, "step": 8030 }, { "avg_step_time": 5.789983874619609, "epoch": 0.8565333333333334, "eta_time": 2.1632023087120484, "step": 8030 }, { "epoch": 0.85664, "grad_norm": 1.6462228982195064, "learning_rate": 5.294273635745517e-07, "loss": 0.5168, "step": 8031 }, { "avg_step_time": 5.825520631038781, "epoch": 0.85664, "eta_time": 2.1748610355878117, "step": 8031 }, { "epoch": 0.8567466666666667, "grad_norm": 1.8120043230984537, "learning_rate": 5.286539991795081e-07, "loss": 0.4726, "step": 8032 }, { "avg_step_time": 5.820814320535371, "epoch": 0.8567466666666667, "eta_time": 2.1714871201330563, "step": 8032 }, { "epoch": 0.8568533333333334, "grad_norm": 2.2270083366769686, "learning_rate": 5.278811685169493e-07, "loss": 0.5097, "step": 8033 }, { "avg_step_time": 5.8054960111174925, "epoch": 0.8568533333333334, "eta_time": 2.164159901922132, "step": 8033 }, { "epoch": 0.85696, "grad_norm": 2.035255706431169, "learning_rate": 5.271088716791273e-07, "loss": 0.4834, "step": 8034 }, { "avg_step_time": 5.817722770902845, "epoch": 0.85696, "eta_time": 2.16710173216131, "step": 8034 }, { "epoch": 0.8570666666666666, "grad_norm": 1.809146841047114, "learning_rate": 5.263371087582281e-07, "loss": 0.4232, "step": 8035 }, { "avg_step_time": 5.82161762256815, "epoch": 0.8570666666666666, "eta_time": 2.166935448400367, "step": 8035 }, { "epoch": 0.8571733333333333, "grad_norm": 2.099246119178097, "learning_rate": 5.255658798463742e-07, "loss": 0.4857, "step": 8036 }, { "avg_step_time": 5.823093645500414, "epoch": 0.8571733333333333, "eta_time": 2.1658673309236263, "step": 8036 }, { "epoch": 0.85728, "grad_norm": 1.8586178427212592, "learning_rate": 5.24795185035627e-07, "loss": 0.4401, "step": 8037 }, { "avg_step_time": 5.817850450072625, "epoch": 0.85728, "eta_time": 2.1623010839436594, "step": 8037 }, { "epoch": 0.8573866666666666, "grad_norm": 1.7643590368242728, "learning_rate": 5.240250244179801e-07, "loss": 0.5838, "step": 8038 }, { "avg_step_time": 5.815648399218165, "epoch": 0.8573866666666666, "eta_time": 2.1598671971540795, "step": 8038 }, { "epoch": 0.8574933333333333, "grad_norm": 2.052191689370693, "learning_rate": 5.232553980853667e-07, "loss": 0.4844, "step": 8039 }, { "avg_step_time": 5.828935558145696, "epoch": 0.8574933333333333, "eta_time": 2.163182751578514, "step": 8039 }, { "epoch": 0.8576, "grad_norm": 1.7294799890231147, "learning_rate": 5.224863061296553e-07, "loss": 0.5159, "step": 8040 }, { "avg_step_time": 5.829086209788467, "epoch": 0.8576, "eta_time": 2.161619469463223, "step": 8040 }, { "epoch": 0.8577066666666666, "grad_norm": 0.6211372657823347, "learning_rate": 5.217177486426506e-07, "loss": 0.4249, "step": 8041 }, { "avg_step_time": 5.818035383417149, "epoch": 0.8577066666666666, "eta_time": 2.1559053337440215, "step": 8041 }, { "epoch": 0.8578133333333333, "grad_norm": 0.6460855997251983, "learning_rate": 5.209497257160911e-07, "loss": 0.4594, "step": 8042 }, { "avg_step_time": 5.7781916676145615, "epoch": 0.8578133333333333, "eta_time": 2.139535970258392, "step": 8042 }, { "epoch": 0.85792, "grad_norm": 2.1826513997410486, "learning_rate": 5.201822374416549e-07, "loss": 0.4846, "step": 8043 }, { "avg_step_time": 5.766126081196949, "epoch": 0.85792, "eta_time": 2.133466650042871, "step": 8043 }, { "epoch": 0.8580266666666667, "grad_norm": 0.6634919018010673, "learning_rate": 5.194152839109562e-07, "loss": 0.44, "step": 8044 }, { "avg_step_time": 5.705009886712739, "epoch": 0.8580266666666667, "eta_time": 2.109268933115182, "step": 8044 }, { "epoch": 0.8581333333333333, "grad_norm": 1.8802253656815788, "learning_rate": 5.186488652155425e-07, "loss": 0.5639, "step": 8045 }, { "avg_step_time": 5.7060906044160475, "epoch": 0.8581333333333333, "eta_time": 2.1080834732981506, "step": 8045 }, { "epoch": 0.85824, "grad_norm": 2.0795131554689514, "learning_rate": 5.178829814469006e-07, "loss": 0.5476, "step": 8046 }, { "avg_step_time": 5.69714688773107, "epoch": 0.85824, "eta_time": 2.1031967260540534, "step": 8046 }, { "epoch": 0.8583466666666667, "grad_norm": 1.8188441223382061, "learning_rate": 5.171176326964511e-07, "loss": 0.4911, "step": 8047 }, { "avg_step_time": 5.734725976231123, "epoch": 0.8583466666666667, "eta_time": 2.1154766934541476, "step": 8047 }, { "epoch": 0.8584533333333333, "grad_norm": 1.731233530188645, "learning_rate": 5.163528190555495e-07, "loss": 0.4777, "step": 8048 }, { "avg_step_time": 5.733105710058501, "epoch": 0.8584533333333333, "eta_time": 2.1132864659021195, "step": 8048 }, { "epoch": 0.85856, "grad_norm": 1.8250538962196992, "learning_rate": 5.155885406154937e-07, "loss": 0.4937, "step": 8049 }, { "avg_step_time": 5.719454437795312, "epoch": 0.85856, "eta_time": 2.106665717921273, "step": 8049 }, { "epoch": 0.8586666666666667, "grad_norm": 1.8496940309391532, "learning_rate": 5.148247974675113e-07, "loss": 0.4696, "step": 8050 }, { "avg_step_time": 5.724802778224753, "epoch": 0.8586666666666667, "eta_time": 2.1070454669854994, "step": 8050 }, { "epoch": 0.8587733333333334, "grad_norm": 1.819351560431662, "learning_rate": 5.140615897027679e-07, "loss": 0.4537, "step": 8051 }, { "avg_step_time": 5.686294979519314, "epoch": 0.8587733333333334, "eta_time": 2.0912929313565476, "step": 8051 }, { "epoch": 0.85888, "grad_norm": 2.0489569558963208, "learning_rate": 5.132989174123659e-07, "loss": 0.5854, "step": 8052 }, { "avg_step_time": 5.687378047692655, "epoch": 0.85888, "eta_time": 2.090111432527051, "step": 8052 }, { "epoch": 0.8589866666666667, "grad_norm": 1.9669270614979348, "learning_rate": 5.125367806873449e-07, "loss": 0.4919, "step": 8053 }, { "avg_step_time": 5.688993709255951, "epoch": 0.8589866666666667, "eta_time": 2.089124912121213, "step": 8053 }, { "epoch": 0.8590933333333334, "grad_norm": 1.6096550794302082, "learning_rate": 5.117751796186776e-07, "loss": 0.4725, "step": 8054 }, { "avg_step_time": 5.68679418467512, "epoch": 0.8590933333333334, "eta_time": 2.0867375327655093, "step": 8054 }, { "epoch": 0.8592, "grad_norm": 1.919832187912335, "learning_rate": 5.110141142972735e-07, "loss": 0.4277, "step": 8055 }, { "avg_step_time": 5.684270403601906, "epoch": 0.8592, "eta_time": 2.084232481320699, "step": 8055 }, { "epoch": 0.8593066666666667, "grad_norm": 2.0937319957164586, "learning_rate": 5.102535848139812e-07, "loss": 0.4889, "step": 8056 }, { "avg_step_time": 5.683674600389269, "epoch": 0.8593066666666667, "eta_time": 2.0824352216426236, "step": 8056 }, { "epoch": 0.8594133333333334, "grad_norm": 1.9479925686529285, "learning_rate": 5.094935912595805e-07, "loss": 0.4398, "step": 8057 }, { "avg_step_time": 5.704372261509751, "epoch": 0.8594133333333334, "eta_time": 2.0884340668527366, "step": 8057 }, { "epoch": 0.85952, "grad_norm": 1.7664919640991437, "learning_rate": 5.087341337247914e-07, "loss": 0.4013, "step": 8058 }, { "avg_step_time": 5.699542050409799, "epoch": 0.85952, "eta_time": 2.085082466774918, "step": 8058 }, { "epoch": 0.8596266666666667, "grad_norm": 1.9054893748273778, "learning_rate": 5.079752123002684e-07, "loss": 0.5047, "step": 8059 }, { "avg_step_time": 5.702076273735123, "epoch": 0.8596266666666667, "eta_time": 2.084425660065395, "step": 8059 }, { "epoch": 0.8597333333333333, "grad_norm": 1.744147241242024, "learning_rate": 5.07216827076602e-07, "loss": 0.4461, "step": 8060 }, { "avg_step_time": 5.6997786868702285, "epoch": 0.8597333333333333, "eta_time": 2.0820024925650973, "step": 8060 }, { "epoch": 0.85984, "grad_norm": 1.6021830026485488, "learning_rate": 5.064589781443163e-07, "loss": 0.4509, "step": 8061 }, { "avg_step_time": 5.6998129468975645, "epoch": 0.85984, "eta_time": 2.0804317256176112, "step": 8061 }, { "epoch": 0.8599466666666666, "grad_norm": 1.8362907958070374, "learning_rate": 5.057016655938763e-07, "loss": 0.4652, "step": 8062 }, { "avg_step_time": 5.668193590761435, "epoch": 0.8599466666666666, "eta_time": 2.0673161624082677, "step": 8062 }, { "epoch": 0.8600533333333333, "grad_norm": 1.6544382859204811, "learning_rate": 5.0494488951568e-07, "loss": 0.4207, "step": 8063 }, { "avg_step_time": 5.668873714678215, "epoch": 0.8600533333333333, "eta_time": 2.065989531571616, "step": 8063 }, { "epoch": 0.86016, "grad_norm": 1.733345430867066, "learning_rate": 5.041886500000603e-07, "loss": 0.4461, "step": 8064 }, { "avg_step_time": 5.667878981792565, "epoch": 0.86016, "eta_time": 2.0640525958694593, "step": 8064 }, { "epoch": 0.8602666666666666, "grad_norm": 1.778504234938143, "learning_rate": 5.03432947137289e-07, "loss": 0.4564, "step": 8065 }, { "avg_step_time": 5.663738963579891, "epoch": 0.8602666666666666, "eta_time": 2.0609716784137935, "step": 8065 }, { "epoch": 0.8603733333333333, "grad_norm": 0.6523561521022061, "learning_rate": 5.026777810175721e-07, "loss": 0.4297, "step": 8066 }, { "avg_step_time": 5.626873806269482, "epoch": 0.8603733333333333, "eta_time": 2.0459938367796533, "step": 8066 }, { "epoch": 0.86048, "grad_norm": 1.9338470094643532, "learning_rate": 5.019231517310491e-07, "loss": 0.4772, "step": 8067 }, { "avg_step_time": 5.626342289375536, "epoch": 0.86048, "eta_time": 2.0442376984731117, "step": 8067 }, { "epoch": 0.8605866666666667, "grad_norm": 2.044123903933526, "learning_rate": 5.01169059367802e-07, "loss": 0.5033, "step": 8068 }, { "avg_step_time": 5.62142325892593, "epoch": 0.8605866666666667, "eta_time": 2.040888944282275, "step": 8068 }, { "epoch": 0.8606933333333333, "grad_norm": 1.9261780873860737, "learning_rate": 5.004155040178432e-07, "loss": 0.468, "step": 8069 }, { "avg_step_time": 5.61984394295047, "epoch": 0.8606933333333333, "eta_time": 2.038754497081476, "step": 8069 }, { "epoch": 0.8608, "grad_norm": 1.633109393724518, "learning_rate": 4.996624857711219e-07, "loss": 0.4253, "step": 8070 }, { "avg_step_time": 5.617608727830829, "epoch": 0.8608, "eta_time": 2.0363831638386753, "step": 8070 }, { "epoch": 0.8609066666666667, "grad_norm": 0.6266865070251534, "learning_rate": 4.989100047175243e-07, "loss": 0.4014, "step": 8071 }, { "avg_step_time": 5.567096941398852, "epoch": 0.8609066666666667, "eta_time": 2.0165262254400287, "step": 8071 }, { "epoch": 0.8610133333333333, "grad_norm": 1.7562302184276577, "learning_rate": 4.981580609468717e-07, "loss": 0.4982, "step": 8072 }, { "avg_step_time": 5.569916864838263, "epoch": 0.8610133333333333, "eta_time": 2.016000465245627, "step": 8072 }, { "epoch": 0.86112, "grad_norm": 0.6121751737390464, "learning_rate": 4.97406654548922e-07, "loss": 0.4055, "step": 8073 }, { "avg_step_time": 5.539098161639589, "epoch": 0.86112, "eta_time": 2.003307168459651, "step": 8073 }, { "epoch": 0.8612266666666667, "grad_norm": 1.8708850597059319, "learning_rate": 4.966557856133697e-07, "loss": 0.544, "step": 8074 }, { "avg_step_time": 5.550143689820261, "epoch": 0.8612266666666667, "eta_time": 2.005760261237822, "step": 8074 }, { "epoch": 0.8613333333333333, "grad_norm": 1.7342023133544615, "learning_rate": 4.959054542298425e-07, "loss": 0.5018, "step": 8075 }, { "avg_step_time": 5.5456680986616345, "epoch": 0.8613333333333333, "eta_time": 2.0026023689611456, "step": 8075 }, { "epoch": 0.86144, "grad_norm": 2.1219805544125454, "learning_rate": 4.951556604879049e-07, "loss": 0.4856, "step": 8076 }, { "avg_step_time": 5.557303724866925, "epoch": 0.86144, "eta_time": 2.0052604273894823, "step": 8076 }, { "epoch": 0.8615466666666667, "grad_norm": 1.9844318683568019, "learning_rate": 4.94406404477058e-07, "loss": 0.4888, "step": 8077 }, { "avg_step_time": 5.55895179209083, "epoch": 0.8615466666666667, "eta_time": 2.0043109517038604, "step": 8077 }, { "epoch": 0.8616533333333334, "grad_norm": 1.8714913344987103, "learning_rate": 4.936576862867409e-07, "loss": 0.4237, "step": 8078 }, { "avg_step_time": 5.594729035791724, "epoch": 0.8616533333333334, "eta_time": 2.0156565442838517, "step": 8078 }, { "epoch": 0.86176, "grad_norm": 2.370958429751947, "learning_rate": 4.929095060063227e-07, "loss": 0.4771, "step": 8079 }, { "avg_step_time": 5.592271766277275, "epoch": 0.86176, "eta_time": 2.013217835859819, "step": 8079 }, { "epoch": 0.8618666666666667, "grad_norm": 1.6701154343161488, "learning_rate": 4.921618637251141e-07, "loss": 0.4868, "step": 8080 }, { "avg_step_time": 5.662326152878578, "epoch": 0.8618666666666667, "eta_time": 2.0368645466604884, "step": 8080 }, { "epoch": 0.8619733333333334, "grad_norm": 1.9938182793047576, "learning_rate": 4.914147595323581e-07, "loss": 0.5429, "step": 8081 }, { "avg_step_time": 5.6696851301674895, "epoch": 0.8619733333333334, "eta_time": 2.037936821787981, "step": 8081 }, { "epoch": 0.86208, "grad_norm": 0.6737761309848911, "learning_rate": 4.906681935172342e-07, "loss": 0.462, "step": 8082 }, { "avg_step_time": 5.603920351375233, "epoch": 0.86208, "eta_time": 2.012741392868938, "step": 8082 }, { "epoch": 0.8621866666666667, "grad_norm": 1.9642175719589121, "learning_rate": 4.89922165768858e-07, "loss": 0.5293, "step": 8083 }, { "avg_step_time": 5.638095749749078, "epoch": 0.8621866666666667, "eta_time": 2.0234499190766133, "step": 8083 }, { "epoch": 0.8622933333333334, "grad_norm": 1.8611461497692166, "learning_rate": 4.891766763762823e-07, "loss": 0.4991, "step": 8084 }, { "avg_step_time": 5.674735724323928, "epoch": 0.8622933333333334, "eta_time": 2.0350232833617197, "step": 8084 }, { "epoch": 0.8624, "grad_norm": 2.277811515506779, "learning_rate": 4.88431725428492e-07, "loss": 0.5037, "step": 8085 }, { "avg_step_time": 5.675717334554653, "epoch": 0.8624, "eta_time": 2.0337987115487506, "step": 8085 }, { "epoch": 0.8625066666666666, "grad_norm": 1.8451848830908415, "learning_rate": 4.876873130144122e-07, "loss": 0.5037, "step": 8086 }, { "avg_step_time": 5.6950861853782575, "epoch": 0.8625066666666666, "eta_time": 2.0391572480423816, "step": 8086 }, { "epoch": 0.8626133333333333, "grad_norm": 1.7608953597166037, "learning_rate": 4.869434392228989e-07, "loss": 0.4618, "step": 8087 }, { "avg_step_time": 5.694020319466639, "epoch": 0.8626133333333333, "eta_time": 2.0371939365202865, "step": 8087 }, { "epoch": 0.86272, "grad_norm": 1.9338794360322846, "learning_rate": 4.862001041427488e-07, "loss": 0.5952, "step": 8088 }, { "avg_step_time": 5.69724048749365, "epoch": 0.86272, "eta_time": 2.0367634742789797, "step": 8088 }, { "epoch": 0.8628266666666666, "grad_norm": 0.6429723158631296, "learning_rate": 4.85457307862689e-07, "loss": 0.4192, "step": 8089 }, { "avg_step_time": 5.685704002476702, "epoch": 0.8628266666666666, "eta_time": 2.0310598186625106, "step": 8089 }, { "epoch": 0.8629333333333333, "grad_norm": 1.769488709433076, "learning_rate": 4.847150504713882e-07, "loss": 0.4247, "step": 8090 }, { "avg_step_time": 5.683933065395163, "epoch": 0.8629333333333333, "eta_time": 2.0288483302868845, "step": 8090 }, { "epoch": 0.86304, "grad_norm": 1.8000434522268742, "learning_rate": 4.839733320574457e-07, "loss": 0.5075, "step": 8091 }, { "avg_step_time": 5.684669463321416, "epoch": 0.86304, "eta_time": 2.0275321085846385, "step": 8091 }, { "epoch": 0.8631466666666666, "grad_norm": 1.9185323437701276, "learning_rate": 4.832321527093969e-07, "loss": 0.5535, "step": 8092 }, { "avg_step_time": 5.671620867469094, "epoch": 0.8631466666666666, "eta_time": 2.0213026591563468, "step": 8092 }, { "epoch": 0.8632533333333333, "grad_norm": 1.827834112110679, "learning_rate": 4.824915125157187e-07, "loss": 0.4761, "step": 8093 }, { "avg_step_time": 5.7200325306015785, "epoch": 0.8632533333333333, "eta_time": 2.036967140064229, "step": 8093 }, { "epoch": 0.86336, "grad_norm": 1.9407998617756808, "learning_rate": 4.817514115648164e-07, "loss": 0.5492, "step": 8094 }, { "avg_step_time": 5.72111769878503, "epoch": 0.86336, "eta_time": 2.0357643811510067, "step": 8094 }, { "epoch": 0.8634666666666667, "grad_norm": 0.6384859354336955, "learning_rate": 4.810118499450333e-07, "loss": 0.4303, "step": 8095 }, { "avg_step_time": 5.716074640100652, "epoch": 0.8634666666666667, "eta_time": 2.0323820942580095, "step": 8095 }, { "epoch": 0.8635733333333333, "grad_norm": 1.732279632908644, "learning_rate": 4.8027282774465e-07, "loss": 0.4978, "step": 8096 }, { "avg_step_time": 5.724374306322348, "epoch": 0.8635733333333333, "eta_time": 2.033742982718412, "step": 8096 }, { "epoch": 0.86368, "grad_norm": 1.7332850021152617, "learning_rate": 4.795343450518825e-07, "loss": 0.4785, "step": 8097 }, { "avg_step_time": 5.72199878307304, "epoch": 0.86368, "eta_time": 2.031309567990929, "step": 8097 }, { "epoch": 0.8637866666666667, "grad_norm": 0.644444983852006, "learning_rate": 4.787964019548797e-07, "loss": 0.448, "step": 8098 }, { "avg_step_time": 5.689002771570225, "epoch": 0.8637866666666667, "eta_time": 2.018015705359771, "step": 8098 }, { "epoch": 0.8638933333333333, "grad_norm": 1.9793933204708334, "learning_rate": 4.780589985417294e-07, "loss": 0.5188, "step": 8099 }, { "avg_step_time": 5.681588852044308, "epoch": 0.8638933333333333, "eta_time": 2.0138076042245934, "step": 8099 }, { "epoch": 0.864, "grad_norm": 1.68166024900266, "learning_rate": 4.773221349004531e-07, "loss": 0.5368, "step": 8100 }, { "avg_step_time": 5.717370803910073, "epoch": 0.864, "eta_time": 2.0249021597181507, "step": 8100 }, { "epoch": 0.8641066666666667, "grad_norm": 2.0383441668290074, "learning_rate": 4.765858111190053e-07, "loss": 0.4314, "step": 8101 }, { "avg_step_time": 5.71925043096446, "epoch": 0.8641066666666667, "eta_time": 2.023979180291312, "step": 8101 }, { "epoch": 0.8642133333333333, "grad_norm": 0.6341683541772898, "learning_rate": 4.7585002728528393e-07, "loss": 0.4387, "step": 8102 }, { "avg_step_time": 5.68357324118566, "epoch": 0.8642133333333333, "eta_time": 2.0097746488970403, "step": 8102 }, { "epoch": 0.86432, "grad_norm": 1.8555585764218931, "learning_rate": 4.7511478348711447e-07, "loss": 0.4196, "step": 8103 }, { "avg_step_time": 5.684105181934858, "epoch": 0.86432, "eta_time": 2.0083838309503164, "step": 8103 }, { "epoch": 0.8644266666666667, "grad_norm": 1.8043288254523815, "learning_rate": 4.743800798122611e-07, "loss": 0.4782, "step": 8104 }, { "avg_step_time": 5.716635366882941, "epoch": 0.8644266666666667, "eta_time": 2.018289875363394, "step": 8104 }, { "epoch": 0.8645333333333334, "grad_norm": 1.8811235564491617, "learning_rate": 4.736459163484253e-07, "loss": 0.4469, "step": 8105 }, { "avg_step_time": 5.715274386935764, "epoch": 0.8645333333333334, "eta_time": 2.01622179761345, "step": 8105 }, { "epoch": 0.86464, "grad_norm": 0.6341862813155962, "learning_rate": 4.729122931832392e-07, "loss": 0.4396, "step": 8106 }, { "avg_step_time": 5.69332124970176, "epoch": 0.86464, "eta_time": 2.0068957405198704, "step": 8106 }, { "epoch": 0.8647466666666667, "grad_norm": 0.6304731008244806, "learning_rate": 4.7217921040427604e-07, "loss": 0.4111, "step": 8107 }, { "avg_step_time": 5.658110782353565, "epoch": 0.8647466666666667, "eta_time": 1.992912353340089, "step": 8107 }, { "epoch": 0.8648533333333334, "grad_norm": 1.7732250708563315, "learning_rate": 4.7144666809903984e-07, "loss": 0.4771, "step": 8108 }, { "avg_step_time": 5.647699594497681, "epoch": 0.8648533333333334, "eta_time": 1.9876764961746003, "step": 8108 }, { "epoch": 0.86496, "grad_norm": 1.6274615990220167, "learning_rate": 4.707146663549744e-07, "loss": 0.5029, "step": 8109 }, { "avg_step_time": 5.649903981372564, "epoch": 0.86496, "eta_time": 1.9868829001160182, "step": 8109 }, { "epoch": 0.8650666666666667, "grad_norm": 2.0355779618894565, "learning_rate": 4.6998320525945494e-07, "loss": 0.4279, "step": 8110 }, { "avg_step_time": 5.688249260488183, "epoch": 0.8650666666666667, "eta_time": 1.9987875873659866, "step": 8110 }, { "epoch": 0.8651733333333333, "grad_norm": 2.202473413702624, "learning_rate": 4.6925228489979434e-07, "loss": 0.4257, "step": 8111 }, { "avg_step_time": 5.686013513141209, "epoch": 0.8651733333333333, "eta_time": 1.996422522391802, "step": 8111 }, { "epoch": 0.86528, "grad_norm": 1.6738148336598244, "learning_rate": 4.685219053632423e-07, "loss": 0.4034, "step": 8112 }, { "avg_step_time": 5.685484081807763, "epoch": 0.86528, "eta_time": 1.9946573320342236, "step": 8112 }, { "epoch": 0.8653866666666666, "grad_norm": 2.0183842417902427, "learning_rate": 4.677920667369806e-07, "loss": 0.4293, "step": 8113 }, { "avg_step_time": 5.683276159594757, "epoch": 0.8653866666666666, "eta_time": 1.9923040315023843, "step": 8113 }, { "epoch": 0.8654933333333333, "grad_norm": 1.8676728429332279, "learning_rate": 4.6706276910812755e-07, "loss": 0.4292, "step": 8114 }, { "avg_step_time": 5.686509741677178, "epoch": 0.8654933333333333, "eta_time": 1.9918579956263673, "step": 8114 }, { "epoch": 0.8656, "grad_norm": 2.2896913116681517, "learning_rate": 4.663340125637389e-07, "loss": 0.4312, "step": 8115 }, { "avg_step_time": 5.685639017760152, "epoch": 0.8656, "eta_time": 1.9899736562160533, "step": 8115 }, { "epoch": 0.8657066666666666, "grad_norm": 1.8626764676715355, "learning_rate": 4.6560579719080343e-07, "loss": 0.4702, "step": 8116 }, { "avg_step_time": 5.686054140630395, "epoch": 0.8657066666666666, "eta_time": 1.9885394897371298, "step": 8116 }, { "epoch": 0.8658133333333333, "grad_norm": 2.063913551626462, "learning_rate": 4.6487812307624613e-07, "loss": 0.499, "step": 8117 }, { "avg_step_time": 5.686565565340446, "epoch": 0.8658133333333333, "eta_time": 1.9871387447773003, "step": 8117 }, { "epoch": 0.86592, "grad_norm": 1.7648944658480608, "learning_rate": 4.6415099030692914e-07, "loss": 0.4595, "step": 8118 }, { "avg_step_time": 5.697700936384876, "epoch": 0.86592, "eta_time": 1.9894472436210524, "step": 8118 }, { "epoch": 0.8660266666666666, "grad_norm": 2.042505993677446, "learning_rate": 4.6342439896964686e-07, "loss": 0.5015, "step": 8119 }, { "avg_step_time": 5.699287376018486, "epoch": 0.8660266666666666, "eta_time": 1.9884180400775606, "step": 8119 }, { "epoch": 0.8661333333333333, "grad_norm": 1.8188821303207592, "learning_rate": 4.6269834915112945e-07, "loss": 0.4803, "step": 8120 }, { "avg_step_time": 5.694848286985147, "epoch": 0.8661333333333333, "eta_time": 1.9852873889350997, "step": 8120 }, { "epoch": 0.86624, "grad_norm": 1.837996559836844, "learning_rate": 4.619728409380453e-07, "loss": 0.5045, "step": 8121 }, { "avg_step_time": 5.6927352866741145, "epoch": 0.86624, "eta_time": 1.9829694581914832, "step": 8121 }, { "epoch": 0.8663466666666667, "grad_norm": 2.059849162891173, "learning_rate": 4.612478744169968e-07, "loss": 0.4348, "step": 8122 }, { "avg_step_time": 5.689374066362477, "epoch": 0.8663466666666667, "eta_time": 1.9802182514311624, "step": 8122 }, { "epoch": 0.8664533333333333, "grad_norm": 1.850848790493936, "learning_rate": 4.6052344967451977e-07, "loss": 0.3854, "step": 8123 }, { "avg_step_time": 5.639107239366782, "epoch": 0.8664533333333333, "eta_time": 1.9611561843575585, "step": 8123 }, { "epoch": 0.86656, "grad_norm": 2.181401672048366, "learning_rate": 4.597995667970878e-07, "loss": 0.5545, "step": 8124 }, { "avg_step_time": 5.636341376738115, "epoch": 0.86656, "eta_time": 1.958628628416495, "step": 8124 }, { "epoch": 0.8666666666666667, "grad_norm": 2.150359381091943, "learning_rate": 4.5907622587110845e-07, "loss": 0.5229, "step": 8125 }, { "avg_step_time": 5.65348295731978, "epoch": 0.8666666666666667, "eta_time": 1.9630149157360348, "step": 8125 }, { "epoch": 0.8667733333333333, "grad_norm": 1.970912052818547, "learning_rate": 4.583534269829232e-07, "loss": 0.5483, "step": 8126 }, { "avg_step_time": 5.655952176662407, "epoch": 0.8667733333333333, "eta_time": 1.962301185736485, "step": 8126 }, { "epoch": 0.86688, "grad_norm": 0.6741134789107215, "learning_rate": 4.5763117021881467e-07, "loss": 0.4475, "step": 8127 }, { "avg_step_time": 5.643871244758066, "epoch": 0.86688, "eta_time": 1.9565420315161297, "step": 8127 }, { "epoch": 0.8669866666666667, "grad_norm": 0.6828390804104291, "learning_rate": 4.569094556649939e-07, "loss": 0.435, "step": 8128 }, { "avg_step_time": 5.607854763666789, "epoch": 0.8669866666666667, "eta_time": 1.9424985806368018, "step": 8128 }, { "epoch": 0.8670933333333334, "grad_norm": 0.6621119439268628, "learning_rate": 4.561882834076098e-07, "loss": 0.4418, "step": 8129 }, { "avg_step_time": 5.5739281201603434, "epoch": 0.8670933333333334, "eta_time": 1.9291984549221632, "step": 8129 }, { "epoch": 0.8672, "grad_norm": 1.9327352911262383, "learning_rate": 4.5546765353274846e-07, "loss": 0.5065, "step": 8130 }, { "avg_step_time": 5.534899080642546, "epoch": 0.8672, "eta_time": 1.9141525987222139, "step": 8130 }, { "epoch": 0.8673066666666667, "grad_norm": 1.7476968997288196, "learning_rate": 4.547475661264272e-07, "loss": 0.4778, "step": 8131 }, { "avg_step_time": 5.536425604964748, "epoch": 0.8673066666666667, "eta_time": 1.9131426257155961, "step": 8131 }, { "epoch": 0.8674133333333334, "grad_norm": 1.9711593919207886, "learning_rate": 4.5402802127460233e-07, "loss": 0.4612, "step": 8132 }, { "avg_step_time": 5.536859074024239, "epoch": 0.8674133333333334, "eta_time": 1.9117543969478137, "step": 8132 }, { "epoch": 0.86752, "grad_norm": 1.774194726584403, "learning_rate": 4.5330901906316506e-07, "loss": 0.4496, "step": 8133 }, { "avg_step_time": 5.5410899008163295, "epoch": 0.86752, "eta_time": 1.9116760157816337, "step": 8133 }, { "epoch": 0.8676266666666667, "grad_norm": 1.7803829888268432, "learning_rate": 4.525905595779395e-07, "loss": 0.4763, "step": 8134 }, { "avg_step_time": 5.562794071255309, "epoch": 0.8676266666666667, "eta_time": 1.9176187340077329, "step": 8134 }, { "epoch": 0.8677333333333334, "grad_norm": 1.6000116519878382, "learning_rate": 4.518726429046849e-07, "loss": 0.5331, "step": 8135 }, { "avg_step_time": 5.563149868839919, "epoch": 0.8677333333333334, "eta_time": 1.9161960659337498, "step": 8135 }, { "epoch": 0.86784, "grad_norm": 1.9308110972605244, "learning_rate": 4.511552691290988e-07, "loss": 0.4844, "step": 8136 }, { "avg_step_time": 5.567411762295348, "epoch": 0.86784, "eta_time": 1.9161175481899821, "step": 8136 }, { "epoch": 0.8679466666666666, "grad_norm": 1.895193529654932, "learning_rate": 4.5043843833681265e-07, "loss": 0.4484, "step": 8137 }, { "avg_step_time": 5.565594624991369, "epoch": 0.8679466666666666, "eta_time": 1.9139461515942542, "step": 8137 }, { "epoch": 0.8680533333333333, "grad_norm": 1.672667337562904, "learning_rate": 4.4972215061339087e-07, "loss": 0.5241, "step": 8138 }, { "avg_step_time": 5.5491842115768275, "epoch": 0.8680533333333333, "eta_time": 1.9067613527001488, "step": 8138 }, { "epoch": 0.86816, "grad_norm": 2.3826641841043137, "learning_rate": 4.490064060443361e-07, "loss": 0.5418, "step": 8139 }, { "avg_step_time": 5.5500969670035625, "epoch": 0.86816, "eta_time": 1.9055332920045565, "step": 8139 }, { "epoch": 0.8682666666666666, "grad_norm": 1.7838549587603538, "learning_rate": 4.4829120471508393e-07, "loss": 0.4457, "step": 8140 }, { "avg_step_time": 5.56841319016736, "epoch": 0.8682666666666666, "eta_time": 1.910275080515747, "step": 8140 }, { "epoch": 0.8683733333333333, "grad_norm": 2.1413981955241495, "learning_rate": 4.4757654671100714e-07, "loss": 0.5339, "step": 8141 }, { "avg_step_time": 5.606375879711575, "epoch": 0.8683733333333333, "eta_time": 1.9217410654344675, "step": 8141 }, { "epoch": 0.86848, "grad_norm": 1.7728366848185095, "learning_rate": 4.468624321174109e-07, "loss": 0.4429, "step": 8142 }, { "avg_step_time": 5.612189685455476, "epoch": 0.86848, "eta_time": 1.9221749672685007, "step": 8142 }, { "epoch": 0.8685866666666666, "grad_norm": 0.6597168955400563, "learning_rate": 4.4614886101953915e-07, "loss": 0.4577, "step": 8143 }, { "avg_step_time": 5.613521679483279, "epoch": 0.8685866666666666, "eta_time": 1.9210718636453887, "step": 8143 }, { "epoch": 0.8686933333333333, "grad_norm": 1.925542158741439, "learning_rate": 4.454358335025677e-07, "loss": 0.4902, "step": 8144 }, { "avg_step_time": 5.614118874675095, "epoch": 0.8686933333333333, "eta_time": 1.919716759645845, "step": 8144 }, { "epoch": 0.8688, "grad_norm": 1.8199327652809154, "learning_rate": 4.4472334965160736e-07, "loss": 0.452, "step": 8145 }, { "avg_step_time": 5.609065347247654, "epoch": 0.8688, "eta_time": 1.916430660309615, "step": 8145 }, { "epoch": 0.8689066666666667, "grad_norm": 1.5743492723102432, "learning_rate": 4.440114095517084e-07, "loss": 0.438, "step": 8146 }, { "avg_step_time": 5.6090019014146595, "epoch": 0.8689066666666667, "eta_time": 1.9148509268996157, "step": 8146 }, { "epoch": 0.8690133333333333, "grad_norm": 1.9800699790458978, "learning_rate": 4.4330001328785176e-07, "loss": 0.5584, "step": 8147 }, { "avg_step_time": 5.61301672819889, "epoch": 0.8690133333333333, "eta_time": 1.9146623728411767, "step": 8147 }, { "epoch": 0.86912, "grad_norm": 1.9551664877993367, "learning_rate": 4.4258916094495394e-07, "loss": 0.4659, "step": 8148 }, { "avg_step_time": 5.614595179605966, "epoch": 0.86912, "eta_time": 1.9136411903823667, "step": 8148 }, { "epoch": 0.8692266666666667, "grad_norm": 2.4466942417576183, "learning_rate": 4.4187885260786933e-07, "loss": 0.4512, "step": 8149 }, { "avg_step_time": 5.610404462525339, "epoch": 0.8692266666666667, "eta_time": 1.9106544086266848, "step": 8149 }, { "epoch": 0.8693333333333333, "grad_norm": 1.7886333674132406, "learning_rate": 4.411690883613834e-07, "loss": 0.3988, "step": 8150 }, { "avg_step_time": 5.613399481532549, "epoch": 0.8693333333333333, "eta_time": 1.9101151013548257, "step": 8150 }, { "epoch": 0.86944, "grad_norm": 2.2334198486628667, "learning_rate": 4.4045986829022e-07, "loss": 0.5177, "step": 8151 }, { "avg_step_time": 5.6279261328957295, "epoch": 0.86944, "eta_time": 1.913494885184548, "step": 8151 }, { "epoch": 0.8695466666666667, "grad_norm": 0.6533965162787274, "learning_rate": 4.397511924790382e-07, "loss": 0.455, "step": 8152 }, { "avg_step_time": 5.59298024273882, "epoch": 0.8695466666666667, "eta_time": 1.9000596769082159, "step": 8152 }, { "epoch": 0.8696533333333333, "grad_norm": 1.6940005562669056, "learning_rate": 4.3904306101242855e-07, "loss": 0.4862, "step": 8153 }, { "avg_step_time": 5.597360642269404, "epoch": 0.8696533333333333, "eta_time": 1.8999929735703367, "step": 8153 }, { "epoch": 0.86976, "grad_norm": 1.7595470305028067, "learning_rate": 4.38335473974919e-07, "loss": 0.5001, "step": 8154 }, { "avg_step_time": 5.599887366246695, "epoch": 0.86976, "eta_time": 1.8992951317186708, "step": 8154 }, { "epoch": 0.8698666666666667, "grad_norm": 2.050823929041874, "learning_rate": 4.376284314509727e-07, "loss": 0.4791, "step": 8155 }, { "avg_step_time": 5.601741956942009, "epoch": 0.8698666666666667, "eta_time": 1.8983681076303474, "step": 8155 }, { "epoch": 0.8699733333333334, "grad_norm": 1.5615134425600221, "learning_rate": 4.369219335249886e-07, "loss": 0.4669, "step": 8156 }, { "avg_step_time": 5.582302700389516, "epoch": 0.8699733333333334, "eta_time": 1.8902297199374498, "step": 8156 }, { "epoch": 0.87008, "grad_norm": 2.2128365449111933, "learning_rate": 4.362159802812971e-07, "loss": 0.5955, "step": 8157 }, { "avg_step_time": 5.580585212418527, "epoch": 0.87008, "eta_time": 1.8880979968682683, "step": 8157 }, { "epoch": 0.8701866666666667, "grad_norm": 1.9690627543299093, "learning_rate": 4.3551057180416855e-07, "loss": 0.4823, "step": 8158 }, { "avg_step_time": 5.5791203325445, "epoch": 0.8701866666666667, "eta_time": 1.8860526235296269, "step": 8158 }, { "epoch": 0.8702933333333334, "grad_norm": 1.7403800639838307, "learning_rate": 4.34805708177804e-07, "loss": 0.4343, "step": 8159 }, { "avg_step_time": 5.580632294067229, "epoch": 0.8702933333333334, "eta_time": 1.8850135748849306, "step": 8159 }, { "epoch": 0.8704, "grad_norm": 1.9041492632832027, "learning_rate": 4.341013894863405e-07, "loss": 0.4342, "step": 8160 }, { "avg_step_time": 5.577740250211773, "epoch": 0.8704, "eta_time": 1.8824873344464736, "step": 8160 }, { "epoch": 0.8705066666666667, "grad_norm": 1.917043113695186, "learning_rate": 4.333976158138514e-07, "loss": 0.5227, "step": 8161 }, { "avg_step_time": 5.567324096506292, "epoch": 0.8705066666666667, "eta_time": 1.8774254036551774, "step": 8161 }, { "epoch": 0.8706133333333334, "grad_norm": 1.778997607992562, "learning_rate": 4.3269438724434563e-07, "loss": 0.5007, "step": 8162 }, { "avg_step_time": 5.566767196462612, "epoch": 0.8706133333333334, "eta_time": 1.8756912803636523, "step": 8162 }, { "epoch": 0.87072, "grad_norm": 2.1155161461810805, "learning_rate": 4.3199170386176325e-07, "loss": 0.5057, "step": 8163 }, { "avg_step_time": 5.566070631296948, "epoch": 0.87072, "eta_time": 1.8739104458699725, "step": 8163 }, { "epoch": 0.8708266666666666, "grad_norm": 2.001062210723783, "learning_rate": 4.3128956574998436e-07, "loss": 0.4731, "step": 8164 }, { "avg_step_time": 5.571182771162554, "epoch": 0.8708266666666666, "eta_time": 1.8740839821882924, "step": 8164 }, { "epoch": 0.8709333333333333, "grad_norm": 2.362380485349119, "learning_rate": 4.3058797299281864e-07, "loss": 0.5918, "step": 8165 }, { "avg_step_time": 5.606548737997961, "epoch": 0.8709333333333333, "eta_time": 1.8844233258270924, "step": 8165 }, { "epoch": 0.87104, "grad_norm": 1.8309593484261268, "learning_rate": 4.2988692567401515e-07, "loss": 0.4114, "step": 8166 }, { "avg_step_time": 5.605678729336671, "epoch": 0.87104, "eta_time": 1.8825737732688987, "step": 8166 }, { "epoch": 0.8711466666666666, "grad_norm": 2.0751558567036006, "learning_rate": 4.2918642387725475e-07, "loss": 0.5342, "step": 8167 }, { "avg_step_time": 5.60343071667835, "epoch": 0.8711466666666666, "eta_time": 1.8802623071520685, "step": 8167 }, { "epoch": 0.8712533333333333, "grad_norm": 1.8514819184378375, "learning_rate": 4.284864676861561e-07, "loss": 0.3831, "step": 8168 }, { "avg_step_time": 5.602502076312749, "epoch": 0.8712533333333333, "eta_time": 1.8783944461415245, "step": 8168 }, { "epoch": 0.87136, "grad_norm": 1.829292060620404, "learning_rate": 4.2778705718426907e-07, "loss": 0.4859, "step": 8169 }, { "avg_step_time": 5.6015514797634545, "epoch": 0.87136, "eta_time": 1.8765197457207572, "step": 8169 }, { "epoch": 0.8714666666666666, "grad_norm": 1.7478835685005005, "learning_rate": 4.2708819245508126e-07, "loss": 0.4584, "step": 8170 }, { "avg_step_time": 5.636139058103465, "epoch": 0.8714666666666666, "eta_time": 1.8865409902818544, "step": 8170 }, { "epoch": 0.8715733333333333, "grad_norm": 2.2824637032055657, "learning_rate": 4.2638987358201546e-07, "loss": 0.5455, "step": 8171 }, { "avg_step_time": 5.633402321073744, "epoch": 0.8715733333333333, "eta_time": 1.884060109603552, "step": 8171 }, { "epoch": 0.87168, "grad_norm": 1.782862059017858, "learning_rate": 4.2569210064842716e-07, "loss": 0.5334, "step": 8172 }, { "avg_step_time": 5.671629294000491, "epoch": 0.87168, "eta_time": 1.895269455745164, "step": 8172 }, { "epoch": 0.8717866666666667, "grad_norm": 1.640436015963832, "learning_rate": 4.249948737376064e-07, "loss": 0.435, "step": 8173 }, { "avg_step_time": 5.665805142335217, "epoch": 0.8717866666666667, "eta_time": 1.8917493836352586, "step": 8173 }, { "epoch": 0.8718933333333333, "grad_norm": 1.8729650073514308, "learning_rate": 4.2429819293278107e-07, "loss": 0.4596, "step": 8174 }, { "avg_step_time": 5.664425522390038, "epoch": 0.8718933333333333, "eta_time": 1.8897152923306766, "step": 8174 }, { "epoch": 0.872, "grad_norm": 1.8272227866457291, "learning_rate": 4.236020583171108e-07, "loss": 0.4416, "step": 8175 }, { "avg_step_time": 5.657680911247176, "epoch": 0.872, "eta_time": 1.8858936370823922, "step": 8175 }, { "epoch": 0.8721066666666667, "grad_norm": 1.7618141727590764, "learning_rate": 4.2290646997369176e-07, "loss": 0.4801, "step": 8176 }, { "avg_step_time": 5.661293232079708, "epoch": 0.8721066666666667, "eta_time": 1.885525162573214, "step": 8176 }, { "epoch": 0.8722133333333333, "grad_norm": 2.030374106621845, "learning_rate": 4.2221142798555545e-07, "loss": 0.4675, "step": 8177 }, { "avg_step_time": 5.626008631003024, "epoch": 0.8722133333333333, "eta_time": 1.872210649983784, "step": 8177 }, { "epoch": 0.87232, "grad_norm": 0.6344153614649677, "learning_rate": 4.215169324356666e-07, "loss": 0.4632, "step": 8178 }, { "avg_step_time": 5.59218405232285, "epoch": 0.87232, "eta_time": 1.8594011973973477, "step": 8178 }, { "epoch": 0.8724266666666667, "grad_norm": 2.0062046494718992, "learning_rate": 4.208229834069233e-07, "loss": 0.4962, "step": 8179 }, { "avg_step_time": 5.527125235759851, "epoch": 0.8724266666666667, "eta_time": 1.8362338283246615, "step": 8179 }, { "epoch": 0.8725333333333334, "grad_norm": 1.9003705079965045, "learning_rate": 4.201295809821626e-07, "loss": 0.4944, "step": 8180 }, { "avg_step_time": 5.518459495871958, "epoch": 0.8725333333333334, "eta_time": 1.831821971546386, "step": 8180 }, { "epoch": 0.87264, "grad_norm": 1.6142198005863566, "learning_rate": 4.194367252441545e-07, "loss": 0.4258, "step": 8181 }, { "avg_step_time": 5.565760130834097, "epoch": 0.87264, "eta_time": 1.8459771100599756, "step": 8181 }, { "epoch": 0.8727466666666667, "grad_norm": 2.248243196971614, "learning_rate": 4.1874441627560105e-07, "loss": 0.5419, "step": 8182 }, { "avg_step_time": 5.569405582216051, "epoch": 0.8727466666666667, "eta_time": 1.8456391276621524, "step": 8182 }, { "epoch": 0.8728533333333334, "grad_norm": 1.8278337981768342, "learning_rate": 4.180526541591434e-07, "loss": 0.435, "step": 8183 }, { "avg_step_time": 5.566730121169427, "epoch": 0.8728533333333334, "eta_time": 1.8432061956760992, "step": 8183 }, { "epoch": 0.87296, "grad_norm": 1.9797293815619634, "learning_rate": 4.1736143897735394e-07, "loss": 0.4353, "step": 8184 }, { "avg_step_time": 5.564969224159164, "epoch": 0.87296, "eta_time": 1.84107731832599, "step": 8184 }, { "epoch": 0.8730666666666667, "grad_norm": 2.157756095456691, "learning_rate": 4.1667077081274153e-07, "loss": 0.5233, "step": 8185 }, { "avg_step_time": 5.54743520177976, "epoch": 0.8730666666666667, "eta_time": 1.833735525032754, "step": 8185 }, { "epoch": 0.8731733333333334, "grad_norm": 1.8587639763178008, "learning_rate": 4.1598064974775033e-07, "loss": 0.4389, "step": 8186 }, { "avg_step_time": 5.544330006898051, "epoch": 0.8731733333333334, "eta_time": 1.8311689939449398, "step": 8186 }, { "epoch": 0.87328, "grad_norm": 2.07826481641756, "learning_rate": 4.152910758647577e-07, "loss": 0.5152, "step": 8187 }, { "avg_step_time": 5.5454563636972445, "epoch": 0.87328, "eta_time": 1.8300006000200908, "step": 8187 }, { "epoch": 0.8733866666666666, "grad_norm": 1.7580338092652636, "learning_rate": 4.146020492460751e-07, "loss": 0.4995, "step": 8188 }, { "avg_step_time": 5.562028114241783, "epoch": 0.8733866666666666, "eta_time": 1.8339242698902767, "step": 8188 }, { "epoch": 0.8734933333333333, "grad_norm": 1.775638038043322, "learning_rate": 4.1391356997394994e-07, "loss": 0.4647, "step": 8189 }, { "avg_step_time": 5.562913880203709, "epoch": 0.8734933333333333, "eta_time": 1.8326710727559996, "step": 8189 }, { "epoch": 0.8736, "grad_norm": 2.2771858758992365, "learning_rate": 4.1322563813056606e-07, "loss": 0.5338, "step": 8190 }, { "avg_step_time": 5.569428157324743, "epoch": 0.8736, "eta_time": 1.833270101786061, "step": 8190 }, { "epoch": 0.8737066666666666, "grad_norm": 1.809984890539057, "learning_rate": 4.1253825379803826e-07, "loss": 0.5213, "step": 8191 }, { "avg_step_time": 5.581553059394913, "epoch": 0.8737066666666666, "eta_time": 1.8357107839787714, "step": 8191 }, { "epoch": 0.8738133333333333, "grad_norm": 1.7503023311035064, "learning_rate": 4.118514170584187e-07, "loss": 0.4159, "step": 8192 }, { "avg_step_time": 5.568083743856411, "epoch": 0.8738133333333333, "eta_time": 1.8297341858283707, "step": 8192 }, { "epoch": 0.87392, "grad_norm": 1.680220481011097, "learning_rate": 4.111651279936929e-07, "loss": 0.5002, "step": 8193 }, { "avg_step_time": 5.569446322893856, "epoch": 0.87392, "eta_time": 1.828634876016816, "step": 8193 }, { "epoch": 0.8740266666666666, "grad_norm": 1.6418585566065564, "learning_rate": 4.104793866857804e-07, "loss": 0.4482, "step": 8194 }, { "avg_step_time": 5.607095506456163, "epoch": 0.8740266666666666, "eta_time": 1.8394388314235357, "step": 8194 }, { "epoch": 0.8741333333333333, "grad_norm": 2.114673208536488, "learning_rate": 4.097941932165367e-07, "loss": 0.4886, "step": 8195 }, { "avg_step_time": 5.599495605988936, "epoch": 0.8741333333333333, "eta_time": 1.8353902264074844, "step": 8195 }, { "epoch": 0.87424, "grad_norm": 1.875820911173115, "learning_rate": 4.091095476677531e-07, "loss": 0.4676, "step": 8196 }, { "avg_step_time": 5.599823217199306, "epoch": 0.87424, "eta_time": 1.8339421036327728, "step": 8196 }, { "epoch": 0.8743466666666667, "grad_norm": 1.827370983896895, "learning_rate": 4.0842545012115263e-07, "loss": 0.4381, "step": 8197 }, { "avg_step_time": 5.631434149212307, "epoch": 0.8743466666666667, "eta_time": 1.8427303966033606, "step": 8197 }, { "epoch": 0.8744533333333333, "grad_norm": 2.134418206713679, "learning_rate": 4.0774190065839324e-07, "loss": 0.5631, "step": 8198 }, { "avg_step_time": 5.631334865936125, "epoch": 0.8744533333333333, "eta_time": 1.8411336492241164, "step": 8198 }, { "epoch": 0.87456, "grad_norm": 1.557108061134969, "learning_rate": 4.070588993610697e-07, "loss": 0.4431, "step": 8199 }, { "avg_step_time": 5.617953738780937, "epoch": 0.87456, "eta_time": 1.8351982213351061, "step": 8199 }, { "epoch": 0.8746666666666667, "grad_norm": 1.9235698336356752, "learning_rate": 4.0637644631071004e-07, "loss": 0.4333, "step": 8200 }, { "avg_step_time": 5.617927637967196, "epoch": 0.8746666666666667, "eta_time": 1.8336291596142933, "step": 8200 }, { "epoch": 0.8747733333333333, "grad_norm": 1.8540995677868681, "learning_rate": 4.0569454158877587e-07, "loss": 0.4738, "step": 8201 }, { "avg_step_time": 5.653749588764075, "epoch": 0.8747733333333333, "eta_time": 1.8437505603358402, "step": 8201 }, { "epoch": 0.87488, "grad_norm": 2.111803849918773, "learning_rate": 4.050131852766659e-07, "loss": 0.5049, "step": 8202 }, { "avg_step_time": 5.650277301518604, "epoch": 0.87488, "eta_time": 1.8410486874114784, "step": 8202 }, { "epoch": 0.8749866666666667, "grad_norm": 0.6112427164649236, "learning_rate": 4.043323774557106e-07, "loss": 0.4175, "step": 8203 }, { "avg_step_time": 5.615489379324094, "epoch": 0.8749866666666667, "eta_time": 1.8281537646021773, "step": 8203 }, { "epoch": 0.8750933333333333, "grad_norm": 1.7395943171723371, "learning_rate": 4.036521182071745e-07, "loss": 0.4565, "step": 8204 }, { "avg_step_time": 5.6128534596375745, "epoch": 0.8750933333333333, "eta_time": 1.8257365003432222, "step": 8204 }, { "epoch": 0.8752, "grad_norm": 1.9384958217132244, "learning_rate": 4.029724076122621e-07, "loss": 0.5405, "step": 8205 }, { "avg_step_time": 5.633201382376931, "epoch": 0.8752, "eta_time": 1.8307904492725025, "step": 8205 }, { "epoch": 0.8753066666666667, "grad_norm": 2.0806006102856185, "learning_rate": 4.022932457521067e-07, "loss": 0.5036, "step": 8206 }, { "avg_step_time": 5.668171988593207, "epoch": 0.8753066666666667, "eta_time": 1.8405814040737387, "step": 8206 }, { "epoch": 0.8754133333333334, "grad_norm": 1.6333711897398606, "learning_rate": 4.016146327077775e-07, "loss": 0.4256, "step": 8207 }, { "avg_step_time": 5.670487750660289, "epoch": 0.8754133333333334, "eta_time": 1.839758247992005, "step": 8207 }, { "epoch": 0.87552, "grad_norm": 1.7723195555609832, "learning_rate": 4.009365685602795e-07, "loss": 0.4195, "step": 8208 }, { "avg_step_time": 5.670625657746286, "epoch": 0.87552, "eta_time": 1.8382278173860878, "step": 8208 }, { "epoch": 0.8756266666666667, "grad_norm": 2.047875713085029, "learning_rate": 4.002590533905504e-07, "loss": 0.5688, "step": 8209 }, { "avg_step_time": 5.668347847582114, "epoch": 0.8756266666666667, "eta_time": 1.8359148861890957, "step": 8209 }, { "epoch": 0.8757333333333334, "grad_norm": 1.9835578870372637, "learning_rate": 3.9958208727946426e-07, "loss": 0.4548, "step": 8210 }, { "avg_step_time": 5.674743897987135, "epoch": 0.8757333333333334, "eta_time": 1.8364101780986144, "step": 8210 }, { "epoch": 0.87584, "grad_norm": 2.311665055501549, "learning_rate": 3.989056703078292e-07, "loss": 0.5587, "step": 8211 }, { "avg_step_time": 5.676313679627698, "epoch": 0.87584, "eta_time": 1.8353414230796223, "step": 8211 }, { "epoch": 0.8759466666666667, "grad_norm": 1.8998166169065822, "learning_rate": 3.982298025563863e-07, "loss": 0.6004, "step": 8212 }, { "avg_step_time": 5.676431860586609, "epoch": 0.8759466666666667, "eta_time": 1.8338028482950628, "step": 8212 }, { "epoch": 0.8760533333333334, "grad_norm": 1.7136637970470616, "learning_rate": 3.975544841058121e-07, "loss": 0.3703, "step": 8213 }, { "avg_step_time": 5.699837467887185, "epoch": 0.8760533333333334, "eta_time": 1.8397808715791413, "step": 8213 }, { "epoch": 0.87616, "grad_norm": 1.8935507866229968, "learning_rate": 3.968797150367171e-07, "loss": 0.4797, "step": 8214 }, { "avg_step_time": 5.69612241995455, "epoch": 0.87616, "eta_time": 1.8369994804353424, "step": 8214 }, { "epoch": 0.8762666666666666, "grad_norm": 1.9189420756535236, "learning_rate": 3.962054954296485e-07, "loss": 0.5166, "step": 8215 }, { "avg_step_time": 5.69650280355203, "epoch": 0.8762666666666666, "eta_time": 1.835539792255654, "step": 8215 }, { "epoch": 0.8763733333333333, "grad_norm": 1.8442806561964589, "learning_rate": 3.9553182536508417e-07, "loss": 0.4476, "step": 8216 }, { "avg_step_time": 5.6969795588291055, "epoch": 0.8763733333333333, "eta_time": 1.8341109190785925, "step": 8216 }, { "epoch": 0.87648, "grad_norm": 2.134710178974903, "learning_rate": 3.948587049234398e-07, "loss": 0.4648, "step": 8217 }, { "avg_step_time": 5.690513656596945, "epoch": 0.87648, "eta_time": 1.830448559538684, "step": 8217 }, { "epoch": 0.8765866666666666, "grad_norm": 1.9627619579761022, "learning_rate": 3.941861341850634e-07, "loss": 0.4614, "step": 8218 }, { "avg_step_time": 5.688092532784048, "epoch": 0.8765866666666666, "eta_time": 1.828089739008651, "step": 8218 }, { "epoch": 0.8766933333333333, "grad_norm": 1.757056484906378, "learning_rate": 3.9351411323023613e-07, "loss": 0.3908, "step": 8219 }, { "avg_step_time": 5.692210329903497, "epoch": 0.8766933333333333, "eta_time": 1.827831983713456, "step": 8219 }, { "epoch": 0.8768, "grad_norm": 1.7269322271190881, "learning_rate": 3.928426421391773e-07, "loss": 0.5008, "step": 8220 }, { "avg_step_time": 5.700034343835079, "epoch": 0.8768, "eta_time": 1.828761018647088, "step": 8220 }, { "epoch": 0.8769066666666666, "grad_norm": 1.6711092212032914, "learning_rate": 3.9217172099203947e-07, "loss": 0.4695, "step": 8221 }, { "avg_step_time": 5.743790494071113, "epoch": 0.8769066666666666, "eta_time": 1.8412039528216846, "step": 8221 }, { "epoch": 0.8770133333333333, "grad_norm": 1.6538953539875352, "learning_rate": 3.915013498689058e-07, "loss": 0.3895, "step": 8222 }, { "avg_step_time": 5.74496933185693, "epoch": 0.8770133333333333, "eta_time": 1.8399860110086221, "step": 8222 }, { "epoch": 0.87712, "grad_norm": 1.856562114845812, "learning_rate": 3.9083152884979935e-07, "loss": 0.4891, "step": 8223 }, { "avg_step_time": 5.744179015207773, "epoch": 0.87712, "eta_time": 1.8381372848664872, "step": 8223 }, { "epoch": 0.8772266666666667, "grad_norm": 1.8468342984581594, "learning_rate": 3.9016225801467355e-07, "loss": 0.4442, "step": 8224 }, { "avg_step_time": 5.729907546380554, "epoch": 0.8772266666666667, "eta_time": 1.8319787738566715, "step": 8224 }, { "epoch": 0.8773333333333333, "grad_norm": 1.8548918937961478, "learning_rate": 3.8949353744341777e-07, "loss": 0.5002, "step": 8225 }, { "avg_step_time": 5.722583900798451, "epoch": 0.8773333333333333, "eta_time": 1.828047634977283, "step": 8225 }, { "epoch": 0.87744, "grad_norm": 2.1206445665534814, "learning_rate": 3.8882536721585486e-07, "loss": 0.4819, "step": 8226 }, { "avg_step_time": 5.736969116962317, "epoch": 0.87744, "eta_time": 1.831049309830473, "step": 8226 }, { "epoch": 0.8775466666666667, "grad_norm": 2.2746449666796704, "learning_rate": 3.881577474117432e-07, "loss": 0.5209, "step": 8227 }, { "avg_step_time": 5.788618013112232, "epoch": 0.8775466666666667, "eta_time": 1.8459259664035674, "step": 8227 }, { "epoch": 0.8776533333333333, "grad_norm": 0.6440047142735082, "learning_rate": 3.87490678110774e-07, "loss": 0.4488, "step": 8228 }, { "avg_step_time": 5.7866864108076, "epoch": 0.8776533333333333, "eta_time": 1.843702586998977, "step": 8228 }, { "epoch": 0.87776, "grad_norm": 0.6513107026085997, "learning_rate": 3.868241593925742e-07, "loss": 0.4306, "step": 8229 }, { "avg_step_time": 5.750507333061912, "epoch": 0.87776, "eta_time": 1.8305781676913755, "step": 8229 }, { "epoch": 0.8778666666666667, "grad_norm": 1.8569342144648684, "learning_rate": 3.861581913367046e-07, "loss": 0.4922, "step": 8230 }, { "avg_step_time": 5.74725848978216, "epoch": 0.8778666666666667, "eta_time": 1.8279474918890481, "step": 8230 }, { "epoch": 0.8779733333333334, "grad_norm": 2.049721554506709, "learning_rate": 3.8549277402265993e-07, "loss": 0.4372, "step": 8231 }, { "avg_step_time": 5.766284670492615, "epoch": 0.8779733333333334, "eta_time": 1.8323971286232088, "step": 8231 }, { "epoch": 0.87808, "grad_norm": 0.6654142836774334, "learning_rate": 3.848279075298678e-07, "loss": 0.4282, "step": 8232 }, { "avg_step_time": 5.716969661038331, "epoch": 0.87808, "eta_time": 1.81513786737967, "step": 8232 }, { "epoch": 0.8781866666666667, "grad_norm": 1.7622176444331334, "learning_rate": 3.841635919376924e-07, "loss": 0.4739, "step": 8233 }, { "avg_step_time": 5.691219924676298, "epoch": 0.8781866666666667, "eta_time": 1.8053814316612034, "step": 8233 }, { "epoch": 0.8782933333333334, "grad_norm": 1.7336285795899502, "learning_rate": 3.8349982732543257e-07, "loss": 0.3666, "step": 8234 }, { "avg_step_time": 5.6932272236756605, "epoch": 0.8782933333333334, "eta_time": 1.8044367395038692, "step": 8234 }, { "epoch": 0.8784, "grad_norm": 1.7005225595932858, "learning_rate": 3.828366137723183e-07, "loss": 0.5011, "step": 8235 }, { "avg_step_time": 5.692631735946193, "epoch": 0.8784, "eta_time": 1.8026667163829613, "step": 8235 }, { "epoch": 0.8785066666666667, "grad_norm": 2.0634318469542507, "learning_rate": 3.821739513575168e-07, "loss": 0.5408, "step": 8236 }, { "avg_step_time": 5.7434320160836885, "epoch": 0.8785066666666667, "eta_time": 1.8171580739775894, "step": 8236 }, { "epoch": 0.8786133333333334, "grad_norm": 2.095342163921374, "learning_rate": 3.815118401601281e-07, "loss": 0.4221, "step": 8237 }, { "avg_step_time": 5.745217992801859, "epoch": 0.8786133333333334, "eta_time": 1.8161272432801432, "step": 8237 }, { "epoch": 0.87872, "grad_norm": 0.6367652629815049, "learning_rate": 3.80850280259184e-07, "loss": 0.449, "step": 8238 }, { "avg_step_time": 5.711142267843689, "epoch": 0.87872, "eta_time": 1.8037690995939653, "step": 8238 }, { "epoch": 0.8788266666666666, "grad_norm": 1.8587891894895519, "learning_rate": 3.8018927173365803e-07, "loss": 0.4791, "step": 8239 }, { "avg_step_time": 5.7040055279779915, "epoch": 0.8788266666666666, "eta_time": 1.7999306332730551, "step": 8239 }, { "epoch": 0.8789333333333333, "grad_norm": 1.79600159269105, "learning_rate": 3.7952881466244985e-07, "loss": 0.5762, "step": 8240 }, { "avg_step_time": 5.705540637777309, "epoch": 0.8789333333333333, "eta_time": 1.7988301732992351, "step": 8240 }, { "epoch": 0.87904, "grad_norm": 2.045258801530942, "learning_rate": 3.7886890912439633e-07, "loss": 0.4478, "step": 8241 }, { "avg_step_time": 5.7017605930867825, "epoch": 0.87904, "eta_time": 1.7960545868223365, "step": 8241 }, { "epoch": 0.8791466666666666, "grad_norm": 0.6360493172550449, "learning_rate": 3.782095551982695e-07, "loss": 0.4329, "step": 8242 }, { "avg_step_time": 5.700439364019067, "epoch": 0.8791466666666666, "eta_time": 1.7940549442871119, "step": 8242 }, { "epoch": 0.8792533333333333, "grad_norm": 1.932099036697699, "learning_rate": 3.775507529627742e-07, "loss": 0.4209, "step": 8243 }, { "avg_step_time": 5.7127057663117995, "epoch": 0.8792533333333333, "eta_time": 1.796328590962488, "step": 8243 }, { "epoch": 0.87936, "grad_norm": 1.6612789212837358, "learning_rate": 3.768925024965503e-07, "loss": 0.4623, "step": 8244 }, { "avg_step_time": 5.727407414503772, "epoch": 0.87936, "eta_time": 1.7993604960566016, "step": 8244 }, { "epoch": 0.8794666666666666, "grad_norm": 2.102442471746768, "learning_rate": 3.7623480387817155e-07, "loss": 0.4476, "step": 8245 }, { "avg_step_time": 5.72681553676875, "epoch": 0.8794666666666666, "eta_time": 1.7975837657079685, "step": 8245 }, { "epoch": 0.8795733333333333, "grad_norm": 2.163440858105327, "learning_rate": 3.7557765718614523e-07, "loss": 0.6746, "step": 8246 }, { "avg_step_time": 5.724829018718064, "epoch": 0.8795733333333333, "eta_time": 1.795369989481304, "step": 8246 }, { "epoch": 0.87968, "grad_norm": 1.6256415526928605, "learning_rate": 3.749210624989125e-07, "loss": 0.3592, "step": 8247 }, { "avg_step_time": 5.724526834006261, "epoch": 0.87968, "eta_time": 1.7936850746552953, "step": 8247 }, { "epoch": 0.8797866666666667, "grad_norm": 1.9183413307595243, "learning_rate": 3.7426501989485e-07, "loss": 0.4812, "step": 8248 }, { "avg_step_time": 5.723065419630571, "epoch": 0.8797866666666667, "eta_time": 1.7916374244232371, "step": 8248 }, { "epoch": 0.8798933333333333, "grad_norm": 0.6657875842419924, "learning_rate": 3.736095294522685e-07, "loss": 0.4554, "step": 8249 }, { "avg_step_time": 5.682313938333531, "epoch": 0.8798933333333333, "eta_time": 1.7773015262676544, "step": 8249 }, { "epoch": 0.88, "grad_norm": 1.7514925302344533, "learning_rate": 3.729545912494115e-07, "loss": 0.4965, "step": 8250 }, { "avg_step_time": 5.668159699199175, "epoch": 0.88, "eta_time": 1.7712999059997423, "step": 8250 }, { "epoch": 0.8801066666666667, "grad_norm": 1.9407356097517419, "learning_rate": 3.7230020536445643e-07, "loss": 0.4523, "step": 8251 }, { "avg_step_time": 5.70212609599335, "epoch": 0.8801066666666667, "eta_time": 1.7803304810823684, "step": 8251 }, { "epoch": 0.8802133333333333, "grad_norm": 1.8976300500922556, "learning_rate": 3.71646371875517e-07, "loss": 0.5473, "step": 8252 }, { "avg_step_time": 5.701301731244482, "epoch": 0.8802133333333333, "eta_time": 1.7784894011632093, "step": 8252 }, { "epoch": 0.88032, "grad_norm": 1.708891547528884, "learning_rate": 3.7099309086063794e-07, "loss": 0.4322, "step": 8253 }, { "avg_step_time": 5.702325999134719, "epoch": 0.88032, "eta_time": 1.7772249363969874, "step": 8253 }, { "epoch": 0.8804266666666667, "grad_norm": 1.7933569401812501, "learning_rate": 3.7034036239780024e-07, "loss": 0.3764, "step": 8254 }, { "avg_step_time": 5.703317266522032, "epoch": 0.8804266666666667, "eta_time": 1.7759496266031107, "step": 8254 }, { "epoch": 0.8805333333333333, "grad_norm": 1.736437848324021, "learning_rate": 3.696881865649193e-07, "loss": 0.4356, "step": 8255 }, { "avg_step_time": 5.706107392455593, "epoch": 0.8805333333333333, "eta_time": 1.7752334109861845, "step": 8255 }, { "epoch": 0.88064, "grad_norm": 2.0041154443597606, "learning_rate": 3.6903656343984293e-07, "loss": 0.4939, "step": 8256 }, { "avg_step_time": 5.728695079533741, "epoch": 0.88064, "eta_time": 1.7806693872217376, "step": 8256 }, { "epoch": 0.8807466666666667, "grad_norm": 1.848923785801049, "learning_rate": 3.6838549310035275e-07, "loss": 0.5092, "step": 8257 }, { "avg_step_time": 5.728163437409834, "epoch": 0.8807466666666667, "eta_time": 1.778912978617832, "step": 8257 }, { "epoch": 0.8808533333333334, "grad_norm": 1.9240531013833961, "learning_rate": 3.677349756241666e-07, "loss": 0.4045, "step": 8258 }, { "avg_step_time": 5.754416684911709, "epoch": 0.8808533333333334, "eta_time": 1.7854676214017717, "step": 8258 }, { "epoch": 0.88096, "grad_norm": 1.92137151808258, "learning_rate": 3.670850110889346e-07, "loss": 0.5067, "step": 8259 }, { "avg_step_time": 5.759945202355433, "epoch": 0.88096, "eta_time": 1.7855830127301842, "step": 8259 }, { "epoch": 0.8810666666666667, "grad_norm": 2.220017668974761, "learning_rate": 3.664355995722402e-07, "loss": 0.525, "step": 8260 }, { "avg_step_time": 5.761212033454818, "epoch": 0.8810666666666667, "eta_time": 1.7843753936950337, "step": 8260 }, { "epoch": 0.8811733333333334, "grad_norm": 1.7006093659636494, "learning_rate": 3.6578674115160416e-07, "loss": 0.419, "step": 8261 }, { "avg_step_time": 5.760454459623857, "epoch": 0.8811733333333334, "eta_time": 1.7825406300058269, "step": 8261 }, { "epoch": 0.88128, "grad_norm": 1.8942486648558072, "learning_rate": 3.651384359044774e-07, "loss": 0.4604, "step": 8262 }, { "avg_step_time": 5.762760978756529, "epoch": 0.88128, "eta_time": 1.7816536025988936, "step": 8262 }, { "epoch": 0.8813866666666667, "grad_norm": 1.7830226818474577, "learning_rate": 3.644906839082446e-07, "loss": 0.4121, "step": 8263 }, { "avg_step_time": 5.761305438147651, "epoch": 0.8813866666666667, "eta_time": 1.779603235338941, "step": 8263 }, { "epoch": 0.8814933333333334, "grad_norm": 1.7959985478833242, "learning_rate": 3.6384348524023003e-07, "loss": 0.5208, "step": 8264 }, { "avg_step_time": 5.798425563658126, "epoch": 0.8814933333333334, "eta_time": 1.789458555895605, "step": 8264 }, { "epoch": 0.8816, "grad_norm": 1.9314768024459223, "learning_rate": 3.631968399776864e-07, "loss": 0.5684, "step": 8265 }, { "avg_step_time": 5.830144318667325, "epoch": 0.8816, "eta_time": 1.797627831589092, "step": 8265 }, { "epoch": 0.8817066666666666, "grad_norm": 2.1833118989328986, "learning_rate": 3.6255074819780023e-07, "loss": 0.4854, "step": 8266 }, { "avg_step_time": 5.83140917498656, "epoch": 0.8817066666666666, "eta_time": 1.7963979930722487, "step": 8266 }, { "epoch": 0.8818133333333333, "grad_norm": 1.6912880060011366, "learning_rate": 3.619052099776965e-07, "loss": 0.4217, "step": 8267 }, { "avg_step_time": 5.83247467484137, "epoch": 0.8818133333333333, "eta_time": 1.7951060943678439, "step": 8267 }, { "epoch": 0.88192, "grad_norm": 2.2460134618752625, "learning_rate": 3.6126022539442975e-07, "loss": 0.559, "step": 8268 }, { "avg_step_time": 5.83645243596549, "epoch": 0.88192, "eta_time": 1.7947091240593882, "step": 8268 }, { "epoch": 0.8820266666666666, "grad_norm": 1.852551386358021, "learning_rate": 3.6061579452498996e-07, "loss": 0.4364, "step": 8269 }, { "avg_step_time": 5.83942835258715, "epoch": 0.8820266666666666, "eta_time": 1.7940021549892746, "step": 8269 }, { "epoch": 0.8821333333333333, "grad_norm": 1.873319624040678, "learning_rate": 3.5997191744630233e-07, "loss": 0.4928, "step": 8270 }, { "avg_step_time": 5.835635536848897, "epoch": 0.8821333333333333, "eta_time": 1.7912159078383418, "step": 8270 }, { "epoch": 0.88224, "grad_norm": 1.943511194141764, "learning_rate": 3.593285942352237e-07, "loss": 0.4843, "step": 8271 }, { "avg_step_time": 5.848713332956487, "epoch": 0.88224, "eta_time": 1.7936054221066562, "step": 8271 }, { "epoch": 0.8823466666666666, "grad_norm": 2.0782534103482204, "learning_rate": 3.58685824968546e-07, "loss": 0.5139, "step": 8272 }, { "avg_step_time": 5.843599620491568, "epoch": 0.8823466666666666, "eta_time": 1.7904139948339441, "step": 8272 }, { "epoch": 0.8824533333333333, "grad_norm": 2.041112433780156, "learning_rate": 3.5804360972299446e-07, "loss": 0.4752, "step": 8273 }, { "avg_step_time": 5.84302302803656, "epoch": 0.8824533333333333, "eta_time": 1.7886142713600803, "step": 8273 }, { "epoch": 0.88256, "grad_norm": 1.7097712280632764, "learning_rate": 3.5740194857523e-07, "loss": 0.5132, "step": 8274 }, { "avg_step_time": 5.830280140192822, "epoch": 0.88256, "eta_time": 1.7830940095423047, "step": 8274 }, { "epoch": 0.8826666666666667, "grad_norm": 1.8901364513896222, "learning_rate": 3.5676084160184423e-07, "loss": 0.4762, "step": 8275 }, { "avg_step_time": 5.823557128809919, "epoch": 0.8826666666666667, "eta_time": 1.779420233803031, "step": 8275 }, { "epoch": 0.8827733333333333, "grad_norm": 1.767858308258308, "learning_rate": 3.5612028887936576e-07, "loss": 0.5531, "step": 8276 }, { "avg_step_time": 5.823421218178489, "epoch": 0.8827733333333333, "eta_time": 1.777761088549489, "step": 8276 }, { "epoch": 0.88288, "grad_norm": 1.8982648316030335, "learning_rate": 3.554802904842547e-07, "loss": 0.3619, "step": 8277 }, { "avg_step_time": 5.857201961555866, "epoch": 0.88288, "eta_time": 1.786446598274539, "step": 8277 }, { "epoch": 0.8829866666666667, "grad_norm": 1.5258465599230746, "learning_rate": 3.548408464929065e-07, "loss": 0.3813, "step": 8278 }, { "avg_step_time": 5.850964399299237, "epoch": 0.8829866666666667, "eta_time": 1.782918873897573, "step": 8278 }, { "epoch": 0.8830933333333333, "grad_norm": 1.8253076847684169, "learning_rate": 3.5420195698164907e-07, "loss": 0.4548, "step": 8279 }, { "avg_step_time": 5.854833894305759, "epoch": 0.8830933333333333, "eta_time": 1.7824716522664201, "step": 8279 }, { "epoch": 0.8832, "grad_norm": 1.734181020535147, "learning_rate": 3.5356362202674687e-07, "loss": 0.4852, "step": 8280 }, { "avg_step_time": 5.840609157928313, "epoch": 0.8832, "eta_time": 1.7765186188698618, "step": 8280 }, { "epoch": 0.8833066666666667, "grad_norm": 1.8608045269539066, "learning_rate": 3.5292584170439347e-07, "loss": 0.5066, "step": 8281 }, { "avg_step_time": 5.840910805596246, "epoch": 0.8833066666666667, "eta_time": 1.7749878948117481, "step": 8281 }, { "epoch": 0.8834133333333334, "grad_norm": 1.7261380363904137, "learning_rate": 3.522886160907202e-07, "loss": 0.4775, "step": 8282 }, { "avg_step_time": 5.842384345603712, "epoch": 0.8834133333333334, "eta_time": 1.7738128027069047, "step": 8282 }, { "epoch": 0.88352, "grad_norm": 2.2285662424664334, "learning_rate": 3.516519452617922e-07, "loss": 0.5691, "step": 8283 }, { "avg_step_time": 5.844115611278649, "epoch": 0.88352, "eta_time": 1.7727150687545237, "step": 8283 }, { "epoch": 0.8836266666666667, "grad_norm": 2.071967588957397, "learning_rate": 3.510158292936061e-07, "loss": 0.5446, "step": 8284 }, { "avg_step_time": 5.842112220899023, "epoch": 0.8836266666666667, "eta_time": 1.7704845647224539, "step": 8284 }, { "epoch": 0.8837333333333334, "grad_norm": 1.7502221388708346, "learning_rate": 3.503802682620922e-07, "loss": 0.3832, "step": 8285 }, { "avg_step_time": 5.842390852745133, "epoch": 0.8837333333333334, "eta_time": 1.7689461193033875, "step": 8285 }, { "epoch": 0.88384, "grad_norm": 2.2525176538920184, "learning_rate": 3.4974526224311744e-07, "loss": 0.5664, "step": 8286 }, { "avg_step_time": 5.837018574127043, "epoch": 0.88384, "eta_time": 1.7656981186734306, "step": 8286 }, { "epoch": 0.8839466666666667, "grad_norm": 2.1059125092331303, "learning_rate": 3.491108113124797e-07, "loss": 0.5194, "step": 8287 }, { "avg_step_time": 5.83220015150128, "epoch": 0.8839466666666667, "eta_time": 1.7626204902314981, "step": 8287 }, { "epoch": 0.8840533333333334, "grad_norm": 1.6599724197786183, "learning_rate": 3.4847691554591225e-07, "loss": 0.4414, "step": 8288 }, { "avg_step_time": 5.836923233186356, "epoch": 0.8840533333333334, "eta_time": 1.7624265429093249, "step": 8288 }, { "epoch": 0.88416, "grad_norm": 2.0103344275153234, "learning_rate": 3.478435750190817e-07, "loss": 0.5326, "step": 8289 }, { "avg_step_time": 5.829509869970456, "epoch": 0.88416, "eta_time": 1.7585688107744208, "step": 8289 }, { "epoch": 0.8842666666666666, "grad_norm": 1.809492965536607, "learning_rate": 3.4721078980758826e-07, "loss": 0.4735, "step": 8290 }, { "avg_step_time": 5.813715763766356, "epoch": 0.8842666666666666, "eta_time": 1.75218933435736, "step": 8290 }, { "epoch": 0.8843733333333333, "grad_norm": 1.8698746771096375, "learning_rate": 3.465785599869648e-07, "loss": 0.5165, "step": 8291 }, { "avg_step_time": 5.825167855831108, "epoch": 0.8843733333333333, "eta_time": 1.7540227654780336, "step": 8291 }, { "epoch": 0.88448, "grad_norm": 2.1539287567073866, "learning_rate": 3.459468856326792e-07, "loss": 0.5162, "step": 8292 }, { "avg_step_time": 5.8247277688498444, "epoch": 0.88448, "eta_time": 1.7522722704623284, "step": 8292 }, { "epoch": 0.8845866666666666, "grad_norm": 1.9354025127287737, "learning_rate": 3.453157668201335e-07, "loss": 0.5391, "step": 8293 }, { "avg_step_time": 5.822238242987431, "epoch": 0.8845866666666666, "eta_time": 1.7499060496978889, "step": 8293 }, { "epoch": 0.8846933333333333, "grad_norm": 1.7367619004761907, "learning_rate": 3.446852036246617e-07, "loss": 0.5126, "step": 8294 }, { "avg_step_time": 5.827797976407138, "epoch": 0.8846933333333333, "eta_time": 1.7499582256933655, "step": 8294 }, { "epoch": 0.8848, "grad_norm": 1.7093814250565893, "learning_rate": 3.4405519612153326e-07, "loss": 0.4488, "step": 8295 }, { "avg_step_time": 5.8263687509478945, "epoch": 0.8848, "eta_time": 1.7479106252843684, "step": 8295 }, { "epoch": 0.8849066666666666, "grad_norm": 0.6642956437675993, "learning_rate": 3.434257443859507e-07, "loss": 0.4245, "step": 8296 }, { "avg_step_time": 5.790584605149548, "epoch": 0.8849066666666666, "eta_time": 1.7355668858212117, "step": 8296 }, { "epoch": 0.8850133333333333, "grad_norm": 1.8058414710571675, "learning_rate": 3.4279684849304716e-07, "loss": 0.4276, "step": 8297 }, { "avg_step_time": 5.791177556972311, "epoch": 0.8850133333333333, "eta_time": 1.7341359462267087, "step": 8297 }, { "epoch": 0.88512, "grad_norm": 1.8793979257132924, "learning_rate": 3.4216850851789663e-07, "loss": 0.4346, "step": 8298 }, { "avg_step_time": 5.773328451195148, "epoch": 0.88512, "eta_time": 1.727187428315882, "step": 8298 }, { "epoch": 0.8852266666666667, "grad_norm": 1.7608595783627707, "learning_rate": 3.415407245354996e-07, "loss": 0.4782, "step": 8299 }, { "avg_step_time": 5.785585218005711, "epoch": 0.8852266666666667, "eta_time": 1.7292471373817069, "step": 8299 }, { "epoch": 0.8853333333333333, "grad_norm": 1.97372853725904, "learning_rate": 3.4091349662079275e-07, "loss": 0.4622, "step": 8300 }, { "avg_step_time": 5.783732484085391, "epoch": 0.8853333333333333, "eta_time": 1.7270867834421653, "step": 8300 }, { "epoch": 0.88544, "grad_norm": 1.887382189702525, "learning_rate": 3.402868248486485e-07, "loss": 0.4436, "step": 8301 }, { "avg_step_time": 5.7863170667128125, "epoch": 0.88544, "eta_time": 1.7262512582359892, "step": 8301 }, { "epoch": 0.8855466666666667, "grad_norm": 1.695675528772295, "learning_rate": 3.396607092938692e-07, "loss": 0.4671, "step": 8302 }, { "avg_step_time": 5.858438390674013, "epoch": 0.8855466666666667, "eta_time": 1.7461401092203377, "step": 8302 }, { "epoch": 0.8856533333333333, "grad_norm": 1.8790670208173943, "learning_rate": 3.3903515003119334e-07, "loss": 0.4555, "step": 8303 }, { "avg_step_time": 5.879128877562706, "epoch": 0.8856533333333333, "eta_time": 1.7506739324297835, "step": 8303 }, { "epoch": 0.88576, "grad_norm": 1.5636265034576498, "learning_rate": 3.3841014713529184e-07, "loss": 0.417, "step": 8304 }, { "avg_step_time": 5.883614113836577, "epoch": 0.88576, "eta_time": 1.7503751988663816, "step": 8304 }, { "epoch": 0.8858666666666667, "grad_norm": 1.823774509945888, "learning_rate": 3.3778570068077e-07, "loss": 0.4687, "step": 8305 }, { "avg_step_time": 5.882847094776655, "epoch": 0.8858666666666667, "eta_time": 1.7485128865030612, "step": 8305 }, { "epoch": 0.8859733333333333, "grad_norm": 1.5816195934896617, "learning_rate": 3.371618107421659e-07, "loss": 0.4535, "step": 8306 }, { "avg_step_time": 5.882418483194678, "epoch": 0.8859733333333333, "eta_time": 1.7467514884819753, "step": 8306 }, { "epoch": 0.88608, "grad_norm": 1.8652506164815172, "learning_rate": 3.3653847739395174e-07, "loss": 0.5476, "step": 8307 }, { "avg_step_time": 5.884206372078019, "epoch": 0.88608, "eta_time": 1.7456478903831456, "step": 8307 }, { "epoch": 0.8861866666666667, "grad_norm": 2.145141578812818, "learning_rate": 3.3591570071053345e-07, "loss": 0.4704, "step": 8308 }, { "avg_step_time": 5.882922866127708, "epoch": 0.8861866666666667, "eta_time": 1.743632971710629, "step": 8308 }, { "epoch": 0.8862933333333334, "grad_norm": 1.8180381461351245, "learning_rate": 3.3529348076625057e-07, "loss": 0.4824, "step": 8309 }, { "avg_step_time": 5.880593894708036, "epoch": 0.8862933333333334, "eta_time": 1.7413091921552128, "step": 8309 }, { "epoch": 0.8864, "grad_norm": 1.9545265923590731, "learning_rate": 3.346718176353747e-07, "loss": 0.4849, "step": 8310 }, { "avg_step_time": 5.881038856024694, "epoch": 0.8864, "eta_time": 1.7398073282406386, "step": 8310 }, { "epoch": 0.8865066666666667, "grad_norm": 1.8529609366635393, "learning_rate": 3.3405071139211266e-07, "loss": 0.4608, "step": 8311 }, { "avg_step_time": 5.883303423120518, "epoch": 0.8865066666666667, "eta_time": 1.7388430117222864, "step": 8311 }, { "epoch": 0.8866133333333334, "grad_norm": 1.8530075865711784, "learning_rate": 3.3343016211060397e-07, "loss": 0.5249, "step": 8312 }, { "avg_step_time": 5.859892332192623, "epoch": 0.8866133333333334, "eta_time": 1.7302959858668772, "step": 8312 }, { "epoch": 0.88672, "grad_norm": 2.0334648818888343, "learning_rate": 3.3281016986492165e-07, "loss": 0.4705, "step": 8313 }, { "avg_step_time": 5.868412249016039, "epoch": 0.88672, "eta_time": 1.7311816134597315, "step": 8313 }, { "epoch": 0.8868266666666667, "grad_norm": 1.9262578899731782, "learning_rate": 3.3219073472907427e-07, "loss": 0.4262, "step": 8314 }, { "avg_step_time": 5.878472894129127, "epoch": 0.8868266666666667, "eta_time": 1.732516594630834, "step": 8314 }, { "epoch": 0.8869333333333334, "grad_norm": 1.5920861387420617, "learning_rate": 3.3157185677700043e-07, "loss": 0.3758, "step": 8315 }, { "avg_step_time": 5.880070700789943, "epoch": 0.8869333333333334, "eta_time": 1.73135415078815, "step": 8315 }, { "epoch": 0.88704, "grad_norm": 1.69573486904163, "learning_rate": 3.3095353608257385e-07, "loss": 0.4442, "step": 8316 }, { "avg_step_time": 5.877182291011618, "epoch": 0.88704, "eta_time": 1.728871123939251, "step": 8316 }, { "epoch": 0.8871466666666666, "grad_norm": 2.0675106356293345, "learning_rate": 3.3033577271960213e-07, "loss": 0.4491, "step": 8317 }, { "avg_step_time": 5.879512360601714, "epoch": 0.8871466666666666, "eta_time": 1.7279233548657258, "step": 8317 }, { "epoch": 0.8872533333333333, "grad_norm": 2.0968058368584157, "learning_rate": 3.297185667618269e-07, "loss": 0.4823, "step": 8318 }, { "avg_step_time": 5.874630398220486, "epoch": 0.8872533333333333, "eta_time": 1.724856758588626, "step": 8318 }, { "epoch": 0.88736, "grad_norm": 1.8270402350170598, "learning_rate": 3.2910191828292083e-07, "loss": 0.4814, "step": 8319 }, { "avg_step_time": 5.868158930479878, "epoch": 0.88736, "eta_time": 1.7213266196074308, "step": 8319 }, { "epoch": 0.8874666666666666, "grad_norm": 1.9496332504676879, "learning_rate": 3.2848582735649335e-07, "loss": 0.4877, "step": 8320 }, { "avg_step_time": 5.829734245936076, "epoch": 0.8874666666666666, "eta_time": 1.7084360081840446, "step": 8320 }, { "epoch": 0.8875733333333333, "grad_norm": 1.8078510901589369, "learning_rate": 3.2787029405608405e-07, "loss": 0.4156, "step": 8321 }, { "avg_step_time": 5.832227610578441, "epoch": 0.8875733333333333, "eta_time": 1.7075466393193546, "step": 8321 }, { "epoch": 0.88768, "grad_norm": 1.6466262171133408, "learning_rate": 3.2725531845516744e-07, "loss": 0.4055, "step": 8322 }, { "avg_step_time": 5.8341138073892305, "epoch": 0.88768, "eta_time": 1.7064782886613499, "step": 8322 }, { "epoch": 0.8877866666666666, "grad_norm": 2.09768994842969, "learning_rate": 3.2664090062715315e-07, "loss": 0.4444, "step": 8323 }, { "avg_step_time": 5.839844966175581, "epoch": 0.8877866666666666, "eta_time": 1.7065324734490863, "step": 8323 }, { "epoch": 0.8878933333333333, "grad_norm": 1.5783873196178047, "learning_rate": 3.2602704064538137e-07, "loss": 0.4319, "step": 8324 }, { "avg_step_time": 5.843848861829199, "epoch": 0.8878933333333333, "eta_time": 1.7060792093840242, "step": 8324 }, { "epoch": 0.888, "grad_norm": 1.8029909611181874, "learning_rate": 3.254137385831263e-07, "loss": 0.5398, "step": 8325 }, { "avg_step_time": 5.847138898541229, "epoch": 0.888, "eta_time": 1.7054155120745251, "step": 8325 }, { "epoch": 0.8881066666666667, "grad_norm": 0.6227605035576855, "learning_rate": 3.2480099451359716e-07, "loss": 0.4206, "step": 8326 }, { "avg_step_time": 5.796411487791273, "epoch": 0.8881066666666667, "eta_time": 1.6890099029702903, "step": 8326 }, { "epoch": 0.8882133333333333, "grad_norm": 2.1847663285662002, "learning_rate": 3.241888085099354e-07, "loss": 0.467, "step": 8327 }, { "avg_step_time": 5.831154209194762, "epoch": 0.8882133333333333, "eta_time": 1.6975137808989196, "step": 8327 }, { "epoch": 0.88832, "grad_norm": 1.6553551505957154, "learning_rate": 3.2357718064521594e-07, "loss": 0.4229, "step": 8328 }, { "avg_step_time": 5.865639337385543, "epoch": 0.88832, "eta_time": 1.705923440622962, "step": 8328 }, { "epoch": 0.8884266666666667, "grad_norm": 1.9877314980054113, "learning_rate": 3.22966110992447e-07, "loss": 0.5361, "step": 8329 }, { "avg_step_time": 5.8681992352610886, "epoch": 0.8884266666666667, "eta_time": 1.705037888911972, "step": 8329 }, { "epoch": 0.8885333333333333, "grad_norm": 2.0423441556911888, "learning_rate": 3.2235559962457087e-07, "loss": 0.4362, "step": 8330 }, { "avg_step_time": 5.849516507351037, "epoch": 0.8885333333333333, "eta_time": 1.6979846528282874, "step": 8330 }, { "epoch": 0.88864, "grad_norm": 1.7619590527192022, "learning_rate": 3.217456466144614e-07, "loss": 0.4798, "step": 8331 }, { "avg_step_time": 5.925336568042486, "epoch": 0.88864, "eta_time": 1.7183476047323207, "step": 8331 }, { "epoch": 0.8887466666666667, "grad_norm": 1.908653318725417, "learning_rate": 3.2113625203492813e-07, "loss": 0.4496, "step": 8332 }, { "avg_step_time": 5.9581136318168255, "epoch": 0.8887466666666667, "eta_time": 1.7261979216624859, "step": 8332 }, { "epoch": 0.8888533333333334, "grad_norm": 0.6635494969825493, "learning_rate": 3.2052741595871294e-07, "loss": 0.4179, "step": 8333 }, { "avg_step_time": 5.919106382312196, "epoch": 0.8888533333333334, "eta_time": 1.713252458435919, "step": 8333 }, { "epoch": 0.88896, "grad_norm": 1.9077981683288765, "learning_rate": 3.199191384584893e-07, "loss": 0.5112, "step": 8334 }, { "avg_step_time": 5.915191799703271, "epoch": 0.88896, "eta_time": 1.7104762954141959, "step": 8334 }, { "epoch": 0.8890666666666667, "grad_norm": 1.6978732140618458, "learning_rate": 3.1931141960686864e-07, "loss": 0.4907, "step": 8335 }, { "avg_step_time": 5.870743349345044, "epoch": 0.8890666666666667, "eta_time": 1.6959925231441237, "step": 8335 }, { "epoch": 0.8891733333333334, "grad_norm": 1.9000177714462216, "learning_rate": 3.187042594763895e-07, "loss": 0.4758, "step": 8336 }, { "avg_step_time": 5.880046442301587, "epoch": 0.8891733333333334, "eta_time": 1.6970467370975968, "step": 8336 }, { "epoch": 0.88928, "grad_norm": 1.8478023257074554, "learning_rate": 3.180976581395295e-07, "loss": 0.5102, "step": 8337 }, { "avg_step_time": 5.915443528782237, "epoch": 0.88928, "eta_time": 1.7056195507988785, "step": 8337 }, { "epoch": 0.8893866666666667, "grad_norm": 1.7833918381531162, "learning_rate": 3.1749161566869466e-07, "loss": 0.4437, "step": 8338 }, { "avg_step_time": 5.9140830232639505, "epoch": 0.8893866666666667, "eta_time": 1.703584470867977, "step": 8338 }, { "epoch": 0.8894933333333334, "grad_norm": 1.5107555027931077, "learning_rate": 3.1688613213622876e-07, "loss": 0.4449, "step": 8339 }, { "avg_step_time": 5.914175471874199, "epoch": 0.8894933333333334, "eta_time": 1.7019682746837972, "step": 8339 }, { "epoch": 0.8896, "grad_norm": 1.9319893308572937, "learning_rate": 3.1628120761440616e-07, "loss": 0.4741, "step": 8340 }, { "avg_step_time": 5.9123605983425875, "epoch": 0.8896, "eta_time": 1.699803672023494, "step": 8340 }, { "epoch": 0.8897066666666666, "grad_norm": 1.9516857839743995, "learning_rate": 3.1567684217543303e-07, "loss": 0.4099, "step": 8341 }, { "avg_step_time": 5.944736906976411, "epoch": 0.8897066666666666, "eta_time": 1.7074605449482247, "step": 8341 }, { "epoch": 0.8898133333333333, "grad_norm": 1.8798751047558326, "learning_rate": 3.1507303589145445e-07, "loss": 0.4331, "step": 8342 }, { "avg_step_time": 5.9292799150100866, "epoch": 0.8898133333333333, "eta_time": 1.7013739311681721, "step": 8342 }, { "epoch": 0.88992, "grad_norm": 1.8814033810838082, "learning_rate": 3.144697888345427e-07, "loss": 0.5341, "step": 8343 }, { "avg_step_time": 5.915047118158052, "epoch": 0.88992, "eta_time": 1.6956468405386416, "step": 8343 }, { "epoch": 0.8900266666666666, "grad_norm": 1.848102701906104, "learning_rate": 3.1386710107670583e-07, "loss": 0.4437, "step": 8344 }, { "avg_step_time": 5.913043347272006, "epoch": 0.8900266666666666, "eta_time": 1.6934299141770661, "step": 8344 }, { "epoch": 0.8901333333333333, "grad_norm": 2.320783035852042, "learning_rate": 3.1326497268988623e-07, "loss": 0.5421, "step": 8345 }, { "avg_step_time": 5.910083296323063, "epoch": 0.8901333333333333, "eta_time": 1.69094049867021, "step": 8345 }, { "epoch": 0.89024, "grad_norm": 0.6564226517372339, "learning_rate": 3.1266340374595693e-07, "loss": 0.4438, "step": 8346 }, { "avg_step_time": 5.880625508048317, "epoch": 0.89024, "eta_time": 1.6808787910504772, "step": 8346 }, { "epoch": 0.8903466666666666, "grad_norm": 1.6841207127660138, "learning_rate": 3.120623943167267e-07, "loss": 0.3968, "step": 8347 }, { "avg_step_time": 5.882810149529968, "epoch": 0.8903466666666666, "eta_time": 1.6798691204768907, "step": 8347 }, { "epoch": 0.8904533333333333, "grad_norm": 1.5373387622619983, "learning_rate": 3.1146194447393587e-07, "loss": 0.4036, "step": 8348 }, { "avg_step_time": 5.921024137073093, "epoch": 0.8904533333333333, "eta_time": 1.6891366079927965, "step": 8348 }, { "epoch": 0.89056, "grad_norm": 1.8497793023125548, "learning_rate": 3.108620542892593e-07, "loss": 0.4038, "step": 8349 }, { "avg_step_time": 5.927224645710955, "epoch": 0.89056, "eta_time": 1.689259024027622, "step": 8349 }, { "epoch": 0.8906666666666667, "grad_norm": 1.8402858152452297, "learning_rate": 3.102627238343026e-07, "loss": 0.4826, "step": 8350 }, { "avg_step_time": 5.9604538305841315, "epoch": 0.8906666666666667, "eta_time": 1.6970736600968708, "step": 8350 }, { "epoch": 0.8907733333333333, "grad_norm": 2.09372415898304, "learning_rate": 3.0966395318060725e-07, "loss": 0.5104, "step": 8351 }, { "avg_step_time": 5.96080653354375, "epoch": 0.8907733333333333, "eta_time": 1.6955183028746668, "step": 8351 }, { "epoch": 0.89088, "grad_norm": 2.096921950010842, "learning_rate": 3.0906574239964795e-07, "loss": 0.516, "step": 8352 }, { "avg_step_time": 5.96046779854129, "epoch": 0.89088, "eta_time": 1.6937662660854833, "step": 8352 }, { "epoch": 0.8909866666666667, "grad_norm": 1.6189419366027584, "learning_rate": 3.0846809156282906e-07, "loss": 0.4377, "step": 8353 }, { "avg_step_time": 5.977648412338411, "epoch": 0.8909866666666667, "eta_time": 1.696987965947182, "step": 8353 }, { "epoch": 0.8910933333333333, "grad_norm": 1.716238759888833, "learning_rate": 3.078710007414931e-07, "loss": 0.415, "step": 8354 }, { "avg_step_time": 5.971813649842233, "epoch": 0.8910933333333333, "eta_time": 1.6936727045802555, "step": 8354 }, { "epoch": 0.8912, "grad_norm": 1.8049336197350376, "learning_rate": 3.072744700069119e-07, "loss": 0.437, "step": 8355 }, { "avg_step_time": 5.948840150929461, "epoch": 0.8912, "eta_time": 1.6855047094300137, "step": 8355 }, { "epoch": 0.8913066666666667, "grad_norm": 2.011862668919635, "learning_rate": 3.066784994302907e-07, "loss": 0.4463, "step": 8356 }, { "avg_step_time": 5.949094586902195, "epoch": 0.8913066666666667, "eta_time": 1.6839242733481492, "step": 8356 }, { "epoch": 0.8914133333333333, "grad_norm": 1.6388441755175858, "learning_rate": 3.060830890827704e-07, "loss": 0.3963, "step": 8357 }, { "avg_step_time": 5.921031682178228, "epoch": 0.8914133333333333, "eta_time": 1.6743361812381767, "step": 8357 }, { "epoch": 0.89152, "grad_norm": 1.9009500444491645, "learning_rate": 3.054882390354241e-07, "loss": 0.4784, "step": 8358 }, { "avg_step_time": 5.937475235775263, "epoch": 0.89152, "eta_time": 1.6773367541065118, "step": 8358 }, { "epoch": 0.8916266666666667, "grad_norm": 1.8500000530347267, "learning_rate": 3.048939493592551e-07, "loss": 0.5334, "step": 8359 }, { "avg_step_time": 5.939167894498266, "epoch": 0.8916266666666667, "eta_time": 1.6761651613361772, "step": 8359 }, { "epoch": 0.8917333333333334, "grad_norm": 1.567669750022765, "learning_rate": 3.0430022012520486e-07, "loss": 0.4231, "step": 8360 }, { "avg_step_time": 5.943103130417641, "epoch": 0.8917333333333334, "eta_time": 1.6756249103816405, "step": 8360 }, { "epoch": 0.89184, "grad_norm": 1.9782209355124667, "learning_rate": 3.0370705140414293e-07, "loss": 0.4748, "step": 8361 }, { "avg_step_time": 5.942178865875861, "epoch": 0.89184, "eta_time": 1.6737137138883675, "step": 8361 }, { "epoch": 0.8919466666666667, "grad_norm": 1.7653797920489058, "learning_rate": 3.031144432668759e-07, "loss": 0.4336, "step": 8362 }, { "avg_step_time": 5.943009788339788, "epoch": 0.8919466666666667, "eta_time": 1.6722969209967238, "step": 8362 }, { "epoch": 0.8920533333333334, "grad_norm": 2.1079243984718232, "learning_rate": 3.0252239578414e-07, "loss": 0.5284, "step": 8363 }, { "avg_step_time": 5.906242914874144, "epoch": 0.8920533333333334, "eta_time": 1.6603105082923983, "step": 8363 }, { "epoch": 0.89216, "grad_norm": 1.5359915248777685, "learning_rate": 3.019309090266087e-07, "loss": 0.369, "step": 8364 }, { "avg_step_time": 5.876770835934264, "epoch": 0.89216, "eta_time": 1.650393143091539, "step": 8364 }, { "epoch": 0.8922666666666667, "grad_norm": 1.937930064402525, "learning_rate": 3.0133998306488443e-07, "loss": 0.482, "step": 8365 }, { "avg_step_time": 5.877830965350372, "epoch": 0.8922666666666667, "eta_time": 1.649058131945521, "step": 8365 }, { "epoch": 0.8923733333333334, "grad_norm": 1.5323408985146068, "learning_rate": 3.007496179695046e-07, "loss": 0.4345, "step": 8366 }, { "avg_step_time": 5.8779904264392275, "epoch": 0.8923733333333334, "eta_time": 1.647470094521439, "step": 8366 }, { "epoch": 0.89248, "grad_norm": 1.972105995938279, "learning_rate": 3.0015981381094073e-07, "loss": 0.5018, "step": 8367 }, { "avg_step_time": 5.874902178542783, "epoch": 0.89248, "eta_time": 1.644972609991979, "step": 8367 }, { "epoch": 0.8925866666666666, "grad_norm": 1.8368482068488514, "learning_rate": 2.995705706595947e-07, "loss": 0.4723, "step": 8368 }, { "avg_step_time": 5.87549814070114, "epoch": 0.8925866666666666, "eta_time": 1.6435073965794578, "step": 8368 }, { "epoch": 0.8926933333333333, "grad_norm": 1.8657216383002, "learning_rate": 2.9898188858580313e-07, "loss": 0.4501, "step": 8369 }, { "avg_step_time": 5.876936616319599, "epoch": 0.8926933333333333, "eta_time": 1.6422772877826435, "step": 8369 }, { "epoch": 0.8928, "grad_norm": 1.816277547731597, "learning_rate": 2.9839376765983583e-07, "loss": 0.4903, "step": 8370 }, { "avg_step_time": 5.8795196167146315, "epoch": 0.8928, "eta_time": 1.6413658929995012, "step": 8370 }, { "epoch": 0.8929066666666666, "grad_norm": 0.6342388737567785, "learning_rate": 2.978062079518956e-07, "loss": 0.418, "step": 8371 }, { "avg_step_time": 5.848412333112774, "epoch": 0.8929066666666666, "eta_time": 1.631057217345896, "step": 8371 }, { "epoch": 0.8930133333333333, "grad_norm": 1.8759609042507341, "learning_rate": 2.972192095321169e-07, "loss": 0.5328, "step": 8372 }, { "avg_step_time": 5.852662794517748, "epoch": 0.8930133333333333, "eta_time": 1.6306168841392503, "step": 8372 }, { "epoch": 0.89312, "grad_norm": 1.832587829894927, "learning_rate": 2.9663277247056923e-07, "loss": 0.4939, "step": 8373 }, { "avg_step_time": 5.855050084566829, "epoch": 0.89312, "eta_time": 1.6296556068711008, "step": 8373 }, { "epoch": 0.8932266666666666, "grad_norm": 2.293367249374219, "learning_rate": 2.960468968372532e-07, "loss": 0.4955, "step": 8374 }, { "avg_step_time": 5.858031737684, "epoch": 0.8932266666666666, "eta_time": 1.6288582692838012, "step": 8374 }, { "epoch": 0.8933333333333333, "grad_norm": 1.8244202281714856, "learning_rate": 2.954615827021018e-07, "loss": 0.5232, "step": 8375 }, { "avg_step_time": 5.859304370302143, "epoch": 0.8933333333333333, "eta_time": 1.6275845473061505, "step": 8375 }, { "epoch": 0.89344, "grad_norm": 2.1671811038651523, "learning_rate": 2.9487683013498523e-07, "loss": 0.5052, "step": 8376 }, { "avg_step_time": 5.863276443096122, "epoch": 0.89344, "eta_time": 1.627059212959174, "step": 8376 }, { "epoch": 0.8935466666666667, "grad_norm": 1.6789342690326223, "learning_rate": 2.942926392057027e-07, "loss": 0.4367, "step": 8377 }, { "avg_step_time": 5.865722374482588, "epoch": 0.8935466666666667, "eta_time": 1.626108591592673, "step": 8377 }, { "epoch": 0.8936533333333333, "grad_norm": 1.737253090858914, "learning_rate": 2.9370900998398675e-07, "loss": 0.5292, "step": 8378 }, { "avg_step_time": 5.861348547116674, "epoch": 0.8936533333333333, "eta_time": 1.623267917076479, "step": 8378 }, { "epoch": 0.89376, "grad_norm": 1.8417338627340156, "learning_rate": 2.93125942539505e-07, "loss": 0.4585, "step": 8379 }, { "avg_step_time": 5.859032922320896, "epoch": 0.89376, "eta_time": 1.6209991085087814, "step": 8379 }, { "epoch": 0.8938666666666667, "grad_norm": 0.5978988100872692, "learning_rate": 2.925434369418545e-07, "loss": 0.4091, "step": 8380 }, { "avg_step_time": 5.825583229161272, "epoch": 0.8938666666666667, "eta_time": 1.6101264758376292, "step": 8380 }, { "epoch": 0.8939733333333333, "grad_norm": 2.2241524084434356, "learning_rate": 2.9196149326056967e-07, "loss": 0.5432, "step": 8381 }, { "avg_step_time": 5.825907926366787, "epoch": 0.8939733333333333, "eta_time": 1.608597910780163, "step": 8381 }, { "epoch": 0.89408, "grad_norm": 2.1173040529323974, "learning_rate": 2.913801115651144e-07, "loss": 0.4814, "step": 8382 }, { "avg_step_time": 5.829424020015832, "epoch": 0.89408, "eta_time": 1.607949458854367, "step": 8382 }, { "epoch": 0.8941866666666667, "grad_norm": 2.02203771059473, "learning_rate": 2.9079929192488756e-07, "loss": 0.5113, "step": 8383 }, { "avg_step_time": 5.828506554015959, "epoch": 0.8941866666666667, "eta_time": 1.6060773615510642, "step": 8383 }, { "epoch": 0.8942933333333334, "grad_norm": 1.9474857875993112, "learning_rate": 2.902190344092182e-07, "loss": 0.4352, "step": 8384 }, { "avg_step_time": 5.833555055387093, "epoch": 0.8942933333333334, "eta_time": 1.6058480721912802, "step": 8384 }, { "epoch": 0.8944, "grad_norm": 1.771021793975984, "learning_rate": 2.896393390873714e-07, "loss": 0.5135, "step": 8385 }, { "avg_step_time": 5.83157934082879, "epoch": 0.8944, "eta_time": 1.603684318727917, "step": 8385 }, { "epoch": 0.8945066666666667, "grad_norm": 2.213895175944617, "learning_rate": 2.8906020602854414e-07, "loss": 0.5062, "step": 8386 }, { "avg_step_time": 5.8344148842975345, "epoch": 0.8945066666666667, "eta_time": 1.602843422380628, "step": 8386 }, { "epoch": 0.8946133333333334, "grad_norm": 1.8821932306899651, "learning_rate": 2.884816353018649e-07, "loss": 0.453, "step": 8387 }, { "avg_step_time": 5.833013411724206, "epoch": 0.8946133333333334, "eta_time": 1.6008381252176433, "step": 8387 }, { "epoch": 0.89472, "grad_norm": 1.929353238504802, "learning_rate": 2.8790362697639685e-07, "loss": 0.4754, "step": 8388 }, { "avg_step_time": 5.832354634699195, "epoch": 0.89472, "eta_time": 1.5990372290133628, "step": 8388 }, { "epoch": 0.8948266666666667, "grad_norm": 1.717109823626898, "learning_rate": 2.8732618112113586e-07, "loss": 0.5202, "step": 8389 }, { "avg_step_time": 5.835078453776812, "epoch": 0.8948266666666667, "eta_time": 1.5981631542844268, "step": 8389 }, { "epoch": 0.8949333333333334, "grad_norm": 2.055545828422329, "learning_rate": 2.867492978050079e-07, "loss": 0.5154, "step": 8390 }, { "avg_step_time": 5.826853217500629, "epoch": 0.8949333333333334, "eta_time": 1.5942917831216998, "step": 8390 }, { "epoch": 0.89504, "grad_norm": 1.7216960761264406, "learning_rate": 2.8617297709687577e-07, "loss": 0.5056, "step": 8391 }, { "avg_step_time": 5.826831208335029, "epoch": 0.89504, "eta_time": 1.5926671969449078, "step": 8391 }, { "epoch": 0.8951466666666666, "grad_norm": 2.156969718441532, "learning_rate": 2.855972190655337e-07, "loss": 0.435, "step": 8392 }, { "avg_step_time": 5.825299898783366, "epoch": 0.8951466666666666, "eta_time": 1.5906305001400136, "step": 8392 }, { "epoch": 0.8952533333333333, "grad_norm": 0.6462027822387417, "learning_rate": 2.8502202377970746e-07, "loss": 0.4419, "step": 8393 }, { "avg_step_time": 5.786260992589623, "epoch": 0.8952533333333333, "eta_time": 1.5783634152008361, "step": 8393 }, { "epoch": 0.89536, "grad_norm": 1.9790409850731683, "learning_rate": 2.8444739130805587e-07, "loss": 0.4374, "step": 8394 }, { "avg_step_time": 5.785164091322157, "epoch": 0.89536, "eta_time": 1.5764572148852878, "step": 8394 }, { "epoch": 0.8954666666666666, "grad_norm": 2.0253130011232554, "learning_rate": 2.8387332171917247e-07, "loss": 0.5764, "step": 8395 }, { "avg_step_time": 5.824006832007206, "epoch": 0.8954666666666666, "eta_time": 1.585424082046406, "step": 8395 }, { "epoch": 0.8955733333333333, "grad_norm": 2.0819691283576787, "learning_rate": 2.832998150815819e-07, "loss": 0.4555, "step": 8396 }, { "avg_step_time": 5.826139385049993, "epoch": 0.8955733333333333, "eta_time": 1.5843862383233176, "step": 8396 }, { "epoch": 0.89568, "grad_norm": 1.6499261570335988, "learning_rate": 2.827268714637421e-07, "loss": 0.4404, "step": 8397 }, { "avg_step_time": 5.848143690764302, "epoch": 0.89568, "eta_time": 1.5887457026576355, "step": 8397 }, { "epoch": 0.8957866666666666, "grad_norm": 1.6263489239465645, "learning_rate": 2.8215449093404457e-07, "loss": 0.562, "step": 8398 }, { "avg_step_time": 5.836100197801686, "epoch": 0.8957866666666666, "eta_time": 1.5838527481256244, "step": 8398 }, { "epoch": 0.8958933333333333, "grad_norm": 1.7787029139267034, "learning_rate": 2.815826735608124e-07, "loss": 0.4964, "step": 8399 }, { "avg_step_time": 5.837879195357814, "epoch": 0.8958933333333333, "eta_time": 1.5827139151858962, "step": 8399 }, { "epoch": 0.896, "grad_norm": 1.9917412921874549, "learning_rate": 2.810114194122998e-07, "loss": 0.4588, "step": 8400 }, { "avg_step_time": 5.832763115564982, "epoch": 0.896, "eta_time": 1.5797066771321826, "step": 8400 }, { "epoch": 0.8961066666666667, "grad_norm": 1.877454619161926, "learning_rate": 2.80440728556699e-07, "loss": 0.4943, "step": 8401 }, { "avg_step_time": 5.808260409518926, "epoch": 0.8961066666666667, "eta_time": 1.5714571219087317, "step": 8401 }, { "epoch": 0.8962133333333333, "grad_norm": 0.667264215837139, "learning_rate": 2.798706010621305e-07, "loss": 0.441, "step": 8402 }, { "avg_step_time": 5.780648903413252, "epoch": 0.8962133333333333, "eta_time": 1.5623809397280817, "step": 8402 }, { "epoch": 0.89632, "grad_norm": 2.090241635844555, "learning_rate": 2.793010369966487e-07, "loss": 0.5036, "step": 8403 }, { "avg_step_time": 5.777137652792112, "epoch": 0.89632, "eta_time": 1.55982716625387, "step": 8403 }, { "epoch": 0.8964266666666667, "grad_norm": 2.0057254533296778, "learning_rate": 2.787320364282414e-07, "loss": 0.4463, "step": 8404 }, { "avg_step_time": 5.77778221380831, "epoch": 0.8964266666666667, "eta_time": 1.558396258224408, "step": 8404 }, { "epoch": 0.8965333333333333, "grad_norm": 1.7666047077473386, "learning_rate": 2.781635994248272e-07, "loss": 0.4648, "step": 8405 }, { "avg_step_time": 5.775590992937184, "epoch": 0.8965333333333333, "eta_time": 1.556200906430297, "step": 8405 }, { "epoch": 0.89664, "grad_norm": 1.6613734312595336, "learning_rate": 2.7759572605426057e-07, "loss": 0.5334, "step": 8406 }, { "avg_step_time": 5.775092112897623, "epoch": 0.89664, "eta_time": 1.5544622937216102, "step": 8406 }, { "epoch": 0.8967466666666667, "grad_norm": 1.83913411499597, "learning_rate": 2.7702841638432734e-07, "loss": 0.4929, "step": 8407 }, { "avg_step_time": 5.817113837810478, "epoch": 0.8967466666666667, "eta_time": 1.5641572763890397, "step": 8407 }, { "epoch": 0.8968533333333333, "grad_norm": 1.7730184927934391, "learning_rate": 2.764616704827444e-07, "loss": 0.4623, "step": 8408 }, { "avg_step_time": 5.835839172806403, "epoch": 0.8968533333333333, "eta_time": 1.5675712444732754, "step": 8408 }, { "epoch": 0.89696, "grad_norm": 2.035595105425438, "learning_rate": 2.7589548841716274e-07, "loss": 0.5303, "step": 8409 }, { "avg_step_time": 5.834942364933515, "epoch": 0.89696, "eta_time": 1.5657095345904932, "step": 8409 }, { "epoch": 0.8970666666666667, "grad_norm": 1.8283913704087231, "learning_rate": 2.7532987025516653e-07, "loss": 0.5081, "step": 8410 }, { "avg_step_time": 5.83102710078461, "epoch": 0.8970666666666667, "eta_time": 1.563039208960319, "step": 8410 }, { "epoch": 0.8971733333333334, "grad_norm": 2.1818505413338007, "learning_rate": 2.747648160642724e-07, "loss": 0.5025, "step": 8411 }, { "avg_step_time": 5.828884433014224, "epoch": 0.8971733333333334, "eta_time": 1.560845720396031, "step": 8411 }, { "epoch": 0.89728, "grad_norm": 2.194787427256221, "learning_rate": 2.7420032591192856e-07, "loss": 0.4604, "step": 8412 }, { "avg_step_time": 5.821866276288273, "epoch": 0.89728, "eta_time": 1.5573492289071131, "step": 8412 }, { "epoch": 0.8973866666666667, "grad_norm": 1.8048039041518285, "learning_rate": 2.736363998655173e-07, "loss": 0.4899, "step": 8413 }, { "avg_step_time": 5.8261982768472995, "epoch": 0.8973866666666667, "eta_time": 1.5568896506464174, "step": 8413 }, { "epoch": 0.8974933333333334, "grad_norm": 0.6316216717755018, "learning_rate": 2.730730379923524e-07, "loss": 0.4396, "step": 8414 }, { "avg_step_time": 5.788105974293718, "epoch": 0.8974933333333334, "eta_time": 1.5451027336934064, "step": 8414 }, { "epoch": 0.8976, "grad_norm": 1.7736875475532623, "learning_rate": 2.7251024035968134e-07, "loss": 0.4361, "step": 8415 }, { "avg_step_time": 5.792874642092772, "epoch": 0.8976, "eta_time": 1.5447665712247394, "step": 8415 }, { "epoch": 0.8977066666666667, "grad_norm": 1.7965223607332983, "learning_rate": 2.7194800703468305e-07, "loss": 0.4692, "step": 8416 }, { "avg_step_time": 5.791497473764902, "epoch": 0.8977066666666667, "eta_time": 1.5427905770390389, "step": 8416 }, { "epoch": 0.8978133333333334, "grad_norm": 2.013995992334368, "learning_rate": 2.7138633808447057e-07, "loss": 0.5261, "step": 8417 }, { "avg_step_time": 5.792066205631603, "epoch": 0.8978133333333334, "eta_time": 1.541333173609743, "step": 8417 }, { "epoch": 0.89792, "grad_norm": 1.8937238885777339, "learning_rate": 2.7082523357608856e-07, "loss": 0.4691, "step": 8418 }, { "avg_step_time": 5.791751370285496, "epoch": 0.89792, "eta_time": 1.5396405726008946, "step": 8418 }, { "epoch": 0.8980266666666666, "grad_norm": 0.6548574065605315, "learning_rate": 2.702646935765141e-07, "loss": 0.4335, "step": 8419 }, { "avg_step_time": 5.754124809997251, "epoch": 0.8980266666666666, "eta_time": 1.5280398106548256, "step": 8419 }, { "epoch": 0.8981333333333333, "grad_norm": 1.9445977258721767, "learning_rate": 2.69704718152658e-07, "loss": 0.4416, "step": 8420 }, { "avg_step_time": 5.755878523142651, "epoch": 0.8981333333333333, "eta_time": 1.52690666377812, "step": 8420 }, { "epoch": 0.89824, "grad_norm": 2.114305703633348, "learning_rate": 2.6914530737136346e-07, "loss": 0.4779, "step": 8421 }, { "avg_step_time": 5.760056722043741, "epoch": 0.89824, "eta_time": 1.5264150313415914, "step": 8421 }, { "epoch": 0.8983466666666666, "grad_norm": 1.7602012339156592, "learning_rate": 2.685864612994038e-07, "loss": 0.5144, "step": 8422 }, { "avg_step_time": 5.750244049110798, "epoch": 0.8983466666666666, "eta_time": 1.5222173830007195, "step": 8422 }, { "epoch": 0.8984533333333333, "grad_norm": 1.5931237449838225, "learning_rate": 2.6802818000348894e-07, "loss": 0.6011, "step": 8423 }, { "avg_step_time": 5.763844848883273, "epoch": 0.8984533333333333, "eta_time": 1.5242167489269098, "step": 8423 }, { "epoch": 0.89856, "grad_norm": 1.8836390920049662, "learning_rate": 2.674704635502584e-07, "loss": 0.4642, "step": 8424 }, { "avg_step_time": 5.75872227639863, "epoch": 0.89856, "eta_time": 1.5212624680153046, "step": 8424 }, { "epoch": 0.8986666666666666, "grad_norm": 1.8682104987404897, "learning_rate": 2.6691331200628556e-07, "loss": 0.4554, "step": 8425 }, { "avg_step_time": 5.79582375227803, "epoch": 0.8986666666666666, "eta_time": 1.5294534901844798, "step": 8425 }, { "epoch": 0.8987733333333333, "grad_norm": 1.723523270311129, "learning_rate": 2.663567254380772e-07, "loss": 0.4842, "step": 8426 }, { "avg_step_time": 5.796762897510721, "epoch": 0.8987733333333333, "eta_time": 1.5280911082604651, "step": 8426 }, { "epoch": 0.89888, "grad_norm": 2.010349845915649, "learning_rate": 2.658007039120697e-07, "loss": 0.4796, "step": 8427 }, { "avg_step_time": 5.79562168651157, "epoch": 0.89888, "eta_time": 1.5261803774480467, "step": 8427 }, { "epoch": 0.8989866666666667, "grad_norm": 1.719510024239071, "learning_rate": 2.652452474946349e-07, "loss": 0.4737, "step": 8428 }, { "avg_step_time": 5.797193845113118, "epoch": 0.8989866666666667, "eta_time": 1.5249840475894785, "step": 8428 }, { "epoch": 0.8990933333333333, "grad_norm": 0.6728919655252928, "learning_rate": 2.646903562520753e-07, "loss": 0.4042, "step": 8429 }, { "avg_step_time": 5.767173625002004, "epoch": 0.8990933333333333, "eta_time": 1.5154850692366375, "step": 8429 }, { "epoch": 0.8992, "grad_norm": 2.2077055162866333, "learning_rate": 2.64136030250628e-07, "loss": 0.519, "step": 8430 }, { "avg_step_time": 5.724256917683765, "epoch": 0.8992, "eta_time": 1.5026174408919883, "step": 8430 }, { "epoch": 0.8993066666666667, "grad_norm": 0.6373410698001779, "learning_rate": 2.6358226955645994e-07, "loss": 0.4327, "step": 8431 }, { "avg_step_time": 5.659066467574148, "epoch": 0.8993066666666667, "eta_time": 1.4839329848305547, "step": 8431 }, { "epoch": 0.8994133333333333, "grad_norm": 0.6722985266396337, "learning_rate": 2.630290742356739e-07, "loss": 0.4377, "step": 8432 }, { "avg_step_time": 5.663055244118277, "epoch": 0.8994133333333333, "eta_time": 1.4834058597787596, "step": 8432 }, { "epoch": 0.89952, "grad_norm": 1.830005027051944, "learning_rate": 2.6247644435430263e-07, "loss": 0.4949, "step": 8433 }, { "avg_step_time": 5.665872029583864, "epoch": 0.89952, "eta_time": 1.482569847741111, "step": 8433 }, { "epoch": 0.8996266666666667, "grad_norm": 1.6757242589041148, "learning_rate": 2.6192437997830946e-07, "loss": 0.4002, "step": 8434 }, { "avg_step_time": 5.663084747815373, "epoch": 0.8996266666666667, "eta_time": 1.480267429915074, "step": 8434 }, { "epoch": 0.8997333333333334, "grad_norm": 1.6931915513276328, "learning_rate": 2.6137288117359716e-07, "loss": 0.4403, "step": 8435 }, { "avg_step_time": 5.6532278807476315, "epoch": 0.8997333333333334, "eta_time": 1.4761206133063258, "step": 8435 }, { "epoch": 0.89984, "grad_norm": 1.8046945585920373, "learning_rate": 2.6082194800599424e-07, "loss": 0.4548, "step": 8436 }, { "avg_step_time": 5.653179421569362, "epoch": 0.89984, "eta_time": 1.474537632459342, "step": 8436 }, { "epoch": 0.8999466666666667, "grad_norm": 1.6346452356853545, "learning_rate": 2.602715805412637e-07, "loss": 0.4292, "step": 8437 }, { "avg_step_time": 5.653372844060262, "epoch": 0.8999466666666667, "eta_time": 1.4730177021468125, "step": 8437 }, { "epoch": 0.9000533333333334, "grad_norm": 1.7814992143856514, "learning_rate": 2.5972177884510287e-07, "loss": 0.4647, "step": 8438 }, { "avg_step_time": 5.64794427457482, "epoch": 0.9000533333333334, "eta_time": 1.4700343847990573, "step": 8438 }, { "epoch": 0.90016, "grad_norm": 1.9798639341767044, "learning_rate": 2.591725429831382e-07, "loss": 0.4767, "step": 8439 }, { "avg_step_time": 5.649601941156869, "epoch": 0.90016, "eta_time": 1.468896504700786, "step": 8439 }, { "epoch": 0.9002666666666667, "grad_norm": 1.9610379091054275, "learning_rate": 2.586238730209323e-07, "loss": 0.4947, "step": 8440 }, { "avg_step_time": 5.652224851377083, "epoch": 0.9002666666666667, "eta_time": 1.4680083988993258, "step": 8440 }, { "epoch": 0.9003733333333334, "grad_norm": 1.5990058938686833, "learning_rate": 2.5807576902397823e-07, "loss": 0.4298, "step": 8441 }, { "avg_step_time": 5.6535725930724485, "epoch": 0.9003733333333334, "eta_time": 1.4667880005360185, "step": 8441 }, { "epoch": 0.90048, "grad_norm": 1.8471457795711366, "learning_rate": 2.57528231057701e-07, "loss": 0.5202, "step": 8442 }, { "avg_step_time": 5.653973528833101, "epoch": 0.90048, "eta_time": 1.4653214728892454, "step": 8442 }, { "epoch": 0.9005866666666666, "grad_norm": 2.0761084554453317, "learning_rate": 2.5698125918745874e-07, "loss": 0.4186, "step": 8443 }, { "avg_step_time": 5.654788034130829, "epoch": 0.9005866666666666, "eta_time": 1.4639617910583145, "step": 8443 }, { "epoch": 0.9006933333333333, "grad_norm": 2.029485805809639, "learning_rate": 2.564348534785416e-07, "loss": 0.4851, "step": 8444 }, { "avg_step_time": 5.658187237652865, "epoch": 0.9006933333333333, "eta_time": 1.463270088404116, "step": 8444 }, { "epoch": 0.9008, "grad_norm": 1.9779909985545332, "learning_rate": 2.558890139961745e-07, "loss": 0.4119, "step": 8445 }, { "avg_step_time": 5.685716347260908, "epoch": 0.9008, "eta_time": 1.4688100563757345, "step": 8445 }, { "epoch": 0.9009066666666666, "grad_norm": 1.7790663120283905, "learning_rate": 2.5534374080551094e-07, "loss": 0.4262, "step": 8446 }, { "avg_step_time": 5.6879132492373685, "epoch": 0.9009066666666666, "eta_time": 1.4677976134837543, "step": 8446 }, { "epoch": 0.9010133333333333, "grad_norm": 1.98169219284158, "learning_rate": 2.5479903397163887e-07, "loss": 0.5001, "step": 8447 }, { "avg_step_time": 5.683134295723655, "epoch": 0.9010133333333333, "eta_time": 1.46498572956432, "step": 8447 }, { "epoch": 0.90112, "grad_norm": 2.097736299680891, "learning_rate": 2.5425489355957956e-07, "loss": 0.4644, "step": 8448 }, { "avg_step_time": 5.680665914458458, "epoch": 0.90112, "eta_time": 1.462771472973053, "step": 8448 }, { "epoch": 0.9012266666666666, "grad_norm": 1.8641933550875043, "learning_rate": 2.537113196342844e-07, "loss": 0.4802, "step": 8449 }, { "avg_step_time": 5.647416309876875, "epoch": 0.9012266666666666, "eta_time": 1.4526409730405516, "step": 8449 }, { "epoch": 0.9013333333333333, "grad_norm": 1.4640285818695573, "learning_rate": 2.531683122606382e-07, "loss": 0.3855, "step": 8450 }, { "avg_step_time": 5.64668839868873, "epoch": 0.9013333333333333, "eta_time": 1.4508852135519654, "step": 8450 }, { "epoch": 0.90144, "grad_norm": 1.6847933618874167, "learning_rate": 2.526258715034602e-07, "loss": 0.394, "step": 8451 }, { "avg_step_time": 5.642462222263067, "epoch": 0.90144, "eta_time": 1.4482319703808537, "step": 8451 }, { "epoch": 0.9015466666666667, "grad_norm": 1.9543540346767345, "learning_rate": 2.5208399742749855e-07, "loss": 0.4657, "step": 8452 }, { "avg_step_time": 5.6239114481993395, "epoch": 0.9015466666666667, "eta_time": 1.4419084074133308, "step": 8452 }, { "epoch": 0.9016533333333333, "grad_norm": 1.70196454657617, "learning_rate": 2.5154269009743383e-07, "loss": 0.4726, "step": 8453 }, { "avg_step_time": 5.623527965160331, "epoch": 0.9016533333333333, "eta_time": 1.440247995521618, "step": 8453 }, { "epoch": 0.90176, "grad_norm": 2.107667918914487, "learning_rate": 2.510019495778837e-07, "loss": 0.4587, "step": 8454 }, { "avg_step_time": 5.622653127920748, "epoch": 0.90176, "eta_time": 1.4384620918930582, "step": 8454 }, { "epoch": 0.9018666666666667, "grad_norm": 1.9618471582756847, "learning_rate": 2.5046177593339385e-07, "loss": 0.4915, "step": 8455 }, { "avg_step_time": 5.629255932990951, "epoch": 0.9018666666666667, "eta_time": 1.4385876273199096, "step": 8455 }, { "epoch": 0.9019733333333333, "grad_norm": 1.830549834916703, "learning_rate": 2.499221692284415e-07, "loss": 0.482, "step": 8456 }, { "avg_step_time": 5.6351332977564645, "epoch": 0.9019733333333333, "eta_time": 1.4385243057328307, "step": 8456 }, { "epoch": 0.90208, "grad_norm": 2.0411287502450097, "learning_rate": 2.4938312952744016e-07, "loss": 0.5134, "step": 8457 }, { "avg_step_time": 5.631614489988848, "epoch": 0.90208, "eta_time": 1.436061694947156, "step": 8457 }, { "epoch": 0.9021866666666667, "grad_norm": 1.9571107818617748, "learning_rate": 2.4884465689473223e-07, "loss": 0.5158, "step": 8458 }, { "avg_step_time": 5.629634021508573, "epoch": 0.9021866666666667, "eta_time": 1.4339928882564894, "step": 8458 }, { "epoch": 0.9022933333333333, "grad_norm": 2.150507383012938, "learning_rate": 2.4830675139459416e-07, "loss": 0.4585, "step": 8459 }, { "avg_step_time": 5.631243183155252, "epoch": 0.9022933333333333, "eta_time": 1.432838543269503, "step": 8459 }, { "epoch": 0.9024, "grad_norm": 1.8651916397428907, "learning_rate": 2.477694130912356e-07, "loss": 0.5489, "step": 8460 }, { "avg_step_time": 5.633218599088265, "epoch": 0.9024, "eta_time": 1.431776393934934, "step": 8460 }, { "epoch": 0.9025066666666667, "grad_norm": 1.7870973430726365, "learning_rate": 2.4723264204879526e-07, "loss": 0.4615, "step": 8461 }, { "avg_step_time": 5.63089304500156, "epoch": 0.9025066666666667, "eta_time": 1.4296211786476185, "step": 8461 }, { "epoch": 0.9026133333333334, "grad_norm": 1.7746295659259705, "learning_rate": 2.4669643833134637e-07, "loss": 0.4996, "step": 8462 }, { "avg_step_time": 5.630235946539677, "epoch": 0.9026133333333334, "eta_time": 1.427890394219646, "step": 8462 }, { "epoch": 0.90272, "grad_norm": 1.8425547007093757, "learning_rate": 2.461608020028944e-07, "loss": 0.4784, "step": 8463 }, { "avg_step_time": 5.628399506963865, "epoch": 0.90272, "eta_time": 1.4258612084308457, "step": 8463 }, { "epoch": 0.9028266666666667, "grad_norm": 1.9257097333329996, "learning_rate": 2.456257331273776e-07, "loss": 0.4386, "step": 8464 }, { "avg_step_time": 5.627420011192862, "epoch": 0.9028266666666667, "eta_time": 1.4240498972768603, "step": 8464 }, { "epoch": 0.9029333333333334, "grad_norm": 1.9386269456381524, "learning_rate": 2.4509123176866376e-07, "loss": 0.4248, "step": 8465 }, { "avg_step_time": 5.6270517917594525, "epoch": 0.9029333333333334, "eta_time": 1.4223936473614172, "step": 8465 }, { "epoch": 0.90304, "grad_norm": 1.5421486452372468, "learning_rate": 2.445572979905575e-07, "loss": 0.3513, "step": 8466 }, { "avg_step_time": 5.631520280934343, "epoch": 0.90304, "eta_time": 1.4219588709359217, "step": 8466 }, { "epoch": 0.9031466666666667, "grad_norm": 1.8775966623790883, "learning_rate": 2.440239318567911e-07, "loss": 0.5003, "step": 8467 }, { "avg_step_time": 5.6279150548607415, "epoch": 0.9031466666666667, "eta_time": 1.4194852416148758, "step": 8467 }, { "epoch": 0.9032533333333334, "grad_norm": 1.9453762517706106, "learning_rate": 2.4349113343103135e-07, "loss": 0.44, "step": 8468 }, { "avg_step_time": 5.636501425444478, "epoch": 0.9032533333333334, "eta_time": 1.420085220243928, "step": 8468 }, { "epoch": 0.90336, "grad_norm": 1.803830739625321, "learning_rate": 2.4295890277687695e-07, "loss": 0.5149, "step": 8469 }, { "avg_step_time": 5.61381904765813, "epoch": 0.90336, "eta_time": 1.4128111269939627, "step": 8469 }, { "epoch": 0.9034666666666666, "grad_norm": 2.153669952446175, "learning_rate": 2.4242723995785977e-07, "loss": 0.5175, "step": 8470 }, { "avg_step_time": 5.646188723920572, "epoch": 0.9034666666666666, "eta_time": 1.419389109763366, "step": 8470 }, { "epoch": 0.9035733333333333, "grad_norm": 1.9284924489608624, "learning_rate": 2.4189614503744183e-07, "loss": 0.4557, "step": 8471 }, { "avg_step_time": 5.654370572831896, "epoch": 0.9035733333333333, "eta_time": 1.4198752771777872, "step": 8471 }, { "epoch": 0.90368, "grad_norm": 1.8885030787909254, "learning_rate": 2.4136561807901916e-07, "loss": 0.4122, "step": 8472 }, { "avg_step_time": 5.652756652446708, "epoch": 0.90368, "eta_time": 1.4178997936553828, "step": 8472 }, { "epoch": 0.9037866666666666, "grad_norm": 1.4995011405443792, "learning_rate": 2.408356591459188e-07, "loss": 0.4778, "step": 8473 }, { "avg_step_time": 5.66010374733896, "epoch": 0.9037866666666666, "eta_time": 1.418170438916595, "step": 8473 }, { "epoch": 0.9038933333333333, "grad_norm": 1.912790981544666, "learning_rate": 2.4030626830140124e-07, "loss": 0.4992, "step": 8474 }, { "avg_step_time": 5.65878206551677, "epoch": 0.9038933333333333, "eta_time": 1.4162674002862807, "step": 8474 }, { "epoch": 0.904, "grad_norm": 0.6254532791011005, "learning_rate": 2.397774456086577e-07, "loss": 0.3954, "step": 8475 }, { "avg_step_time": 5.64243529300497, "epoch": 0.904, "eta_time": 1.4106088232512426, "step": 8475 }, { "epoch": 0.9041066666666666, "grad_norm": 1.7843719041631125, "learning_rate": 2.392491911308126e-07, "loss": 0.5075, "step": 8476 }, { "avg_step_time": 5.639786416834051, "epoch": 0.9041066666666666, "eta_time": 1.408379996870503, "step": 8476 }, { "epoch": 0.9042133333333333, "grad_norm": 1.7526851516715338, "learning_rate": 2.3872150493092215e-07, "loss": 0.4159, "step": 8477 }, { "avg_step_time": 5.639789102053402, "epoch": 0.9042133333333333, "eta_time": 1.406814059345543, "step": 8477 }, { "epoch": 0.90432, "grad_norm": 0.6428375061289133, "learning_rate": 2.3819438707197495e-07, "loss": 0.418, "step": 8478 }, { "avg_step_time": 5.608482570359201, "epoch": 0.90432, "eta_time": 1.397446907114501, "step": 8478 }, { "epoch": 0.9044266666666667, "grad_norm": 1.69561783519646, "learning_rate": 2.376678376168917e-07, "loss": 0.5147, "step": 8479 }, { "avg_step_time": 5.650064651412193, "epoch": 0.9044266666666667, "eta_time": 1.406238313240368, "step": 8479 }, { "epoch": 0.9045333333333333, "grad_norm": 1.7950354503815984, "learning_rate": 2.3714185662852553e-07, "loss": 0.4109, "step": 8480 }, { "avg_step_time": 5.651209407382542, "epoch": 0.9045333333333333, "eta_time": 1.4049534498909373, "step": 8480 }, { "epoch": 0.90464, "grad_norm": 1.834330703759296, "learning_rate": 2.3661644416966057e-07, "loss": 0.4024, "step": 8481 }, { "avg_step_time": 5.648288589535338, "epoch": 0.90464, "eta_time": 1.4026583330679423, "step": 8481 }, { "epoch": 0.9047466666666667, "grad_norm": 2.1530690124738636, "learning_rate": 2.3609160030301447e-07, "loss": 0.4766, "step": 8482 }, { "avg_step_time": 5.650083893477315, "epoch": 0.9047466666666667, "eta_time": 1.401534699132012, "step": 8482 }, { "epoch": 0.9048533333333333, "grad_norm": 1.8232496298565757, "learning_rate": 2.3556732509123603e-07, "loss": 0.4588, "step": 8483 }, { "avg_step_time": 5.645351169085262, "epoch": 0.9048533333333333, "eta_time": 1.398792567451126, "step": 8483 }, { "epoch": 0.90496, "grad_norm": 1.8184444194921465, "learning_rate": 2.3504361859690628e-07, "loss": 0.3743, "step": 8484 }, { "avg_step_time": 5.647746613531401, "epoch": 0.90496, "eta_time": 1.397817286849022, "step": 8484 }, { "epoch": 0.9050666666666667, "grad_norm": 1.9773549146747618, "learning_rate": 2.3452048088253965e-07, "loss": 0.5288, "step": 8485 }, { "avg_step_time": 5.646240472793579, "epoch": 0.9050666666666667, "eta_time": 1.3958761168850793, "step": 8485 }, { "epoch": 0.9051733333333334, "grad_norm": 1.7834576165678697, "learning_rate": 2.3399791201058174e-07, "loss": 0.5207, "step": 8486 }, { "avg_step_time": 5.651761909927985, "epoch": 0.9051733333333334, "eta_time": 1.3956712049794386, "step": 8486 }, { "epoch": 0.90528, "grad_norm": 1.9564807465480014, "learning_rate": 2.3347591204340881e-07, "loss": 0.5701, "step": 8487 }, { "avg_step_time": 5.654449491789847, "epoch": 0.90528, "eta_time": 1.3947642079748288, "step": 8487 }, { "epoch": 0.9053866666666667, "grad_norm": 2.0175387364619253, "learning_rate": 2.3295448104333096e-07, "loss": 0.5362, "step": 8488 }, { "avg_step_time": 5.654377462888005, "epoch": 0.9053866666666667, "eta_time": 1.39317578043935, "step": 8488 }, { "epoch": 0.9054933333333334, "grad_norm": 2.079325742663034, "learning_rate": 2.3243361907259122e-07, "loss": 0.5101, "step": 8489 }, { "avg_step_time": 5.647744506296485, "epoch": 0.9054933333333334, "eta_time": 1.3899726757163018, "step": 8489 }, { "epoch": 0.9056, "grad_norm": 1.811188868855902, "learning_rate": 2.3191332619336204e-07, "loss": 0.3923, "step": 8490 }, { "avg_step_time": 5.666561550564236, "epoch": 0.9056, "eta_time": 1.393029714513708, "step": 8490 }, { "epoch": 0.9057066666666667, "grad_norm": 1.9216291976738775, "learning_rate": 2.31393602467751e-07, "loss": 0.5374, "step": 8491 }, { "avg_step_time": 5.67026604546441, "epoch": 0.9057066666666667, "eta_time": 1.392365328941816, "step": 8491 }, { "epoch": 0.9058133333333334, "grad_norm": 1.7604593953638643, "learning_rate": 2.3087444795779456e-07, "loss": 0.4765, "step": 8492 }, { "avg_step_time": 5.704394892008618, "epoch": 0.9058133333333334, "eta_time": 1.3991613026787804, "step": 8492 }, { "epoch": 0.90592, "grad_norm": 1.8271922683005586, "learning_rate": 2.3035586272546207e-07, "loss": 0.543, "step": 8493 }, { "avg_step_time": 5.711397101180722, "epoch": 0.90592, "eta_time": 1.399292289789277, "step": 8493 }, { "epoch": 0.9060266666666666, "grad_norm": 0.6397835127892271, "learning_rate": 2.2983784683265842e-07, "loss": 0.4383, "step": 8494 }, { "avg_step_time": 5.6752307415008545, "epoch": 0.9060266666666666, "eta_time": 1.388855078683959, "step": 8494 }, { "epoch": 0.9061333333333333, "grad_norm": 0.6677269867149539, "learning_rate": 2.2932040034121638e-07, "loss": 0.4416, "step": 8495 }, { "avg_step_time": 5.637933627523557, "epoch": 0.9061333333333333, "eta_time": 1.3781615533946474, "step": 8495 }, { "epoch": 0.90624, "grad_norm": 1.586505321336113, "learning_rate": 2.2880352331290102e-07, "loss": 0.4038, "step": 8496 }, { "avg_step_time": 5.61206212669912, "epoch": 0.90624, "eta_time": 1.3702785026023685, "step": 8496 }, { "epoch": 0.9063466666666666, "grad_norm": 2.07318463426697, "learning_rate": 2.2828721580941237e-07, "loss": 0.4557, "step": 8497 }, { "avg_step_time": 5.625537566464357, "epoch": 0.9063466666666666, "eta_time": 1.372006106487696, "step": 8497 }, { "epoch": 0.9064533333333333, "grad_norm": 1.901830382923024, "learning_rate": 2.277714778923795e-07, "loss": 0.4371, "step": 8498 }, { "avg_step_time": 5.624065009030429, "epoch": 0.9064533333333333, "eta_time": 1.370084725811024, "step": 8498 }, { "epoch": 0.90656, "grad_norm": 0.63101401228038, "learning_rate": 2.2725630962336542e-07, "loss": 0.4152, "step": 8499 }, { "avg_step_time": 5.590954002707895, "epoch": 0.90656, "eta_time": 1.3604654739922544, "step": 8499 }, { "epoch": 0.9066666666666666, "grad_norm": 1.932253538720238, "learning_rate": 2.2674171106386312e-07, "loss": 0.4778, "step": 8500 }, { "avg_step_time": 5.576419401650477, "epoch": 0.9066666666666666, "eta_time": 1.3553797156789353, "step": 8500 }, { "epoch": 0.9067733333333333, "grad_norm": 1.8262497600796543, "learning_rate": 2.2622768227530068e-07, "loss": 0.451, "step": 8501 }, { "avg_step_time": 5.58580639145591, "epoch": 0.9067733333333333, "eta_time": 1.3561096628145737, "step": 8501 }, { "epoch": 0.90688, "grad_norm": 1.9938734787030075, "learning_rate": 2.2571422331903458e-07, "loss": 0.5246, "step": 8502 }, { "avg_step_time": 5.602696864291875, "epoch": 0.90688, "eta_time": 1.3586539895907797, "step": 8502 }, { "epoch": 0.9069866666666667, "grad_norm": 1.696585303746213, "learning_rate": 2.2520133425635526e-07, "loss": 0.5366, "step": 8503 }, { "avg_step_time": 5.604086904814749, "epoch": 0.9069866666666667, "eta_time": 1.3574343836106835, "step": 8503 }, { "epoch": 0.9070933333333333, "grad_norm": 1.8846463770828719, "learning_rate": 2.246890151484865e-07, "loss": 0.4655, "step": 8504 }, { "avg_step_time": 5.6061584371508975, "epoch": 0.9070933333333333, "eta_time": 1.3563788885440087, "step": 8504 }, { "epoch": 0.9072, "grad_norm": 1.8981704216859043, "learning_rate": 2.2417726605658164e-07, "loss": 0.4791, "step": 8505 }, { "avg_step_time": 5.601135162392048, "epoch": 0.9072, "eta_time": 1.3536076642447448, "step": 8505 }, { "epoch": 0.9073066666666667, "grad_norm": 1.9329181456421636, "learning_rate": 2.2366608704172565e-07, "loss": 0.4902, "step": 8506 }, { "avg_step_time": 5.559739599324236, "epoch": 0.9073066666666667, "eta_time": 1.3420593643924337, "step": 8506 }, { "epoch": 0.9074133333333333, "grad_norm": 0.6486409648523086, "learning_rate": 2.2315547816493698e-07, "loss": 0.444, "step": 8507 }, { "avg_step_time": 5.505581499350192, "epoch": 0.9074133333333333, "eta_time": 1.3274568726211018, "step": 8507 }, { "epoch": 0.90752, "grad_norm": 1.7504345134533916, "learning_rate": 2.226454394871669e-07, "loss": 0.4552, "step": 8508 }, { "avg_step_time": 5.51447648713083, "epoch": 0.90752, "eta_time": 1.3280697539840083, "step": 8508 }, { "epoch": 0.9076266666666667, "grad_norm": 1.6782039811448417, "learning_rate": 2.2213597106929608e-07, "loss": 0.4738, "step": 8509 }, { "avg_step_time": 5.519620206620958, "epoch": 0.9076266666666667, "eta_time": 1.3277753052593748, "step": 8509 }, { "epoch": 0.9077333333333333, "grad_norm": 1.7956921396158294, "learning_rate": 2.2162707297213982e-07, "loss": 0.4318, "step": 8510 }, { "avg_step_time": 5.517984002527564, "epoch": 0.9077333333333333, "eta_time": 1.3258489339406507, "step": 8510 }, { "epoch": 0.90784, "grad_norm": 1.829289028681549, "learning_rate": 2.2111874525644228e-07, "loss": 0.461, "step": 8511 }, { "avg_step_time": 5.5217612391770485, "epoch": 0.90784, "eta_time": 1.3252226974024917, "step": 8511 }, { "epoch": 0.9079466666666667, "grad_norm": 1.8937701573668015, "learning_rate": 2.2061098798288107e-07, "loss": 0.5207, "step": 8512 }, { "avg_step_time": 5.519223234870217, "epoch": 0.9079466666666667, "eta_time": 1.3230804588036102, "step": 8512 }, { "epoch": 0.9080533333333334, "grad_norm": 1.7189875450244338, "learning_rate": 2.2010380121206766e-07, "loss": 0.4466, "step": 8513 }, { "avg_step_time": 5.5526469596708665, "epoch": 0.9080533333333334, "eta_time": 1.3295504664545241, "step": 8513 }, { "epoch": 0.90816, "grad_norm": 1.6464197183909723, "learning_rate": 2.1959718500454196e-07, "loss": 0.4171, "step": 8514 }, { "avg_step_time": 5.545388804541694, "epoch": 0.90816, "eta_time": 1.3262721557528885, "step": 8514 }, { "epoch": 0.9082666666666667, "grad_norm": 2.4429036625072857, "learning_rate": 2.1909113942077787e-07, "loss": 0.5313, "step": 8515 }, { "avg_step_time": 5.558015640335854, "epoch": 0.9082666666666667, "eta_time": 1.3277481807468985, "step": 8515 }, { "epoch": 0.9083733333333334, "grad_norm": 1.607446763373616, "learning_rate": 2.1858566452118146e-07, "loss": 0.4753, "step": 8516 }, { "avg_step_time": 5.559367622992005, "epoch": 0.9083733333333334, "eta_time": 1.3265268855972587, "step": 8516 }, { "epoch": 0.90848, "grad_norm": 0.6739095800516633, "learning_rate": 2.1808076036608783e-07, "loss": 0.4619, "step": 8517 }, { "avg_step_time": 5.5258588357405225, "epoch": 0.90848, "eta_time": 1.3169963558514912, "step": 8517 }, { "epoch": 0.9085866666666667, "grad_norm": 1.7203805102160972, "learning_rate": 2.1757642701576765e-07, "loss": 0.4467, "step": 8518 }, { "avg_step_time": 5.563569049642544, "epoch": 0.9085866666666667, "eta_time": 1.3244385209843499, "step": 8518 }, { "epoch": 0.9086933333333334, "grad_norm": 1.8180728912572341, "learning_rate": 2.170726645304222e-07, "loss": 0.41, "step": 8519 }, { "avg_step_time": 5.560569281529898, "epoch": 0.9086933333333334, "eta_time": 1.3221798069415536, "step": 8519 }, { "epoch": 0.9088, "grad_norm": 1.9238271561948033, "learning_rate": 2.165694729701834e-07, "loss": 0.4256, "step": 8520 }, { "avg_step_time": 5.562819336399888, "epoch": 0.9088, "eta_time": 1.3211695923949733, "step": 8520 }, { "epoch": 0.9089066666666666, "grad_norm": 1.933774646758418, "learning_rate": 2.1606685239511537e-07, "loss": 0.4595, "step": 8521 }, { "avg_step_time": 5.5633879719358506, "epoch": 0.9089066666666666, "eta_time": 1.3197592577870045, "step": 8521 }, { "epoch": 0.9090133333333333, "grad_norm": 2.090908429112073, "learning_rate": 2.155648028652152e-07, "loss": 0.5111, "step": 8522 }, { "avg_step_time": 5.54918788900279, "epoch": 0.9090133333333333, "eta_time": 1.3148492414776056, "step": 8522 }, { "epoch": 0.90912, "grad_norm": 0.6294421715332007, "learning_rate": 2.1506332444041212e-07, "loss": 0.4187, "step": 8523 }, { "avg_step_time": 5.536218823808612, "epoch": 0.90912, "eta_time": 1.3102384549680381, "step": 8523 }, { "epoch": 0.9092266666666666, "grad_norm": 0.6582933686215356, "learning_rate": 2.1456241718056436e-07, "loss": 0.4611, "step": 8524 }, { "avg_step_time": 5.500296855213667, "epoch": 0.9092266666666666, "eta_time": 1.3002090621630085, "step": 8524 }, { "epoch": 0.9093333333333333, "grad_norm": 1.8731598934371425, "learning_rate": 2.140620811454658e-07, "loss": 0.4265, "step": 8525 }, { "avg_step_time": 5.498656494448883, "epoch": 0.9093333333333333, "eta_time": 1.298293894522653, "step": 8525 }, { "epoch": 0.90944, "grad_norm": 2.0399213682378297, "learning_rate": 2.1356231639483917e-07, "loss": 0.5096, "step": 8526 }, { "avg_step_time": 5.501134742390025, "epoch": 0.90944, "eta_time": 1.2973509434136477, "step": 8526 }, { "epoch": 0.9095466666666666, "grad_norm": 1.90803757591174, "learning_rate": 2.1306312298833954e-07, "loss": 0.5186, "step": 8527 }, { "avg_step_time": 5.49792281304947, "epoch": 0.9095466666666666, "eta_time": 1.2950662626294307, "step": 8527 }, { "epoch": 0.9096533333333333, "grad_norm": 1.692987184763437, "learning_rate": 2.1256450098555426e-07, "loss": 0.4426, "step": 8528 }, { "avg_step_time": 5.528355615307587, "epoch": 0.9096533333333333, "eta_time": 1.3006992239348683, "step": 8528 }, { "epoch": 0.90976, "grad_norm": 1.6580571296506517, "learning_rate": 2.1206645044600404e-07, "loss": 0.4894, "step": 8529 }, { "avg_step_time": 5.53782432247894, "epoch": 0.90976, "eta_time": 1.301388715782551, "step": 8529 }, { "epoch": 0.9098666666666667, "grad_norm": 1.8809445097657722, "learning_rate": 2.1156897142913858e-07, "loss": 0.4804, "step": 8530 }, { "avg_step_time": 5.57270950741238, "epoch": 0.9098666666666667, "eta_time": 1.3080387593787393, "step": 8530 }, { "epoch": 0.9099733333333333, "grad_norm": 1.8723121130893365, "learning_rate": 2.1107206399434144e-07, "loss": 0.4205, "step": 8531 }, { "avg_step_time": 5.608276629688764, "epoch": 0.9099733333333333, "eta_time": 1.3148292987381436, "step": 8531 }, { "epoch": 0.91008, "grad_norm": 1.8271254002436341, "learning_rate": 2.1057572820092576e-07, "loss": 0.5126, "step": 8532 }, { "avg_step_time": 5.605762652676515, "epoch": 0.91008, "eta_time": 1.3126827545017505, "step": 8532 }, { "epoch": 0.9101866666666667, "grad_norm": 0.6506829853683701, "learning_rate": 2.1007996410813912e-07, "loss": 0.4245, "step": 8533 }, { "avg_step_time": 5.579471402698093, "epoch": 0.9101866666666667, "eta_time": 1.3049763669643872, "step": 8533 }, { "epoch": 0.9102933333333333, "grad_norm": 0.6348773260108072, "learning_rate": 2.0958477177515812e-07, "loss": 0.45, "step": 8534 }, { "avg_step_time": 5.54818783143554, "epoch": 0.9102933333333333, "eta_time": 1.2961183239548026, "step": 8534 }, { "epoch": 0.9104, "grad_norm": 1.999740769215745, "learning_rate": 2.0909015126109488e-07, "loss": 0.508, "step": 8535 }, { "avg_step_time": 5.546742494660195, "epoch": 0.9104, "eta_time": 1.294239915420712, "step": 8535 }, { "epoch": 0.9105066666666667, "grad_norm": 0.6757838703735576, "learning_rate": 2.0859610262498887e-07, "loss": 0.4453, "step": 8536 }, { "avg_step_time": 5.512255733663386, "epoch": 0.9105066666666667, "eta_time": 1.284661822373217, "step": 8536 }, { "epoch": 0.9106133333333334, "grad_norm": 2.0623393024917434, "learning_rate": 2.0810262592581287e-07, "loss": 0.5551, "step": 8537 }, { "avg_step_time": 5.514870169186833, "epoch": 0.9106133333333334, "eta_time": 1.2837392227162683, "step": 8537 }, { "epoch": 0.91072, "grad_norm": 0.6794575680731497, "learning_rate": 2.0760972122247425e-07, "loss": 0.4402, "step": 8538 }, { "avg_step_time": 5.478611156193897, "epoch": 0.91072, "eta_time": 1.2737770938150812, "step": 8538 }, { "epoch": 0.9108266666666667, "grad_norm": 1.734033377847286, "learning_rate": 2.0711738857380814e-07, "loss": 0.4439, "step": 8539 }, { "avg_step_time": 5.486316801321627, "epoch": 0.9108266666666667, "eta_time": 1.2740446794180225, "step": 8539 }, { "epoch": 0.9109333333333334, "grad_norm": 1.8630581362928131, "learning_rate": 2.0662562803858255e-07, "loss": 0.421, "step": 8540 }, { "avg_step_time": 5.487363935721041, "epoch": 0.9109333333333334, "eta_time": 1.2727635795352972, "step": 8540 }, { "epoch": 0.91104, "grad_norm": 1.9290270697527359, "learning_rate": 2.061344396754994e-07, "loss": 0.4868, "step": 8541 }, { "avg_step_time": 5.489723740202008, "epoch": 0.91104, "eta_time": 1.271785999813465, "step": 8541 }, { "epoch": 0.9111466666666667, "grad_norm": 1.8320307425529843, "learning_rate": 2.0564382354318791e-07, "loss": 0.519, "step": 8542 }, { "avg_step_time": 5.491782763991693, "epoch": 0.9111466666666667, "eta_time": 1.270737511779189, "step": 8542 }, { "epoch": 0.9112533333333334, "grad_norm": 0.6651801877926327, "learning_rate": 2.05153779700214e-07, "loss": 0.4376, "step": 8543 }, { "avg_step_time": 5.459076708013361, "epoch": 0.9112533333333334, "eta_time": 1.2616532836297547, "step": 8543 }, { "epoch": 0.91136, "grad_norm": 0.6659598566081145, "learning_rate": 2.04664308205072e-07, "loss": 0.4496, "step": 8544 }, { "avg_step_time": 5.443975068101979, "epoch": 0.91136, "eta_time": 1.2566509115535403, "step": 8544 }, { "epoch": 0.9114666666666666, "grad_norm": 1.834745894886196, "learning_rate": 2.0417540911618906e-07, "loss": 0.4412, "step": 8545 }, { "avg_step_time": 5.498697514485831, "epoch": 0.9114666666666666, "eta_time": 1.2677552602842332, "step": 8545 }, { "epoch": 0.9115733333333333, "grad_norm": 1.66611246315972, "learning_rate": 2.0368708249192182e-07, "loss": 0.4663, "step": 8546 }, { "avg_step_time": 5.502989234346332, "epoch": 0.9115733333333333, "eta_time": 1.2672161320203081, "step": 8546 }, { "epoch": 0.91168, "grad_norm": 1.5891592905441192, "learning_rate": 2.0319932839056365e-07, "loss": 0.4704, "step": 8547 }, { "avg_step_time": 5.497419771521982, "epoch": 0.91168, "eta_time": 1.2644065474500559, "step": 8547 }, { "epoch": 0.9117866666666666, "grad_norm": 0.6882494615961278, "learning_rate": 2.027121468703347e-07, "loss": 0.4661, "step": 8548 }, { "avg_step_time": 5.463306624479968, "epoch": 0.9117866666666666, "eta_time": 1.255042938456926, "step": 8548 }, { "epoch": 0.9118933333333333, "grad_norm": 0.646233482857298, "learning_rate": 2.0222553798938836e-07, "loss": 0.4316, "step": 8549 }, { "avg_step_time": 5.4287204333026, "epoch": 0.9118933333333333, "eta_time": 1.2455897438633188, "step": 8549 }, { "epoch": 0.912, "grad_norm": 1.9891418850790898, "learning_rate": 2.0173950180581047e-07, "loss": 0.4782, "step": 8550 }, { "avg_step_time": 5.42890120034266, "epoch": 0.912, "eta_time": 1.244123191745193, "step": 8550 }, { "epoch": 0.9121066666666666, "grad_norm": 2.2050118717979568, "learning_rate": 2.0125403837761736e-07, "loss": 0.4044, "step": 8551 }, { "avg_step_time": 5.432823431612265, "epoch": 0.9121066666666666, "eta_time": 1.2435129187912517, "step": 8551 }, { "epoch": 0.9122133333333333, "grad_norm": 2.1828383032965775, "learning_rate": 2.0076914776275824e-07, "loss": 0.4993, "step": 8552 }, { "avg_step_time": 5.431008163124624, "epoch": 0.9122133333333333, "eta_time": 1.241588810625435, "step": 8552 }, { "epoch": 0.91232, "grad_norm": 1.833836835756654, "learning_rate": 2.002848300191118e-07, "loss": 0.4577, "step": 8553 }, { "avg_step_time": 5.433341385138156, "epoch": 0.91232, "eta_time": 1.2406129496065454, "step": 8553 }, { "epoch": 0.9124266666666667, "grad_norm": 1.9499398610133447, "learning_rate": 1.9980108520449127e-07, "loss": 0.5156, "step": 8554 }, { "avg_step_time": 5.428298716593271, "epoch": 0.9124266666666667, "eta_time": 1.2379536795341877, "step": 8554 }, { "epoch": 0.9125333333333333, "grad_norm": 2.160855990174203, "learning_rate": 1.9931791337663875e-07, "loss": 0.5524, "step": 8555 }, { "avg_step_time": 5.424468551019226, "epoch": 0.9125333333333333, "eta_time": 1.2355733921766014, "step": 8555 }, { "epoch": 0.91264, "grad_norm": 1.6874265551382481, "learning_rate": 1.988353145932298e-07, "loss": 0.396, "step": 8556 }, { "avg_step_time": 5.406338489416874, "epoch": 0.91264, "eta_time": 1.2299420063423387, "step": 8556 }, { "epoch": 0.9127466666666667, "grad_norm": 1.5854845053344, "learning_rate": 1.983532889118711e-07, "loss": 0.4942, "step": 8557 }, { "avg_step_time": 5.4036346950916325, "epoch": 0.9127466666666667, "eta_time": 1.2278258834958211, "step": 8557 }, { "epoch": 0.9128533333333333, "grad_norm": 1.8111968893798933, "learning_rate": 1.9787183639010055e-07, "loss": 0.4648, "step": 8558 }, { "avg_step_time": 5.400206158859561, "epoch": 0.9128533333333333, "eta_time": 1.2255467866078502, "step": 8558 }, { "epoch": 0.91296, "grad_norm": 1.9405409761547208, "learning_rate": 1.9739095708538714e-07, "loss": 0.5056, "step": 8559 }, { "avg_step_time": 5.400013230063698, "epoch": 0.91296, "eta_time": 1.224002998814438, "step": 8559 }, { "epoch": 0.9130666666666667, "grad_norm": 1.8870286436478603, "learning_rate": 1.9691065105513328e-07, "loss": 0.4188, "step": 8560 }, { "avg_step_time": 5.4150067050047594, "epoch": 0.9130666666666667, "eta_time": 1.225897351271911, "step": 8560 }, { "epoch": 0.9131733333333333, "grad_norm": 2.3191989858692086, "learning_rate": 1.9643091835667095e-07, "loss": 0.6281, "step": 8561 }, { "avg_step_time": 5.420846219014639, "epoch": 0.9131733333333333, "eta_time": 1.2257135617438657, "step": 8561 }, { "epoch": 0.91328, "grad_norm": 1.9835493669309003, "learning_rate": 1.9595175904726481e-07, "loss": 0.3932, "step": 8562 }, { "avg_step_time": 5.421358773202607, "epoch": 0.91328, "eta_time": 1.2243235229482556, "step": 8562 }, { "epoch": 0.9133866666666667, "grad_norm": 2.124451960227007, "learning_rate": 1.954731731841114e-07, "loss": 0.5165, "step": 8563 }, { "avg_step_time": 5.427421543333265, "epoch": 0.9133866666666667, "eta_time": 1.2241850814407256, "step": 8563 }, { "epoch": 0.9134933333333334, "grad_norm": 1.7065464065999003, "learning_rate": 1.9499516082433723e-07, "loss": 0.5323, "step": 8564 }, { "avg_step_time": 5.427418142858178, "epoch": 0.9134933333333334, "eta_time": 1.222676698293884, "step": 8564 }, { "epoch": 0.9136, "grad_norm": 1.7243399990867976, "learning_rate": 1.9451772202500163e-07, "loss": 0.4869, "step": 8565 }, { "avg_step_time": 5.4257861845421065, "epoch": 0.9136, "eta_time": 1.2208018915219738, "step": 8565 }, { "epoch": 0.9137066666666667, "grad_norm": 1.7514361344511795, "learning_rate": 1.9404085684309516e-07, "loss": 0.5266, "step": 8566 }, { "avg_step_time": 5.426015731060144, "epoch": 0.9137066666666667, "eta_time": 1.2193463128965711, "step": 8566 }, { "epoch": 0.9138133333333334, "grad_norm": 2.106860367152982, "learning_rate": 1.9356456533554113e-07, "loss": 0.5283, "step": 8567 }, { "avg_step_time": 5.423317427587027, "epoch": 0.9138133333333334, "eta_time": 1.2172334670806437, "step": 8567 }, { "epoch": 0.91392, "grad_norm": 1.9681700236834128, "learning_rate": 1.9308884755919132e-07, "loss": 0.4737, "step": 8568 }, { "avg_step_time": 5.42288219808328, "epoch": 0.91392, "eta_time": 1.215629426070335, "step": 8568 }, { "epoch": 0.9140266666666667, "grad_norm": 1.717237957838931, "learning_rate": 1.9261370357083198e-07, "loss": 0.4388, "step": 8569 }, { "avg_step_time": 5.425008997772679, "epoch": 0.9140266666666667, "eta_time": 1.2145992367235496, "step": 8569 }, { "epoch": 0.9141333333333334, "grad_norm": 1.8377709012771097, "learning_rate": 1.9213913342717995e-07, "loss": 0.4577, "step": 8570 }, { "avg_step_time": 5.412295112706194, "epoch": 0.9141333333333334, "eta_time": 1.2102493238134684, "step": 8570 }, { "epoch": 0.91424, "grad_norm": 1.9491470690729549, "learning_rate": 1.9166513718488155e-07, "loss": 0.4927, "step": 8571 }, { "avg_step_time": 5.413413050198796, "epoch": 0.91424, "eta_time": 1.2089955812110644, "step": 8571 }, { "epoch": 0.9143466666666666, "grad_norm": 1.810688721890946, "learning_rate": 1.911917149005188e-07, "loss": 0.5459, "step": 8572 }, { "avg_step_time": 5.408506222445555, "epoch": 0.9143466666666666, "eta_time": 1.2063973601732725, "step": 8572 }, { "epoch": 0.9144533333333333, "grad_norm": 1.7978885818931547, "learning_rate": 1.9071886663060202e-07, "loss": 0.4737, "step": 8573 }, { "avg_step_time": 5.411143153604835, "epoch": 0.9144533333333333, "eta_time": 1.2054824469975216, "step": 8573 }, { "epoch": 0.91456, "grad_norm": 2.2003100160862594, "learning_rate": 1.902465924315733e-07, "loss": 0.494, "step": 8574 }, { "avg_step_time": 5.424322359489672, "epoch": 0.91456, "eta_time": 1.206911724986452, "step": 8574 }, { "epoch": 0.9146666666666666, "grad_norm": 2.291781591817497, "learning_rate": 1.897748923598075e-07, "loss": 0.529, "step": 8575 }, { "avg_step_time": 5.4313275043410485, "epoch": 0.9146666666666666, "eta_time": 1.2069616676313442, "step": 8575 }, { "epoch": 0.9147733333333333, "grad_norm": 1.585473541727038, "learning_rate": 1.8930376647160908e-07, "loss": 0.4292, "step": 8576 }, { "avg_step_time": 5.434947290805855, "epoch": 0.9147733333333333, "eta_time": 1.206256357042744, "step": 8576 }, { "epoch": 0.91488, "grad_norm": 1.9317856622553493, "learning_rate": 1.8883321482321583e-07, "loss": 0.4411, "step": 8577 }, { "avg_step_time": 5.4670088098506735, "epoch": 0.91488, "eta_time": 1.2118536195168994, "step": 8577 }, { "epoch": 0.9149866666666666, "grad_norm": 1.8535951767626373, "learning_rate": 1.8836323747079665e-07, "loss": 0.4849, "step": 8578 }, { "avg_step_time": 5.484387513363, "epoch": 0.9149866666666666, "eta_time": 1.214182457819531, "step": 8578 }, { "epoch": 0.9150933333333333, "grad_norm": 1.5545347204972189, "learning_rate": 1.8789383447045119e-07, "loss": 0.4149, "step": 8579 }, { "avg_step_time": 5.483774702958386, "epoch": 0.9150933333333333, "eta_time": 1.212523517654132, "step": 8579 }, { "epoch": 0.9152, "grad_norm": 0.6426313875067268, "learning_rate": 1.8742500587820955e-07, "loss": 0.4348, "step": 8580 }, { "avg_step_time": 5.452678109660293, "epoch": 0.9152, "eta_time": 1.2041330825499812, "step": 8580 }, { "epoch": 0.9153066666666667, "grad_norm": 1.936624184518259, "learning_rate": 1.8695675175003592e-07, "loss": 0.4761, "step": 8581 }, { "avg_step_time": 5.453015539381239, "epoch": 0.9153066666666667, "eta_time": 1.2026928717413068, "step": 8581 }, { "epoch": 0.9154133333333333, "grad_norm": 1.5470621026546134, "learning_rate": 1.86489072141825e-07, "loss": 0.43, "step": 8582 }, { "avg_step_time": 5.485656206053917, "epoch": 0.9154133333333333, "eta_time": 1.2083681587224322, "step": 8582 }, { "epoch": 0.91552, "grad_norm": 2.058373357177383, "learning_rate": 1.86021967109401e-07, "loss": 0.5261, "step": 8583 }, { "avg_step_time": 5.5445570825326325, "epoch": 0.91552, "eta_time": 1.2198025581571792, "step": 8583 }, { "epoch": 0.9156266666666667, "grad_norm": 0.6508106439261927, "learning_rate": 1.855554367085216e-07, "loss": 0.4357, "step": 8584 }, { "avg_step_time": 5.512793211021808, "epoch": 0.9156266666666667, "eta_time": 1.2112831749772919, "step": 8584 }, { "epoch": 0.9157333333333333, "grad_norm": 1.788981693268355, "learning_rate": 1.850894809948761e-07, "loss": 0.4299, "step": 8585 }, { "avg_step_time": 5.50362638512043, "epoch": 0.9157333333333333, "eta_time": 1.207740234512539, "step": 8585 }, { "epoch": 0.91584, "grad_norm": 1.9906619770987084, "learning_rate": 1.8462410002408228e-07, "loss": 0.5238, "step": 8586 }, { "avg_step_time": 5.498994244469537, "epoch": 0.91584, "eta_time": 1.2051962385795734, "step": 8586 }, { "epoch": 0.9159466666666667, "grad_norm": 1.8917301854380826, "learning_rate": 1.8415929385169285e-07, "loss": 0.4746, "step": 8587 }, { "avg_step_time": 5.497003815390847, "epoch": 0.9159466666666667, "eta_time": 1.2032330573688854, "step": 8587 }, { "epoch": 0.9160533333333334, "grad_norm": 1.809163015777621, "learning_rate": 1.8369506253319124e-07, "loss": 0.4933, "step": 8588 }, { "avg_step_time": 5.499800438832755, "epoch": 0.9160533333333334, "eta_time": 1.202317484822605, "step": 8588 }, { "epoch": 0.91616, "grad_norm": 0.6549356462152208, "learning_rate": 1.8323140612399038e-07, "loss": 0.4223, "step": 8589 }, { "avg_step_time": 5.444603691197405, "epoch": 0.91616, "eta_time": 1.1887384725781, "step": 8589 }, { "epoch": 0.9162666666666667, "grad_norm": 0.6519154475937149, "learning_rate": 1.827683246794343e-07, "loss": 0.4196, "step": 8590 }, { "avg_step_time": 5.408095961869365, "epoch": 0.9162666666666667, "eta_time": 1.179265369463181, "step": 8590 }, { "epoch": 0.9163733333333334, "grad_norm": 1.9762911616471064, "learning_rate": 1.8230581825480264e-07, "loss": 0.4392, "step": 8591 }, { "avg_step_time": 5.406762664968317, "epoch": 0.9163733333333334, "eta_time": 1.177472758148656, "step": 8591 }, { "epoch": 0.91648, "grad_norm": 1.820550581481776, "learning_rate": 1.8184388690530242e-07, "loss": 0.4599, "step": 8592 }, { "avg_step_time": 5.405568797178943, "epoch": 0.91648, "eta_time": 1.17571121338642, "step": 8592 }, { "epoch": 0.9165866666666667, "grad_norm": 1.7744032580458644, "learning_rate": 1.813825306860728e-07, "loss": 0.4354, "step": 8593 }, { "avg_step_time": 5.441266820888327, "epoch": 0.9165866666666667, "eta_time": 1.1819640705374088, "step": 8593 }, { "epoch": 0.9166933333333334, "grad_norm": 1.8417651336052923, "learning_rate": 1.809217496521848e-07, "loss": 0.4893, "step": 8594 }, { "avg_step_time": 5.479299591045187, "epoch": 0.9166933333333334, "eta_time": 1.1887036057239697, "step": 8594 }, { "epoch": 0.9168, "grad_norm": 0.6326316951167634, "learning_rate": 1.804615438586399e-07, "loss": 0.443, "step": 8595 }, { "avg_step_time": 5.443977717197303, "epoch": 0.9168, "eta_time": 1.1795285053927491, "step": 8595 }, { "epoch": 0.9169066666666666, "grad_norm": 0.6499766612649517, "learning_rate": 1.8000191336037252e-07, "loss": 0.4749, "step": 8596 }, { "avg_step_time": 5.397090803493153, "epoch": 0.9169066666666666, "eta_time": 1.167870482200324, "step": 8596 }, { "epoch": 0.9170133333333333, "grad_norm": 1.6807867365641571, "learning_rate": 1.7954285821224827e-07, "loss": 0.4684, "step": 8597 }, { "avg_step_time": 5.398915842326001, "epoch": 0.9170133333333333, "eta_time": 1.1667657014804522, "step": 8597 }, { "epoch": 0.91712, "grad_norm": 1.7380300032519935, "learning_rate": 1.7908437846906158e-07, "loss": 0.4502, "step": 8598 }, { "avg_step_time": 5.439057460939042, "epoch": 0.91712, "eta_time": 1.1739299019860099, "step": 8598 }, { "epoch": 0.9172266666666666, "grad_norm": 2.091976182808583, "learning_rate": 1.786264741855409e-07, "loss": 0.5254, "step": 8599 }, { "avg_step_time": 5.4371420253406875, "epoch": 0.9172266666666666, "eta_time": 1.1720061699067703, "step": 8599 }, { "epoch": 0.9173333333333333, "grad_norm": 1.8862373171202245, "learning_rate": 1.7816914541634423e-07, "loss": 0.4598, "step": 8600 }, { "avg_step_time": 5.442491528963802, "epoch": 0.9173333333333333, "eta_time": 1.1716474819297074, "step": 8600 }, { "epoch": 0.91744, "grad_norm": 1.9409576148530185, "learning_rate": 1.7771239221606285e-07, "loss": 0.4688, "step": 8601 }, { "avg_step_time": 5.428133422678167, "epoch": 0.91744, "eta_time": 1.167048685875806, "step": 8601 }, { "epoch": 0.9175466666666666, "grad_norm": 2.067496474244498, "learning_rate": 1.7725621463921761e-07, "loss": 0.5007, "step": 8602 }, { "avg_step_time": 5.427998065948486, "epoch": 0.9175466666666666, "eta_time": 1.1655118069383834, "step": 8602 }, { "epoch": 0.9176533333333333, "grad_norm": 0.6578261847099475, "learning_rate": 1.7680061274026105e-07, "loss": 0.4269, "step": 8603 }, { "avg_step_time": 5.39584872698543, "epoch": 0.9176533333333333, "eta_time": 1.1571097825646532, "step": 8603 }, { "epoch": 0.91776, "grad_norm": 1.6224095024438838, "learning_rate": 1.7634558657357748e-07, "loss": 0.5061, "step": 8604 }, { "avg_step_time": 5.396976656383938, "epoch": 0.91776, "eta_time": 1.15585250057556, "step": 8604 }, { "epoch": 0.9178666666666667, "grad_norm": 1.8815822911819817, "learning_rate": 1.7589113619348174e-07, "loss": 0.5379, "step": 8605 }, { "avg_step_time": 5.3960821170999544, "epoch": 0.9178666666666667, "eta_time": 1.1541620083797124, "step": 8605 }, { "epoch": 0.9179733333333333, "grad_norm": 1.7112364809299945, "learning_rate": 1.7543726165421993e-07, "loss": 0.4424, "step": 8606 }, { "avg_step_time": 5.4293324923274495, "epoch": 0.9179733333333333, "eta_time": 1.1597657462777244, "step": 8606 }, { "epoch": 0.91808, "grad_norm": 1.879028347475937, "learning_rate": 1.7498396300997146e-07, "loss": 0.4327, "step": 8607 }, { "avg_step_time": 5.421644398660371, "epoch": 0.91808, "eta_time": 1.1566174717142126, "step": 8607 }, { "epoch": 0.9181866666666667, "grad_norm": 1.7317703793015993, "learning_rate": 1.7453124031484303e-07, "loss": 0.4489, "step": 8608 }, { "avg_step_time": 5.426084752034659, "epoch": 0.9181866666666667, "eta_time": 1.1560575013362733, "step": 8608 }, { "epoch": 0.9182933333333333, "grad_norm": 1.643031789158687, "learning_rate": 1.7407909362287756e-07, "loss": 0.4223, "step": 8609 }, { "avg_step_time": 5.426222536298964, "epoch": 0.9182933333333333, "eta_time": 1.1545795730013906, "step": 8609 }, { "epoch": 0.9184, "grad_norm": 1.9164597877427298, "learning_rate": 1.736275229880441e-07, "loss": 0.5438, "step": 8610 }, { "avg_step_time": 5.423184416510842, "epoch": 0.9184, "eta_time": 1.1524266885085537, "step": 8610 }, { "epoch": 0.9185066666666667, "grad_norm": 0.6538343309685459, "learning_rate": 1.7317652846424727e-07, "loss": 0.4351, "step": 8611 }, { "avg_step_time": 5.38048741311738, "epoch": 0.9185066666666667, "eta_time": 1.141858995450466, "step": 8611 }, { "epoch": 0.9186133333333333, "grad_norm": 1.7872867351700008, "learning_rate": 1.7272611010532014e-07, "loss": 0.462, "step": 8612 }, { "avg_step_time": 5.399485332797272, "epoch": 0.9186133333333333, "eta_time": 1.1443909191456438, "step": 8612 }, { "epoch": 0.91872, "grad_norm": 2.1859753108233435, "learning_rate": 1.7227626796502807e-07, "loss": 0.5594, "step": 8613 }, { "avg_step_time": 5.401652396327317, "epoch": 0.91872, "eta_time": 1.1433497572226154, "step": 8613 }, { "epoch": 0.9188266666666667, "grad_norm": 0.6457880346829111, "learning_rate": 1.718270020970675e-07, "loss": 0.4588, "step": 8614 }, { "avg_step_time": 5.354122067942764, "epoch": 0.9188266666666667, "eta_time": 1.1318019149179008, "step": 8614 }, { "epoch": 0.9189333333333334, "grad_norm": 2.0314882256653712, "learning_rate": 1.713783125550661e-07, "loss": 0.4526, "step": 8615 }, { "avg_step_time": 5.351920491517192, "epoch": 0.9189333333333334, "eta_time": 1.1298498815425184, "step": 8615 }, { "epoch": 0.91904, "grad_norm": 1.8592308639593764, "learning_rate": 1.7093019939258327e-07, "loss": 0.4877, "step": 8616 }, { "avg_step_time": 5.385279995022398, "epoch": 0.91904, "eta_time": 1.135396532283889, "step": 8616 }, { "epoch": 0.9191466666666667, "grad_norm": 1.7737006077773907, "learning_rate": 1.7048266266310842e-07, "loss": 0.4112, "step": 8617 }, { "avg_step_time": 5.385658594092938, "epoch": 0.9191466666666667, "eta_time": 1.1339803373117907, "step": 8617 }, { "epoch": 0.9192533333333334, "grad_norm": 0.6392349587551772, "learning_rate": 1.7003570242006273e-07, "loss": 0.422, "step": 8618 }, { "avg_step_time": 5.354223631849193, "epoch": 0.9192533333333334, "eta_time": 1.1258742470305108, "step": 8618 }, { "epoch": 0.91936, "grad_norm": 1.9492511941198896, "learning_rate": 1.6958931871679908e-07, "loss": 0.4102, "step": 8619 }, { "avg_step_time": 5.34853705011233, "epoch": 0.91936, "eta_time": 1.1231927805235893, "step": 8619 }, { "epoch": 0.9194666666666667, "grad_norm": 2.032808740757184, "learning_rate": 1.6914351160660036e-07, "loss": 0.459, "step": 8620 }, { "avg_step_time": 5.357259882820977, "epoch": 0.9194666666666667, "eta_time": 1.1235364476471772, "step": 8620 }, { "epoch": 0.9195733333333334, "grad_norm": 2.1994773392869456, "learning_rate": 1.6869828114268183e-07, "loss": 0.4513, "step": 8621 }, { "avg_step_time": 5.361805499202073, "epoch": 0.9195733333333334, "eta_time": 1.1230003739995453, "step": 8621 }, { "epoch": 0.91968, "grad_norm": 1.822616370158794, "learning_rate": 1.6825362737818985e-07, "loss": 0.5236, "step": 8622 }, { "avg_step_time": 5.373249839050601, "epoch": 0.91968, "eta_time": 1.1239047580014174, "step": 8622 }, { "epoch": 0.9197866666666666, "grad_norm": 1.726676433707025, "learning_rate": 1.6780955036620138e-07, "loss": 0.4892, "step": 8623 }, { "avg_step_time": 5.410501973797577, "epoch": 0.9197866666666666, "eta_time": 1.130193745637716, "step": 8623 }, { "epoch": 0.9198933333333333, "grad_norm": 1.756886249374039, "learning_rate": 1.6736605015972406e-07, "loss": 0.537, "step": 8624 }, { "avg_step_time": 5.415052972658716, "epoch": 0.9198933333333333, "eta_time": 1.12964021735186, "step": 8624 }, { "epoch": 0.92, "grad_norm": 1.8303095887590204, "learning_rate": 1.6692312681169775e-07, "loss": 0.4783, "step": 8625 }, { "avg_step_time": 5.415118426987619, "epoch": 0.92, "eta_time": 1.1281496722890874, "step": 8625 }, { "epoch": 0.9201066666666666, "grad_norm": 1.8642341501698632, "learning_rate": 1.664807803749935e-07, "loss": 0.5617, "step": 8626 }, { "avg_step_time": 5.414246838502209, "epoch": 0.9201066666666666, "eta_time": 1.1264641338994874, "step": 8626 }, { "epoch": 0.9202133333333333, "grad_norm": 1.7940633132894481, "learning_rate": 1.660390109024118e-07, "loss": 0.4879, "step": 8627 }, { "avg_step_time": 5.414499752449267, "epoch": 0.9202133333333333, "eta_time": 1.1250127263422365, "step": 8627 }, { "epoch": 0.92032, "grad_norm": 0.6089221831295917, "learning_rate": 1.6559781844668666e-07, "loss": 0.4394, "step": 8628 }, { "avg_step_time": 5.373136790111811, "epoch": 0.92032, "eta_time": 1.1149258839482008, "step": 8628 }, { "epoch": 0.9204266666666666, "grad_norm": 1.9419209647847504, "learning_rate": 1.65157203060482e-07, "loss": 0.4792, "step": 8629 }, { "avg_step_time": 5.374950652170663, "epoch": 0.9204266666666666, "eta_time": 1.1138092184775876, "step": 8629 }, { "epoch": 0.9205333333333333, "grad_norm": 2.0444690529166607, "learning_rate": 1.6471716479639077e-07, "loss": 0.5376, "step": 8630 }, { "avg_step_time": 5.386466943856441, "epoch": 0.9205333333333333, "eta_time": 1.1146994092147358, "step": 8630 }, { "epoch": 0.92064, "grad_norm": 1.7036477703370871, "learning_rate": 1.6427770370694208e-07, "loss": 0.3873, "step": 8631 }, { "avg_step_time": 5.387674909649474, "epoch": 0.92064, "eta_time": 1.113452814660891, "step": 8631 }, { "epoch": 0.9207466666666667, "grad_norm": 1.9308384365730924, "learning_rate": 1.6383881984459227e-07, "loss": 0.5476, "step": 8632 }, { "avg_step_time": 5.435729291703966, "epoch": 0.9207466666666667, "eta_time": 1.1218741288155685, "step": 8632 }, { "epoch": 0.9208533333333333, "grad_norm": 1.974217443056019, "learning_rate": 1.6340051326172834e-07, "loss": 0.4664, "step": 8633 }, { "avg_step_time": 5.46786197989878, "epoch": 0.9208533333333333, "eta_time": 1.1269871080791374, "step": 8633 }, { "epoch": 0.92096, "grad_norm": 1.63799239126003, "learning_rate": 1.6296278401067122e-07, "loss": 0.4498, "step": 8634 }, { "avg_step_time": 5.474324869387077, "epoch": 0.92096, "eta_time": 1.1267985356155068, "step": 8634 }, { "epoch": 0.9210666666666667, "grad_norm": 2.0836082934118325, "learning_rate": 1.6252563214367134e-07, "loss": 0.3837, "step": 8635 }, { "avg_step_time": 5.524526668317391, "epoch": 0.9210666666666667, "eta_time": 1.1355971484874636, "step": 8635 }, { "epoch": 0.9211733333333333, "grad_norm": 1.6989088387670044, "learning_rate": 1.6208905771290974e-07, "loss": 0.47, "step": 8636 }, { "avg_step_time": 5.525279083637276, "epoch": 0.9211733333333333, "eta_time": 1.1342170118910964, "step": 8636 }, { "epoch": 0.92128, "grad_norm": 2.0281869085003357, "learning_rate": 1.6165306077049969e-07, "loss": 0.4725, "step": 8637 }, { "avg_step_time": 5.562109660620641, "epoch": 0.92128, "eta_time": 1.1402324804272315, "step": 8637 }, { "epoch": 0.9213866666666667, "grad_norm": 1.9494902743211113, "learning_rate": 1.6121764136848517e-07, "loss": 0.4332, "step": 8638 }, { "avg_step_time": 5.554985111409968, "epoch": 0.9213866666666667, "eta_time": 1.1372288964192072, "step": 8638 }, { "epoch": 0.9214933333333334, "grad_norm": 1.8450449413199297, "learning_rate": 1.6078279955883957e-07, "loss": 0.4915, "step": 8639 }, { "avg_step_time": 5.555856646913471, "epoch": 0.9214933333333334, "eta_time": 1.1358640255911985, "step": 8639 }, { "epoch": 0.9216, "grad_norm": 1.7507767700025652, "learning_rate": 1.603485353934703e-07, "loss": 0.4152, "step": 8640 }, { "avg_step_time": 5.553392065895928, "epoch": 0.9216, "eta_time": 1.1338175467870855, "step": 8640 }, { "epoch": 0.9217066666666667, "grad_norm": 1.9125191274695992, "learning_rate": 1.5991484892421416e-07, "loss": 0.5208, "step": 8641 }, { "avg_step_time": 5.550686826609602, "epoch": 0.9217066666666667, "eta_time": 1.1317233696476245, "step": 8641 }, { "epoch": 0.9218133333333334, "grad_norm": 0.6683195981395702, "learning_rate": 1.594817402028387e-07, "loss": 0.4374, "step": 8642 }, { "avg_step_time": 5.546605678519818, "epoch": 0.9218133333333334, "eta_time": 1.1293505450986185, "step": 8642 }, { "epoch": 0.92192, "grad_norm": 2.1768596799770292, "learning_rate": 1.5904920928104196e-07, "loss": 0.4845, "step": 8643 }, { "avg_step_time": 5.564407025924837, "epoch": 0.92192, "eta_time": 1.1314294286047166, "step": 8643 }, { "epoch": 0.9220266666666667, "grad_norm": 2.0045627618135655, "learning_rate": 1.5861725621045542e-07, "loss": 0.4963, "step": 8644 }, { "avg_step_time": 5.509203785597676, "epoch": 0.9220266666666667, "eta_time": 1.118674435353306, "step": 8644 }, { "epoch": 0.9221333333333334, "grad_norm": 2.0222412389712416, "learning_rate": 1.5818588104264065e-07, "loss": 0.5303, "step": 8645 }, { "avg_step_time": 5.504575563199593, "epoch": 0.9221333333333334, "eta_time": 1.116205600315473, "step": 8645 }, { "epoch": 0.92224, "grad_norm": 1.8138906941726771, "learning_rate": 1.577550838290881e-07, "loss": 0.4145, "step": 8646 }, { "avg_step_time": 5.506206977246988, "epoch": 0.92224, "eta_time": 1.115006912892515, "step": 8646 }, { "epoch": 0.9223466666666666, "grad_norm": 0.6406350327377118, "learning_rate": 1.5732486462122166e-07, "loss": 0.4219, "step": 8647 }, { "avg_step_time": 5.508104820444126, "epoch": 0.9223466666666666, "eta_time": 1.1138611970231456, "step": 8647 }, { "epoch": 0.9224533333333333, "grad_norm": 1.3850876296234509, "learning_rate": 1.5689522347039577e-07, "loss": 0.4361, "step": 8648 }, { "avg_step_time": 5.543545470093235, "epoch": 0.9224533333333333, "eta_time": 1.119488210210495, "step": 8648 }, { "epoch": 0.92256, "grad_norm": 1.750136463189089, "learning_rate": 1.564661604278944e-07, "loss": 0.4663, "step": 8649 }, { "avg_step_time": 5.54532542132368, "epoch": 0.92256, "eta_time": 1.1183072933002753, "step": 8649 }, { "epoch": 0.9226666666666666, "grad_norm": 1.8638252395727704, "learning_rate": 1.56037675544935e-07, "loss": 0.4956, "step": 8650 }, { "avg_step_time": 5.540139624566743, "epoch": 0.9226666666666666, "eta_time": 1.1157225632808023, "step": 8650 }, { "epoch": 0.9227733333333333, "grad_norm": 1.8065958301621707, "learning_rate": 1.5560976887266433e-07, "loss": 0.4894, "step": 8651 }, { "avg_step_time": 5.543699341590958, "epoch": 0.9227733333333333, "eta_time": 1.1148995342532928, "step": 8651 }, { "epoch": 0.92288, "grad_norm": 0.6723167185438134, "learning_rate": 1.5518244046215936e-07, "loss": 0.4675, "step": 8652 }, { "avg_step_time": 5.509036343507092, "epoch": 0.92288, "eta_time": 1.1063981323210077, "step": 8652 }, { "epoch": 0.9229866666666666, "grad_norm": 1.9748428776628797, "learning_rate": 1.547556903644304e-07, "loss": 0.4119, "step": 8653 }, { "avg_step_time": 5.509944583430435, "epoch": 0.9229866666666666, "eta_time": 1.105049997010215, "step": 8653 }, { "epoch": 0.9230933333333333, "grad_norm": 1.7705040440237696, "learning_rate": 1.5432951863041666e-07, "loss": 0.4444, "step": 8654 }, { "avg_step_time": 5.5115229529563825, "epoch": 0.9230933333333333, "eta_time": 1.10383556918932, "step": 8654 }, { "epoch": 0.9232, "grad_norm": 1.7924201256708587, "learning_rate": 1.539039253109892e-07, "loss": 0.4583, "step": 8655 }, { "avg_step_time": 5.52965254735465, "epoch": 0.9232, "eta_time": 1.10593050947093, "step": 8655 }, { "epoch": 0.9233066666666667, "grad_norm": 1.7174440502020725, "learning_rate": 1.5347891045695118e-07, "loss": 0.5018, "step": 8656 }, { "avg_step_time": 5.536025218289308, "epoch": 0.9233066666666667, "eta_time": 1.1056672588750034, "step": 8656 }, { "epoch": 0.9234133333333333, "grad_norm": 2.109804588945592, "learning_rate": 1.530544741190343e-07, "loss": 0.4783, "step": 8657 }, { "avg_step_time": 5.540011639546866, "epoch": 0.9234133333333333, "eta_time": 1.1049245436651804, "step": 8657 }, { "epoch": 0.92352, "grad_norm": 1.7988339924876813, "learning_rate": 1.526306163479019e-07, "loss": 0.4914, "step": 8658 }, { "avg_step_time": 5.537525872991543, "epoch": 0.92352, "eta_time": 1.102890569704149, "step": 8658 }, { "epoch": 0.9236266666666667, "grad_norm": 1.8271276633456177, "learning_rate": 1.5220733719414904e-07, "loss": 0.4792, "step": 8659 }, { "avg_step_time": 5.529228212857487, "epoch": 0.9236266666666667, "eta_time": 1.0997020556683224, "step": 8659 }, { "epoch": 0.9237333333333333, "grad_norm": 0.6504179061556422, "learning_rate": 1.5178463670830312e-07, "loss": 0.4498, "step": 8660 }, { "avg_step_time": 5.491331059523303, "epoch": 0.9237333333333333, "eta_time": 1.0906393632108784, "step": 8660 }, { "epoch": 0.92384, "grad_norm": 1.9056029957318896, "learning_rate": 1.5136251494081822e-07, "loss": 0.4458, "step": 8661 }, { "avg_step_time": 5.517963777888905, "epoch": 0.92384, "eta_time": 1.0943961492812995, "step": 8661 }, { "epoch": 0.9239466666666667, "grad_norm": 0.6292039718594321, "learning_rate": 1.5094097194208402e-07, "loss": 0.4161, "step": 8662 }, { "avg_step_time": 5.477583439663203, "epoch": 0.9239466666666667, "eta_time": 1.0848658312444066, "step": 8662 }, { "epoch": 0.9240533333333333, "grad_norm": 1.8099184845892031, "learning_rate": 1.5052000776241748e-07, "loss": 0.5029, "step": 8663 }, { "avg_step_time": 5.477618477561257, "epoch": 0.9240533333333333, "eta_time": 1.0833512100065597, "step": 8663 }, { "epoch": 0.92416, "grad_norm": 1.9918998888602095, "learning_rate": 1.5009962245206845e-07, "loss": 0.5045, "step": 8664 }, { "avg_step_time": 5.471883990547874, "epoch": 0.92416, "eta_time": 1.0806970881332052, "step": 8664 }, { "epoch": 0.9242666666666667, "grad_norm": 1.7320003445811567, "learning_rate": 1.4967981606121673e-07, "loss": 0.4593, "step": 8665 }, { "avg_step_time": 5.4765371337081445, "epoch": 0.9242666666666667, "eta_time": 1.0800948235924397, "step": 8665 }, { "epoch": 0.9243733333333334, "grad_norm": 0.6705249840590266, "learning_rate": 1.492605886399745e-07, "loss": 0.4479, "step": 8666 }, { "avg_step_time": 5.434509525395403, "epoch": 0.9243733333333334, "eta_time": 1.0702964593070392, "step": 8666 }, { "epoch": 0.92448, "grad_norm": 0.6802443554203189, "learning_rate": 1.488419402383834e-07, "loss": 0.4374, "step": 8667 }, { "avg_step_time": 5.398695081171363, "epoch": 0.92448, "eta_time": 1.0617433659637014, "step": 8667 }, { "epoch": 0.9245866666666667, "grad_norm": 0.6320299174543159, "learning_rate": 1.484238709064162e-07, "loss": 0.4371, "step": 8668 }, { "avg_step_time": 5.362289910364633, "epoch": 0.9245866666666667, "eta_time": 1.05309415739661, "step": 8668 }, { "epoch": 0.9246933333333334, "grad_norm": 2.074869836679227, "learning_rate": 1.4800638069397633e-07, "loss": 0.5079, "step": 8669 }, { "avg_step_time": 5.362313116439665, "epoch": 0.9246933333333334, "eta_time": 1.0516091833906678, "step": 8669 }, { "epoch": 0.9248, "grad_norm": 2.1598749374018733, "learning_rate": 1.4758946965089894e-07, "loss": 0.4338, "step": 8670 }, { "avg_step_time": 5.358527963811701, "epoch": 0.9248, "eta_time": 1.0493783929131248, "step": 8670 }, { "epoch": 0.9249066666666667, "grad_norm": 1.9505425134129886, "learning_rate": 1.4717313782694975e-07, "loss": 0.5173, "step": 8671 }, { "avg_step_time": 5.355385854990796, "epoch": 0.9249066666666667, "eta_time": 1.047275456087089, "step": 8671 }, { "epoch": 0.9250133333333334, "grad_norm": 2.024948691153403, "learning_rate": 1.467573852718246e-07, "loss": 0.5064, "step": 8672 }, { "avg_step_time": 5.36134909138535, "epoch": 0.9250133333333334, "eta_time": 1.046952336456639, "step": 8672 }, { "epoch": 0.92512, "grad_norm": 1.9436421865794022, "learning_rate": 1.4634221203515097e-07, "loss": 0.4902, "step": 8673 }, { "avg_step_time": 5.359672074366098, "epoch": 0.92512, "eta_time": 1.045136054501389, "step": 8673 }, { "epoch": 0.9252266666666666, "grad_norm": 1.7672282145202192, "learning_rate": 1.459276181664876e-07, "loss": 0.488, "step": 8674 }, { "avg_step_time": 5.3548931497516055, "epoch": 0.9252266666666666, "eta_time": 1.0427166938821877, "step": 8674 }, { "epoch": 0.9253333333333333, "grad_norm": 2.0337206506025653, "learning_rate": 1.4551360371532264e-07, "loss": 0.4555, "step": 8675 }, { "avg_step_time": 5.354553993302162, "epoch": 0.9253333333333333, "eta_time": 1.0411632764754204, "step": 8675 }, { "epoch": 0.92544, "grad_norm": 1.9934219961732471, "learning_rate": 1.4510016873107657e-07, "loss": 0.4202, "step": 8676 }, { "avg_step_time": 5.357530885272556, "epoch": 0.92544, "eta_time": 1.040253913557088, "step": 8676 }, { "epoch": 0.9255466666666666, "grad_norm": 1.6660605401145723, "learning_rate": 1.446873132630988e-07, "loss": 0.4438, "step": 8677 }, { "avg_step_time": 5.327949528742319, "epoch": 0.9255466666666666, "eta_time": 1.0330302141839274, "step": 8677 }, { "epoch": 0.9256533333333333, "grad_norm": 2.1570109003660773, "learning_rate": 1.4427503736067162e-07, "loss": 0.3736, "step": 8678 }, { "avg_step_time": 5.348978567605067, "epoch": 0.9256533333333333, "eta_time": 1.0356216837835366, "step": 8678 }, { "epoch": 0.92576, "grad_norm": 2.116020030403346, "learning_rate": 1.4386334107300727e-07, "loss": 0.5478, "step": 8679 }, { "avg_step_time": 5.381174465622565, "epoch": 0.92576, "eta_time": 1.0403603966870292, "step": 8679 }, { "epoch": 0.9258666666666666, "grad_norm": 1.8012957058470105, "learning_rate": 1.4345222444924867e-07, "loss": 0.4927, "step": 8680 }, { "avg_step_time": 5.376139224177659, "epoch": 0.9258666666666666, "eta_time": 1.0378935446676314, "step": 8680 }, { "epoch": 0.9259733333333333, "grad_norm": 1.494159694731445, "learning_rate": 1.4304168753847049e-07, "loss": 0.37, "step": 8681 }, { "avg_step_time": 5.346672845609261, "epoch": 0.9259733333333333, "eta_time": 1.0307197096813407, "step": 8681 }, { "epoch": 0.92608, "grad_norm": 1.8450785952512505, "learning_rate": 1.4263173038967627e-07, "loss": 0.4759, "step": 8682 }, { "avg_step_time": 5.2909436683462125, "epoch": 0.92608, "eta_time": 1.0185066561566458, "step": 8682 }, { "epoch": 0.9261866666666667, "grad_norm": 2.130289446225665, "learning_rate": 1.4222235305180133e-07, "loss": 0.4815, "step": 8683 }, { "avg_step_time": 5.323103230408948, "epoch": 0.9261866666666667, "eta_time": 1.0232187320674977, "step": 8683 }, { "epoch": 0.9262933333333333, "grad_norm": 1.859572649821777, "learning_rate": 1.4181355557371323e-07, "loss": 0.5199, "step": 8684 }, { "avg_step_time": 5.326487632712933, "epoch": 0.9262933333333333, "eta_time": 1.022389709501288, "step": 8684 }, { "epoch": 0.9264, "grad_norm": 1.8303254825370396, "learning_rate": 1.4140533800420853e-07, "loss": 0.4153, "step": 8685 }, { "avg_step_time": 5.3265073251242585, "epoch": 0.9264, "eta_time": 1.0209139039821495, "step": 8685 }, { "epoch": 0.9265066666666667, "grad_norm": 0.6474029941728631, "learning_rate": 1.409977003920143e-07, "loss": 0.4219, "step": 8686 }, { "avg_step_time": 5.315400193435977, "epoch": 0.9265066666666667, "eta_time": 1.0173085370214967, "step": 8686 }, { "epoch": 0.9266133333333333, "grad_norm": 1.911642008432578, "learning_rate": 1.4059064278579005e-07, "loss": 0.4729, "step": 8687 }, { "avg_step_time": 5.316048335547399, "epoch": 0.9266133333333333, "eta_time": 1.0159559041268362, "step": 8687 }, { "epoch": 0.92672, "grad_norm": 1.7327395901330007, "learning_rate": 1.401841652341246e-07, "loss": 0.4545, "step": 8688 }, { "avg_step_time": 5.35185544659393, "epoch": 0.92672, "eta_time": 1.021312414391675, "step": 8688 }, { "epoch": 0.9268266666666667, "grad_norm": 1.9375929717742415, "learning_rate": 1.3977826778553805e-07, "loss": 0.4686, "step": 8689 }, { "avg_step_time": 5.387543608443906, "epoch": 0.9268266666666667, "eta_time": 1.026626365386811, "step": 8689 }, { "epoch": 0.9269333333333334, "grad_norm": 1.7343166322638113, "learning_rate": 1.393729504884822e-07, "loss": 0.4313, "step": 8690 }, { "avg_step_time": 5.390218953893642, "epoch": 0.9269333333333334, "eta_time": 1.0256388842825404, "step": 8690 }, { "epoch": 0.92704, "grad_norm": 2.06610062034543, "learning_rate": 1.389682133913378e-07, "loss": 0.4669, "step": 8691 }, { "avg_step_time": 5.387167032318886, "epoch": 0.92704, "eta_time": 1.0235617361405884, "step": 8691 }, { "epoch": 0.9271466666666667, "grad_norm": 1.7543786626512003, "learning_rate": 1.3856405654241678e-07, "loss": 0.4557, "step": 8692 }, { "avg_step_time": 5.38523006439209, "epoch": 0.9271466666666667, "eta_time": 1.021697814994388, "step": 8692 }, { "epoch": 0.9272533333333334, "grad_norm": 1.9329300136017102, "learning_rate": 1.3816047998996275e-07, "loss": 0.5491, "step": 8693 }, { "avg_step_time": 5.39185668482925, "epoch": 0.9272533333333334, "eta_time": 1.0214572941815412, "step": 8693 }, { "epoch": 0.92736, "grad_norm": 1.7779942815431615, "learning_rate": 1.3775748378215047e-07, "loss": 0.4445, "step": 8694 }, { "avg_step_time": 5.436645695657441, "epoch": 0.92736, "eta_time": 1.0284321440951993, "step": 8694 }, { "epoch": 0.9274666666666667, "grad_norm": 2.092122767626153, "learning_rate": 1.3735506796708375e-07, "loss": 0.6163, "step": 8695 }, { "avg_step_time": 5.468572640659834, "epoch": 0.9274666666666667, "eta_time": 1.032952609902413, "step": 8695 }, { "epoch": 0.9275733333333334, "grad_norm": 2.126113240623268, "learning_rate": 1.3695323259279748e-07, "loss": 0.5255, "step": 8696 }, { "avg_step_time": 5.467367405843253, "epoch": 0.9275733333333334, "eta_time": 1.031206241268769, "step": 8696 }, { "epoch": 0.92768, "grad_norm": 1.9609400730323976, "learning_rate": 1.3655197770725826e-07, "loss": 0.5416, "step": 8697 }, { "avg_step_time": 5.461607364693073, "epoch": 0.92768, "eta_time": 1.0286027203505288, "step": 8697 }, { "epoch": 0.9277866666666666, "grad_norm": 1.8929471283562522, "learning_rate": 1.361513033583617e-07, "loss": 0.4063, "step": 8698 }, { "avg_step_time": 5.462435953544848, "epoch": 0.9277866666666666, "eta_time": 1.027241427930517, "step": 8698 }, { "epoch": 0.9278933333333333, "grad_norm": 1.862810950760623, "learning_rate": 1.3575120959393672e-07, "loss": 0.4923, "step": 8699 }, { "avg_step_time": 5.460345899215852, "epoch": 0.9278933333333333, "eta_time": 1.0253316188527546, "step": 8699 }, { "epoch": 0.928, "grad_norm": 1.740314631251559, "learning_rate": 1.3535169646174073e-07, "loss": 0.4034, "step": 8700 }, { "avg_step_time": 5.460111314600164, "epoch": 0.928, "eta_time": 1.0237708714875307, "step": 8700 }, { "epoch": 0.9281066666666666, "grad_norm": 1.6486636766260268, "learning_rate": 1.3495276400946278e-07, "loss": 0.483, "step": 8701 }, { "avg_step_time": 5.461332415089463, "epoch": 0.9281066666666666, "eta_time": 1.022482791047305, "step": 8701 }, { "epoch": 0.9282133333333333, "grad_norm": 2.0400561557092325, "learning_rate": 1.3455441228472199e-07, "loss": 0.4375, "step": 8702 }, { "avg_step_time": 5.492028927562212, "epoch": 0.9282133333333333, "eta_time": 1.0267042967359359, "step": 8702 }, { "epoch": 0.92832, "grad_norm": 1.8755058579540418, "learning_rate": 1.3415664133506812e-07, "loss": 0.4341, "step": 8703 }, { "avg_step_time": 5.500331734166001, "epoch": 0.92832, "eta_time": 1.0267285903776535, "step": 8703 }, { "epoch": 0.9284266666666666, "grad_norm": 2.121973046442821, "learning_rate": 1.3375945120798372e-07, "loss": 0.4171, "step": 8704 }, { "avg_step_time": 5.502635341702086, "epoch": 0.9284266666666666, "eta_time": 1.0256300873005832, "step": 8704 }, { "epoch": 0.9285333333333333, "grad_norm": 2.208615490934005, "learning_rate": 1.333628419508781e-07, "loss": 0.4743, "step": 8705 }, { "avg_step_time": 5.513338048048694, "epoch": 0.9285333333333333, "eta_time": 1.026093470053507, "step": 8705 }, { "epoch": 0.92864, "grad_norm": 1.945180015146693, "learning_rate": 1.3296681361109564e-07, "loss": 0.4645, "step": 8706 }, { "avg_step_time": 5.512517912219269, "epoch": 0.92864, "eta_time": 1.0244095786874141, "step": 8706 }, { "epoch": 0.9287466666666667, "grad_norm": 1.7241810237222828, "learning_rate": 1.3257136623590795e-07, "loss": 0.4395, "step": 8707 }, { "avg_step_time": 5.504172291418518, "epoch": 0.9287466666666667, "eta_time": 1.0213297474076584, "step": 8707 }, { "epoch": 0.9288533333333333, "grad_norm": 2.085596855798397, "learning_rate": 1.3217649987251725e-07, "loss": 0.5407, "step": 8708 }, { "avg_step_time": 5.505618210994836, "epoch": 0.9288533333333333, "eta_time": 1.0200687074259878, "step": 8708 }, { "epoch": 0.92896, "grad_norm": 1.7762265593070323, "learning_rate": 1.3178221456806028e-07, "loss": 0.4685, "step": 8709 }, { "avg_step_time": 5.5049882320442585, "epoch": 0.92896, "eta_time": 1.0184228229281878, "step": 8709 }, { "epoch": 0.9290666666666667, "grad_norm": 2.1088293294312015, "learning_rate": 1.3138851036959998e-07, "loss": 0.5047, "step": 8710 }, { "avg_step_time": 5.540042527998336, "epoch": 0.9290666666666667, "eta_time": 1.0233689669774704, "step": 8710 }, { "epoch": 0.9291733333333333, "grad_norm": 2.0673780892563958, "learning_rate": 1.3099538732413263e-07, "loss": 0.5062, "step": 8711 }, { "avg_step_time": 5.52026221728084, "epoch": 0.9291733333333333, "eta_time": 1.0181816978540217, "step": 8711 }, { "epoch": 0.92928, "grad_norm": 1.8415754023355329, "learning_rate": 1.3060284547858403e-07, "loss": 0.5206, "step": 8712 }, { "avg_step_time": 5.5178942439532035, "epoch": 0.92928, "eta_time": 1.0162121899280483, "step": 8712 }, { "epoch": 0.9293866666666667, "grad_norm": 2.072625278197614, "learning_rate": 1.3021088487981058e-07, "loss": 0.4811, "step": 8713 }, { "avg_step_time": 5.55258598231306, "epoch": 0.9293866666666667, "eta_time": 1.0210588667475682, "step": 8713 }, { "epoch": 0.9294933333333333, "grad_norm": 2.0358031736656903, "learning_rate": 1.2981950557459932e-07, "loss": 0.5441, "step": 8714 }, { "avg_step_time": 5.553981530545938, "epoch": 0.9294933333333333, "eta_time": 1.019772719914129, "step": 8714 }, { "epoch": 0.9296, "grad_norm": 1.7230617605862564, "learning_rate": 1.2942870760966952e-07, "loss": 0.4368, "step": 8715 }, { "avg_step_time": 5.551916387346056, "epoch": 0.9296, "eta_time": 1.0178513376801102, "step": 8715 }, { "epoch": 0.9297066666666667, "grad_norm": 1.957443244022111, "learning_rate": 1.2903849103166831e-07, "loss": 0.5301, "step": 8716 }, { "avg_step_time": 5.546730063178322, "epoch": 0.9297066666666667, "eta_time": 1.0153597532318095, "step": 8716 }, { "epoch": 0.9298133333333334, "grad_norm": 0.6604313679909753, "learning_rate": 1.2864885588717512e-07, "loss": 0.4472, "step": 8717 }, { "avg_step_time": 5.544033296180494, "epoch": 0.9298133333333334, "eta_time": 1.013326085801879, "step": 8717 }, { "epoch": 0.92992, "grad_norm": 1.5706635599029715, "learning_rate": 1.282598022226994e-07, "loss": 0.4181, "step": 8718 }, { "avg_step_time": 5.542296951467341, "epoch": 0.92992, "eta_time": 1.0114691936427898, "step": 8718 }, { "epoch": 0.9300266666666667, "grad_norm": 1.6321561632185448, "learning_rate": 1.2787133008468289e-07, "loss": 0.4521, "step": 8719 }, { "avg_step_time": 5.534408749956073, "epoch": 0.9300266666666667, "eta_time": 1.0084922611031066, "step": 8719 }, { "epoch": 0.9301333333333334, "grad_norm": 1.5872951157647224, "learning_rate": 1.2748343951949405e-07, "loss": 0.4405, "step": 8720 }, { "avg_step_time": 5.532741426217435, "epoch": 0.9301333333333334, "eta_time": 1.0066515650478944, "step": 8720 }, { "epoch": 0.93024, "grad_norm": 1.657027582671062, "learning_rate": 1.270961305734364e-07, "loss": 0.4398, "step": 8721 }, { "avg_step_time": 5.532676048953124, "epoch": 0.93024, "eta_time": 1.0051028155598174, "step": 8721 }, { "epoch": 0.9303466666666667, "grad_norm": 1.931839487127455, "learning_rate": 1.267094032927413e-07, "loss": 0.4287, "step": 8722 }, { "avg_step_time": 5.528417970194961, "epoch": 0.9303466666666667, "eta_time": 1.0027935929270304, "step": 8722 }, { "epoch": 0.9304533333333334, "grad_norm": 1.7285651476655512, "learning_rate": 1.263232577235707e-07, "loss": 0.5017, "step": 8723 }, { "avg_step_time": 5.526489332468823, "epoch": 0.9304533333333334, "eta_time": 1.0009086235471314, "step": 8723 }, { "epoch": 0.93056, "grad_norm": 2.042261449237836, "learning_rate": 1.2593769391201827e-07, "loss": 0.5365, "step": 8724 }, { "avg_step_time": 5.527275937976259, "epoch": 0.93056, "eta_time": 0.9995157321173734, "step": 8724 }, { "epoch": 0.9306666666666666, "grad_norm": 1.8182373404614784, "learning_rate": 1.2555271190410833e-07, "loss": 0.429, "step": 8725 }, { "avg_step_time": 5.531757188565804, "epoch": 0.9306666666666666, "eta_time": 0.9987894923799367, "step": 8725 }, { "epoch": 0.9307733333333333, "grad_norm": 1.6985414055603272, "learning_rate": 1.2516831174579357e-07, "loss": 0.437, "step": 8726 }, { "avg_step_time": 5.5314252472887135, "epoch": 0.9307733333333333, "eta_time": 0.9971930515251042, "step": 8726 }, { "epoch": 0.93088, "grad_norm": 1.7085021025999048, "learning_rate": 1.247844934829606e-07, "loss": 0.4446, "step": 8727 }, { "avg_step_time": 5.5621079700161715, "epoch": 0.93088, "eta_time": 1.001179434602911, "step": 8727 }, { "epoch": 0.9309866666666666, "grad_norm": 1.5749126128874107, "learning_rate": 1.2440125716142392e-07, "loss": 0.4053, "step": 8728 }, { "avg_step_time": 5.5946741947019945, "epoch": 0.9309866666666666, "eta_time": 1.005487278881164, "step": 8728 }, { "epoch": 0.9310933333333333, "grad_norm": 1.6314872765311041, "learning_rate": 1.2401860282692913e-07, "loss": 0.4288, "step": 8729 }, { "avg_step_time": 5.579126707231156, "epoch": 0.9310933333333333, "eta_time": 1.0011432924642574, "step": 8729 }, { "epoch": 0.9312, "grad_norm": 1.9381045850913776, "learning_rate": 1.2363653052515302e-07, "loss": 0.3788, "step": 8730 }, { "avg_step_time": 5.578679901180846, "epoch": 0.9312, "eta_time": 0.9995134822949014, "step": 8730 }, { "epoch": 0.9313066666666666, "grad_norm": 2.017821828998061, "learning_rate": 1.2325504030170243e-07, "loss": 0.5636, "step": 8731 }, { "avg_step_time": 5.555233437605579, "epoch": 0.9313066666666666, "eta_time": 0.9937695371716647, "step": 8731 }, { "epoch": 0.9314133333333333, "grad_norm": 1.640634336179847, "learning_rate": 1.2287413220211487e-07, "loss": 0.421, "step": 8732 }, { "avg_step_time": 5.55451456946556, "epoch": 0.9314133333333333, "eta_time": 0.9920980189350987, "step": 8732 }, { "epoch": 0.93152, "grad_norm": 1.567739941251698, "learning_rate": 1.2249380627185781e-07, "loss": 0.4433, "step": 8733 }, { "avg_step_time": 5.549936860498756, "epoch": 0.93152, "eta_time": 0.9897387401222781, "step": 8733 }, { "epoch": 0.9316266666666667, "grad_norm": 1.9820716837344252, "learning_rate": 1.2211406255633107e-07, "loss": 0.537, "step": 8734 }, { "avg_step_time": 5.533985848378653, "epoch": 0.9316266666666667, "eta_time": 0.9853569246696435, "step": 8734 }, { "epoch": 0.9317333333333333, "grad_norm": 1.9883589675289908, "learning_rate": 1.2173490110086228e-07, "loss": 0.4951, "step": 8735 }, { "avg_step_time": 5.534537337043068, "epoch": 0.9317333333333333, "eta_time": 0.9839177488076566, "step": 8735 }, { "epoch": 0.93184, "grad_norm": 1.5713405006271444, "learning_rate": 1.2135632195071133e-07, "loss": 0.4873, "step": 8736 }, { "avg_step_time": 5.5330918581798825, "epoch": 0.93184, "eta_time": 0.9821238048269292, "step": 8736 }, { "epoch": 0.9319466666666667, "grad_norm": 1.9293379022424795, "learning_rate": 1.2097832515106767e-07, "loss": 0.4783, "step": 8737 }, { "avg_step_time": 5.534408670483214, "epoch": 0.9319466666666667, "eta_time": 0.9808202032689696, "step": 8737 }, { "epoch": 0.9320533333333333, "grad_norm": 1.9945704114547773, "learning_rate": 1.206009107470535e-07, "loss": 0.5247, "step": 8738 }, { "avg_step_time": 5.534113816540651, "epoch": 0.9320533333333333, "eta_time": 0.9792306947601096, "step": 8738 }, { "epoch": 0.93216, "grad_norm": 2.1049466217443653, "learning_rate": 1.202240787837178e-07, "loss": 0.4544, "step": 8739 }, { "avg_step_time": 5.533156450348671, "epoch": 0.93216, "eta_time": 0.9775243062282652, "step": 8739 }, { "epoch": 0.9322666666666667, "grad_norm": 1.7161043225623016, "learning_rate": 1.1984782930604345e-07, "loss": 0.4307, "step": 8740 }, { "avg_step_time": 5.5332005096204355, "epoch": 0.9322666666666667, "eta_time": 0.9759950898913823, "step": 8740 }, { "epoch": 0.9323733333333334, "grad_norm": 1.9627051740901416, "learning_rate": 1.194721623589412e-07, "loss": 0.3921, "step": 8741 }, { "avg_step_time": 5.568485450262975, "epoch": 0.9323733333333334, "eta_time": 0.9806721598518684, "step": 8741 }, { "epoch": 0.93248, "grad_norm": 1.841729922927391, "learning_rate": 1.1909707798725412e-07, "loss": 0.5145, "step": 8742 }, { "avg_step_time": 5.570763836003313, "epoch": 0.93248, "eta_time": 0.9795259744972492, "step": 8742 }, { "epoch": 0.9325866666666667, "grad_norm": 1.879433873163959, "learning_rate": 1.1872257623575412e-07, "loss": 0.4693, "step": 8743 }, { "avg_step_time": 5.571389063440188, "epoch": 0.9325866666666667, "eta_time": 0.9780883022483886, "step": 8743 }, { "epoch": 0.9326933333333334, "grad_norm": 2.0767954265256527, "learning_rate": 1.1834865714914601e-07, "loss": 0.4535, "step": 8744 }, { "avg_step_time": 5.584618048234419, "epoch": 0.9326933333333334, "eta_time": 0.9788594412321996, "step": 8744 }, { "epoch": 0.9328, "grad_norm": 2.118181887107126, "learning_rate": 1.1797532077206187e-07, "loss": 0.5282, "step": 8745 }, { "avg_step_time": 5.583589052913164, "epoch": 0.9328, "eta_time": 0.9771280842598038, "step": 8745 }, { "epoch": 0.9329066666666667, "grad_norm": 1.7537293866174397, "learning_rate": 1.1760256714906715e-07, "loss": 0.4535, "step": 8746 }, { "avg_step_time": 5.616592226606427, "epoch": 0.9329066666666667, "eta_time": 0.981343475148734, "step": 8746 }, { "epoch": 0.9330133333333334, "grad_norm": 2.0506259647657474, "learning_rate": 1.1723039632465516e-07, "loss": 0.5405, "step": 8747 }, { "avg_step_time": 5.6177005551078105, "epoch": 0.9330133333333334, "eta_time": 0.9799766523910292, "step": 8747 }, { "epoch": 0.93312, "grad_norm": 1.929699667542223, "learning_rate": 1.1685880834325203e-07, "loss": 0.472, "step": 8748 }, { "avg_step_time": 5.624257475438744, "epoch": 0.93312, "eta_time": 0.979558176972248, "step": 8748 }, { "epoch": 0.9332266666666666, "grad_norm": 1.9169943876893434, "learning_rate": 1.1648780324921283e-07, "loss": 0.4886, "step": 8749 }, { "avg_step_time": 5.627961633181331, "epoch": 0.9332266666666666, "eta_time": 0.9786399951031981, "step": 8749 }, { "epoch": 0.9333333333333333, "grad_norm": 1.888241352878423, "learning_rate": 1.1611738108682325e-07, "loss": 0.5006, "step": 8750 }, { "avg_step_time": 5.629457839811691, "epoch": 0.9333333333333333, "eta_time": 0.977336430522863, "step": 8750 }, { "epoch": 0.93344, "grad_norm": 0.6467031207093453, "learning_rate": 1.1574754190030014e-07, "loss": 0.4499, "step": 8751 }, { "avg_step_time": 5.62991592859981, "epoch": 0.93344, "eta_time": 0.9758520942906337, "step": 8751 }, { "epoch": 0.9335466666666666, "grad_norm": 1.9405195448209958, "learning_rate": 1.1537828573378929e-07, "loss": 0.4141, "step": 8752 }, { "avg_step_time": 5.62763407013633, "epoch": 0.9335466666666666, "eta_time": 0.9738933404708149, "step": 8752 }, { "epoch": 0.9336533333333333, "grad_norm": 2.0625824027840918, "learning_rate": 1.1500961263136878e-07, "loss": 0.5344, "step": 8753 }, { "avg_step_time": 5.625100593374233, "epoch": 0.9336533333333333, "eta_time": 0.9718923802996591, "step": 8753 }, { "epoch": 0.93376, "grad_norm": 1.7594410084600607, "learning_rate": 1.1464152263704565e-07, "loss": 0.4534, "step": 8754 }, { "avg_step_time": 5.606831394060694, "epoch": 0.93376, "eta_time": 0.9671784154754697, "step": 8754 }, { "epoch": 0.9338666666666666, "grad_norm": 2.060695998697763, "learning_rate": 1.142740157947575e-07, "loss": 0.4156, "step": 8755 }, { "avg_step_time": 5.606220900410354, "epoch": 0.9338666666666666, "eta_time": 0.9655158217373386, "step": 8755 }, { "epoch": 0.9339733333333333, "grad_norm": 1.6445341279298087, "learning_rate": 1.1390709214837314e-07, "loss": 0.5358, "step": 8756 }, { "avg_step_time": 5.605329648412839, "epoch": 0.9339733333333333, "eta_time": 0.9638052923243188, "step": 8756 }, { "epoch": 0.93408, "grad_norm": 1.8417795133136576, "learning_rate": 1.1354075174169088e-07, "loss": 0.503, "step": 8757 }, { "avg_step_time": 5.607027116447989, "epoch": 0.93408, "eta_time": 0.9625396549902381, "step": 8757 }, { "epoch": 0.9341866666666667, "grad_norm": 2.098637856791544, "learning_rate": 1.1317499461844017e-07, "loss": 0.574, "step": 8758 }, { "avg_step_time": 5.6012933808143694, "epoch": 0.9341866666666667, "eta_time": 0.9599994488784628, "step": 8758 }, { "epoch": 0.9342933333333333, "grad_norm": 0.6563304322860816, "learning_rate": 1.1280982082228054e-07, "loss": 0.4359, "step": 8759 }, { "avg_step_time": 5.601535096313015, "epoch": 0.9342933333333333, "eta_time": 0.9584848942580046, "step": 8759 }, { "epoch": 0.9344, "grad_norm": 2.051266613161265, "learning_rate": 1.12445230396801e-07, "loss": 0.4795, "step": 8760 }, { "avg_step_time": 5.573706087439951, "epoch": 0.9344, "eta_time": 0.9521747899376584, "step": 8760 }, { "epoch": 0.9345066666666667, "grad_norm": 2.1833616283345667, "learning_rate": 1.1208122338552229e-07, "loss": 0.4941, "step": 8761 }, { "avg_step_time": 5.608577386297361, "epoch": 0.9345066666666667, "eta_time": 0.9565740319962721, "step": 8761 }, { "epoch": 0.9346133333333333, "grad_norm": 1.6559023741380239, "learning_rate": 1.1171779983189523e-07, "loss": 0.5176, "step": 8762 }, { "avg_step_time": 5.609253315010456, "epoch": 0.9346133333333333, "eta_time": 0.9551311894726137, "step": 8762 }, { "epoch": 0.93472, "grad_norm": 1.8027945538367525, "learning_rate": 1.1135495977930011e-07, "loss": 0.4926, "step": 8763 }, { "avg_step_time": 5.610287721710976, "epoch": 0.93472, "eta_time": 0.9537489126908658, "step": 8763 }, { "epoch": 0.9348266666666667, "grad_norm": 1.868411084226993, "learning_rate": 1.1099270327104839e-07, "loss": 0.4787, "step": 8764 }, { "avg_step_time": 5.672405096015545, "epoch": 0.9348266666666667, "eta_time": 0.9627331982404161, "step": 8764 }, { "epoch": 0.9349333333333333, "grad_norm": 2.10584173881074, "learning_rate": 1.1063103035038214e-07, "loss": 0.4559, "step": 8765 }, { "avg_step_time": 5.708719727968929, "epoch": 0.9349333333333333, "eta_time": 0.9673108427947352, "step": 8765 }, { "epoch": 0.93504, "grad_norm": 1.8804750316364256, "learning_rate": 1.1026994106047296e-07, "loss": 0.5604, "step": 8766 }, { "avg_step_time": 5.7613251329672455, "epoch": 0.93504, "eta_time": 0.9746241683269591, "step": 8766 }, { "epoch": 0.9351466666666667, "grad_norm": 1.9129670110011943, "learning_rate": 1.0990943544442189e-07, "loss": 0.3822, "step": 8767 }, { "avg_step_time": 5.800597735125609, "epoch": 0.9351466666666667, "eta_time": 0.9796565063767696, "step": 8767 }, { "epoch": 0.9352533333333334, "grad_norm": 1.5991447454745107, "learning_rate": 1.0954951354526344e-07, "loss": 0.3632, "step": 8768 }, { "avg_step_time": 5.799777303079162, "epoch": 0.9352533333333334, "eta_time": 0.977906895269181, "step": 8768 }, { "epoch": 0.93536, "grad_norm": 1.854180246418606, "learning_rate": 1.0919017540595933e-07, "loss": 0.4532, "step": 8769 }, { "avg_step_time": 5.803938037217265, "epoch": 0.93536, "eta_time": 0.9769962362649063, "step": 8769 }, { "epoch": 0.9354666666666667, "grad_norm": 1.5725735459323258, "learning_rate": 1.0883142106940303e-07, "loss": 0.4588, "step": 8770 }, { "avg_step_time": 5.813333480045049, "epoch": 0.9354666666666667, "eta_time": 0.9769629876186818, "step": 8770 }, { "epoch": 0.9355733333333334, "grad_norm": 2.0489671779821017, "learning_rate": 1.0847325057841862e-07, "loss": 0.5437, "step": 8771 }, { "avg_step_time": 5.805135055021807, "epoch": 0.9355733333333334, "eta_time": 0.9739726592314364, "step": 8771 }, { "epoch": 0.93568, "grad_norm": 1.7211884939885742, "learning_rate": 1.0811566397575912e-07, "loss": 0.4803, "step": 8772 }, { "avg_step_time": 5.80540920989682, "epoch": 0.93568, "eta_time": 0.9724060426577174, "step": 8772 }, { "epoch": 0.9357866666666667, "grad_norm": 1.9090545127428258, "learning_rate": 1.0775866130410928e-07, "loss": 0.4435, "step": 8773 }, { "avg_step_time": 5.8059971717873005, "epoch": 0.9357866666666667, "eta_time": 0.9708917492822097, "step": 8773 }, { "epoch": 0.9358933333333334, "grad_norm": 0.6131117014179868, "learning_rate": 1.0740224260608334e-07, "loss": 0.3983, "step": 8774 }, { "avg_step_time": 5.7682232206518, "epoch": 0.9358933333333334, "eta_time": 0.9629728210032588, "step": 8774 }, { "epoch": 0.936, "grad_norm": 1.7241126435527452, "learning_rate": 1.0704640792422616e-07, "loss": 0.4027, "step": 8775 }, { "avg_step_time": 5.768292210318825, "epoch": 0.936, "eta_time": 0.9613820350531376, "step": 8775 }, { "epoch": 0.9361066666666666, "grad_norm": 2.0015537289199345, "learning_rate": 1.066911573010121e-07, "loss": 0.5291, "step": 8776 }, { "avg_step_time": 5.768920520339349, "epoch": 0.9361066666666666, "eta_time": 0.9598842754675749, "step": 8776 }, { "epoch": 0.9362133333333333, "grad_norm": 1.8572393469252502, "learning_rate": 1.0633649077884667e-07, "loss": 0.4756, "step": 8777 }, { "avg_step_time": 5.748023567777691, "epoch": 0.9362133333333333, "eta_time": 0.9548105815364053, "step": 8777 }, { "epoch": 0.93632, "grad_norm": 2.112891070290931, "learning_rate": 1.0598240840006658e-07, "loss": 0.4792, "step": 8778 }, { "avg_step_time": 5.747473071319888, "epoch": 0.93632, "eta_time": 0.9531226176605482, "step": 8778 }, { "epoch": 0.9364266666666666, "grad_norm": 0.6312246159972537, "learning_rate": 1.0562891020693633e-07, "loss": 0.4179, "step": 8779 }, { "avg_step_time": 5.718446854389075, "epoch": 0.9364266666666666, "eta_time": 0.9467206458933025, "step": 8779 }, { "epoch": 0.9365333333333333, "grad_norm": 1.4964553391134146, "learning_rate": 1.0527599624165275e-07, "loss": 0.4822, "step": 8780 }, { "avg_step_time": 5.718324121802744, "epoch": 0.9365333333333333, "eta_time": 0.9451119034646202, "step": 8780 }, { "epoch": 0.93664, "grad_norm": 2.224318223917739, "learning_rate": 1.0492366654634211e-07, "loss": 0.4445, "step": 8781 }, { "avg_step_time": 5.7156761439159665, "epoch": 0.93664, "eta_time": 0.9430865637461344, "step": 8781 }, { "epoch": 0.9367466666666666, "grad_norm": 1.8500577062268082, "learning_rate": 1.0457192116306137e-07, "loss": 0.4449, "step": 8782 }, { "avg_step_time": 5.714516052091964, "epoch": 0.9367466666666666, "eta_time": 0.9413077830251485, "step": 8782 }, { "epoch": 0.9368533333333333, "grad_norm": 1.5728642241839796, "learning_rate": 1.0422076013379634e-07, "loss": 0.3988, "step": 8783 }, { "avg_step_time": 5.712245490815905, "epoch": 0.9368533333333333, "eta_time": 0.9393470362675044, "step": 8783 }, { "epoch": 0.93696, "grad_norm": 1.9172364338690624, "learning_rate": 1.0387018350046519e-07, "loss": 0.4323, "step": 8784 }, { "avg_step_time": 5.715496022291858, "epoch": 0.93696, "eta_time": 0.9382939303262466, "step": 8784 }, { "epoch": 0.9370666666666667, "grad_norm": 1.6934515224950786, "learning_rate": 1.0352019130491552e-07, "loss": 0.496, "step": 8785 }, { "avg_step_time": 5.724918712269176, "epoch": 0.9370666666666667, "eta_time": 0.9382505667330039, "step": 8785 }, { "epoch": 0.9371733333333333, "grad_norm": 1.9417837599630314, "learning_rate": 1.0317078358892286e-07, "loss": 0.5078, "step": 8786 }, { "avg_step_time": 5.725010717758025, "epoch": 0.9371733333333333, "eta_time": 0.9366753646554101, "step": 8786 }, { "epoch": 0.93728, "grad_norm": 1.9263106684479827, "learning_rate": 1.0282196039419823e-07, "loss": 0.4818, "step": 8787 }, { "avg_step_time": 5.724753914457379, "epoch": 0.93728, "eta_time": 0.9350431393613718, "step": 8787 }, { "epoch": 0.9373866666666667, "grad_norm": 1.7864578110653082, "learning_rate": 1.024737217623778e-07, "loss": 0.4386, "step": 8788 }, { "avg_step_time": 5.821041511766838, "epoch": 0.9373866666666667, "eta_time": 0.9491531576130928, "step": 8788 }, { "epoch": 0.9374933333333333, "grad_norm": 1.735175085368432, "learning_rate": 1.0212606773502943e-07, "loss": 0.4861, "step": 8789 }, { "avg_step_time": 5.817947816367101, "epoch": 0.9374933333333333, "eta_time": 0.9470326167753115, "step": 8789 }, { "epoch": 0.9376, "grad_norm": 1.8470935914639954, "learning_rate": 1.0177899835365323e-07, "loss": 0.539, "step": 8790 }, { "avg_step_time": 5.822298984334926, "epoch": 0.9376, "eta_time": 0.9461235849544255, "step": 8790 }, { "epoch": 0.9377066666666667, "grad_norm": 1.8983080458059851, "learning_rate": 1.0143251365967666e-07, "loss": 0.4816, "step": 8791 }, { "avg_step_time": 5.841803042575567, "epoch": 0.9377066666666667, "eta_time": 0.9476702713511475, "step": 8791 }, { "epoch": 0.9378133333333334, "grad_norm": 1.820747322866198, "learning_rate": 1.0108661369445882e-07, "loss": 0.447, "step": 8792 }, { "avg_step_time": 5.834130342560585, "epoch": 0.9378133333333334, "eta_time": 0.9448049971424504, "step": 8792 }, { "epoch": 0.93792, "grad_norm": 1.8577074745475188, "learning_rate": 1.0074129849928948e-07, "loss": 0.4628, "step": 8793 }, { "avg_step_time": 5.834338438631308, "epoch": 0.93792, "eta_time": 0.9432180475787281, "step": 8793 }, { "epoch": 0.9380266666666667, "grad_norm": 1.7974091601466617, "learning_rate": 1.0039656811538789e-07, "loss": 0.4755, "step": 8794 }, { "avg_step_time": 5.834946916560934, "epoch": 0.9380266666666667, "eta_time": 0.9416955995894174, "step": 8794 }, { "epoch": 0.9381333333333334, "grad_norm": 1.5771609740061776, "learning_rate": 1.000524225839028e-07, "loss": 0.4877, "step": 8795 }, { "avg_step_time": 5.8346204926269225, "epoch": 0.9381333333333334, "eta_time": 0.940022190478782, "step": 8795 }, { "epoch": 0.93824, "grad_norm": 1.6886115726721094, "learning_rate": 9.970886194591467e-08, "loss": 0.4486, "step": 8796 }, { "avg_step_time": 5.833854200864079, "epoch": 0.93824, "eta_time": 0.9382782173056393, "step": 8796 }, { "epoch": 0.9383466666666667, "grad_norm": 1.7707424008793307, "learning_rate": 9.936588624243348e-08, "loss": 0.4691, "step": 8797 }, { "avg_step_time": 5.834534633039224, "epoch": 0.9383466666666667, "eta_time": 0.9367669494157421, "step": 8797 }, { "epoch": 0.9384533333333334, "grad_norm": 2.0293469274340663, "learning_rate": 9.902349551439871e-08, "loss": 0.4797, "step": 8798 }, { "avg_step_time": 5.841527931617968, "epoch": 0.9384533333333334, "eta_time": 0.9362671157065464, "step": 8798 }, { "epoch": 0.93856, "grad_norm": 2.1645809412196115, "learning_rate": 9.8681689802681e-08, "loss": 0.5561, "step": 8799 }, { "avg_step_time": 5.843290165217236, "epoch": 0.93856, "eta_time": 0.9349264264347578, "step": 8799 }, { "epoch": 0.9386666666666666, "grad_norm": 1.7340533974898094, "learning_rate": 9.834046914808104e-08, "loss": 0.4366, "step": 8800 }, { "avg_step_time": 5.84076698861941, "epoch": 0.9386666666666666, "eta_time": 0.9329002829044891, "step": 8800 }, { "epoch": 0.9387733333333333, "grad_norm": 2.0665168288274445, "learning_rate": 9.799983359132848e-08, "loss": 0.5715, "step": 8801 }, { "avg_step_time": 5.840791158001832, "epoch": 0.9387733333333333, "eta_time": 0.9312817013036255, "step": 8801 }, { "epoch": 0.93888, "grad_norm": 2.054555223064628, "learning_rate": 9.765978317308522e-08, "loss": 0.5113, "step": 8802 }, { "avg_step_time": 5.832297582819004, "epoch": 0.93888, "eta_time": 0.9283073652653582, "step": 8802 }, { "epoch": 0.9389866666666666, "grad_norm": 1.692390191193261, "learning_rate": 9.732031793394158e-08, "loss": 0.4359, "step": 8803 }, { "avg_step_time": 5.829355177253183, "epoch": 0.9389866666666666, "eta_time": 0.9262197670524502, "step": 8803 }, { "epoch": 0.9390933333333333, "grad_norm": 0.6378337292192248, "learning_rate": 9.698143791441794e-08, "loss": 0.4506, "step": 8804 }, { "avg_step_time": 5.7852872044149075, "epoch": 0.9390933333333333, "eta_time": 0.9176108315891423, "step": 8804 }, { "epoch": 0.9392, "grad_norm": 1.8593365120192322, "learning_rate": 9.664314315496692e-08, "loss": 0.4539, "step": 8805 }, { "avg_step_time": 5.784586099663166, "epoch": 0.9392, "eta_time": 0.9158927991133345, "step": 8805 }, { "epoch": 0.9393066666666666, "grad_norm": 0.6240714855920744, "learning_rate": 9.630543369596846e-08, "loss": 0.4276, "step": 8806 }, { "avg_step_time": 5.757997707887129, "epoch": 0.9393066666666666, "eta_time": 0.9100835266077157, "step": 8806 }, { "epoch": 0.9394133333333333, "grad_norm": 1.9859495537182714, "learning_rate": 9.596830957773528e-08, "loss": 0.4481, "step": 8807 }, { "avg_step_time": 5.759284672110971, "epoch": 0.9394133333333333, "eta_time": 0.9086871371552866, "step": 8807 }, { "epoch": 0.93952, "grad_norm": 2.3561822903618714, "learning_rate": 9.5631770840508e-08, "loss": 0.5117, "step": 8808 }, { "avg_step_time": 5.759645734170471, "epoch": 0.93952, "eta_time": 0.9071442031318492, "step": 8808 }, { "epoch": 0.9396266666666667, "grad_norm": 1.9915205901526363, "learning_rate": 9.529581752445949e-08, "loss": 0.53, "step": 8809 }, { "avg_step_time": 5.756301778735536, "epoch": 0.9396266666666667, "eta_time": 0.9050185574345316, "step": 8809 }, { "epoch": 0.9397333333333333, "grad_norm": 1.6431450663737925, "learning_rate": 9.496044966968987e-08, "loss": 0.4088, "step": 8810 }, { "avg_step_time": 5.7576338763188835, "epoch": 0.9397333333333333, "eta_time": 0.9036286500333803, "step": 8810 }, { "epoch": 0.93984, "grad_norm": 2.2625173789054323, "learning_rate": 9.462566731623213e-08, "loss": 0.5021, "step": 8811 }, { "avg_step_time": 5.759674640616986, "epoch": 0.93984, "eta_time": 0.9023490270299944, "step": 8811 }, { "epoch": 0.9399466666666667, "grad_norm": 0.6651842638515381, "learning_rate": 9.429147050404874e-08, "loss": 0.4404, "step": 8812 }, { "avg_step_time": 5.726093017693722, "epoch": 0.9399466666666667, "eta_time": 0.895497324711546, "step": 8812 }, { "epoch": 0.9400533333333333, "grad_norm": 1.9030828782160896, "learning_rate": 9.395785927303169e-08, "loss": 0.5429, "step": 8813 }, { "avg_step_time": 5.733655052955704, "epoch": 0.9400533333333333, "eta_time": 0.8950872610447516, "step": 8813 }, { "epoch": 0.94016, "grad_norm": 1.7769865896378192, "learning_rate": 9.36248336630019e-08, "loss": 0.4402, "step": 8814 }, { "avg_step_time": 5.734935625635012, "epoch": 0.94016, "eta_time": 0.8936941349947893, "step": 8814 }, { "epoch": 0.9402666666666667, "grad_norm": 1.9052794042606633, "learning_rate": 9.329239371371312e-08, "loss": 0.5147, "step": 8815 }, { "avg_step_time": 5.737602896160549, "epoch": 0.9402666666666667, "eta_time": 0.8925160060694188, "step": 8815 }, { "epoch": 0.9403733333333333, "grad_norm": 1.666325877375227, "learning_rate": 9.296053946484807e-08, "loss": 0.4969, "step": 8816 }, { "avg_step_time": 5.7731001184444235, "epoch": 0.9403733333333333, "eta_time": 0.8964341572806758, "step": 8816 }, { "epoch": 0.94048, "grad_norm": 2.1638644496931185, "learning_rate": 9.262927095601782e-08, "loss": 0.545, "step": 8817 }, { "avg_step_time": 5.776778018835819, "epoch": 0.94048, "eta_time": 0.8954005929195521, "step": 8817 }, { "epoch": 0.9405866666666667, "grad_norm": 1.916867364747106, "learning_rate": 9.22985882267663e-08, "loss": 0.6097, "step": 8818 }, { "avg_step_time": 5.774709072980014, "epoch": 0.9405866666666667, "eta_time": 0.8934758204582965, "step": 8818 }, { "epoch": 0.9406933333333334, "grad_norm": 0.6287098151628329, "learning_rate": 9.196849131656638e-08, "loss": 0.4296, "step": 8819 }, { "avg_step_time": 5.741558024377534, "epoch": 0.9406933333333334, "eta_time": 0.8867517393205302, "step": 8819 }, { "epoch": 0.9408, "grad_norm": 2.0932489543406274, "learning_rate": 9.163898026481876e-08, "loss": 0.6586, "step": 8820 }, { "avg_step_time": 5.743110639880402, "epoch": 0.9408, "eta_time": 0.8853962236482287, "step": 8820 }, { "epoch": 0.9409066666666667, "grad_norm": 0.6163065122697352, "learning_rate": 9.131005511085867e-08, "loss": 0.4286, "step": 8821 }, { "avg_step_time": 5.731571635814628, "epoch": 0.9409066666666667, "eta_time": 0.8820251906225846, "step": 8821 }, { "epoch": 0.9410133333333334, "grad_norm": 1.7222386640274645, "learning_rate": 9.098171589394855e-08, "loss": 0.5147, "step": 8822 }, { "avg_step_time": 5.729004676895912, "epoch": 0.9410133333333334, "eta_time": 0.8800387739787333, "step": 8822 }, { "epoch": 0.94112, "grad_norm": 1.5700989207102345, "learning_rate": 9.065396265327986e-08, "loss": 0.4118, "step": 8823 }, { "avg_step_time": 5.726993392212222, "epoch": 0.94112, "eta_time": 0.878138986805874, "step": 8823 }, { "epoch": 0.9412266666666667, "grad_norm": 1.9817099425579203, "learning_rate": 9.03267954279774e-08, "loss": 0.4989, "step": 8824 }, { "avg_step_time": 5.723671592847265, "epoch": 0.9412266666666667, "eta_time": 0.8760397354607897, "step": 8824 }, { "epoch": 0.9413333333333334, "grad_norm": 1.6720335204499195, "learning_rate": 9.000021425709326e-08, "loss": 0.3727, "step": 8825 }, { "avg_step_time": 5.728948699103461, "epoch": 0.9413333333333334, "eta_time": 0.8752560512519177, "step": 8825 }, { "epoch": 0.94144, "grad_norm": 1.9663660435322416, "learning_rate": 8.967421917961072e-08, "loss": 0.446, "step": 8826 }, { "avg_step_time": 5.777551472789109, "epoch": 0.94144, "eta_time": 0.8810765996003391, "step": 8826 }, { "epoch": 0.9415466666666666, "grad_norm": 1.8528345521459406, "learning_rate": 8.934881023444365e-08, "loss": 0.4063, "step": 8827 }, { "avg_step_time": 5.743058288940276, "epoch": 0.9415466666666666, "eta_time": 0.874221095094242, "step": 8827 }, { "epoch": 0.9416533333333333, "grad_norm": 0.6486447100975596, "learning_rate": 8.902398746043428e-08, "loss": 0.4328, "step": 8828 }, { "avg_step_time": 5.7094465771106755, "epoch": 0.9416533333333333, "eta_time": 0.8675186882443165, "step": 8828 }, { "epoch": 0.94176, "grad_norm": 1.8927060314200876, "learning_rate": 8.869975089635552e-08, "loss": 0.4411, "step": 8829 }, { "avg_step_time": 5.710823786379111, "epoch": 0.94176, "eta_time": 0.8661416076008318, "step": 8829 }, { "epoch": 0.9418666666666666, "grad_norm": 1.858893799997795, "learning_rate": 8.83761005809114e-08, "loss": 0.4507, "step": 8830 }, { "avg_step_time": 5.7092294596662425, "epoch": 0.9418666666666666, "eta_time": 0.8643139043105839, "step": 8830 }, { "epoch": 0.9419733333333333, "grad_norm": 2.023950331186064, "learning_rate": 8.805303655273601e-08, "loss": 0.4956, "step": 8831 }, { "avg_step_time": 5.724226922699899, "epoch": 0.9419733333333333, "eta_time": 0.8649942905413182, "step": 8831 }, { "epoch": 0.94208, "grad_norm": 1.6600403567364723, "learning_rate": 8.773055885039072e-08, "loss": 0.4334, "step": 8832 }, { "avg_step_time": 5.759824377117735, "epoch": 0.94208, "eta_time": 0.8687735102152585, "step": 8832 }, { "epoch": 0.9421866666666666, "grad_norm": 1.8892541209092122, "learning_rate": 8.740866751236976e-08, "loss": 0.3592, "step": 8833 }, { "avg_step_time": 5.761570321189033, "epoch": 0.9421866666666666, "eta_time": 0.8674364205790155, "step": 8833 }, { "epoch": 0.9422933333333333, "grad_norm": 1.807884140181426, "learning_rate": 8.708736257709738e-08, "loss": 0.4928, "step": 8834 }, { "avg_step_time": 5.767414145999485, "epoch": 0.9422933333333333, "eta_time": 0.8667141813849226, "step": 8834 }, { "epoch": 0.9424, "grad_norm": 1.8030859654331244, "learning_rate": 8.676664408292457e-08, "loss": 0.4582, "step": 8835 }, { "avg_step_time": 5.767472192494556, "epoch": 0.9424, "eta_time": 0.8651208288741834, "step": 8835 }, { "epoch": 0.9425066666666667, "grad_norm": 0.6166824573175513, "learning_rate": 8.644651206813625e-08, "loss": 0.4212, "step": 8836 }, { "avg_step_time": 5.731334895798654, "epoch": 0.9425066666666667, "eta_time": 0.858108196898743, "step": 8836 }, { "epoch": 0.9426133333333333, "grad_norm": 1.847534856377893, "learning_rate": 8.612696657094633e-08, "loss": 0.4592, "step": 8837 }, { "avg_step_time": 5.747251662341031, "epoch": 0.9426133333333333, "eta_time": 0.8588948317609651, "step": 8837 }, { "epoch": 0.94272, "grad_norm": 1.7805150149811493, "learning_rate": 8.580800762949704e-08, "loss": 0.5048, "step": 8838 }, { "avg_step_time": 5.751883824666341, "epoch": 0.94272, "eta_time": 0.8579893371793959, "step": 8838 }, { "epoch": 0.9428266666666667, "grad_norm": 0.6370762775192388, "learning_rate": 8.548963528186071e-08, "loss": 0.4512, "step": 8839 }, { "avg_step_time": 5.743644540960139, "epoch": 0.9428266666666667, "eta_time": 0.8551648538762873, "step": 8839 }, { "epoch": 0.9429333333333333, "grad_norm": 1.7508517093709426, "learning_rate": 8.517184956604252e-08, "loss": 0.4586, "step": 8840 }, { "avg_step_time": 5.763834765463164, "epoch": 0.9429333333333333, "eta_time": 0.8565698887563313, "step": 8840 }, { "epoch": 0.94304, "grad_norm": 1.842231812403565, "learning_rate": 8.485465051997488e-08, "loss": 0.4548, "step": 8841 }, { "avg_step_time": 5.763128193941983, "epoch": 0.94304, "eta_time": 0.8548640154347276, "step": 8841 }, { "epoch": 0.9431466666666667, "grad_norm": 1.7964584659995215, "learning_rate": 8.453803818152029e-08, "loss": 0.4993, "step": 8842 }, { "avg_step_time": 5.801715650943795, "epoch": 0.9431466666666667, "eta_time": 0.8589762338758452, "step": 8842 }, { "epoch": 0.9432533333333334, "grad_norm": 1.8280933763342793, "learning_rate": 8.422201258847351e-08, "loss": 0.4787, "step": 8843 }, { "avg_step_time": 5.789717893407802, "epoch": 0.9432533333333334, "eta_time": 0.8555916442480419, "step": 8843 }, { "epoch": 0.94336, "grad_norm": 1.7343429852568104, "learning_rate": 8.39065737785566e-08, "loss": 0.4374, "step": 8844 }, { "avg_step_time": 5.7937413923668135, "epoch": 0.94336, "eta_time": 0.854576855374105, "step": 8844 }, { "epoch": 0.9434666666666667, "grad_norm": 0.6234463717811811, "learning_rate": 8.359172178942165e-08, "loss": 0.4125, "step": 8845 }, { "avg_step_time": 5.78299387055214, "epoch": 0.9434666666666667, "eta_time": 0.8513852087201762, "step": 8845 }, { "epoch": 0.9435733333333334, "grad_norm": 2.0297243434184753, "learning_rate": 8.327745665865417e-08, "loss": 0.5123, "step": 8846 }, { "avg_step_time": 5.780458009604252, "epoch": 0.9435733333333334, "eta_time": 0.849406190855736, "step": 8846 }, { "epoch": 0.94368, "grad_norm": 1.748360686366822, "learning_rate": 8.296377842376524e-08, "loss": 0.465, "step": 8847 }, { "avg_step_time": 5.774596782645794, "epoch": 0.94368, "eta_time": 0.8469408614547165, "step": 8847 }, { "epoch": 0.9437866666666667, "grad_norm": 1.891453870357158, "learning_rate": 8.265068712219826e-08, "loss": 0.4891, "step": 8848 }, { "avg_step_time": 5.773080322477552, "epoch": 0.9437866666666667, "eta_time": 0.8451148138737973, "step": 8848 }, { "epoch": 0.9438933333333334, "grad_norm": 1.733023698442121, "learning_rate": 8.233818279132611e-08, "loss": 0.4264, "step": 8849 }, { "avg_step_time": 5.775706084087641, "epoch": 0.9438933333333334, "eta_time": 0.8438948333972499, "step": 8849 }, { "epoch": 0.944, "grad_norm": 1.753325972086686, "learning_rate": 8.202626546845172e-08, "loss": 0.4118, "step": 8850 }, { "avg_step_time": 5.808410080996427, "epoch": 0.944, "eta_time": 0.8470598034786456, "step": 8850 }, { "epoch": 0.9441066666666666, "grad_norm": 0.628555573639946, "learning_rate": 8.171493519080753e-08, "loss": 0.4531, "step": 8851 }, { "avg_step_time": 5.782649760294443, "epoch": 0.9441066666666666, "eta_time": 0.8416967984428577, "step": 8851 }, { "epoch": 0.9442133333333333, "grad_norm": 1.8886429110683611, "learning_rate": 8.14041919955566e-08, "loss": 0.6223, "step": 8852 }, { "avg_step_time": 5.782319343451298, "epoch": 0.9442133333333333, "eta_time": 0.8400425046180635, "step": 8852 }, { "epoch": 0.94432, "grad_norm": 2.0460748390435852, "learning_rate": 8.109403591979148e-08, "loss": 0.4925, "step": 8853 }, { "avg_step_time": 5.783245965687915, "epoch": 0.94432, "eta_time": 0.8385706650247478, "step": 8853 }, { "epoch": 0.9444266666666666, "grad_norm": 1.9743761396732082, "learning_rate": 8.078446700053422e-08, "loss": 0.435, "step": 8854 }, { "avg_step_time": 5.7777345830743965, "epoch": 0.9444266666666666, "eta_time": 0.8361665882727113, "step": 8854 }, { "epoch": 0.9445333333333333, "grad_norm": 1.938563544264593, "learning_rate": 8.047548527473748e-08, "loss": 0.5101, "step": 8855 }, { "avg_step_time": 5.772420182372585, "epoch": 0.9445333333333333, "eta_time": 0.8337940263427067, "step": 8855 }, { "epoch": 0.94464, "grad_norm": 1.4138860573345164, "learning_rate": 8.016709077928397e-08, "loss": 0.4314, "step": 8856 }, { "avg_step_time": 5.779769765006171, "epoch": 0.94464, "eta_time": 0.833250141121723, "step": 8856 }, { "epoch": 0.9447466666666666, "grad_norm": 1.8706727573504514, "learning_rate": 7.985928355098483e-08, "loss": 0.521, "step": 8857 }, { "avg_step_time": 5.787674070608737, "epoch": 0.9447466666666666, "eta_time": 0.8327819912709238, "step": 8857 }, { "epoch": 0.9448533333333333, "grad_norm": 1.9191136044455996, "learning_rate": 7.955206362658341e-08, "loss": 0.4198, "step": 8858 }, { "avg_step_time": 5.823537123323691, "epoch": 0.9448533333333333, "eta_time": 0.836324636877319, "step": 8858 }, { "epoch": 0.94496, "grad_norm": 1.7986701695549352, "learning_rate": 7.924543104275095e-08, "loss": 0.565, "step": 8859 }, { "avg_step_time": 5.826667128187237, "epoch": 0.94496, "eta_time": 0.8351556217068373, "step": 8859 }, { "epoch": 0.9450666666666667, "grad_norm": 1.5084222494220605, "learning_rate": 7.893938583608985e-08, "loss": 0.4469, "step": 8860 }, { "avg_step_time": 5.826403832194781, "epoch": 0.9450666666666667, "eta_time": 0.8334994371056422, "step": 8860 }, { "epoch": 0.9451733333333333, "grad_norm": 2.259915149654681, "learning_rate": 7.863392804313086e-08, "loss": 0.4797, "step": 8861 }, { "avg_step_time": 5.84337885933693, "epoch": 0.9451733333333333, "eta_time": 0.8343046482497728, "step": 8861 }, { "epoch": 0.94528, "grad_norm": 2.581292351826233, "learning_rate": 7.832905770033705e-08, "loss": 0.4517, "step": 8862 }, { "avg_step_time": 5.843461954232418, "epoch": 0.94528, "eta_time": 0.8326933284781195, "step": 8862 }, { "epoch": 0.9453866666666667, "grad_norm": 1.8272772430256097, "learning_rate": 7.802477484409931e-08, "loss": 0.5175, "step": 8863 }, { "avg_step_time": 5.776909801695082, "epoch": 0.9453866666666667, "eta_time": 0.8216049495744117, "step": 8863 }, { "epoch": 0.9454933333333333, "grad_norm": 1.764108307401628, "learning_rate": 7.77210795107386e-08, "loss": 0.4778, "step": 8864 }, { "avg_step_time": 5.774742608118539, "epoch": 0.9454933333333333, "eta_time": 0.8196926313190482, "step": 8864 }, { "epoch": 0.9456, "grad_norm": 1.7173427849562655, "learning_rate": 7.7417971736507e-08, "loss": 0.3815, "step": 8865 }, { "avg_step_time": 5.764398627811008, "epoch": 0.9456, "eta_time": 0.8166231389398928, "step": 8865 }, { "epoch": 0.9457066666666667, "grad_norm": 1.6179272805824612, "learning_rate": 7.711545155758615e-08, "loss": 0.3853, "step": 8866 }, { "avg_step_time": 5.759052047825823, "epoch": 0.9457066666666667, "eta_time": 0.8142659700953733, "step": 8866 }, { "epoch": 0.9458133333333333, "grad_norm": 1.6537837498351189, "learning_rate": 7.681351901008494e-08, "loss": 0.4797, "step": 8867 }, { "avg_step_time": 5.778933696072511, "epoch": 0.9458133333333333, "eta_time": 0.8154717548902322, "step": 8867 }, { "epoch": 0.94592, "grad_norm": 2.1024281938308973, "learning_rate": 7.651217413004674e-08, "loss": 0.5176, "step": 8868 }, { "avg_step_time": 5.777507796432033, "epoch": 0.94592, "eta_time": 0.8136656813308447, "step": 8868 }, { "epoch": 0.9460266666666667, "grad_norm": 0.6532653294451705, "learning_rate": 7.621141695344003e-08, "loss": 0.4276, "step": 8869 }, { "avg_step_time": 5.740672983304418, "epoch": 0.9460266666666667, "eta_time": 0.806883480431121, "step": 8869 }, { "epoch": 0.9461333333333334, "grad_norm": 1.9485932349114499, "learning_rate": 7.591124751616718e-08, "loss": 0.4072, "step": 8870 }, { "avg_step_time": 5.740220611745661, "epoch": 0.9461333333333334, "eta_time": 0.8052253913698775, "step": 8870 }, { "epoch": 0.94624, "grad_norm": 0.6469738885729003, "learning_rate": 7.561166585405789e-08, "loss": 0.4252, "step": 8871 }, { "avg_step_time": 5.705106162061595, "epoch": 0.94624, "eta_time": 0.7987148626886232, "step": 8871 }, { "epoch": 0.9463466666666667, "grad_norm": 0.6537558607850216, "learning_rate": 7.53126720028724e-08, "loss": 0.4217, "step": 8872 }, { "avg_step_time": 5.670420415473707, "epoch": 0.9463466666666667, "eta_time": 0.792283741384243, "step": 8872 }, { "epoch": 0.9464533333333334, "grad_norm": 1.8477045875151266, "learning_rate": 7.501426599830053e-08, "loss": 0.3741, "step": 8873 }, { "avg_step_time": 5.706683050502431, "epoch": 0.9464533333333334, "eta_time": 0.795765247597839, "step": 8873 }, { "epoch": 0.94656, "grad_norm": 0.6486966910763785, "learning_rate": 7.47164478759621e-08, "loss": 0.4366, "step": 8874 }, { "avg_step_time": 5.672051244311863, "epoch": 0.94656, "eta_time": 0.7893604648334009, "step": 8874 }, { "epoch": 0.9466666666666667, "grad_norm": 1.928735003152833, "learning_rate": 7.441921767140814e-08, "loss": 0.4865, "step": 8875 }, { "avg_step_time": 5.691565101796931, "epoch": 0.9466666666666667, "eta_time": 0.7904951530273514, "step": 8875 }, { "epoch": 0.9467733333333334, "grad_norm": 1.933666566538162, "learning_rate": 7.412257542011692e-08, "loss": 0.5508, "step": 8876 }, { "avg_step_time": 5.6897826435590035, "epoch": 0.9467733333333334, "eta_time": 0.7886670942044286, "step": 8876 }, { "epoch": 0.94688, "grad_norm": 1.7395303728112084, "learning_rate": 7.382652115749789e-08, "loss": 0.4884, "step": 8877 }, { "avg_step_time": 5.708918961611661, "epoch": 0.94688, "eta_time": 0.7897337896896132, "step": 8877 }, { "epoch": 0.9469866666666666, "grad_norm": 1.8293995997698953, "learning_rate": 7.353105491889112e-08, "loss": 0.4419, "step": 8878 }, { "avg_step_time": 5.741829152059073, "epoch": 0.9469866666666666, "eta_time": 0.7926914134925998, "step": 8878 }, { "epoch": 0.9470933333333333, "grad_norm": 2.2972232580926115, "learning_rate": 7.323617673956452e-08, "loss": 0.4516, "step": 8879 }, { "avg_step_time": 5.742150561978119, "epoch": 0.9470933333333333, "eta_time": 0.791140744094763, "step": 8879 }, { "epoch": 0.9472, "grad_norm": 1.9765494163744197, "learning_rate": 7.294188665471769e-08, "loss": 0.462, "step": 8880 }, { "avg_step_time": 5.744357451043948, "epoch": 0.9472, "eta_time": 0.7898491495185428, "step": 8880 }, { "epoch": 0.9473066666666666, "grad_norm": 1.9343854937720235, "learning_rate": 7.264818469947921e-08, "loss": 0.4438, "step": 8881 }, { "avg_step_time": 5.759044037924872, "epoch": 0.9473066666666666, "eta_time": 0.7902688207596908, "step": 8881 }, { "epoch": 0.9474133333333333, "grad_norm": 1.9662272447934315, "learning_rate": 7.235507090890715e-08, "loss": 0.4584, "step": 8882 }, { "avg_step_time": 5.7576324096833815, "epoch": 0.9474133333333333, "eta_time": 0.7884757716594187, "step": 8882 }, { "epoch": 0.94752, "grad_norm": 1.8062958189693583, "learning_rate": 7.206254531799018e-08, "loss": 0.5107, "step": 8883 }, { "avg_step_time": 5.753495994240347, "epoch": 0.94752, "eta_time": 0.7863111192128475, "step": 8883 }, { "epoch": 0.9476266666666666, "grad_norm": 1.9366623564775254, "learning_rate": 7.177060796164536e-08, "loss": 0.519, "step": 8884 }, { "avg_step_time": 5.754249868970929, "epoch": 0.9476266666666666, "eta_time": 0.7848157460179794, "step": 8884 }, { "epoch": 0.9477333333333333, "grad_norm": 1.7568913974356881, "learning_rate": 7.147925887472096e-08, "loss": 0.4523, "step": 8885 }, { "avg_step_time": 5.750581107958399, "epoch": 0.9477333333333333, "eta_time": 0.7827179841387821, "step": 8885 }, { "epoch": 0.94784, "grad_norm": 1.8807683037484866, "learning_rate": 7.118849809199524e-08, "loss": 0.5608, "step": 8886 }, { "avg_step_time": 5.752349352595782, "epoch": 0.94784, "eta_time": 0.781360787060927, "step": 8886 }, { "epoch": 0.9479466666666667, "grad_norm": 1.9228953626142042, "learning_rate": 7.089832564817434e-08, "loss": 0.4428, "step": 8887 }, { "avg_step_time": 5.655427990537701, "epoch": 0.9479466666666667, "eta_time": 0.7666246831617772, "step": 8887 }, { "epoch": 0.9480533333333333, "grad_norm": 1.8258593029197465, "learning_rate": 7.06087415778961e-08, "loss": 0.4862, "step": 8888 }, { "avg_step_time": 5.6591492831104935, "epoch": 0.9480533333333333, "eta_time": 0.7655571391318917, "step": 8888 }, { "epoch": 0.94816, "grad_norm": 1.9914479147781823, "learning_rate": 7.031974591572732e-08, "loss": 0.4841, "step": 8889 }, { "avg_step_time": 5.65303235824662, "epoch": 0.94816, "eta_time": 0.7631593683632938, "step": 8889 }, { "epoch": 0.9482666666666667, "grad_norm": 1.756001710200282, "learning_rate": 7.003133869616485e-08, "loss": 0.4899, "step": 8890 }, { "avg_step_time": 5.631293915738963, "epoch": 0.9482666666666667, "eta_time": 0.7586604303148324, "step": 8890 }, { "epoch": 0.9483733333333333, "grad_norm": 1.8827751600821407, "learning_rate": 6.974351995363449e-08, "loss": 0.5187, "step": 8891 }, { "avg_step_time": 5.658713049358791, "epoch": 0.9483733333333333, "eta_time": 0.7607825321915708, "step": 8891 }, { "epoch": 0.94848, "grad_norm": 1.7459468993091665, "learning_rate": 6.945628972249208e-08, "loss": 0.3956, "step": 8892 }, { "avg_step_time": 5.648624921085859, "epoch": 0.94848, "eta_time": 0.7578571769123528, "step": 8892 }, { "epoch": 0.9485866666666667, "grad_norm": 2.032834707358506, "learning_rate": 6.91696480370252e-08, "loss": 0.5144, "step": 8893 }, { "avg_step_time": 5.661196506384647, "epoch": 0.9485866666666667, "eta_time": 0.7579713100215001, "step": 8893 }, { "epoch": 0.9486933333333334, "grad_norm": 1.7076564461337342, "learning_rate": 6.888359493144758e-08, "loss": 0.4805, "step": 8894 }, { "avg_step_time": 5.660249883478338, "epoch": 0.9486933333333334, "eta_time": 0.756272276098078, "step": 8894 }, { "epoch": 0.9488, "grad_norm": 1.8542556674794781, "learning_rate": 6.859813043990526e-08, "loss": 0.4751, "step": 8895 }, { "avg_step_time": 5.675766297061034, "epoch": 0.9488, "eta_time": 0.7567688396081379, "step": 8895 }, { "epoch": 0.9489066666666667, "grad_norm": 1.9912740980719443, "learning_rate": 6.831325459647375e-08, "loss": 0.5107, "step": 8896 }, { "avg_step_time": 5.67594790699506, "epoch": 0.9489066666666667, "eta_time": 0.7552164020696205, "step": 8896 }, { "epoch": 0.9490133333333334, "grad_norm": 1.8506862834738806, "learning_rate": 6.802896743515807e-08, "loss": 0.4417, "step": 8897 }, { "avg_step_time": 5.667523824807369, "epoch": 0.9490133333333334, "eta_time": 0.752521218960534, "step": 8897 }, { "epoch": 0.94912, "grad_norm": 2.0136939166502392, "learning_rate": 6.77452689898922e-08, "loss": 0.4508, "step": 8898 }, { "avg_step_time": 5.666312749939736, "epoch": 0.94912, "eta_time": 0.750786439367015, "step": 8898 }, { "epoch": 0.9492266666666667, "grad_norm": 1.957300641854093, "learning_rate": 6.746215929454014e-08, "loss": 0.4939, "step": 8899 }, { "avg_step_time": 5.667954408761227, "epoch": 0.9492266666666667, "eta_time": 0.749429527380651, "step": 8899 }, { "epoch": 0.9493333333333334, "grad_norm": 1.997761253548643, "learning_rate": 6.71796383828971e-08, "loss": 0.5147, "step": 8900 }, { "avg_step_time": 5.676897653425582, "epoch": 0.9493333333333334, "eta_time": 0.7490351070492088, "step": 8900 }, { "epoch": 0.94944, "grad_norm": 0.6444507726460381, "learning_rate": 6.689770628868609e-08, "loss": 0.4202, "step": 8901 }, { "avg_step_time": 5.643713640444206, "epoch": 0.94944, "eta_time": 0.7430889626584871, "step": 8901 }, { "epoch": 0.9495466666666666, "grad_norm": 1.8699893521013182, "learning_rate": 6.661636304556074e-08, "loss": 0.4726, "step": 8902 }, { "avg_step_time": 5.6447329473013825, "epoch": 0.9495466666666666, "eta_time": 0.7416551900204316, "step": 8902 }, { "epoch": 0.9496533333333333, "grad_norm": 1.7495844069071578, "learning_rate": 6.63356086871042e-08, "loss": 0.4756, "step": 8903 }, { "avg_step_time": 5.678253024515479, "epoch": 0.9496533333333333, "eta_time": 0.7444820632142517, "step": 8903 }, { "epoch": 0.94976, "grad_norm": 1.833166064966047, "learning_rate": 6.605544324682855e-08, "loss": 0.3909, "step": 8904 }, { "avg_step_time": 5.678880055745442, "epoch": 0.94976, "eta_time": 0.7429868072933621, "step": 8904 }, { "epoch": 0.9498666666666666, "grad_norm": 0.6832836420100425, "learning_rate": 6.577586675817816e-08, "loss": 0.4335, "step": 8905 }, { "avg_step_time": 5.669979006353051, "epoch": 0.9498666666666666, "eta_time": 0.7402472591627595, "step": 8905 }, { "epoch": 0.9499733333333333, "grad_norm": 1.7500197508609152, "learning_rate": 6.549687925452408e-08, "loss": 0.4142, "step": 8906 }, { "avg_step_time": 5.665700440454965, "epoch": 0.9499733333333333, "eta_time": 0.7381148629370496, "step": 8906 }, { "epoch": 0.95008, "grad_norm": 1.7964818575573742, "learning_rate": 6.521848076916859e-08, "loss": 0.3893, "step": 8907 }, { "avg_step_time": 5.667334479514999, "epoch": 0.95008, "eta_time": 0.7367534823369498, "step": 8907 }, { "epoch": 0.9501866666666666, "grad_norm": 1.8348011311675192, "learning_rate": 6.494067133534288e-08, "loss": 0.5464, "step": 8908 }, { "avg_step_time": 5.673676608788846, "epoch": 0.9501866666666666, "eta_time": 0.7360019378623308, "step": 8908 }, { "epoch": 0.9502933333333333, "grad_norm": 2.2048736240570084, "learning_rate": 6.46634509862093e-08, "loss": 0.5387, "step": 8909 }, { "avg_step_time": 5.673855887518989, "epoch": 0.9502933333333333, "eta_time": 0.7344491232177357, "step": 8909 }, { "epoch": 0.9504, "grad_norm": 1.8684751161886652, "learning_rate": 6.438681975485805e-08, "loss": 0.4745, "step": 8910 }, { "avg_step_time": 5.6780769993560485, "epoch": 0.9504, "eta_time": 0.7334182790834896, "step": 8910 }, { "epoch": 0.9505066666666667, "grad_norm": 1.8204668397224306, "learning_rate": 6.411077767431051e-08, "loss": 0.5531, "step": 8911 }, { "avg_step_time": 5.715903580790818, "epoch": 0.9505066666666667, "eta_time": 0.7367164615241499, "step": 8911 }, { "epoch": 0.9506133333333333, "grad_norm": 1.683423286178447, "learning_rate": 6.383532477751641e-08, "loss": 0.4347, "step": 8912 }, { "avg_step_time": 5.709044003727461, "epoch": 0.9506133333333333, "eta_time": 0.734246492701615, "step": 8912 }, { "epoch": 0.95072, "grad_norm": 2.0296746372735015, "learning_rate": 6.356046109735614e-08, "loss": 0.489, "step": 8913 }, { "avg_step_time": 5.712922471942323, "epoch": 0.95072, "eta_time": 0.7331583838992649, "step": 8913 }, { "epoch": 0.9508266666666667, "grad_norm": 1.8564171791802153, "learning_rate": 6.328618666663899e-08, "loss": 0.4856, "step": 8914 }, { "avg_step_time": 5.712378882398509, "epoch": 0.9508266666666667, "eta_time": 0.7315018513293646, "step": 8914 }, { "epoch": 0.9509333333333333, "grad_norm": 1.865824439154249, "learning_rate": 6.301250151810545e-08, "loss": 0.3535, "step": 8915 }, { "avg_step_time": 5.714277611838447, "epoch": 0.9509333333333333, "eta_time": 0.7301576948460238, "step": 8915 }, { "epoch": 0.95104, "grad_norm": 1.5989667979691649, "learning_rate": 6.273940568442327e-08, "loss": 0.4431, "step": 8916 }, { "avg_step_time": 5.712145181617352, "epoch": 0.95104, "eta_time": 0.7282985106562123, "step": 8916 }, { "epoch": 0.9511466666666667, "grad_norm": 1.7253202904678746, "learning_rate": 6.246689919819249e-08, "loss": 0.4998, "step": 8917 }, { "avg_step_time": 5.7148628283028655, "epoch": 0.9511466666666667, "eta_time": 0.7270575487118645, "step": 8917 }, { "epoch": 0.9512533333333333, "grad_norm": 1.725476636296345, "learning_rate": 6.219498209194042e-08, "loss": 0.4424, "step": 8918 }, { "avg_step_time": 5.744617866747307, "epoch": 0.9512533333333333, "eta_time": 0.7292473236398663, "step": 8918 }, { "epoch": 0.95136, "grad_norm": 1.8498719167216136, "learning_rate": 6.192365439812553e-08, "loss": 0.4767, "step": 8919 }, { "avg_step_time": 5.770092494560011, "epoch": 0.95136, "eta_time": 0.730878382644268, "step": 8919 }, { "epoch": 0.9514666666666667, "grad_norm": 0.6299869729454609, "learning_rate": 6.165291614913527e-08, "loss": 0.4181, "step": 8920 }, { "avg_step_time": 5.7482272567171036, "epoch": 0.9514666666666667, "eta_time": 0.7265120560573006, "step": 8920 }, { "epoch": 0.9515733333333334, "grad_norm": 1.7062482837830606, "learning_rate": 6.13827673772871e-08, "loss": 0.5179, "step": 8921 }, { "avg_step_time": 5.748977203561802, "epoch": 0.9515733333333334, "eta_time": 0.7250099028936272, "step": 8921 }, { "epoch": 0.95168, "grad_norm": 2.041398360611756, "learning_rate": 6.111320811482802e-08, "loss": 0.4746, "step": 8922 }, { "avg_step_time": 5.776086616997767, "epoch": 0.95168, "eta_time": 0.7268242326388857, "step": 8922 }, { "epoch": 0.9517866666666667, "grad_norm": 0.6340675365524909, "learning_rate": 6.084423839393394e-08, "loss": 0.4423, "step": 8923 }, { "avg_step_time": 5.7466697283465455, "epoch": 0.9517866666666667, "eta_time": 0.721526310336844, "step": 8923 }, { "epoch": 0.9518933333333334, "grad_norm": 1.777175836735349, "learning_rate": 6.057585824671252e-08, "loss": 0.3711, "step": 8924 }, { "avg_step_time": 5.780212676886356, "epoch": 0.9518933333333334, "eta_time": 0.724132199243263, "step": 8924 }, { "epoch": 0.952, "grad_norm": 1.7042591219512655, "learning_rate": 6.030806770519815e-08, "loss": 0.4739, "step": 8925 }, { "avg_step_time": 5.74158441659176, "epoch": 0.952, "eta_time": 0.71769805207397, "step": 8925 }, { "epoch": 0.9521066666666667, "grad_norm": 2.04050634022227, "learning_rate": 6.004086680135634e-08, "loss": 0.5441, "step": 8926 }, { "avg_step_time": 5.7411989370981855, "epoch": 0.9521066666666667, "eta_time": 0.716055089654746, "step": 8926 }, { "epoch": 0.9522133333333334, "grad_norm": 1.7499507205721325, "learning_rate": 5.977425556708327e-08, "loss": 0.456, "step": 8927 }, { "avg_step_time": 5.774892385559853, "epoch": 0.9522133333333334, "eta_time": 0.7186532746474483, "step": 8927 }, { "epoch": 0.95232, "grad_norm": 2.0549132519314983, "learning_rate": 5.9508234034202364e-08, "loss": 0.4605, "step": 8928 }, { "avg_step_time": 5.770388588760838, "epoch": 0.95232, "eta_time": 0.716489916437804, "step": 8928 }, { "epoch": 0.9524266666666666, "grad_norm": 1.8969756142097023, "learning_rate": 5.924280223446821e-08, "loss": 0.4907, "step": 8929 }, { "avg_step_time": 5.777010879131279, "epoch": 0.9524266666666666, "eta_time": 0.7157074589145973, "step": 8929 }, { "epoch": 0.9525333333333333, "grad_norm": 1.6606092539187498, "learning_rate": 5.897796019956492e-08, "loss": 0.4831, "step": 8930 }, { "avg_step_time": 5.7798043092091875, "epoch": 0.9525333333333333, "eta_time": 0.7144480326661357, "step": 8930 }, { "epoch": 0.95264, "grad_norm": 1.8554402292938703, "learning_rate": 5.871370796110665e-08, "loss": 0.5234, "step": 8931 }, { "avg_step_time": 5.740822746296121, "epoch": 0.95264, "eta_time": 0.7080348053765216, "step": 8931 }, { "epoch": 0.9527466666666666, "grad_norm": 1.7952206510707516, "learning_rate": 5.8450045550634826e-08, "loss": 0.4486, "step": 8932 }, { "avg_step_time": 5.741650477804319, "epoch": 0.9527466666666666, "eta_time": 0.7065419893520315, "step": 8932 }, { "epoch": 0.9528533333333333, "grad_norm": 1.8788049055630027, "learning_rate": 5.8186972999623724e-08, "loss": 0.5027, "step": 8933 }, { "avg_step_time": 5.736263024686563, "epoch": 0.9528533333333333, "eta_time": 0.7042856269198502, "step": 8933 }, { "epoch": 0.95296, "grad_norm": 1.6840702364741802, "learning_rate": 5.7924490339474335e-08, "loss": 0.4715, "step": 8934 }, { "avg_step_time": 5.737759334872467, "epoch": 0.95296, "eta_time": 0.7028755185218772, "step": 8934 }, { "epoch": 0.9530666666666666, "grad_norm": 1.4577814811129417, "learning_rate": 5.7662597601519374e-08, "loss": 0.4584, "step": 8935 }, { "avg_step_time": 5.790068072502059, "epoch": 0.9530666666666666, "eta_time": 0.7076749866391406, "step": 8935 }, { "epoch": 0.9531733333333333, "grad_norm": 1.9745000495717775, "learning_rate": 5.7401294817020505e-08, "loss": 0.4252, "step": 8936 }, { "avg_step_time": 5.7727762256005795, "epoch": 0.9531733333333333, "eta_time": 0.7039579897329595, "step": 8936 }, { "epoch": 0.95328, "grad_norm": 1.6534766279108284, "learning_rate": 5.7140582017167764e-08, "loss": 0.4366, "step": 8937 }, { "avg_step_time": 5.7800400570185495, "epoch": 0.95328, "eta_time": 0.7032382069372569, "step": 8937 }, { "epoch": 0.9533866666666667, "grad_norm": 2.150809874052801, "learning_rate": 5.688045923308183e-08, "loss": 0.6065, "step": 8938 }, { "avg_step_time": 5.789763371149699, "epoch": 0.9533866666666667, "eta_time": 0.7028129425534496, "step": 8938 }, { "epoch": 0.9534933333333333, "grad_norm": 2.054477890309957, "learning_rate": 5.662092649581341e-08, "loss": 0.4607, "step": 8939 }, { "avg_step_time": 5.769710528730142, "epoch": 0.9534933333333333, "eta_time": 0.6987760529239839, "step": 8939 }, { "epoch": 0.9536, "grad_norm": 2.011605823562385, "learning_rate": 5.636198383634217e-08, "loss": 0.4892, "step": 8940 }, { "avg_step_time": 5.768634300039272, "epoch": 0.9536, "eta_time": 0.6970433112547453, "step": 8940 }, { "epoch": 0.9537066666666667, "grad_norm": 1.8010287523094803, "learning_rate": 5.610363128557727e-08, "loss": 0.4522, "step": 8941 }, { "avg_step_time": 5.727215355092829, "epoch": 0.9537066666666667, "eta_time": 0.6904476289195244, "step": 8941 }, { "epoch": 0.9538133333333333, "grad_norm": 1.775862882145547, "learning_rate": 5.584586887435739e-08, "loss": 0.4605, "step": 8942 }, { "avg_step_time": 5.727508296870222, "epoch": 0.9538133333333333, "eta_time": 0.6888919701513351, "step": 8942 }, { "epoch": 0.95392, "grad_norm": 1.8689784810699461, "learning_rate": 5.558869663345123e-08, "loss": 0.4463, "step": 8943 }, { "avg_step_time": 5.724649800194634, "epoch": 0.95392, "eta_time": 0.6869579760233561, "step": 8943 }, { "epoch": 0.9540266666666667, "grad_norm": 1.677946570695263, "learning_rate": 5.533211459355648e-08, "loss": 0.4661, "step": 8944 }, { "avg_step_time": 5.737081067730682, "epoch": 0.9540266666666667, "eta_time": 0.6868560944977568, "step": 8944 }, { "epoch": 0.9541333333333334, "grad_norm": 1.7745146831370258, "learning_rate": 5.507612278530083e-08, "loss": 0.4911, "step": 8945 }, { "avg_step_time": 5.739345047208998, "epoch": 0.9541333333333334, "eta_time": 0.6855328806388524, "step": 8945 }, { "epoch": 0.95424, "grad_norm": 0.6582795675769658, "learning_rate": 5.482072123924098e-08, "loss": 0.4385, "step": 8946 }, { "avg_step_time": 5.705028052281851, "epoch": 0.95424, "eta_time": 0.6798491762302539, "step": 8946 }, { "epoch": 0.9543466666666667, "grad_norm": 1.6454497599766564, "learning_rate": 5.4565909985864196e-08, "loss": 0.4004, "step": 8947 }, { "avg_step_time": 5.702807939413822, "epoch": 0.9543466666666667, "eta_time": 0.6780004994636434, "step": 8947 }, { "epoch": 0.9544533333333334, "grad_norm": 1.7173250260863835, "learning_rate": 5.431168905558559e-08, "loss": 0.5114, "step": 8948 }, { "avg_step_time": 5.6966132515608665, "epoch": 0.9544533333333334, "eta_time": 0.6756816273379139, "step": 8948 }, { "epoch": 0.95456, "grad_norm": 1.8715316995280955, "learning_rate": 5.405805847875256e-08, "loss": 0.4325, "step": 8949 }, { "avg_step_time": 5.698821994993422, "epoch": 0.95456, "eta_time": 0.6743606027408882, "step": 8949 }, { "epoch": 0.9546666666666667, "grad_norm": 0.6447551226449596, "learning_rate": 5.3805018285638664e-08, "loss": 0.4367, "step": 8950 }, { "avg_step_time": 5.714272161926886, "epoch": 0.9546666666666667, "eta_time": 0.674601574671924, "step": 8950 }, { "epoch": 0.9547733333333334, "grad_norm": 1.7933935792050189, "learning_rate": 5.3552568506448633e-08, "loss": 0.4126, "step": 8951 }, { "avg_step_time": 5.71503641388633, "epoch": 0.9547733333333334, "eta_time": 0.6731042887466122, "step": 8951 }, { "epoch": 0.95488, "grad_norm": 1.6483076796092626, "learning_rate": 5.330070917131724e-08, "loss": 0.4399, "step": 8952 }, { "avg_step_time": 5.714349082022002, "epoch": 0.95488, "eta_time": 0.6714360171375853, "step": 8952 }, { "epoch": 0.9549866666666667, "grad_norm": 1.7565640990491067, "learning_rate": 5.304944031030879e-08, "loss": 0.4314, "step": 8953 }, { "avg_step_time": 5.71597327126397, "epoch": 0.9549866666666667, "eta_time": 0.6700390890203877, "step": 8953 }, { "epoch": 0.9550933333333333, "grad_norm": 1.96671870642048, "learning_rate": 5.279876195341593e-08, "loss": 0.5107, "step": 8954 }, { "avg_step_time": 5.71682035320937, "epoch": 0.9550933333333333, "eta_time": 0.6685503801947624, "step": 8954 }, { "epoch": 0.9552, "grad_norm": 0.6465840217513836, "learning_rate": 5.2548674130561974e-08, "loss": 0.4365, "step": 8955 }, { "avg_step_time": 5.692532977672538, "epoch": 0.9552, "eta_time": 0.6641288473951295, "step": 8955 }, { "epoch": 0.9553066666666666, "grad_norm": 1.7294096356391435, "learning_rate": 5.229917687159802e-08, "loss": 0.4715, "step": 8956 }, { "avg_step_time": 5.683821497541485, "epoch": 0.9553066666666666, "eta_time": 0.661533668741634, "step": 8956 }, { "epoch": 0.9554133333333333, "grad_norm": 1.9948543800749317, "learning_rate": 5.205027020630693e-08, "loss": 0.5367, "step": 8957 }, { "avg_step_time": 5.682653831713127, "epoch": 0.9554133333333333, "eta_time": 0.6598192504600241, "step": 8957 }, { "epoch": 0.95552, "grad_norm": 2.2895805009749584, "learning_rate": 5.1801954164399925e-08, "loss": 0.5577, "step": 8958 }, { "avg_step_time": 5.678885486390856, "epoch": 0.95552, "eta_time": 0.6578042355069408, "step": 8958 }, { "epoch": 0.9556266666666666, "grad_norm": 2.026313171611619, "learning_rate": 5.155422877551774e-08, "loss": 0.5563, "step": 8959 }, { "avg_step_time": 5.680856550582732, "epoch": 0.9556266666666666, "eta_time": 0.6564545347340046, "step": 8959 }, { "epoch": 0.9557333333333333, "grad_norm": 1.6570709739149962, "learning_rate": 5.130709406923007e-08, "loss": 0.4354, "step": 8960 }, { "avg_step_time": 5.660839458908698, "epoch": 0.9557333333333333, "eta_time": 0.6525689931797527, "step": 8960 }, { "epoch": 0.95584, "grad_norm": 2.153089281236407, "learning_rate": 5.106055007503774e-08, "loss": 0.4194, "step": 8961 }, { "avg_step_time": 5.66159277973753, "epoch": 0.95584, "eta_time": 0.6510831696698159, "step": 8961 }, { "epoch": 0.9559466666666666, "grad_norm": 1.8929149758612096, "learning_rate": 5.081459682236889e-08, "loss": 0.4937, "step": 8962 }, { "avg_step_time": 5.667167757496689, "epoch": 0.9559466666666666, "eta_time": 0.650150078846148, "step": 8962 }, { "epoch": 0.9560533333333333, "grad_norm": 2.015208012149186, "learning_rate": 5.056923434058336e-08, "loss": 0.4734, "step": 8963 }, { "avg_step_time": 5.667306413554182, "epoch": 0.9560533333333333, "eta_time": 0.6485917339956452, "step": 8963 }, { "epoch": 0.95616, "grad_norm": 2.0610360965457133, "learning_rate": 5.0324462658969395e-08, "loss": 0.5352, "step": 8964 }, { "avg_step_time": 5.673173523912526, "epoch": 0.95616, "eta_time": 0.6476873106466801, "step": 8964 }, { "epoch": 0.9562666666666667, "grad_norm": 1.698390476488925, "learning_rate": 5.008028180674418e-08, "loss": 0.529, "step": 8965 }, { "avg_step_time": 5.6742627981937295, "epoch": 0.9562666666666667, "eta_time": 0.6462354853498414, "step": 8965 }, { "epoch": 0.9563733333333333, "grad_norm": 2.0600834385080384, "learning_rate": 4.983669181305495e-08, "loss": 0.4268, "step": 8966 }, { "avg_step_time": 5.690079992467707, "epoch": 0.9563733333333333, "eta_time": 0.6464563102553589, "step": 8966 }, { "epoch": 0.95648, "grad_norm": 1.648723357106334, "learning_rate": 4.959369270697789e-08, "loss": 0.4719, "step": 8967 }, { "avg_step_time": 5.689097021565293, "epoch": 0.95648, "eta_time": 0.6447643291107331, "step": 8967 }, { "epoch": 0.9565866666666667, "grad_norm": 1.852250554728268, "learning_rate": 4.935128451752091e-08, "loss": 0.4415, "step": 8968 }, { "avg_step_time": 5.715167014285772, "epoch": 0.9565866666666667, "eta_time": 0.6461313818928636, "step": 8968 }, { "epoch": 0.9566933333333333, "grad_norm": 1.6563252674296676, "learning_rate": 4.910946727361754e-08, "loss": 0.4396, "step": 8969 }, { "avg_step_time": 5.7147828930556175, "epoch": 0.9566933333333333, "eta_time": 0.6445005151612725, "step": 8969 }, { "epoch": 0.9568, "grad_norm": 1.8036775459220022, "learning_rate": 4.886824100413412e-08, "loss": 0.4596, "step": 8970 }, { "avg_step_time": 5.754713667763604, "epoch": 0.9568, "eta_time": 0.6474052876234054, "step": 8970 }, { "epoch": 0.9569066666666667, "grad_norm": 1.8936013763353532, "learning_rate": 4.86276057378654e-08, "loss": 0.5025, "step": 8971 }, { "avg_step_time": 5.7847905833311755, "epoch": 0.9569066666666667, "eta_time": 0.6491820543516097, "step": 8971 }, { "epoch": 0.9570133333333334, "grad_norm": 1.934856787055788, "learning_rate": 4.838756150353396e-08, "loss": 0.4646, "step": 8972 }, { "avg_step_time": 5.792292308325719, "epoch": 0.9570133333333334, "eta_time": 0.6484149445153514, "step": 8972 }, { "epoch": 0.95712, "grad_norm": 1.965658275905748, "learning_rate": 4.814810832979411e-08, "loss": 0.4534, "step": 8973 }, { "avg_step_time": 5.828627689920291, "epoch": 0.95712, "eta_time": 0.6508634253744324, "step": 8973 }, { "epoch": 0.9572266666666667, "grad_norm": 1.9728791631198919, "learning_rate": 4.790924624522908e-08, "loss": 0.5548, "step": 8974 }, { "avg_step_time": 5.814270932265003, "epoch": 0.9572266666666667, "eta_time": 0.6476451788439628, "step": 8974 }, { "epoch": 0.9573333333333334, "grad_norm": 1.8912767804068877, "learning_rate": 4.767097527835052e-08, "loss": 0.5329, "step": 8975 }, { "avg_step_time": 5.814278067964496, "epoch": 0.9573333333333334, "eta_time": 0.6460308964404996, "step": 8975 }, { "epoch": 0.95744, "grad_norm": 1.9783252297511489, "learning_rate": 4.743329545760122e-08, "loss": 0.437, "step": 8976 }, { "avg_step_time": 5.816880787261809, "epoch": 0.95744, "eta_time": 0.6447042872548505, "step": 8976 }, { "epoch": 0.9575466666666667, "grad_norm": 0.6265009805246851, "learning_rate": 4.719620681135073e-08, "loss": 0.4311, "step": 8977 }, { "avg_step_time": 5.780022317712957, "epoch": 0.9575466666666667, "eta_time": 0.6390135784582659, "step": 8977 }, { "epoch": 0.9576533333333334, "grad_norm": 2.016803457719436, "learning_rate": 4.695970936790084e-08, "loss": 0.4927, "step": 8978 }, { "avg_step_time": 5.799032076440676, "epoch": 0.9576533333333334, "eta_time": 0.6395043706519301, "step": 8978 }, { "epoch": 0.95776, "grad_norm": 1.790749033936049, "learning_rate": 4.67238031554812e-08, "loss": 0.4371, "step": 8979 }, { "avg_step_time": 5.796670162316524, "epoch": 0.95776, "eta_time": 0.6376337178548177, "step": 8979 }, { "epoch": 0.9578666666666666, "grad_norm": 1.8659196078682374, "learning_rate": 4.648848820225205e-08, "loss": 0.5243, "step": 8980 }, { "avg_step_time": 5.780766162005338, "epoch": 0.9578666666666666, "eta_time": 0.6342785094422523, "step": 8980 }, { "epoch": 0.9579733333333333, "grad_norm": 1.8685066332258586, "learning_rate": 4.625376453630148e-08, "loss": 0.4436, "step": 8981 }, { "avg_step_time": 5.7822118431630765, "epoch": 0.9579733333333333, "eta_time": 0.6328309628350701, "step": 8981 }, { "epoch": 0.95808, "grad_norm": 1.9451506645227115, "learning_rate": 4.6019632185647645e-08, "loss": 0.4929, "step": 8982 }, { "avg_step_time": 5.785417739791099, "epoch": 0.95808, "eta_time": 0.6315747699271951, "step": 8982 }, { "epoch": 0.9581866666666666, "grad_norm": 0.6208079783857194, "learning_rate": 4.578609117823873e-08, "loss": 0.4417, "step": 8983 }, { "avg_step_time": 5.758493375296545, "epoch": 0.9581866666666666, "eta_time": 0.6270359453100681, "step": 8983 }, { "epoch": 0.9582933333333333, "grad_norm": 1.795574625345524, "learning_rate": 4.555314154195245e-08, "loss": 0.4517, "step": 8984 }, { "avg_step_time": 5.792587612614487, "epoch": 0.9582933333333333, "eta_time": 0.6291393768145179, "step": 8984 }, { "epoch": 0.9584, "grad_norm": 1.730135365286105, "learning_rate": 4.532078330459433e-08, "loss": 0.441, "step": 8985 }, { "avg_step_time": 5.79052148202453, "epoch": 0.9584, "eta_time": 0.6273064938859907, "step": 8985 }, { "epoch": 0.9585066666666666, "grad_norm": 2.093555702112836, "learning_rate": 4.508901649390107e-08, "loss": 0.4468, "step": 8986 }, { "avg_step_time": 5.790593380879874, "epoch": 0.9585066666666666, "eta_time": 0.6257057847672974, "step": 8986 }, { "epoch": 0.9586133333333333, "grad_norm": 1.7769751343675995, "learning_rate": 4.4857841137537216e-08, "loss": 0.4426, "step": 8987 }, { "avg_step_time": 5.797912513366853, "epoch": 0.9586133333333333, "eta_time": 0.6248861264406498, "step": 8987 }, { "epoch": 0.95872, "grad_norm": 1.7552923574303767, "learning_rate": 4.4627257263098465e-08, "loss": 0.4432, "step": 8988 }, { "avg_step_time": 5.801315187203763, "epoch": 0.95872, "eta_time": 0.6236413826244046, "step": 8988 }, { "epoch": 0.9588266666666667, "grad_norm": 1.7887745749427357, "learning_rate": 4.439726489810836e-08, "loss": 0.4452, "step": 8989 }, { "avg_step_time": 5.807794125393183, "epoch": 0.9588266666666667, "eta_time": 0.6227245923338247, "step": 8989 }, { "epoch": 0.9589333333333333, "grad_norm": 1.8288951076095161, "learning_rate": 4.4167864070021605e-08, "loss": 0.4862, "step": 8990 }, { "avg_step_time": 5.779202251723318, "epoch": 0.9589333333333333, "eta_time": 0.6180535741426326, "step": 8990 }, { "epoch": 0.95904, "grad_norm": 2.0761344654409437, "learning_rate": 4.393905480621907e-08, "loss": 0.5491, "step": 8991 }, { "avg_step_time": 5.782531345733489, "epoch": 0.95904, "eta_time": 0.6168033435449054, "step": 8991 }, { "epoch": 0.9591466666666667, "grad_norm": 2.0693436576849025, "learning_rate": 4.371083713401503e-08, "loss": 0.4207, "step": 8992 }, { "avg_step_time": 5.769904389525905, "epoch": 0.9591466666666667, "eta_time": 0.6138537169967838, "step": 8992 }, { "epoch": 0.9592533333333333, "grad_norm": 1.8733214332396326, "learning_rate": 4.348321108065046e-08, "loss": 0.615, "step": 8993 }, { "avg_step_time": 5.772468684899686, "epoch": 0.9592533333333333, "eta_time": 0.6125230660088001, "step": 8993 }, { "epoch": 0.95936, "grad_norm": 1.9564490517272541, "learning_rate": 4.3256176673295846e-08, "loss": 0.4801, "step": 8994 }, { "avg_step_time": 5.7575518386532565, "epoch": 0.95936, "eta_time": 0.6093409029241363, "step": 8994 }, { "epoch": 0.9594666666666667, "grad_norm": 2.0229249445461037, "learning_rate": 4.302973393905341e-08, "loss": 0.4896, "step": 8995 }, { "avg_step_time": 5.757800167257136, "epoch": 0.9594666666666667, "eta_time": 0.6077677954326977, "step": 8995 }, { "epoch": 0.9595733333333333, "grad_norm": 1.7138191575705168, "learning_rate": 4.280388290495097e-08, "loss": 0.4694, "step": 8996 }, { "avg_step_time": 5.75625287161933, "epoch": 0.9595733333333333, "eta_time": 0.6060055106510351, "step": 8996 }, { "epoch": 0.95968, "grad_norm": 1.8374779589315993, "learning_rate": 4.2578623597949174e-08, "loss": 0.475, "step": 8997 }, { "avg_step_time": 5.787750468109593, "epoch": 0.95968, "eta_time": 0.6077137991515073, "step": 8997 }, { "epoch": 0.9597866666666667, "grad_norm": 1.8923316054402528, "learning_rate": 4.2353956044935974e-08, "loss": 0.4327, "step": 8998 }, { "avg_step_time": 5.787212711392027, "epoch": 0.9597866666666667, "eta_time": 0.606049775609665, "step": 8998 }, { "epoch": 0.9598933333333334, "grad_norm": 2.028654490625101, "learning_rate": 4.212988027272991e-08, "loss": 0.4714, "step": 8999 }, { "avg_step_time": 5.7830808331268, "epoch": 0.9598933333333334, "eta_time": 0.6040106647932436, "step": 8999 }, { "epoch": 0.96, "grad_norm": 1.5554947800359042, "learning_rate": 4.1906396308077356e-08, "loss": 0.4237, "step": 9000 }, { "avg_step_time": 5.828456156181566, "epoch": 0.96, "eta_time": 0.6071308496022465, "step": 9000 }, { "epoch": 0.9601066666666667, "grad_norm": 1.7901079133151419, "learning_rate": 4.1683504177655875e-08, "loss": 0.4787, "step": 9001 }, { "avg_step_time": 5.829258634586527, "epoch": 0.9601066666666667, "eta_time": 0.6055952025931558, "step": 9001 }, { "epoch": 0.9602133333333334, "grad_norm": 1.8433434407730978, "learning_rate": 4.146120390807085e-08, "loss": 0.5718, "step": 9002 }, { "avg_step_time": 5.829409869030268, "epoch": 0.9602133333333334, "eta_time": 0.6039916336523028, "step": 9002 }, { "epoch": 0.96032, "grad_norm": 1.8696137963633674, "learning_rate": 4.123949552585826e-08, "loss": 0.517, "step": 9003 }, { "avg_step_time": 5.830741364546497, "epoch": 0.96032, "eta_time": 0.6025099410031379, "step": 9003 }, { "epoch": 0.9604266666666667, "grad_norm": 1.8438926160446245, "learning_rate": 4.1018379057482517e-08, "loss": 0.4311, "step": 9004 }, { "avg_step_time": 5.868489865100745, "epoch": 0.9604266666666667, "eta_time": 0.6047804833201046, "step": 9004 }, { "epoch": 0.9605333333333334, "grad_norm": 1.990083818002506, "learning_rate": 4.079785452933749e-08, "loss": 0.4712, "step": 9005 }, { "avg_step_time": 5.870110661092431, "epoch": 0.9605333333333334, "eta_time": 0.6033169290567221, "step": 9005 }, { "epoch": 0.96064, "grad_norm": 1.8919226950631018, "learning_rate": 4.0577921967747126e-08, "loss": 0.4508, "step": 9006 }, { "avg_step_time": 5.868105693296953, "epoch": 0.96064, "eta_time": 0.6014808335629377, "step": 9006 }, { "epoch": 0.9607466666666666, "grad_norm": 1.8394040074093962, "learning_rate": 4.035858139896376e-08, "loss": 0.4131, "step": 9007 }, { "avg_step_time": 5.862254019939538, "epoch": 0.9607466666666666, "eta_time": 0.5992526331493749, "step": 9007 }, { "epoch": 0.9608533333333333, "grad_norm": 1.8675717358640485, "learning_rate": 4.0139832849169224e-08, "loss": 0.5053, "step": 9008 }, { "avg_step_time": 5.862893853524719, "epoch": 0.9608533333333333, "eta_time": 0.5976894567343255, "step": 9008 }, { "epoch": 0.96096, "grad_norm": 1.823957366569987, "learning_rate": 3.9921676344475966e-08, "loss": 0.5181, "step": 9009 }, { "avg_step_time": 5.860228027960266, "epoch": 0.96096, "eta_time": 0.5957898495092938, "step": 9009 }, { "epoch": 0.9610666666666666, "grad_norm": 1.5457380668076819, "learning_rate": 3.970411191092372e-08, "loss": 0.4671, "step": 9010 }, { "avg_step_time": 5.859461266585071, "epoch": 0.9610666666666666, "eta_time": 0.594084267306542, "step": 9010 }, { "epoch": 0.9611733333333333, "grad_norm": 1.9791242703108127, "learning_rate": 3.94871395744828e-08, "loss": 0.4247, "step": 9011 }, { "avg_step_time": 5.857421773852724, "epoch": 0.9611733333333333, "eta_time": 0.5922504238006644, "step": 9011 }, { "epoch": 0.96128, "grad_norm": 0.6519423144276948, "learning_rate": 3.927075936105307e-08, "loss": 0.4414, "step": 9012 }, { "avg_step_time": 5.8201224105526705, "epoch": 0.96128, "eta_time": 0.586862343064061, "step": 9012 }, { "epoch": 0.9613866666666666, "grad_norm": 1.8453271716118256, "learning_rate": 3.905497129646274e-08, "loss": 0.5107, "step": 9013 }, { "avg_step_time": 5.8207900211064505, "epoch": 0.9613866666666666, "eta_time": 0.5853127743445931, "step": 9013 }, { "epoch": 0.9614933333333333, "grad_norm": 0.6343882865715623, "learning_rate": 3.88397754064701e-08, "loss": 0.4293, "step": 9014 }, { "avg_step_time": 5.805455988103693, "epoch": 0.9614933333333333, "eta_time": 0.5821582254737315, "step": 9014 }, { "epoch": 0.9616, "grad_norm": 1.6145332930963292, "learning_rate": 3.8625171716762385e-08, "loss": 0.4186, "step": 9015 }, { "avg_step_time": 5.806094848748409, "epoch": 0.9616, "eta_time": 0.580609484874841, "step": 9015 }, { "epoch": 0.9617066666666667, "grad_norm": 1.8217723914892177, "learning_rate": 3.841116025295633e-08, "loss": 0.4308, "step": 9016 }, { "avg_step_time": 5.80727625615669, "epoch": 0.9617066666666667, "eta_time": 0.5791144933222921, "step": 9016 }, { "epoch": 0.9618133333333333, "grad_norm": 1.7634380297327223, "learning_rate": 3.819774104059759e-08, "loss": 0.4109, "step": 9017 }, { "avg_step_time": 5.8082486234530055, "epoch": 0.9618133333333333, "eta_time": 0.5775980575544933, "step": 9017 }, { "epoch": 0.96192, "grad_norm": 1.8060793846228322, "learning_rate": 3.7984914105162474e-08, "loss": 0.4822, "step": 9018 }, { "avg_step_time": 5.782038621228151, "epoch": 0.96192, "eta_time": 0.5733854966051251, "step": 9018 }, { "epoch": 0.9620266666666667, "grad_norm": 1.9539116472216385, "learning_rate": 3.7772679472053986e-08, "loss": 0.4494, "step": 9019 }, { "avg_step_time": 5.818497361558856, "epoch": 0.9620266666666667, "eta_time": 0.5753847390874869, "step": 9019 }, { "epoch": 0.9621333333333333, "grad_norm": 1.8285055295560428, "learning_rate": 3.756103716660742e-08, "loss": 0.5482, "step": 9020 }, { "avg_step_time": 5.82452311901131, "epoch": 0.9621333333333333, "eta_time": 0.5743626964580598, "step": 9020 }, { "epoch": 0.96224, "grad_norm": 2.099161227874057, "learning_rate": 3.7349987214084784e-08, "loss": 0.4863, "step": 9021 }, { "avg_step_time": 5.80152274141408, "epoch": 0.96224, "eta_time": 0.5704830695723845, "step": 9021 }, { "epoch": 0.9623466666666667, "grad_norm": 1.8173967871482304, "learning_rate": 3.713952963967982e-08, "loss": 0.4482, "step": 9022 }, { "avg_step_time": 5.834080956198952, "epoch": 0.9623466666666667, "eta_time": 0.5720640493161749, "step": 9022 }, { "epoch": 0.9624533333333334, "grad_norm": 1.6787244437597475, "learning_rate": 3.692966446851298e-08, "loss": 0.4856, "step": 9023 }, { "avg_step_time": 5.801470498846035, "epoch": 0.9624533333333334, "eta_time": 0.5672548932205012, "step": 9023 }, { "epoch": 0.96256, "grad_norm": 1.9584024149466488, "learning_rate": 3.672039172563646e-08, "loss": 0.4975, "step": 9024 }, { "avg_step_time": 5.79739980986624, "epoch": 0.96256, "eta_time": 0.5652464814619584, "step": 9024 }, { "epoch": 0.9626666666666667, "grad_norm": 1.8459828689365438, "learning_rate": 3.651171143602972e-08, "loss": 0.4436, "step": 9025 }, { "avg_step_time": 5.799102229301376, "epoch": 0.9626666666666667, "eta_time": 0.5638016056265226, "step": 9025 }, { "epoch": 0.9627733333333334, "grad_norm": 2.1721321920948107, "learning_rate": 3.630362362460227e-08, "loss": 0.495, "step": 9026 }, { "avg_step_time": 5.798630726457846, "epoch": 0.9627733333333334, "eta_time": 0.5621450343149412, "step": 9026 }, { "epoch": 0.96288, "grad_norm": 0.6410244001682586, "learning_rate": 3.609612831619369e-08, "loss": 0.4308, "step": 9027 }, { "avg_step_time": 5.768418104961665, "epoch": 0.96288, "eta_time": 0.5576137501462942, "step": 9027 }, { "epoch": 0.9629866666666667, "grad_norm": 2.0131762326761113, "learning_rate": 3.5889225535571945e-08, "loss": 0.5619, "step": 9028 }, { "avg_step_time": 5.766297371700556, "epoch": 0.9629866666666667, "eta_time": 0.555806996661137, "step": 9028 }, { "epoch": 0.9630933333333334, "grad_norm": 2.027048127070497, "learning_rate": 3.5682915307434505e-08, "loss": 0.4508, "step": 9029 }, { "avg_step_time": 5.7586461895644065, "epoch": 0.9630933333333334, "eta_time": 0.5534698837748012, "step": 9029 }, { "epoch": 0.9632, "grad_norm": 1.9831124795044415, "learning_rate": 3.547719765640778e-08, "loss": 0.4471, "step": 9030 }, { "avg_step_time": 5.757823264960087, "epoch": 0.9632, "eta_time": 0.5517913962253417, "step": 9030 }, { "epoch": 0.9633066666666666, "grad_norm": 1.7557432805106505, "learning_rate": 3.527207260704713e-08, "loss": 0.5033, "step": 9031 }, { "avg_step_time": 5.771434280607435, "epoch": 0.9633066666666666, "eta_time": 0.5514926090358216, "step": 9031 }, { "epoch": 0.9634133333333333, "grad_norm": 2.0422140904169495, "learning_rate": 3.5067540183839064e-08, "loss": 0.4681, "step": 9032 }, { "avg_step_time": 5.768866112737944, "epoch": 0.9634133333333333, "eta_time": 0.5496447435191986, "step": 9032 }, { "epoch": 0.96352, "grad_norm": 1.7570570147596931, "learning_rate": 3.4863600411197404e-08, "loss": 0.5075, "step": 9033 }, { "avg_step_time": 5.7860912217034235, "epoch": 0.96352, "eta_time": 0.5496786660618252, "step": 9033 }, { "epoch": 0.9636266666666666, "grad_norm": 1.7719053533351885, "learning_rate": 3.4660253313466564e-08, "loss": 0.4643, "step": 9034 }, { "avg_step_time": 5.7690718198063395, "epoch": 0.9636266666666666, "eta_time": 0.546459302931656, "step": 9034 }, { "epoch": 0.9637333333333333, "grad_norm": 0.6276659081777077, "learning_rate": 3.445749891491823e-08, "loss": 0.4273, "step": 9035 }, { "avg_step_time": 5.734025538569749, "epoch": 0.9637333333333333, "eta_time": 0.5415468564204763, "step": 9035 }, { "epoch": 0.96384, "grad_norm": 1.8182611877576897, "learning_rate": 3.425533723975527e-08, "loss": 0.424, "step": 9036 }, { "avg_step_time": 5.731007616929333, "epoch": 0.96384, "eta_time": 0.5396698839275123, "step": 9036 }, { "epoch": 0.9639466666666666, "grad_norm": 0.6494551875997067, "learning_rate": 3.405376831211005e-08, "loss": 0.4596, "step": 9037 }, { "avg_step_time": 5.696058437077686, "epoch": 0.9639466666666666, "eta_time": 0.5347965977034049, "step": 9037 }, { "epoch": 0.9640533333333333, "grad_norm": 1.853489667972979, "learning_rate": 3.3852792156041646e-08, "loss": 0.4952, "step": 9038 }, { "avg_step_time": 5.696208479428532, "epoch": 0.9640533333333333, "eta_time": 0.5332284048798376, "step": 9038 }, { "epoch": 0.96416, "grad_norm": 0.6633459174911238, "learning_rate": 3.365240879554144e-08, "loss": 0.4617, "step": 9039 }, { "avg_step_time": 5.660939948727386, "epoch": 0.96416, "eta_time": 0.5283543952145561, "step": 9039 }, { "epoch": 0.9642666666666667, "grad_norm": 1.9051593694838993, "learning_rate": 3.345261825452806e-08, "loss": 0.4919, "step": 9040 }, { "avg_step_time": 5.664591447271482, "epoch": 0.9642666666666667, "eta_time": 0.5271217041210963, "step": 9040 }, { "epoch": 0.9643733333333333, "grad_norm": 0.6562475301529724, "learning_rate": 3.325342055684966e-08, "loss": 0.435, "step": 9041 }, { "avg_step_time": 5.6532399630305745, "epoch": 0.9643733333333333, "eta_time": 0.5244950410145033, "step": 9041 }, { "epoch": 0.96448, "grad_norm": 2.2003512086047414, "learning_rate": 3.3054815726285e-08, "loss": 0.5171, "step": 9042 }, { "avg_step_time": 5.654323917446715, "epoch": 0.96448, "eta_time": 0.5230249623638211, "step": 9042 }, { "epoch": 0.9645866666666667, "grad_norm": 2.0409943950026834, "learning_rate": 3.2856803786540105e-08, "loss": 0.5911, "step": 9043 }, { "avg_step_time": 5.651283880676886, "epoch": 0.9645866666666667, "eta_time": 0.5211739578846462, "step": 9043 }, { "epoch": 0.9646933333333333, "grad_norm": 1.7264012752560622, "learning_rate": 3.265938476125108e-08, "loss": 0.4074, "step": 9044 }, { "avg_step_time": 5.650207832606152, "epoch": 0.9646933333333333, "eta_time": 0.5195052201646212, "step": 9044 }, { "epoch": 0.9648, "grad_norm": 1.980947093076151, "learning_rate": 3.2462558673983516e-08, "loss": 0.5448, "step": 9045 }, { "avg_step_time": 5.691453794036248, "epoch": 0.9648, "eta_time": 0.5217165977866561, "step": 9045 }, { "epoch": 0.9649066666666667, "grad_norm": 1.6539927975734832, "learning_rate": 3.22663255482325e-08, "loss": 0.5064, "step": 9046 }, { "avg_step_time": 5.692240570530747, "epoch": 0.9649066666666667, "eta_time": 0.52020754102906, "step": 9046 }, { "epoch": 0.9650133333333333, "grad_norm": 1.9137563157191686, "learning_rate": 3.2070685407420974e-08, "loss": 0.4847, "step": 9047 }, { "avg_step_time": 5.690618640244609, "epoch": 0.9650133333333333, "eta_time": 0.5184785872222866, "step": 9047 }, { "epoch": 0.96512, "grad_norm": 1.8848279571616362, "learning_rate": 3.1875638274902476e-08, "loss": 0.4711, "step": 9048 }, { "avg_step_time": 5.688332439673068, "epoch": 0.96512, "eta_time": 0.516690196603637, "step": 9048 }, { "epoch": 0.9652266666666667, "grad_norm": 1.9283017953302952, "learning_rate": 3.168118417395949e-08, "loss": 0.5189, "step": 9049 }, { "avg_step_time": 5.704935993811096, "epoch": 0.9652266666666667, "eta_time": 0.5166136483284494, "step": 9049 }, { "epoch": 0.9653333333333334, "grad_norm": 2.0196960851506267, "learning_rate": 3.148732312780234e-08, "loss": 0.4829, "step": 9050 }, { "avg_step_time": 5.704020584472502, "epoch": 0.9653333333333334, "eta_time": 0.5149463027648786, "step": 9050 }, { "epoch": 0.96544, "grad_norm": 1.5708165774053284, "learning_rate": 3.129405515957307e-08, "loss": 0.5037, "step": 9051 }, { "avg_step_time": 5.705350158190487, "epoch": 0.96544, "eta_time": 0.5134815142371438, "step": 9051 }, { "epoch": 0.9655466666666667, "grad_norm": 1.7735159497136628, "learning_rate": 3.1101380292341e-08, "loss": 0.5418, "step": 9052 }, { "avg_step_time": 5.707794849318687, "epoch": 0.9655466666666667, "eta_time": 0.5121160378694266, "step": 9052 }, { "epoch": 0.9656533333333334, "grad_norm": 0.6181737083587299, "learning_rate": 3.090929854910552e-08, "loss": 0.3974, "step": 9053 }, { "avg_step_time": 5.675149671959154, "epoch": 0.9656533333333334, "eta_time": 0.5076106095474577, "step": 9053 }, { "epoch": 0.96576, "grad_norm": 1.8598863236880296, "learning_rate": 3.071780995279439e-08, "loss": 0.4855, "step": 9054 }, { "avg_step_time": 5.70808052294182, "epoch": 0.96576, "eta_time": 0.5089705132956457, "step": 9054 }, { "epoch": 0.9658666666666667, "grad_norm": 1.874254483501557, "learning_rate": 3.0526914526264884e-08, "loss": 0.4815, "step": 9055 }, { "avg_step_time": 5.710217097792962, "epoch": 0.9658666666666667, "eta_time": 0.5075748531371522, "step": 9055 }, { "epoch": 0.9659733333333334, "grad_norm": 1.8117843291084965, "learning_rate": 3.033661229230434e-08, "loss": 0.5656, "step": 9056 }, { "avg_step_time": 5.707003718674785, "epoch": 0.9659733333333334, "eta_time": 0.5057039406270156, "step": 9056 }, { "epoch": 0.96608, "grad_norm": 1.7368999711785307, "learning_rate": 3.014690327362846e-08, "loss": 0.4459, "step": 9057 }, { "avg_step_time": 5.71030328972171, "epoch": 0.96608, "eta_time": 0.5044101239254177, "step": 9057 }, { "epoch": 0.9661866666666666, "grad_norm": 1.7643109904433696, "learning_rate": 2.9957787492882474e-08, "loss": 0.4789, "step": 9058 }, { "avg_step_time": 5.706573734379778, "epoch": 0.9661866666666666, "eta_time": 0.5024955204995527, "step": 9058 }, { "epoch": 0.9662933333333333, "grad_norm": 0.6230718613068977, "learning_rate": 2.9769264972639435e-08, "loss": 0.4322, "step": 9059 }, { "avg_step_time": 5.697479067426739, "epoch": 0.9662933333333333, "eta_time": 0.500112051474125, "step": 9059 }, { "epoch": 0.9664, "grad_norm": 2.0837403884662593, "learning_rate": 2.9581335735404672e-08, "loss": 0.5272, "step": 9060 }, { "avg_step_time": 5.70266308928981, "epoch": 0.9664, "eta_time": 0.49898302031285835, "step": 9060 }, { "epoch": 0.9665066666666666, "grad_norm": 1.8172886399074561, "learning_rate": 2.939399980360913e-08, "loss": 0.4351, "step": 9061 }, { "avg_step_time": 5.702020522319909, "epoch": 0.9665066666666666, "eta_time": 0.49734290111345875, "step": 9061 }, { "epoch": 0.9666133333333333, "grad_norm": 2.228746343825319, "learning_rate": 2.9207257199616033e-08, "loss": 0.5062, "step": 9062 }, { "avg_step_time": 5.705083598994245, "epoch": 0.9666133333333333, "eta_time": 0.49602532402366634, "step": 9062 }, { "epoch": 0.96672, "grad_norm": 3.473058886990661, "learning_rate": 2.9021107945714777e-08, "loss": 0.4494, "step": 9063 }, { "avg_step_time": 5.70038875184878, "epoch": 0.96672, "eta_time": 0.4940336918268943, "step": 9063 }, { "epoch": 0.9668266666666666, "grad_norm": 1.706575647864, "learning_rate": 2.883555206412647e-08, "loss": 0.4374, "step": 9064 }, { "avg_step_time": 5.70140056417446, "epoch": 0.9668266666666666, "eta_time": 0.4925376598495158, "step": 9064 }, { "epoch": 0.9669333333333333, "grad_norm": 0.6155722716274871, "learning_rate": 2.8650589577000066e-08, "loss": 0.4088, "step": 9065 }, { "avg_step_time": 5.6354314727012556, "epoch": 0.9669333333333333, "eta_time": 0.4852732657048303, "step": 9065 }, { "epoch": 0.96704, "grad_norm": 1.9427425231530233, "learning_rate": 2.8466220506414565e-08, "loss": 0.5, "step": 9066 }, { "avg_step_time": 5.638682904869619, "epoch": 0.96704, "eta_time": 0.48398694933464237, "step": 9066 }, { "epoch": 0.9671466666666667, "grad_norm": 1.9265218610290669, "learning_rate": 2.828244487437737e-08, "loss": 0.4798, "step": 9067 }, { "avg_step_time": 5.640161849031545, "epoch": 0.9671466666666667, "eta_time": 0.4825471804171433, "step": 9067 }, { "epoch": 0.9672533333333333, "grad_norm": 1.7485233930483939, "learning_rate": 2.8099262702824814e-08, "loss": 0.3927, "step": 9068 }, { "avg_step_time": 5.63825116976343, "epoch": 0.9672533333333333, "eta_time": 0.48081753031038144, "step": 9068 }, { "epoch": 0.96736, "grad_norm": 1.6485558146502344, "learning_rate": 2.79166740136233e-08, "loss": 0.3969, "step": 9069 }, { "avg_step_time": 5.647050070040153, "epoch": 0.96736, "eta_time": 0.47999925595341303, "step": 9069 }, { "epoch": 0.9674666666666667, "grad_norm": 1.7613939946668415, "learning_rate": 2.773467882856762e-08, "loss": 0.4322, "step": 9070 }, { "avg_step_time": 5.655306071946115, "epoch": 0.9674666666666667, "eta_time": 0.4791300977621014, "step": 9070 }, { "epoch": 0.9675733333333333, "grad_norm": 1.913383437470053, "learning_rate": 2.755327716938261e-08, "loss": 0.5364, "step": 9071 }, { "avg_step_time": 5.650488383842237, "epoch": 0.9675733333333333, "eta_time": 0.4771523524133445, "step": 9071 }, { "epoch": 0.96768, "grad_norm": 1.90238709774815, "learning_rate": 2.7372469057721506e-08, "loss": 0.5688, "step": 9072 }, { "avg_step_time": 5.649493513685284, "epoch": 0.96768, "eta_time": 0.47549903740184474, "step": 9072 }, { "epoch": 0.9677866666666667, "grad_norm": 2.0189901946476305, "learning_rate": 2.7192254515166495e-08, "loss": 0.4393, "step": 9073 }, { "avg_step_time": 5.65186254665105, "epoch": 0.9677866666666667, "eta_time": 0.47412846919128254, "step": 9073 }, { "epoch": 0.9678933333333334, "grad_norm": 1.9194761185316926, "learning_rate": 2.7012633563229808e-08, "loss": 0.4564, "step": 9074 }, { "avg_step_time": 5.651685298091233, "epoch": 0.9678933333333334, "eta_time": 0.4725436874237392, "step": 9074 }, { "epoch": 0.968, "grad_norm": 1.9746790486915484, "learning_rate": 2.6833606223351515e-08, "loss": 0.451, "step": 9075 }, { "avg_step_time": 5.629696082587194, "epoch": 0.968, "eta_time": 0.46914134021559944, "step": 9075 }, { "epoch": 0.9681066666666667, "grad_norm": 1.9881845107890943, "learning_rate": 2.6655172516902304e-08, "loss": 0.5736, "step": 9076 }, { "avg_step_time": 5.672308577431573, "epoch": 0.9681066666666667, "eta_time": 0.4711167401811223, "step": 9076 }, { "epoch": 0.9682133333333334, "grad_norm": 1.9022083278974107, "learning_rate": 2.647733246518125e-08, "loss": 0.4875, "step": 9077 }, { "avg_step_time": 5.650884055128001, "epoch": 0.9682133333333334, "eta_time": 0.46776762456337345, "step": 9077 }, { "epoch": 0.96832, "grad_norm": 2.0331158116768844, "learning_rate": 2.6300086089416366e-08, "loss": 0.508, "step": 9078 }, { "avg_step_time": 5.683741687524198, "epoch": 0.96832, "eta_time": 0.46890868922074636, "step": 9078 }, { "epoch": 0.9684266666666667, "grad_norm": 1.8119412250715627, "learning_rate": 2.612343341076573e-08, "loss": 0.4286, "step": 9079 }, { "avg_step_time": 5.684153007738518, "epoch": 0.9684266666666667, "eta_time": 0.46736369174738923, "step": 9079 }, { "epoch": 0.9685333333333334, "grad_norm": 2.104957429718217, "learning_rate": 2.5947374450315254e-08, "loss": 0.4581, "step": 9080 }, { "avg_step_time": 5.685184406511711, "epoch": 0.9685333333333334, "eta_time": 0.46586927775582077, "step": 9080 }, { "epoch": 0.96864, "grad_norm": 1.8544375316852435, "learning_rate": 2.577190922908035e-08, "loss": 0.5769, "step": 9081 }, { "avg_step_time": 5.684989683555834, "epoch": 0.96864, "eta_time": 0.46427415749039314, "step": 9081 }, { "epoch": 0.9687466666666666, "grad_norm": 2.22300327437617, "learning_rate": 2.559703776800704e-08, "loss": 0.532, "step": 9082 }, { "avg_step_time": 5.715543376074897, "epoch": 0.9687466666666666, "eta_time": 0.46518172477498465, "step": 9082 }, { "epoch": 0.9688533333333333, "grad_norm": 2.004841619009467, "learning_rate": 2.542276008796807e-08, "loss": 0.5189, "step": 9083 }, { "avg_step_time": 5.708962705400255, "epoch": 0.9688533333333333, "eta_time": 0.4630603083269096, "step": 9083 }, { "epoch": 0.96896, "grad_norm": 1.8850178493161895, "learning_rate": 2.5249076209767353e-08, "loss": 0.4375, "step": 9084 }, { "avg_step_time": 5.708670377731323, "epoch": 0.96896, "eta_time": 0.46145085553328197, "step": 9084 }, { "epoch": 0.9690666666666666, "grad_norm": 1.6884201356024977, "learning_rate": 2.507598615413609e-08, "loss": 0.5301, "step": 9085 }, { "avg_step_time": 5.7097399596012, "epoch": 0.9690666666666666, "eta_time": 0.45995127452343, "step": 9085 }, { "epoch": 0.9691733333333333, "grad_norm": 1.7573674908764636, "learning_rate": 2.490348994173608e-08, "loss": 0.4368, "step": 9086 }, { "avg_step_time": 5.698059481803817, "epoch": 0.9691733333333333, "eta_time": 0.4574275528448064, "step": 9086 }, { "epoch": 0.96928, "grad_norm": 2.101125559007809, "learning_rate": 2.473158759315808e-08, "loss": 0.5526, "step": 9087 }, { "avg_step_time": 5.694703788468332, "epoch": 0.96928, "eta_time": 0.45557630307746655, "step": 9087 }, { "epoch": 0.9693866666666666, "grad_norm": 1.9934865679277554, "learning_rate": 2.4560279128921226e-08, "loss": 0.5636, "step": 9088 }, { "avg_step_time": 5.695128929735434, "epoch": 0.9693866666666666, "eta_time": 0.45402833412057486, "step": 9088 }, { "epoch": 0.9694933333333333, "grad_norm": 1.8935871754885396, "learning_rate": 2.4389564569474166e-08, "loss": 0.4791, "step": 9089 }, { "avg_step_time": 5.693399306499597, "epoch": 0.9694933333333333, "eta_time": 0.45230894490524576, "step": 9089 }, { "epoch": 0.9696, "grad_norm": 1.9601790945945408, "learning_rate": 2.421944393519504e-08, "loss": 0.4498, "step": 9090 }, { "avg_step_time": 5.688761858024982, "epoch": 0.9696, "eta_time": 0.45036031376031105, "step": 9090 }, { "epoch": 0.9697066666666667, "grad_norm": 1.7721122936597804, "learning_rate": 2.404991724638983e-08, "loss": 0.4098, "step": 9091 }, { "avg_step_time": 5.6941515532406894, "epoch": 0.9697066666666667, "eta_time": 0.44920528920009883, "step": 9091 }, { "epoch": 0.9698133333333333, "grad_norm": 1.9738859821328836, "learning_rate": 2.3880984523295124e-08, "loss": 0.5259, "step": 9092 }, { "avg_step_time": 5.695420310954855, "epoch": 0.9698133333333333, "eta_time": 0.4477233188889511, "step": 9092 }, { "epoch": 0.96992, "grad_norm": 1.753253638443278, "learning_rate": 2.3712645786075905e-08, "loss": 0.4723, "step": 9093 }, { "avg_step_time": 5.696881472462356, "epoch": 0.96992, "eta_time": 0.44625571534288455, "step": 9093 }, { "epoch": 0.9700266666666667, "grad_norm": 1.7718826682184428, "learning_rate": 2.35449010548261e-08, "loss": 0.519, "step": 9094 }, { "avg_step_time": 5.6976820989088575, "epoch": 0.9700266666666667, "eta_time": 0.4447357416092747, "step": 9094 }, { "epoch": 0.9701333333333333, "grad_norm": 1.9904342474731394, "learning_rate": 2.337775034956913e-08, "loss": 0.5335, "step": 9095 }, { "avg_step_time": 5.699160852817574, "epoch": 0.9701333333333333, "eta_time": 0.44326806633025573, "step": 9095 }, { "epoch": 0.97024, "grad_norm": 1.8364158043128458, "learning_rate": 2.3211193690257373e-08, "loss": 0.5069, "step": 9096 }, { "avg_step_time": 5.6866744985484114, "epoch": 0.97024, "eta_time": 0.44071727363750185, "step": 9096 }, { "epoch": 0.9703466666666667, "grad_norm": 2.0662999177047614, "learning_rate": 2.304523109677159e-08, "loss": 0.5416, "step": 9097 }, { "avg_step_time": 5.807447840469052, "epoch": 0.9703466666666667, "eta_time": 0.4484640276806657, "step": 9097 }, { "epoch": 0.9704533333333333, "grad_norm": 1.9611191503059477, "learning_rate": 2.2879862588923717e-08, "loss": 0.5572, "step": 9098 }, { "avg_step_time": 5.819551915833444, "epoch": 0.9704533333333333, "eta_time": 0.44778218907940665, "step": 9098 }, { "epoch": 0.97056, "grad_norm": 1.7484680545114235, "learning_rate": 2.271508818645185e-08, "loss": 0.5277, "step": 9099 }, { "avg_step_time": 5.8104772808575875, "epoch": 0.97056, "eta_time": 0.4454699248657484, "step": 9099 }, { "epoch": 0.9706666666666667, "grad_norm": 2.0579048578840733, "learning_rate": 2.2550907909025255e-08, "loss": 0.5292, "step": 9100 }, { "avg_step_time": 5.81557578992362, "epoch": 0.9706666666666667, "eta_time": 0.44424537284138765, "step": 9100 }, { "epoch": 0.9707733333333334, "grad_norm": 1.725561813495525, "learning_rate": 2.2387321776242143e-08, "loss": 0.4015, "step": 9101 }, { "avg_step_time": 5.826632270909319, "epoch": 0.9707733333333334, "eta_time": 0.44347145617476486, "step": 9101 }, { "epoch": 0.97088, "grad_norm": 1.7284777932597406, "learning_rate": 2.222432980762912e-08, "loss": 0.4986, "step": 9102 }, { "avg_step_time": 5.827557366303723, "epoch": 0.97088, "eta_time": 0.44192310027803233, "step": 9102 }, { "epoch": 0.9709866666666667, "grad_norm": 1.9018524847281753, "learning_rate": 2.2061932022641175e-08, "loss": 0.4924, "step": 9103 }, { "avg_step_time": 5.8266408949187305, "epoch": 0.9709866666666667, "eta_time": 0.44023508983830406, "step": 9103 }, { "epoch": 0.9710933333333334, "grad_norm": 0.6554674080228784, "learning_rate": 2.1900128440663913e-08, "loss": 0.4224, "step": 9104 }, { "avg_step_time": 5.789513575910318, "epoch": 0.9710933333333334, "eta_time": 0.43582171640880446, "step": 9104 }, { "epoch": 0.9712, "grad_norm": 1.911039491888803, "learning_rate": 2.1738919081012446e-08, "loss": 0.553, "step": 9105 }, { "avg_step_time": 5.790171013938056, "epoch": 0.9712, "eta_time": 0.4342628260453542, "step": 9105 }, { "epoch": 0.9713066666666667, "grad_norm": 0.65289835896424, "learning_rate": 2.157830396292804e-08, "loss": 0.4253, "step": 9106 }, { "avg_step_time": 5.7561756239997015, "epoch": 0.9713066666666667, "eta_time": 0.43011423412664435, "step": 9106 }, { "epoch": 0.9714133333333334, "grad_norm": 1.7326759330962387, "learning_rate": 2.1418283105584246e-08, "loss": 0.4508, "step": 9107 }, { "avg_step_time": 5.759001796895808, "epoch": 0.9714133333333334, "eta_time": 0.42872568932446564, "step": 9107 }, { "epoch": 0.97152, "grad_norm": 2.518437949824636, "learning_rate": 2.1258856528081906e-08, "loss": 0.39, "step": 9108 }, { "avg_step_time": 5.756867211274426, "epoch": 0.97152, "eta_time": 0.4269676515028533, "step": 9108 }, { "epoch": 0.9716266666666666, "grad_norm": 1.8184084965997571, "learning_rate": 2.1100024249451347e-08, "loss": 0.478, "step": 9109 }, { "avg_step_time": 5.75474939683471, "epoch": 0.9716266666666666, "eta_time": 0.42521203876612024, "step": 9109 }, { "epoch": 0.9717333333333333, "grad_norm": 1.7792282016482595, "learning_rate": 2.094178628865129e-08, "loss": 0.4525, "step": 9110 }, { "avg_step_time": 5.75506436945212, "epoch": 0.9717333333333333, "eta_time": 0.42363668275133665, "step": 9110 }, { "epoch": 0.97184, "grad_norm": 1.9236056070060812, "learning_rate": 2.0784142664571626e-08, "loss": 0.4672, "step": 9111 }, { "avg_step_time": 5.790112883153588, "epoch": 0.97184, "eta_time": 0.42460827809792984, "step": 9111 }, { "epoch": 0.9719466666666666, "grad_norm": 0.6227386740429594, "learning_rate": 2.0627093396028418e-08, "loss": 0.4256, "step": 9112 }, { "avg_step_time": 5.757276462786125, "epoch": 0.9719466666666666, "eta_time": 0.42060103047576414, "step": 9112 }, { "epoch": 0.9720533333333333, "grad_norm": 0.6650418281392679, "learning_rate": 2.047063850176889e-08, "loss": 0.4794, "step": 9113 }, { "avg_step_time": 5.734489703419233, "epoch": 0.9720533333333333, "eta_time": 0.4173434173043998, "step": 9113 }, { "epoch": 0.97216, "grad_norm": 1.8287601829983406, "learning_rate": 2.031477800046866e-08, "loss": 0.5755, "step": 9114 }, { "avg_step_time": 5.733682622813215, "epoch": 0.97216, "eta_time": 0.4156919901539581, "step": 9114 }, { "epoch": 0.9722666666666666, "grad_norm": 2.1067736959422754, "learning_rate": 2.015951191073229e-08, "loss": 0.4805, "step": 9115 }, { "avg_step_time": 5.735045401736944, "epoch": 0.9722666666666666, "eta_time": 0.41419772345877925, "step": 9115 }, { "epoch": 0.9723733333333333, "grad_norm": 0.6340301387952495, "learning_rate": 2.0004840251093284e-08, "loss": 0.4452, "step": 9116 }, { "avg_step_time": 5.722753529596811, "epoch": 0.9723733333333333, "eta_time": 0.4117203233793261, "step": 9116 }, { "epoch": 0.97248, "grad_norm": 1.9900788927729975, "learning_rate": 1.9850763040014654e-08, "loss": 0.512, "step": 9117 }, { "avg_step_time": 5.735654286663942, "epoch": 0.97248, "eta_time": 0.4110552238775825, "step": 9117 }, { "epoch": 0.9725866666666667, "grad_norm": 1.9647181208800109, "learning_rate": 1.9697280295888356e-08, "loss": 0.466, "step": 9118 }, { "avg_step_time": 5.733721617496375, "epoch": 0.9725866666666667, "eta_time": 0.409324015471269, "step": 9118 }, { "epoch": 0.9726933333333333, "grad_norm": 1.8605381792829876, "learning_rate": 1.9544392037034175e-08, "loss": 0.523, "step": 9119 }, { "avg_step_time": 5.729382050157797, "epoch": 0.9726933333333333, "eta_time": 0.40742272356677667, "step": 9119 }, { "epoch": 0.9728, "grad_norm": 1.8552675587042773, "learning_rate": 1.939209828170363e-08, "loss": 0.4672, "step": 9120 }, { "avg_step_time": 5.726117008864278, "epoch": 0.9728, "eta_time": 0.40559995479455296, "step": 9120 }, { "epoch": 0.9729066666666667, "grad_norm": 1.7403101638770306, "learning_rate": 1.9240399048074398e-08, "loss": 0.4062, "step": 9121 }, { "avg_step_time": 5.723578715565229, "epoch": 0.9729066666666667, "eta_time": 0.4038302760426578, "step": 9121 }, { "epoch": 0.9730133333333333, "grad_norm": 1.8423320293835648, "learning_rate": 1.9089294354254216e-08, "loss": 0.4399, "step": 9122 }, { "avg_step_time": 5.7152155529369, "epoch": 0.9730133333333333, "eta_time": 0.4016526485813989, "step": 9122 }, { "epoch": 0.97312, "grad_norm": 1.9990015830404346, "learning_rate": 1.8938784218281435e-08, "loss": 0.4419, "step": 9123 }, { "avg_step_time": 5.710731956693861, "epoch": 0.97312, "eta_time": 0.3997512369685703, "step": 9123 }, { "epoch": 0.9732266666666667, "grad_norm": 1.9424484232741264, "learning_rate": 1.8788868658120573e-08, "loss": 0.4906, "step": 9124 }, { "avg_step_time": 5.708572724852899, "epoch": 0.9732266666666667, "eta_time": 0.39801437609391044, "step": 9124 }, { "epoch": 0.9733333333333334, "grad_norm": 0.6625281265707177, "learning_rate": 1.863954769166676e-08, "loss": 0.4366, "step": 9125 }, { "avg_step_time": 5.6755023147120625, "epoch": 0.9733333333333334, "eta_time": 0.3941321051883377, "step": 9125 }, { "epoch": 0.97344, "grad_norm": 1.822969029128937, "learning_rate": 1.849082133674518e-08, "loss": 0.4593, "step": 9126 }, { "avg_step_time": 5.751187078880541, "epoch": 0.97344, "eta_time": 0.39779043962257077, "step": 9126 }, { "epoch": 0.9735466666666667, "grad_norm": 1.7454155940494798, "learning_rate": 1.83426896111083e-08, "loss": 0.5615, "step": 9127 }, { "avg_step_time": 5.754517694916388, "epoch": 0.9735466666666667, "eta_time": 0.3964223300942401, "step": 9127 }, { "epoch": 0.9736533333333334, "grad_norm": 1.9491697837270647, "learning_rate": 1.8195152532437533e-08, "loss": 0.4894, "step": 9128 }, { "avg_step_time": 5.764587346953575, "epoch": 0.9736533333333334, "eta_time": 0.39551474297153694, "step": 9128 }, { "epoch": 0.97376, "grad_norm": 1.957861068799525, "learning_rate": 1.80482101183449e-08, "loss": 0.4752, "step": 9129 }, { "avg_step_time": 5.76924765712083, "epoch": 0.97376, "eta_time": 0.39423192323659, "step": 9129 }, { "epoch": 0.9738666666666667, "grad_norm": 0.6517551181979068, "learning_rate": 1.790186238637026e-08, "loss": 0.462, "step": 9130 }, { "avg_step_time": 5.7296952864136355, "epoch": 0.9738666666666667, "eta_time": 0.38993759588092797, "step": 9130 }, { "epoch": 0.9739733333333334, "grad_norm": 1.7382231975751707, "learning_rate": 1.775610935398242e-08, "loss": 0.418, "step": 9131 }, { "avg_step_time": 5.730245961083306, "epoch": 0.9739733333333334, "eta_time": 0.38838333736231295, "step": 9131 }, { "epoch": 0.97408, "grad_norm": 1.8902598441860707, "learning_rate": 1.761095103858024e-08, "loss": 0.5352, "step": 9132 }, { "avg_step_time": 5.714958193326237, "epoch": 0.97408, "eta_time": 0.385759678049521, "step": 9132 }, { "epoch": 0.9741866666666666, "grad_norm": 1.7949303043630433, "learning_rate": 1.7466387457489853e-08, "loss": 0.5191, "step": 9133 }, { "avg_step_time": 5.713447717705158, "epoch": 0.9741866666666666, "eta_time": 0.3840706521346245, "step": 9133 }, { "epoch": 0.9742933333333333, "grad_norm": 1.7049730062839796, "learning_rate": 1.7322418627968574e-08, "loss": 0.5127, "step": 9134 }, { "avg_step_time": 5.746439668867323, "epoch": 0.9742933333333333, "eta_time": 0.38469221116584024, "step": 9134 }, { "epoch": 0.9744, "grad_norm": 1.7530284193039287, "learning_rate": 1.717904456720043e-08, "loss": 0.4738, "step": 9135 }, { "avg_step_time": 5.738507786182442, "epoch": 0.9744, "eta_time": 0.38256718574549614, "step": 9135 }, { "epoch": 0.9745066666666666, "grad_norm": 1.8110645839363637, "learning_rate": 1.7036265292300624e-08, "loss": 0.4133, "step": 9136 }, { "avg_step_time": 5.773759637216125, "epoch": 0.9745066666666666, "eta_time": 0.38331348702629275, "step": 9136 }, { "epoch": 0.9746133333333333, "grad_norm": 0.6635299149090718, "learning_rate": 1.689408082031163e-08, "loss": 0.4353, "step": 9137 }, { "avg_step_time": 5.742656534368342, "epoch": 0.9746133333333333, "eta_time": 0.3796534042165737, "step": 9137 }, { "epoch": 0.97472, "grad_norm": 1.598172860925841, "learning_rate": 1.675249116820543e-08, "loss": 0.495, "step": 9138 }, { "avg_step_time": 5.779625232773598, "epoch": 0.97472, "eta_time": 0.3804919944909285, "step": 9138 }, { "epoch": 0.9748266666666666, "grad_norm": 1.7385543237664192, "learning_rate": 1.661149635288406e-08, "loss": 0.4504, "step": 9139 }, { "avg_step_time": 5.775261592383337, "epoch": 0.9748266666666666, "eta_time": 0.3786004821673521, "step": 9139 }, { "epoch": 0.9749333333333333, "grad_norm": 2.3455803318899093, "learning_rate": 1.6471096391177388e-08, "loss": 0.5004, "step": 9140 }, { "avg_step_time": 5.784933015553638, "epoch": 0.9749333333333333, "eta_time": 0.37762757184864026, "step": 9140 }, { "epoch": 0.97504, "grad_norm": 1.9182112941216347, "learning_rate": 1.6331291299844233e-08, "loss": 0.5203, "step": 9141 }, { "avg_step_time": 5.78305834953231, "epoch": 0.97504, "eta_time": 0.37589879271960014, "step": 9141 }, { "epoch": 0.9751466666666667, "grad_norm": 1.9033300300312574, "learning_rate": 1.6192081095572908e-08, "loss": 0.5439, "step": 9142 }, { "avg_step_time": 5.784669933897076, "epoch": 0.9751466666666667, "eta_time": 0.37439669294389405, "step": 9142 }, { "epoch": 0.9752533333333333, "grad_norm": 1.903830572033925, "learning_rate": 1.6053465794980682e-08, "loss": 0.5259, "step": 9143 }, { "avg_step_time": 5.786013384058018, "epoch": 0.9752533333333333, "eta_time": 0.37287641808373895, "step": 9143 }, { "epoch": 0.97536, "grad_norm": 1.7535613563612134, "learning_rate": 1.5915445414613208e-08, "loss": 0.4575, "step": 9144 }, { "avg_step_time": 5.777958554450912, "epoch": 0.97536, "eta_time": 0.3707523405772668, "step": 9144 }, { "epoch": 0.9754666666666667, "grad_norm": 1.9021217276047628, "learning_rate": 1.5778019970946744e-08, "loss": 0.3429, "step": 9145 }, { "avg_step_time": 5.777021070923468, "epoch": 0.9754666666666667, "eta_time": 0.36908745730899933, "step": 9145 }, { "epoch": 0.9755733333333333, "grad_norm": 2.1238501949873703, "learning_rate": 1.564118948038429e-08, "loss": 0.5033, "step": 9146 }, { "avg_step_time": 5.781888511445787, "epoch": 0.9755733333333333, "eta_time": 0.3677923525336348, "step": 9146 }, { "epoch": 0.97568, "grad_norm": 1.891230556602961, "learning_rate": 1.550495395925944e-08, "loss": 0.4863, "step": 9147 }, { "avg_step_time": 5.783714954299156, "epoch": 0.97568, "eta_time": 0.3663019471056132, "step": 9147 }, { "epoch": 0.9757866666666667, "grad_norm": 1.724563926726302, "learning_rate": 1.5369313423833632e-08, "loss": 0.4646, "step": 9148 }, { "avg_step_time": 5.785450559673888, "epoch": 0.9757866666666667, "eta_time": 0.3648047991794368, "step": 9148 }, { "epoch": 0.9758933333333333, "grad_norm": 0.6818429745870277, "learning_rate": 1.5234267890298915e-08, "loss": 0.4337, "step": 9149 }, { "avg_step_time": 5.754427445055258, "epoch": 0.9758933333333333, "eta_time": 0.36125016738402455, "step": 9149 }, { "epoch": 0.976, "grad_norm": 1.6831251486371719, "learning_rate": 1.5099817374774615e-08, "loss": 0.4186, "step": 9150 }, { "avg_step_time": 5.753152413801714, "epoch": 0.976, "eta_time": 0.3595720258626071, "step": 9150 }, { "epoch": 0.9761066666666667, "grad_norm": 1.6840849018170085, "learning_rate": 1.496596189331012e-08, "loss": 0.4336, "step": 9151 }, { "avg_step_time": 5.7553248212795065, "epoch": 0.9761066666666667, "eta_time": 0.3581090999907248, "step": 9151 }, { "epoch": 0.9762133333333334, "grad_norm": 0.6473845837308827, "learning_rate": 1.4832701461883203e-08, "loss": 0.4156, "step": 9152 }, { "avg_step_time": 5.758452225213099, "epoch": 0.9762133333333334, "eta_time": 0.3567041239507003, "step": 9152 }, { "epoch": 0.97632, "grad_norm": 1.8543998647942972, "learning_rate": 1.4700036096400028e-08, "loss": 0.4965, "step": 9153 }, { "avg_step_time": 5.74260702036848, "epoch": 0.97632, "eta_time": 0.3541274329227229, "step": 9153 }, { "epoch": 0.9764266666666667, "grad_norm": 1.9419286693443996, "learning_rate": 1.4567965812697926e-08, "loss": 0.4361, "step": 9154 }, { "avg_step_time": 5.743194536729292, "epoch": 0.9764266666666667, "eta_time": 0.35256833128254816, "step": 9154 }, { "epoch": 0.9765333333333334, "grad_norm": 1.7073306593679944, "learning_rate": 1.4436490626540955e-08, "loss": 0.3508, "step": 9155 }, { "avg_step_time": 5.752671913667158, "epoch": 0.9765333333333334, "eta_time": 0.3515521725018819, "step": 9155 }, { "epoch": 0.97664, "grad_norm": 2.254440726771211, "learning_rate": 1.4305610553623228e-08, "loss": 0.4453, "step": 9156 }, { "avg_step_time": 5.753878848721283, "epoch": 0.97664, "eta_time": 0.35002762996387804, "step": 9156 }, { "epoch": 0.9767466666666667, "grad_norm": 1.8870047413737572, "learning_rate": 1.4175325609567248e-08, "loss": 0.5056, "step": 9157 }, { "avg_step_time": 5.756936333396218, "epoch": 0.9767466666666667, "eta_time": 0.348614477966771, "step": 9157 }, { "epoch": 0.9768533333333334, "grad_norm": 1.795912798487735, "learning_rate": 1.4045635809925018e-08, "loss": 0.4673, "step": 9158 }, { "avg_step_time": 5.768676201502482, "epoch": 0.9768533333333334, "eta_time": 0.34772298214612185, "step": 9158 }, { "epoch": 0.97696, "grad_norm": 1.9751300738177378, "learning_rate": 1.3916541170176934e-08, "loss": 0.5144, "step": 9159 }, { "avg_step_time": 5.765131856455947, "epoch": 0.97696, "eta_time": 0.3459079113873568, "step": 9159 }, { "epoch": 0.9770666666666666, "grad_norm": 1.8216255412811133, "learning_rate": 1.378804170573289e-08, "loss": 0.5841, "step": 9160 }, { "avg_step_time": 5.777799832700479, "epoch": 0.9770666666666666, "eta_time": 0.3450630455640564, "step": 9160 }, { "epoch": 0.9771733333333333, "grad_norm": 2.1237895132327917, "learning_rate": 1.3660137431932286e-08, "loss": 0.5111, "step": 9161 }, { "avg_step_time": 5.774154607695762, "epoch": 0.9771733333333333, "eta_time": 0.34324141279080367, "step": 9161 }, { "epoch": 0.97728, "grad_norm": 1.9253311110141296, "learning_rate": 1.3532828364041239e-08, "loss": 0.4372, "step": 9162 }, { "avg_step_time": 5.766992219770797, "epoch": 0.97728, "eta_time": 0.3412137063364389, "step": 9162 }, { "epoch": 0.9773866666666666, "grad_norm": 1.9933553635911674, "learning_rate": 1.340611451725704e-08, "loss": 0.4865, "step": 9163 }, { "avg_step_time": 5.768548153867625, "epoch": 0.9773866666666666, "eta_time": 0.3397033912833157, "step": 9163 }, { "epoch": 0.9774933333333333, "grad_norm": 2.106263952699737, "learning_rate": 1.3279995906705367e-08, "loss": 0.5292, "step": 9164 }, { "avg_step_time": 5.803805226027364, "epoch": 0.9774933333333333, "eta_time": 0.34016747296993716, "step": 9164 }, { "epoch": 0.9776, "grad_norm": 2.0322151642847346, "learning_rate": 1.3154472547440289e-08, "loss": 0.4668, "step": 9165 }, { "avg_step_time": 5.802120083510274, "epoch": 0.9776, "eta_time": 0.33845700487143265, "step": 9165 }, { "epoch": 0.9777066666666666, "grad_norm": 1.8282118550569892, "learning_rate": 1.302954445444593e-08, "loss": 0.4688, "step": 9166 }, { "avg_step_time": 5.807788844060416, "epoch": 0.9777066666666666, "eta_time": 0.3371744078912853, "step": 9166 }, { "epoch": 0.9778133333333333, "grad_norm": 1.7707590657312464, "learning_rate": 1.2905211642633698e-08, "loss": 0.4143, "step": 9167 }, { "avg_step_time": 5.814195425823481, "epoch": 0.9778133333333333, "eta_time": 0.33593129126980115, "step": 9167 }, { "epoch": 0.97792, "grad_norm": 1.7972568338767654, "learning_rate": 1.2781474126845051e-08, "loss": 0.4678, "step": 9168 }, { "avg_step_time": 5.802858299679226, "epoch": 0.97792, "eta_time": 0.3336643522315555, "step": 9168 }, { "epoch": 0.9780266666666667, "grad_norm": 1.9648950211638407, "learning_rate": 1.2658331921850398e-08, "loss": 0.4055, "step": 9169 }, { "avg_step_time": 5.7950409831422744, "epoch": 0.9780266666666667, "eta_time": 0.33160512292425237, "step": 9169 }, { "epoch": 0.9781333333333333, "grad_norm": 1.559726833454424, "learning_rate": 1.2535785042349091e-08, "loss": 0.438, "step": 9170 }, { "avg_step_time": 5.791379300030795, "epoch": 0.9781333333333333, "eta_time": 0.3297868768073091, "step": 9170 }, { "epoch": 0.97824, "grad_norm": 1.7077527072893262, "learning_rate": 1.241383350296832e-08, "loss": 0.4422, "step": 9171 }, { "avg_step_time": 5.793801981993396, "epoch": 0.97824, "eta_time": 0.32831544564629245, "step": 9171 }, { "epoch": 0.9783466666666667, "grad_norm": 1.6493434643924416, "learning_rate": 1.2292477318266438e-08, "loss": 0.4578, "step": 9172 }, { "avg_step_time": 5.7875737565936465, "epoch": 0.9783466666666667, "eta_time": 0.32635485349680843, "step": 9172 }, { "epoch": 0.9784533333333333, "grad_norm": 1.8205447643769077, "learning_rate": 1.2171716502728525e-08, "loss": 0.477, "step": 9173 }, { "avg_step_time": 5.78941488506818, "epoch": 0.9784533333333333, "eta_time": 0.32485050188438125, "step": 9173 }, { "epoch": 0.97856, "grad_norm": 1.5610058689103228, "learning_rate": 1.2051551070769719e-08, "loss": 0.4195, "step": 9174 }, { "avg_step_time": 5.791290735957598, "epoch": 0.97856, "eta_time": 0.32334706609096586, "step": 9174 }, { "epoch": 0.9786666666666667, "grad_norm": 1.6175684601519367, "learning_rate": 1.1931981036733542e-08, "loss": 0.4435, "step": 9175 }, { "avg_step_time": 5.798404782709449, "epoch": 0.9786666666666667, "eta_time": 0.32213359903941385, "step": 9175 }, { "epoch": 0.9787733333333334, "grad_norm": 1.7944992303033975, "learning_rate": 1.181300641489358e-08, "loss": 0.4873, "step": 9176 }, { "avg_step_time": 5.811938365300496, "epoch": 0.9787733333333334, "eta_time": 0.32127103741522184, "step": 9176 }, { "epoch": 0.97888, "grad_norm": 1.8917765954046502, "learning_rate": 1.1694627219450694e-08, "loss": 0.4532, "step": 9177 }, { "avg_step_time": 5.777998866456928, "epoch": 0.97888, "eta_time": 0.317789937655131, "step": 9177 }, { "epoch": 0.9789866666666667, "grad_norm": 1.8594622386955588, "learning_rate": 1.1576843464535248e-08, "loss": 0.5168, "step": 9178 }, { "avg_step_time": 5.804363120685924, "epoch": 0.9789866666666667, "eta_time": 0.3176276485486464, "step": 9178 }, { "epoch": 0.9790933333333334, "grad_norm": 1.9476792154341072, "learning_rate": 1.1459655164208216e-08, "loss": 0.4964, "step": 9179 }, { "avg_step_time": 5.801168514020516, "epoch": 0.9790933333333334, "eta_time": 0.3158413968744503, "step": 9179 }, { "epoch": 0.9792, "grad_norm": 1.6458429115311812, "learning_rate": 1.134306233245619e-08, "loss": 0.3855, "step": 9180 }, { "avg_step_time": 5.798237085342407, "epoch": 0.9792, "eta_time": 0.31407117545604707, "step": 9180 }, { "epoch": 0.9793066666666667, "grad_norm": 2.0295554738227923, "learning_rate": 1.1227064983198032e-08, "loss": 0.4524, "step": 9181 }, { "avg_step_time": 5.7993712666058785, "epoch": 0.9793066666666667, "eta_time": 0.312521673811539, "step": 9181 }, { "epoch": 0.9794133333333334, "grad_norm": 1.8777929995367926, "learning_rate": 1.1111663130279337e-08, "loss": 0.4803, "step": 9182 }, { "avg_step_time": 5.779816514313823, "epoch": 0.9794133333333334, "eta_time": 0.3098623853507133, "step": 9182 }, { "epoch": 0.97952, "grad_norm": 1.5556417099988031, "learning_rate": 1.0996856787475197e-08, "loss": 0.5091, "step": 9183 }, { "avg_step_time": 5.7797088189558545, "epoch": 0.97952, "eta_time": 0.30825113701097895, "step": 9183 }, { "epoch": 0.9796266666666666, "grad_norm": 1.6518295762543533, "learning_rate": 1.0882645968490203e-08, "loss": 0.4011, "step": 9184 }, { "avg_step_time": 5.7778958118323125, "epoch": 0.9796266666666666, "eta_time": 0.306549472238881, "step": 9184 }, { "epoch": 0.9797333333333333, "grad_norm": 1.8257360251434296, "learning_rate": 1.0769030686956783e-08, "loss": 0.5009, "step": 9185 }, { "avg_step_time": 5.779713594552242, "epoch": 0.9797333333333333, "eta_time": 0.30504043971247946, "step": 9185 }, { "epoch": 0.97984, "grad_norm": 1.964972426544465, "learning_rate": 1.0656010956437979e-08, "loss": 0.494, "step": 9186 }, { "avg_step_time": 5.8831772057697025, "epoch": 0.97984, "eta_time": 0.3088668033029094, "step": 9186 }, { "epoch": 0.9799466666666666, "grad_norm": 1.7319177678749875, "learning_rate": 1.0543586790423e-08, "loss": 0.5183, "step": 9187 }, { "avg_step_time": 5.876076903006043, "epoch": 0.9799466666666666, "eta_time": 0.30686179382364887, "step": 9187 }, { "epoch": 0.9800533333333333, "grad_norm": 2.088193153843135, "learning_rate": 1.043175820233333e-08, "loss": 0.5415, "step": 9188 }, { "avg_step_time": 5.883669894151013, "epoch": 0.9800533333333333, "eta_time": 0.30562396394617763, "step": 9188 }, { "epoch": 0.98016, "grad_norm": 2.035887836749556, "learning_rate": 1.0320525205516629e-08, "loss": 0.451, "step": 9189 }, { "avg_step_time": 5.9043228024184105, "epoch": 0.98016, "eta_time": 0.3050566781249512, "step": 9189 }, { "epoch": 0.9802666666666666, "grad_norm": 1.7410774862709038, "learning_rate": 1.0209887813250053e-08, "loss": 0.4237, "step": 9190 }, { "avg_step_time": 5.917332798543603, "epoch": 0.9802666666666666, "eta_time": 0.30408515770293515, "step": 9190 }, { "epoch": 0.9803733333333333, "grad_norm": 1.498688562762725, "learning_rate": 1.0099846038741368e-08, "loss": 0.507, "step": 9191 }, { "avg_step_time": 5.919530714401091, "epoch": 0.9803733333333333, "eta_time": 0.3025537920693891, "step": 9191 }, { "epoch": 0.98048, "grad_norm": 1.9721412314610507, "learning_rate": 9.990399895125624e-09, "loss": 0.5298, "step": 9192 }, { "avg_step_time": 5.9172703039766565, "epoch": 0.98048, "eta_time": 0.3007945737854801, "step": 9192 }, { "epoch": 0.9805866666666667, "grad_norm": 1.7096479153181459, "learning_rate": 9.881549395466262e-09, "loss": 0.4584, "step": 9193 }, { "avg_step_time": 5.922232389450073, "epoch": 0.9805866666666667, "eta_time": 0.2994017485777537, "step": 9193 }, { "epoch": 0.9806933333333333, "grad_norm": 2.086018224590113, "learning_rate": 9.773294552757328e-09, "loss": 0.5614, "step": 9194 }, { "avg_step_time": 5.921474904725046, "epoch": 0.9806933333333333, "eta_time": 0.2977185993764537, "step": 9194 }, { "epoch": 0.9808, "grad_norm": 1.8043005755597339, "learning_rate": 9.665635379920157e-09, "loss": 0.438, "step": 9195 }, { "avg_step_time": 5.9376747295109915, "epoch": 0.9808, "eta_time": 0.2968837364755496, "step": 9195 }, { "epoch": 0.9809066666666667, "grad_norm": 1.963582430215891, "learning_rate": 9.558571889806689e-09, "loss": 0.4378, "step": 9196 }, { "avg_step_time": 5.814932697951192, "epoch": 0.9809066666666667, "eta_time": 0.28913137581479537, "step": 9196 }, { "epoch": 0.9810133333333333, "grad_norm": 1.6711561954969947, "learning_rate": 9.452104095196146e-09, "loss": 0.48, "step": 9197 }, { "avg_step_time": 5.795996531091555, "epoch": 0.9810133333333333, "eta_time": 0.2865798284817491, "step": 9197 }, { "epoch": 0.98112, "grad_norm": 1.8160899312536751, "learning_rate": 9.346232008797252e-09, "loss": 0.4708, "step": 9198 }, { "avg_step_time": 5.7987802991963395, "epoch": 0.98112, "eta_time": 0.28510669804382, "step": 9198 }, { "epoch": 0.9812266666666667, "grad_norm": 2.0188118529361567, "learning_rate": 9.240955643248229e-09, "loss": 0.5162, "step": 9199 }, { "avg_step_time": 5.7937081245460895, "epoch": 0.9812266666666667, "eta_time": 0.2832479527555866, "step": 9199 }, { "epoch": 0.9813333333333333, "grad_norm": 1.9740753477659607, "learning_rate": 9.136275011115137e-09, "loss": 0.4582, "step": 9200 }, { "avg_step_time": 5.808551234428329, "epoch": 0.9813333333333333, "eta_time": 0.28236012945137706, "step": 9200 }, { "epoch": 0.98144, "grad_norm": 1.661227050248644, "learning_rate": 9.032190124893536e-09, "loss": 0.4345, "step": 9201 }, { "avg_step_time": 5.815412145672423, "epoch": 0.98144, "eta_time": 0.28107825370750045, "step": 9201 }, { "epoch": 0.9815466666666667, "grad_norm": 1.879699993758253, "learning_rate": 8.928700997007933e-09, "loss": 0.5105, "step": 9202 }, { "avg_step_time": 5.821576470076436, "epoch": 0.9815466666666667, "eta_time": 0.27975909147867317, "step": 9202 }, { "epoch": 0.9816533333333334, "grad_norm": 1.857937176694924, "learning_rate": 8.825807639811224e-09, "loss": 0.502, "step": 9203 }, { "avg_step_time": 5.856826112727926, "epoch": 0.9816533333333334, "eta_time": 0.27982613649700094, "step": 9203 }, { "epoch": 0.98176, "grad_norm": 1.8529308925775991, "learning_rate": 8.723510065585806e-09, "loss": 0.4873, "step": 9204 }, { "avg_step_time": 5.954637850173796, "epoch": 0.98176, "eta_time": 0.2828452978832553, "step": 9204 }, { "epoch": 0.9818666666666667, "grad_norm": 1.8099158346178836, "learning_rate": 8.621808286542466e-09, "loss": 0.4522, "step": 9205 }, { "avg_step_time": 5.986263833864771, "epoch": 0.9818666666666667, "eta_time": 0.2826846810436142, "step": 9205 }, { "epoch": 0.9819733333333334, "grad_norm": 1.9532734319859753, "learning_rate": 8.520702314821493e-09, "loss": 0.6, "step": 9206 }, { "avg_step_time": 5.98672694630093, "epoch": 0.9819733333333334, "eta_time": 0.28104357053468254, "step": 9206 }, { "epoch": 0.98208, "grad_norm": 1.5573229512738236, "learning_rate": 8.42019216249046e-09, "loss": 0.3896, "step": 9207 }, { "avg_step_time": 5.988918964308922, "epoch": 0.98208, "eta_time": 0.27948288500108304, "step": 9207 }, { "epoch": 0.9821866666666667, "grad_norm": 1.6365703924896153, "learning_rate": 8.320277841548652e-09, "loss": 0.3927, "step": 9208 }, { "avg_step_time": 5.987789252791742, "epoch": 0.9821866666666667, "eta_time": 0.27776689033783913, "step": 9208 }, { "epoch": 0.9822933333333334, "grad_norm": 1.8498930810322582, "learning_rate": 8.220959363921533e-09, "loss": 0.4413, "step": 9209 }, { "avg_step_time": 5.99639559273768, "epoch": 0.9822933333333334, "eta_time": 0.27650046344290413, "step": 9209 }, { "epoch": 0.9824, "grad_norm": 1.9613994752587183, "learning_rate": 8.122236741464618e-09, "loss": 0.4632, "step": 9210 }, { "avg_step_time": 5.996920385746041, "epoch": 0.9824, "eta_time": 0.2748588510133602, "step": 9210 }, { "epoch": 0.9825066666666666, "grad_norm": 2.142723230235978, "learning_rate": 8.024109985961815e-09, "loss": 0.5369, "step": 9211 }, { "avg_step_time": 6.027156921348187, "epoch": 0.9825066666666666, "eta_time": 0.27457048197252854, "step": 9211 }, { "epoch": 0.9826133333333333, "grad_norm": 1.7902773074496536, "learning_rate": 7.926579109127086e-09, "loss": 0.4109, "step": 9212 }, { "avg_step_time": 6.059723673444806, "epoch": 0.9826133333333333, "eta_time": 0.27437082188097317, "step": 9212 }, { "epoch": 0.98272, "grad_norm": 1.841339297062152, "learning_rate": 7.82964412260223e-09, "loss": 0.5119, "step": 9213 }, { "avg_step_time": 6.057140764563974, "epoch": 0.98272, "eta_time": 0.27257133440537884, "step": 9213 }, { "epoch": 0.9828266666666666, "grad_norm": 0.6524468231761333, "learning_rate": 7.733305037957439e-09, "loss": 0.4497, "step": 9214 }, { "avg_step_time": 6.019081787629561, "epoch": 0.9828266666666666, "eta_time": 0.2691867132800998, "step": 9214 }, { "epoch": 0.9829333333333333, "grad_norm": 0.6473791311187108, "learning_rate": 7.637561866692955e-09, "loss": 0.4408, "step": 9215 }, { "avg_step_time": 5.999444778519448, "epoch": 0.9829333333333333, "eta_time": 0.2666419901564199, "step": 9215 }, { "epoch": 0.98304, "grad_norm": 1.9314255044386548, "learning_rate": 7.542414620237414e-09, "loss": 0.4501, "step": 9216 }, { "avg_step_time": 5.985753594022809, "epoch": 0.98304, "eta_time": 0.26437078373600736, "step": 9216 }, { "epoch": 0.9831466666666666, "grad_norm": 0.639568720477572, "learning_rate": 7.4478633099484e-09, "loss": 0.4382, "step": 9217 }, { "avg_step_time": 5.9547276665466, "epoch": 0.9831466666666666, "eta_time": 0.2613463809206563, "step": 9217 }, { "epoch": 0.9832533333333333, "grad_norm": 2.0034191558920575, "learning_rate": 7.353907947111882e-09, "loss": 0.5039, "step": 9218 }, { "avg_step_time": 5.956393446585144, "epoch": 0.9832533333333333, "eta_time": 0.2597649364205188, "step": 9218 }, { "epoch": 0.98336, "grad_norm": 1.5361570537214415, "learning_rate": 7.260548542943335e-09, "loss": 0.4443, "step": 9219 }, { "avg_step_time": 6.016393242460309, "epoch": 0.98336, "eta_time": 0.2607103738399467, "step": 9219 }, { "epoch": 0.9834666666666667, "grad_norm": 2.3035319623813733, "learning_rate": 7.167785108586622e-09, "loss": 0.541, "step": 9220 }, { "avg_step_time": 6.015921344660749, "epoch": 0.9834666666666667, "eta_time": 0.25901883567289335, "step": 9220 }, { "epoch": 0.9835733333333333, "grad_norm": 0.6234502269273283, "learning_rate": 7.0756176551145525e-09, "loss": 0.4151, "step": 9221 }, { "avg_step_time": 5.987434103031351, "epoch": 0.9835733333333333, "eta_time": 0.2561291255185633, "step": 9221 }, { "epoch": 0.98368, "grad_norm": 1.779981611879909, "learning_rate": 6.984046193528881e-09, "loss": 0.5022, "step": 9222 }, { "avg_step_time": 5.995159072105331, "epoch": 0.98368, "eta_time": 0.25479426056447657, "step": 9222 }, { "epoch": 0.9837866666666667, "grad_norm": 2.5594136654328747, "learning_rate": 6.89307073476142e-09, "loss": 0.515, "step": 9223 }, { "avg_step_time": 5.996225171618992, "epoch": 0.9837866666666667, "eta_time": 0.25317395169057966, "step": 9223 }, { "epoch": 0.9838933333333333, "grad_norm": 2.0709333705406654, "learning_rate": 6.802691289669594e-09, "loss": 0.4784, "step": 9224 }, { "avg_step_time": 6.030710164946739, "epoch": 0.9838933333333333, "eta_time": 0.2529547874741549, "step": 9224 }, { "epoch": 0.984, "grad_norm": 0.6681097950621789, "learning_rate": 6.712907869043661e-09, "loss": 0.4802, "step": 9225 }, { "avg_step_time": 5.952637848227915, "epoch": 0.984, "eta_time": 0.24802657700949646, "step": 9225 }, { "epoch": 0.9841066666666667, "grad_norm": 1.7451465202406526, "learning_rate": 6.623720483600049e-09, "loss": 0.4547, "step": 9226 }, { "avg_step_time": 5.949933762502188, "epoch": 0.9841066666666667, "eta_time": 0.24626114739245167, "step": 9226 }, { "epoch": 0.9842133333333334, "grad_norm": 2.0409196158920007, "learning_rate": 6.535129143984131e-09, "loss": 0.4504, "step": 9227 }, { "avg_step_time": 5.929318603843149, "epoch": 0.9842133333333334, "eta_time": 0.24376087593577392, "step": 9227 }, { "epoch": 0.98432, "grad_norm": 1.977673384284211, "learning_rate": 6.447133860771893e-09, "loss": 0.5453, "step": 9228 }, { "avg_step_time": 5.930439489056366, "epoch": 0.98432, "eta_time": 0.2421596124698016, "step": 9228 }, { "epoch": 0.9844266666666667, "grad_norm": 0.6237553284392524, "learning_rate": 6.359734644467153e-09, "loss": 0.4114, "step": 9229 }, { "avg_step_time": 5.924425503220221, "epoch": 0.9844266666666667, "eta_time": 0.24026836763059786, "step": 9229 }, { "epoch": 0.9845333333333334, "grad_norm": 2.3764929579875846, "learning_rate": 6.272931505501567e-09, "loss": 0.5172, "step": 9230 }, { "avg_step_time": 5.948629502094153, "epoch": 0.9845333333333334, "eta_time": 0.23959757716768118, "step": 9230 }, { "epoch": 0.98464, "grad_norm": 1.7625103970706104, "learning_rate": 6.186724454236847e-09, "loss": 0.512, "step": 9231 }, { "avg_step_time": 5.949475078871756, "epoch": 0.98464, "eta_time": 0.23797900315487025, "step": 9231 }, { "epoch": 0.9847466666666667, "grad_norm": 0.6217507174290416, "learning_rate": 6.1011135009636515e-09, "loss": 0.4173, "step": 9232 }, { "avg_step_time": 5.915840914755156, "epoch": 0.9847466666666667, "eta_time": 0.2349903474472187, "step": 9232 }, { "epoch": 0.9848533333333334, "grad_norm": 2.0814243633448557, "learning_rate": 6.016098655901026e-09, "loss": 0.4687, "step": 9233 }, { "avg_step_time": 5.919983567613544, "epoch": 0.9848533333333334, "eta_time": 0.23351046294475644, "step": 9233 }, { "epoch": 0.98496, "grad_norm": 0.6292327315912923, "learning_rate": 5.9316799291969654e-09, "loss": 0.4251, "step": 9234 }, { "avg_step_time": 5.8878876464535495, "epoch": 0.98496, "eta_time": 0.2306089328194307, "step": 9234 }, { "epoch": 0.9850666666666666, "grad_norm": 2.326092646853708, "learning_rate": 5.8478573309284085e-09, "loss": 0.4711, "step": 9235 }, { "avg_step_time": 5.885038688929394, "epoch": 0.9850666666666666, "eta_time": 0.22886261568058758, "step": 9235 }, { "epoch": 0.9851733333333333, "grad_norm": 1.856058601466109, "learning_rate": 5.76463087110124e-09, "loss": 0.4477, "step": 9236 }, { "avg_step_time": 5.920999310233376, "epoch": 0.9851733333333333, "eta_time": 0.22861636225623314, "step": 9236 }, { "epoch": 0.98528, "grad_norm": 2.4336285640779924, "learning_rate": 5.682000559649181e-09, "loss": 0.5036, "step": 9237 }, { "avg_step_time": 5.916178445623379, "epoch": 0.98528, "eta_time": 0.22678684041556285, "step": 9237 }, { "epoch": 0.9853866666666666, "grad_norm": 1.729445539404219, "learning_rate": 5.599966406436008e-09, "loss": 0.4964, "step": 9238 }, { "avg_step_time": 5.916628880934282, "epoch": 0.9853866666666666, "eta_time": 0.22516059907999905, "step": 9238 }, { "epoch": 0.9854933333333333, "grad_norm": 2.263431462877384, "learning_rate": 5.518528421253888e-09, "loss": 0.4866, "step": 9239 }, { "avg_step_time": 5.917381291437631, "epoch": 0.9854933333333333, "eta_time": 0.2235455154543105, "step": 9239 }, { "epoch": 0.9856, "grad_norm": 1.8975300722228954, "learning_rate": 5.437686613823934e-09, "loss": 0.4702, "step": 9240 }, { "avg_step_time": 5.921168076871622, "epoch": 0.9856, "eta_time": 0.22204380288268583, "step": 9240 }, { "epoch": 0.9857066666666666, "grad_norm": 0.6239381354315098, "learning_rate": 5.357440993796204e-09, "loss": 0.4159, "step": 9241 }, { "avg_step_time": 5.891932506753941, "epoch": 0.9857066666666666, "eta_time": 0.21931082108473002, "step": 9241 }, { "epoch": 0.9858133333333333, "grad_norm": 1.8764260449134593, "learning_rate": 5.2777915707491465e-09, "loss": 0.4932, "step": 9242 }, { "avg_step_time": 5.891280781139027, "epoch": 0.9858133333333333, "eta_time": 0.21765009552541406, "step": 9242 }, { "epoch": 0.98592, "grad_norm": 1.823569550945428, "learning_rate": 5.198738354190158e-09, "loss": 0.5373, "step": 9243 }, { "avg_step_time": 5.896960465594976, "epoch": 0.98592, "eta_time": 0.21622188373848247, "step": 9243 }, { "epoch": 0.9860266666666667, "grad_norm": 2.2073059250864344, "learning_rate": 5.120281353556134e-09, "loss": 0.5037, "step": 9244 }, { "avg_step_time": 5.897578041962903, "epoch": 0.9860266666666667, "eta_time": 0.21460631208253897, "step": 9244 }, { "epoch": 0.9861333333333333, "grad_norm": 2.1499129858322497, "learning_rate": 5.042420578211804e-09, "loss": 0.5412, "step": 9245 }, { "avg_step_time": 5.896103276146783, "epoch": 0.9861333333333333, "eta_time": 0.21291484052752271, "step": 9245 }, { "epoch": 0.98624, "grad_norm": 1.7831806132189727, "learning_rate": 4.9651560374514015e-09, "loss": 0.4316, "step": 9246 }, { "avg_step_time": 5.897656228807238, "epoch": 0.98624, "eta_time": 0.21133268153225934, "step": 9246 }, { "epoch": 0.9863466666666667, "grad_norm": 1.8023432975046698, "learning_rate": 4.88848774049755e-09, "loss": 0.4444, "step": 9247 }, { "avg_step_time": 5.8955406925895, "epoch": 0.9863466666666667, "eta_time": 0.20961922462540444, "step": 9247 }, { "epoch": 0.9864533333333333, "grad_norm": 1.8037128802594817, "learning_rate": 4.812415696502371e-09, "loss": 0.4577, "step": 9248 }, { "avg_step_time": 5.990163868123835, "epoch": 0.9864533333333333, "eta_time": 0.2113196697921464, "step": 9248 }, { "epoch": 0.98656, "grad_norm": 1.692334770182029, "learning_rate": 4.736939914545824e-09, "loss": 0.4346, "step": 9249 }, { "avg_step_time": 5.9914636419277, "epoch": 0.98656, "eta_time": 0.2097012274674695, "step": 9249 }, { "epoch": 0.9866666666666667, "grad_norm": 1.7978650672195617, "learning_rate": 4.66206040363737e-09, "loss": 0.4488, "step": 9250 }, { "avg_step_time": 5.985679566258132, "epoch": 0.9866666666666667, "eta_time": 0.2078360960506296, "step": 9250 }, { "epoch": 0.9867733333333333, "grad_norm": 1.9173011015461667, "learning_rate": 4.587777172715413e-09, "loss": 0.4127, "step": 9251 }, { "avg_step_time": 6.014427623363456, "epoch": 0.9867733333333333, "eta_time": 0.20716361813807463, "step": 9251 }, { "epoch": 0.98688, "grad_norm": 2.0664357917364278, "learning_rate": 4.514090230647305e-09, "loss": 0.5022, "step": 9252 }, { "avg_step_time": 6.021341839221993, "epoch": 0.98688, "eta_time": 0.20572917950675143, "step": 9252 }, { "epoch": 0.9869866666666667, "grad_norm": 0.6538411802664322, "learning_rate": 4.440999586228234e-09, "loss": 0.4443, "step": 9253 }, { "avg_step_time": 5.984678251574738, "epoch": 0.9869866666666667, "eta_time": 0.2028140963033661, "step": 9253 }, { "epoch": 0.9870933333333334, "grad_norm": 0.6465220088652023, "learning_rate": 4.3685052481828864e-09, "loss": 0.4715, "step": 9254 }, { "avg_step_time": 5.94165958539404, "epoch": 0.9870933333333334, "eta_time": 0.19970578050907745, "step": 9254 }, { "epoch": 0.9872, "grad_norm": 1.9838984994260203, "learning_rate": 4.296607225164895e-09, "loss": 0.4838, "step": 9255 }, { "avg_step_time": 5.936877753999498, "epoch": 0.9872, "eta_time": 0.1978959251333166, "step": 9255 }, { "epoch": 0.9873066666666667, "grad_norm": 1.958112983766448, "learning_rate": 4.225305525756285e-09, "loss": 0.4856, "step": 9256 }, { "avg_step_time": 5.935433236035434, "epoch": 0.9873066666666667, "eta_time": 0.19619904308006014, "step": 9256 }, { "epoch": 0.9874133333333334, "grad_norm": 0.6288647847992981, "learning_rate": 4.1546001584685806e-09, "loss": 0.4335, "step": 9257 }, { "avg_step_time": 5.903237766689724, "epoch": 0.9874133333333334, "eta_time": 0.19349501568594096, "step": 9257 }, { "epoch": 0.98752, "grad_norm": 1.9170735981800138, "learning_rate": 4.084491131741697e-09, "loss": 0.5176, "step": 9258 }, { "avg_step_time": 5.902928164511016, "epoch": 0.98752, "eta_time": 0.191845165346608, "step": 9258 }, { "epoch": 0.9876266666666667, "grad_norm": 1.7770512837514763, "learning_rate": 4.0149784539439405e-09, "loss": 0.5657, "step": 9259 }, { "avg_step_time": 5.888861017997819, "epoch": 0.9876266666666667, "eta_time": 0.1897521883577075, "step": 9259 }, { "epoch": 0.9877333333333334, "grad_norm": 1.9460273874316583, "learning_rate": 3.946062133372563e-09, "loss": 0.3676, "step": 9260 }, { "avg_step_time": 5.933345431029195, "epoch": 0.9877333333333334, "eta_time": 0.1895374234912104, "step": 9260 }, { "epoch": 0.98784, "grad_norm": 1.8833996072275612, "learning_rate": 3.877742178254873e-09, "loss": 0.5341, "step": 9261 }, { "avg_step_time": 5.935317882383712, "epoch": 0.98784, "eta_time": 0.1879517329421509, "step": 9261 }, { "epoch": 0.9879466666666666, "grad_norm": 0.6201235299460424, "learning_rate": 3.810018596745457e-09, "loss": 0.4199, "step": 9262 }, { "avg_step_time": 5.907882738595057, "epoch": 0.9879466666666666, "eta_time": 0.18544187485034486, "step": 9262 }, { "epoch": 0.9880533333333333, "grad_norm": 1.8220990642754251, "learning_rate": 3.7428913969284055e-09, "loss": 0.4416, "step": 9263 }, { "avg_step_time": 5.9203247903573395, "epoch": 0.9880533333333333, "eta_time": 0.18418788236667277, "step": 9263 }, { "epoch": 0.98816, "grad_norm": 2.2925481360157636, "learning_rate": 3.6763605868167516e-09, "loss": 0.4948, "step": 9264 }, { "avg_step_time": 5.931624964030102, "epoch": 0.98816, "eta_time": 0.1828917697242615, "step": 9264 }, { "epoch": 0.9882666666666666, "grad_norm": 1.6543671224090923, "learning_rate": 3.610426174351367e-09, "loss": 0.4097, "step": 9265 }, { "avg_step_time": 5.924235864119097, "epoch": 0.9882666666666666, "eta_time": 0.18101831807030572, "step": 9265 }, { "epoch": 0.9883733333333333, "grad_norm": 1.9114475008452139, "learning_rate": 3.5450881674031766e-09, "loss": 0.5642, "step": 9266 }, { "avg_step_time": 5.934471390464089, "epoch": 0.9883733333333333, "eta_time": 0.17968260598905159, "step": 9266 }, { "epoch": 0.98848, "grad_norm": 2.0704362681757957, "learning_rate": 3.4803465737714983e-09, "loss": 0.5175, "step": 9267 }, { "avg_step_time": 5.9411447481675586, "epoch": 0.98848, "eta_time": 0.17823434244502676, "step": 9267 }, { "epoch": 0.9885866666666666, "grad_norm": 1.743082084975942, "learning_rate": 3.4162014011845932e-09, "loss": 0.5275, "step": 9268 }, { "avg_step_time": 5.970357646845808, "epoch": 0.9885866666666666, "eta_time": 0.17745229672569485, "step": 9268 }, { "epoch": 0.9886933333333333, "grad_norm": 1.7455636809669712, "learning_rate": 3.3526526572985607e-09, "loss": 0.4794, "step": 9269 }, { "avg_step_time": 5.969498020229918, "epoch": 0.9886933333333333, "eta_time": 0.1757685528178809, "step": 9269 }, { "epoch": 0.9888, "grad_norm": 1.9981496261512284, "learning_rate": 3.289700349698999e-09, "loss": 0.5578, "step": 9270 }, { "avg_step_time": 5.96246589073027, "epoch": 0.9888, "eta_time": 0.17390525514629954, "step": 9270 }, { "epoch": 0.9889066666666667, "grad_norm": 2.0996162987619993, "learning_rate": 3.2273444859015625e-09, "loss": 0.4994, "step": 9271 }, { "avg_step_time": 5.9614041477742825, "epoch": 0.9889066666666667, "eta_time": 0.1722183420468126, "step": 9271 }, { "epoch": 0.9890133333333333, "grad_norm": 2.0195358770818412, "learning_rate": 3.1655850733480766e-09, "loss": 0.4671, "step": 9272 }, { "avg_step_time": 5.962771206191092, "epoch": 0.9890133333333333, "eta_time": 0.17060150951046735, "step": 9272 }, { "epoch": 0.98912, "grad_norm": 1.7641408232099194, "learning_rate": 3.104422119411532e-09, "loss": 0.5344, "step": 9273 }, { "avg_step_time": 5.96227997240394, "epoch": 0.98912, "eta_time": 0.1689312658847783, "step": 9273 }, { "epoch": 0.9892266666666667, "grad_norm": 1.9440057423554586, "learning_rate": 3.043855631392756e-09, "loss": 0.404, "step": 9274 }, { "avg_step_time": 5.950398825635814, "epoch": 0.9892266666666667, "eta_time": 0.1669417448303381, "step": 9274 }, { "epoch": 0.9893333333333333, "grad_norm": 1.7121972176843938, "learning_rate": 2.98388561652041e-09, "loss": 0.4332, "step": 9275 }, { "avg_step_time": 5.944946876680008, "epoch": 0.9893333333333333, "eta_time": 0.16513741324111136, "step": 9275 }, { "epoch": 0.98944, "grad_norm": 2.0434896608460615, "learning_rate": 2.9245120819543226e-09, "loss": 0.3944, "step": 9276 }, { "avg_step_time": 5.949043283558855, "epoch": 0.98944, "eta_time": 0.16359869029786853, "step": 9276 }, { "epoch": 0.9895466666666667, "grad_norm": 0.6590708154845867, "learning_rate": 2.8657350347810473e-09, "loss": 0.4487, "step": 9277 }, { "avg_step_time": 5.891800032721625, "epoch": 0.9895466666666667, "eta_time": 0.16038788977964424, "step": 9277 }, { "epoch": 0.9896533333333334, "grad_norm": 1.8035647205435519, "learning_rate": 2.807554482016639e-09, "loss": 0.4208, "step": 9278 }, { "avg_step_time": 5.8963210269658255, "epoch": 0.9896533333333334, "eta_time": 0.15887309433769028, "step": 9278 }, { "epoch": 0.98976, "grad_norm": 0.647667627922065, "learning_rate": 2.749970430605542e-09, "loss": 0.4256, "step": 9279 }, { "avg_step_time": 5.862316822764849, "epoch": 0.98976, "eta_time": 0.15632844860706263, "step": 9279 }, { "epoch": 0.9898666666666667, "grad_norm": 2.124894992273432, "learning_rate": 2.6929828874222573e-09, "loss": 0.4907, "step": 9280 }, { "avg_step_time": 5.859320785060073, "epoch": 0.9898666666666667, "eta_time": 0.1546209651613075, "step": 9280 }, { "epoch": 0.9899733333333334, "grad_norm": 2.0767518452191145, "learning_rate": 2.636591859269122e-09, "loss": 0.4248, "step": 9281 }, { "avg_step_time": 5.856459742844707, "epoch": 0.9899733333333334, "eta_time": 0.15291867106316734, "step": 9281 }, { "epoch": 0.99008, "grad_norm": 1.5778029369814788, "learning_rate": 2.5807973528768626e-09, "loss": 0.4415, "step": 9282 }, { "avg_step_time": 5.859906276067098, "epoch": 0.99008, "eta_time": 0.15138091213173335, "step": 9282 }, { "epoch": 0.9901866666666667, "grad_norm": 1.9471805804787152, "learning_rate": 2.5255993749057075e-09, "loss": 0.491, "step": 9283 }, { "avg_step_time": 5.859738947165133, "epoch": 0.9901866666666667, "eta_time": 0.1497488842053312, "step": 9283 }, { "epoch": 0.9902933333333334, "grad_norm": 1.9522208389825768, "learning_rate": 2.4709979319442743e-09, "loss": 0.4978, "step": 9284 }, { "avg_step_time": 5.857985942050664, "epoch": 0.9902933333333334, "eta_time": 0.1480768668685029, "step": 9284 }, { "epoch": 0.9904, "grad_norm": 1.7973130382632152, "learning_rate": 2.416993030511239e-09, "loss": 0.4816, "step": 9285 }, { "avg_step_time": 5.759415265285607, "epoch": 0.9904, "eta_time": 0.14398538163214017, "step": 9285 }, { "epoch": 0.9905066666666666, "grad_norm": 1.7713876369367343, "learning_rate": 2.3635846770514448e-09, "loss": 0.4568, "step": 9286 }, { "avg_step_time": 5.762351052929657, "epoch": 0.9905066666666666, "eta_time": 0.14245812325298318, "step": 9286 }, { "epoch": 0.9906133333333333, "grad_norm": 1.879978927504855, "learning_rate": 2.3107728779414584e-09, "loss": 0.4699, "step": 9287 }, { "avg_step_time": 5.755300753044359, "epoch": 0.9906133333333333, "eta_time": 0.1406851295188621, "step": 9287 }, { "epoch": 0.99072, "grad_norm": 1.7812073173540073, "learning_rate": 2.258557639484571e-09, "loss": 0.4754, "step": 9288 }, { "avg_step_time": 5.732091971118041, "epoch": 0.99072, "eta_time": 0.138525555968686, "step": 9288 }, { "epoch": 0.9908266666666666, "grad_norm": 1.8710242153380476, "learning_rate": 2.2069389679135746e-09, "loss": 0.4735, "step": 9289 }, { "avg_step_time": 5.712204646582555, "epoch": 0.9908266666666666, "eta_time": 0.13645822211280548, "step": 9289 }, { "epoch": 0.9909333333333333, "grad_norm": 1.7692778698805538, "learning_rate": 2.1559168693902066e-09, "loss": 0.4493, "step": 9290 }, { "avg_step_time": 5.713509138184365, "epoch": 0.9909333333333333, "eta_time": 0.13490229909601972, "step": 9290 }, { "epoch": 0.99104, "grad_norm": 1.7001453635520476, "learning_rate": 2.1054913500051512e-09, "loss": 0.4933, "step": 9291 }, { "avg_step_time": 5.7127038999037305, "epoch": 0.99104, "eta_time": 0.13329642433108704, "step": 9291 }, { "epoch": 0.9911466666666666, "grad_norm": 1.7435758814434448, "learning_rate": 2.0556624157769265e-09, "loss": 0.4651, "step": 9292 }, { "avg_step_time": 5.708485771911313, "epoch": 0.9911466666666666, "eta_time": 0.13161231085239972, "step": 9292 }, { "epoch": 0.9912533333333333, "grad_norm": 0.6462435295682949, "learning_rate": 2.0064300726541084e-09, "loss": 0.4274, "step": 9293 }, { "avg_step_time": 5.678531196382311, "epoch": 0.9912533333333333, "eta_time": 0.12934432169537485, "step": 9293 }, { "epoch": 0.99136, "grad_norm": 1.9403945771646056, "learning_rate": 1.957794326513107e-09, "loss": 0.4194, "step": 9294 }, { "avg_step_time": 5.666611240367697, "epoch": 0.99136, "eta_time": 0.12749875290827317, "step": 9294 }, { "epoch": 0.9914666666666667, "grad_norm": 2.0074632148523874, "learning_rate": 1.9097551831592785e-09, "loss": 0.4925, "step": 9295 }, { "avg_step_time": 5.6660813153392136, "epoch": 0.9914666666666667, "eta_time": 0.1259129181186492, "step": 9295 }, { "epoch": 0.9915733333333333, "grad_norm": 1.858853903628677, "learning_rate": 1.862312648326925e-09, "loss": 0.5054, "step": 9296 }, { "avg_step_time": 5.668574333190918, "epoch": 0.9915733333333333, "eta_time": 0.1243937145339118, "step": 9296 }, { "epoch": 0.99168, "grad_norm": 0.6314462941240776, "learning_rate": 1.8154667276798488e-09, "loss": 0.4166, "step": 9297 }, { "avg_step_time": 5.632647509526724, "epoch": 0.99168, "eta_time": 0.1220406960397457, "step": 9297 }, { "epoch": 0.9917866666666667, "grad_norm": 1.9585510251112268, "learning_rate": 1.7692174268091334e-09, "loss": 0.4435, "step": 9298 }, { "avg_step_time": 5.630381914100262, "epoch": 0.9917866666666667, "eta_time": 0.12042761316270004, "step": 9298 }, { "epoch": 0.9918933333333333, "grad_norm": 1.6683225269628845, "learning_rate": 1.7235647512353627e-09, "loss": 0.4414, "step": 9299 }, { "avg_step_time": 5.639185736877749, "epoch": 0.9918933333333333, "eta_time": 0.11904947666741915, "step": 9299 }, { "epoch": 0.992, "grad_norm": 1.807959055161964, "learning_rate": 1.6785087064086213e-09, "loss": 0.4754, "step": 9300 }, { "avg_step_time": 5.630486789375845, "epoch": 0.992, "eta_time": 0.11730180811199677, "step": 9300 }, { "epoch": 0.9921066666666667, "grad_norm": 2.0226166013986138, "learning_rate": 1.63404929770683e-09, "loss": 0.5335, "step": 9301 }, { "avg_step_time": 5.627161011551365, "epoch": 0.9921066666666667, "eta_time": 0.1156694207930003, "step": 9301 }, { "epoch": 0.9922133333333333, "grad_norm": 1.7688987305195198, "learning_rate": 1.5901865304368547e-09, "loss": 0.4822, "step": 9302 }, { "avg_step_time": 5.629135170368233, "epoch": 0.9922133333333333, "eta_time": 0.11414635206580029, "step": 9302 }, { "epoch": 0.99232, "grad_norm": 0.644287888408236, "learning_rate": 1.546920409834507e-09, "loss": 0.4391, "step": 9303 }, { "avg_step_time": 5.498018727158055, "epoch": 0.99232, "eta_time": 0.1099603745431611, "step": 9303 }, { "epoch": 0.9924266666666667, "grad_norm": 1.6827446635230605, "learning_rate": 1.5042509410645445e-09, "loss": 0.4564, "step": 9304 }, { "avg_step_time": 5.497658211775501, "epoch": 0.9924266666666667, "eta_time": 0.10842603695446126, "step": 9304 }, { "epoch": 0.9925333333333334, "grad_norm": 1.7089912939068799, "learning_rate": 1.4621781292201155e-09, "loss": 0.4181, "step": 9305 }, { "avg_step_time": 5.49570431372132, "epoch": 0.9925333333333334, "eta_time": 0.10686091721124788, "step": 9305 }, { "epoch": 0.99264, "grad_norm": 1.9883812473675246, "learning_rate": 1.4207019793238686e-09, "loss": 0.467, "step": 9306 }, { "avg_step_time": 5.501288806549226, "epoch": 0.99264, "eta_time": 0.1054413687921935, "step": 9306 }, { "epoch": 0.9927466666666667, "grad_norm": 2.220561311487892, "learning_rate": 1.3798224963257335e-09, "loss": 0.5615, "step": 9307 }, { "avg_step_time": 5.5006376059368405, "epoch": 0.9927466666666667, "eta_time": 0.10390093255658477, "step": 9307 }, { "epoch": 0.9928533333333334, "grad_norm": 1.6893381833112187, "learning_rate": 1.3395396851056951e-09, "loss": 0.4411, "step": 9308 }, { "avg_step_time": 5.4920684472479, "epoch": 0.9928533333333334, "eta_time": 0.10221349610155814, "step": 9308 }, { "epoch": 0.99296, "grad_norm": 1.8297572577309877, "learning_rate": 1.299853550472685e-09, "loss": 0.567, "step": 9309 }, { "avg_step_time": 5.537256821237429, "epoch": 0.99296, "eta_time": 0.10151637505601954, "step": 9309 }, { "epoch": 0.9930666666666667, "grad_norm": 2.322347388778596, "learning_rate": 1.2607640971640245e-09, "loss": 0.4707, "step": 9310 }, { "avg_step_time": 5.540012891846474, "epoch": 0.9930666666666667, "eta_time": 0.100028010547228, "step": 9310 }, { "epoch": 0.9931733333333334, "grad_norm": 1.9223557772323323, "learning_rate": 1.2222713298448706e-09, "loss": 0.562, "step": 9311 }, { "avg_step_time": 5.542353584308817, "epoch": 0.9931733333333334, "eta_time": 0.0985307303877123, "step": 9311 }, { "epoch": 0.99328, "grad_norm": 1.6227748206779524, "learning_rate": 1.1843752531104368e-09, "loss": 0.4925, "step": 9312 }, { "avg_step_time": 5.550197435147835, "epoch": 0.99328, "eta_time": 0.09712845511508711, "step": 9312 }, { "epoch": 0.9933866666666666, "grad_norm": 1.9227836709708126, "learning_rate": 1.1470758714843267e-09, "loss": 0.5159, "step": 9313 }, { "avg_step_time": 5.6020308841358535, "epoch": 0.9933866666666666, "eta_time": 0.0964794207823397, "step": 9313 }, { "epoch": 0.9934933333333333, "grad_norm": 1.7690045073495924, "learning_rate": 1.1103731894190894e-09, "loss": 0.4874, "step": 9314 }, { "avg_step_time": 5.657972961965234, "epoch": 0.9934933333333333, "eta_time": 0.09587120852218868, "step": 9314 }, { "epoch": 0.9936, "grad_norm": 2.3156848822389793, "learning_rate": 1.0742672112951103e-09, "loss": 0.5486, "step": 9315 }, { "avg_step_time": 5.6619613122458405, "epoch": 0.9936, "eta_time": 0.09436602187076401, "step": 9315 }, { "epoch": 0.9937066666666666, "grad_norm": 2.0655228145333173, "learning_rate": 1.038757941423385e-09, "loss": 0.5202, "step": 9316 }, { "avg_step_time": 5.692916422179251, "epoch": 0.9937066666666666, "eta_time": 0.09330057469682662, "step": 9316 }, { "epoch": 0.9938133333333333, "grad_norm": 2.005293253600119, "learning_rate": 1.0038453840416352e-09, "loss": 0.522, "step": 9317 }, { "avg_step_time": 5.69032354306693, "epoch": 0.9938133333333333, "eta_time": 0.09167743486052277, "step": 9317 }, { "epoch": 0.99392, "grad_norm": 1.8186874743798178, "learning_rate": 9.695295433170826e-10, "loss": 0.5645, "step": 9318 }, { "avg_step_time": 5.63051820764638, "epoch": 0.99392, "eta_time": 0.08914987162106768, "step": 9318 }, { "epoch": 0.9940266666666666, "grad_norm": 1.8717669866905426, "learning_rate": 9.358104233470055e-10, "loss": 0.5001, "step": 9319 }, { "avg_step_time": 5.638133260938856, "epoch": 0.9940266666666666, "eta_time": 0.08770429517015998, "step": 9319 }, { "epoch": 0.9941333333333333, "grad_norm": 1.8732328653171095, "learning_rate": 9.026880281554073e-10, "loss": 0.4181, "step": 9320 }, { "avg_step_time": 5.669661509870279, "epoch": 0.9941333333333333, "eta_time": 0.08661982862301816, "step": 9320 }, { "epoch": 0.99424, "grad_norm": 0.6486312343147669, "learning_rate": 8.701623616963472e-10, "loss": 0.444, "step": 9321 }, { "avg_step_time": 5.62877417814852, "epoch": 0.99424, "eta_time": 0.0844316126722278, "step": 9321 }, { "epoch": 0.9943466666666667, "grad_norm": 1.7277939530750699, "learning_rate": 8.382334278528304e-10, "loss": 0.4355, "step": 9322 }, { "avg_step_time": 5.628954290139554, "epoch": 0.9943466666666667, "eta_time": 0.08287071593816567, "step": 9322 }, { "epoch": 0.9944533333333333, "grad_norm": 1.8881911346718563, "learning_rate": 8.069012304351421e-10, "loss": 0.5031, "step": 9323 }, { "avg_step_time": 5.628831297460229, "epoch": 0.9944533333333333, "eta_time": 0.08130534096331442, "step": 9323 }, { "epoch": 0.99456, "grad_norm": 1.7890184886125504, "learning_rate": 7.761657731836236e-10, "loss": 0.4078, "step": 9324 }, { "avg_step_time": 5.673361436285154, "epoch": 0.99456, "eta_time": 0.08037262034737301, "step": 9324 }, { "epoch": 0.9946666666666667, "grad_norm": 1.934060146967514, "learning_rate": 7.460270597675622e-10, "loss": 0.4631, "step": 9325 }, { "avg_step_time": 5.6713547176784935, "epoch": 0.9946666666666667, "eta_time": 0.07876881552331241, "step": 9325 }, { "epoch": 0.9947733333333333, "grad_norm": 2.102570436314884, "learning_rate": 7.164850937840806e-10, "loss": 0.5069, "step": 9326 }, { "avg_step_time": 5.6756351837004075, "epoch": 0.9947733333333333, "eta_time": 0.07725170111147778, "step": 9326 }, { "epoch": 0.99488, "grad_norm": 2.122250778422383, "learning_rate": 6.87539878759802e-10, "loss": 0.5872, "step": 9327 }, { "avg_step_time": 5.678950497598359, "epoch": 0.99488, "eta_time": 0.07571933996797814, "step": 9327 }, { "epoch": 0.9949866666666667, "grad_norm": 1.621451865356145, "learning_rate": 6.591914181497405e-10, "loss": 0.3741, "step": 9328 }, { "avg_step_time": 5.744726342384261, "epoch": 0.9949866666666667, "eta_time": 0.07500059391446119, "step": 9328 }, { "epoch": 0.9950933333333334, "grad_norm": 0.6648568117301666, "learning_rate": 6.314397153378559e-10, "loss": 0.4349, "step": 9329 }, { "avg_step_time": 5.683575598880498, "epoch": 0.9950933333333334, "eta_time": 0.07262346598569525, "step": 9329 }, { "epoch": 0.9952, "grad_norm": 1.7748403118000173, "learning_rate": 6.042847736364987e-10, "loss": 0.4618, "step": 9330 }, { "avg_step_time": 5.67994446947117, "epoch": 0.9952, "eta_time": 0.07099930586838964, "step": 9330 }, { "epoch": 0.9953066666666667, "grad_norm": 2.153260420175772, "learning_rate": 5.7772659628752e-10, "loss": 0.5071, "step": 9331 }, { "avg_step_time": 5.714537880637429, "epoch": 0.9953066666666667, "eta_time": 0.06984435187445746, "step": 9331 }, { "epoch": 0.9954133333333334, "grad_norm": 1.7366565641680456, "learning_rate": 5.517651864606066e-10, "loss": 0.4443, "step": 9332 }, { "avg_step_time": 5.712897645102607, "epoch": 0.9954133333333334, "eta_time": 0.06823738853872557, "step": 9332 }, { "epoch": 0.99552, "grad_norm": 1.9815918324381847, "learning_rate": 5.264005472549461e-10, "loss": 0.454, "step": 9333 }, { "avg_step_time": 5.742943202606355, "epoch": 0.99552, "eta_time": 0.06700100403040747, "step": 9333 }, { "epoch": 0.9956266666666667, "grad_norm": 1.7149112000530335, "learning_rate": 5.016326816981165e-10, "loss": 0.4591, "step": 9334 }, { "avg_step_time": 5.748624076746931, "epoch": 0.9956266666666667, "eta_time": 0.06547044087406227, "step": 9334 }, { "epoch": 0.9957333333333334, "grad_norm": 1.8852748148056515, "learning_rate": 4.774615927471971e-10, "loss": 0.4333, "step": 9335 }, { "avg_step_time": 5.7434938820925625, "epoch": 0.9957333333333334, "eta_time": 0.06381659868991736, "step": 9335 }, { "epoch": 0.99584, "grad_norm": 0.6412159114849572, "learning_rate": 4.538872832865471e-10, "loss": 0.4547, "step": 9336 }, { "avg_step_time": 5.716358064401029, "epoch": 0.99584, "eta_time": 0.06192721236434448, "step": 9336 }, { "epoch": 0.9959466666666666, "grad_norm": 1.7896529189710817, "learning_rate": 4.3090975613058194e-10, "loss": 0.404, "step": 9337 }, { "avg_step_time": 5.716067542933454, "epoch": 0.9959466666666666, "eta_time": 0.06033626850874202, "step": 9337 }, { "epoch": 0.9960533333333333, "grad_norm": 0.6407332940695963, "learning_rate": 4.0852901402210764e-10, "loss": 0.4585, "step": 9338 }, { "avg_step_time": 5.681397129790952, "epoch": 0.9960533333333333, "eta_time": 0.058392137167295896, "step": 9338 }, { "epoch": 0.99616, "grad_norm": 1.8781008575609404, "learning_rate": 3.867450596328759e-10, "loss": 0.4953, "step": 9339 }, { "avg_step_time": 5.682525986372823, "epoch": 0.99616, "eta_time": 0.056825259863728224, "step": 9339 }, { "epoch": 0.9962666666666666, "grad_norm": 1.9051597844721735, "learning_rate": 3.655578955624739e-10, "loss": 0.4998, "step": 9340 }, { "avg_step_time": 5.718635152084659, "epoch": 0.9962666666666666, "eta_time": 0.05559784175637862, "step": 9340 }, { "epoch": 0.9963733333333333, "grad_norm": 1.6687235127841296, "learning_rate": 3.449675243405448e-10, "loss": 0.5365, "step": 9341 }, { "avg_step_time": 5.715711504521996, "epoch": 0.9963733333333333, "eta_time": 0.053981719764929964, "step": 9341 }, { "epoch": 0.99648, "grad_norm": 1.8756281370416725, "learning_rate": 3.2497394842512244e-10, "loss": 0.4616, "step": 9342 }, { "avg_step_time": 5.711014921014959, "epoch": 0.99648, "eta_time": 0.05235097010930379, "step": 9342 }, { "epoch": 0.9965866666666666, "grad_norm": 1.9593848349947152, "learning_rate": 3.05577170202076e-10, "loss": 0.4015, "step": 9343 }, { "avg_step_time": 5.7442347280906905, "epoch": 0.9965866666666666, "eta_time": 0.051059864249695025, "step": 9343 }, { "epoch": 0.9966933333333333, "grad_norm": 1.4797663502828535, "learning_rate": 2.8677719198677566e-10, "loss": 0.4131, "step": 9344 }, { "avg_step_time": 5.743311161946768, "epoch": 0.9966933333333333, "eta_time": 0.04945629056120828, "step": 9344 }, { "epoch": 0.9968, "grad_norm": 1.839795456986653, "learning_rate": 2.685740160240924e-10, "loss": 0.4862, "step": 9345 }, { "avg_step_time": 5.745750078047164, "epoch": 0.9968, "eta_time": 0.04788125065039304, "step": 9345 }, { "epoch": 0.9969066666666667, "grad_norm": 1.8514188649486967, "learning_rate": 2.509676444861775e-10, "loss": 0.3828, "step": 9346 }, { "avg_step_time": 5.747663546090174, "epoch": 0.9969066666666667, "eta_time": 0.04630062301017085, "step": 9346 }, { "epoch": 0.9970133333333333, "grad_norm": 2.059020213975058, "learning_rate": 2.339580794752383e-10, "loss": 0.5555, "step": 9347 }, { "avg_step_time": 5.69185815917121, "epoch": 0.9970133333333333, "eta_time": 0.04427000790466497, "step": 9347 }, { "epoch": 0.99712, "grad_norm": 0.6232056688572162, "learning_rate": 2.1754532302076247e-10, "loss": 0.4295, "step": 9348 }, { "avg_step_time": 5.661687747396604, "epoch": 0.99712, "eta_time": 0.042462658105474525, "step": 9348 }, { "epoch": 0.9972266666666667, "grad_norm": 1.9311585882312925, "learning_rate": 2.017293770828488e-10, "loss": 0.529, "step": 9349 }, { "avg_step_time": 5.663384297881463, "epoch": 0.9972266666666667, "eta_time": 0.0409022199291439, "step": 9349 }, { "epoch": 0.9973333333333333, "grad_norm": 0.6491810372045632, "learning_rate": 1.8651024354887637e-10, "loss": 0.4582, "step": 9350 }, { "avg_step_time": 5.633940321026427, "epoch": 0.9973333333333333, "eta_time": 0.039124585562683514, "step": 9350 }, { "epoch": 0.99744, "grad_norm": 0.6121807471975335, "learning_rate": 1.718879242357252e-10, "loss": 0.4262, "step": 9351 }, { "avg_step_time": 5.596299946910203, "epoch": 0.99744, "eta_time": 0.03730866631273468, "step": 9351 }, { "epoch": 0.9975466666666667, "grad_norm": 1.8013315119563087, "learning_rate": 1.578624208886659e-10, "loss": 0.4304, "step": 9352 }, { "avg_step_time": 5.634272854737561, "epoch": 0.9975466666666667, "eta_time": 0.03599674323860109, "step": 9352 }, { "epoch": 0.9976533333333333, "grad_norm": 2.056440776067719, "learning_rate": 1.4443373518246984e-10, "loss": 0.4694, "step": 9353 }, { "avg_step_time": 5.668846561451151, "epoch": 0.9976533333333333, "eta_time": 0.03464295120886814, "step": 9353 }, { "epoch": 0.99776, "grad_norm": 1.908304363186962, "learning_rate": 1.316018687191889e-10, "loss": 0.4772, "step": 9354 }, { "avg_step_time": 5.670881805997906, "epoch": 0.99776, "eta_time": 0.033080143868321116, "step": 9354 }, { "epoch": 0.9978666666666667, "grad_norm": 1.6719090611796315, "learning_rate": 1.1936682303037573e-10, "loss": 0.4723, "step": 9355 }, { "avg_step_time": 5.6679074186267275, "epoch": 0.9978666666666667, "eta_time": 0.03148837454792626, "step": 9355 }, { "epoch": 0.9979733333333334, "grad_norm": 1.876215928911441, "learning_rate": 1.0772859957763892e-10, "loss": 0.5229, "step": 9356 }, { "avg_step_time": 5.698735942744245, "epoch": 0.9979733333333334, "eta_time": 0.030076661920039074, "step": 9356 }, { "epoch": 0.99808, "grad_norm": 1.744057381689304, "learning_rate": 9.668719974986751e-11, "loss": 0.493, "step": 9357 }, { "avg_step_time": 5.698005770192002, "epoch": 0.99808, "eta_time": 0.02849002885096001, "step": 9357 }, { "epoch": 0.9981866666666667, "grad_norm": 1.8815044460969264, "learning_rate": 8.62426248643411e-11, "loss": 0.4335, "step": 9358 }, { "avg_step_time": 5.696585920121935, "epoch": 0.9981866666666667, "eta_time": 0.026900544622798027, "step": 9358 }, { "epoch": 0.9982933333333334, "grad_norm": 2.121725195539089, "learning_rate": 7.639487616839525e-11, "loss": 0.4765, "step": 9359 }, { "avg_step_time": 5.6770161546842015, "epoch": 0.9982933333333334, "eta_time": 0.02523118290970756, "step": 9359 }, { "epoch": 0.9984, "grad_norm": 0.6430002033598502, "learning_rate": 6.714395483720105e-11, "loss": 0.4212, "step": 9360 }, { "avg_step_time": 5.664619164033369, "epoch": 0.9984, "eta_time": 0.023602579850139038, "step": 9360 }, { "epoch": 0.9985066666666667, "grad_norm": 1.9508574204678895, "learning_rate": 5.848986197487528e-11, "loss": 0.5272, "step": 9361 }, { "avg_step_time": 5.690657319444599, "epoch": 0.9985066666666667, "eta_time": 0.02213033402006233, "step": 9361 }, { "epoch": 0.9986133333333334, "grad_norm": 2.1132700148956762, "learning_rate": 5.043259861559069e-11, "loss": 0.5388, "step": 9362 }, { "avg_step_time": 5.6757792920777295, "epoch": 0.9986133333333334, "eta_time": 0.020495869665836244, "step": 9362 }, { "epoch": 0.99872, "grad_norm": 1.9267483771349883, "learning_rate": 4.297216571969021e-11, "loss": 0.5769, "step": 9363 }, { "avg_step_time": 5.668721721629904, "epoch": 0.99872, "eta_time": 0.01889573907209968, "step": 9363 }, { "epoch": 0.9988266666666666, "grad_norm": 1.7342641103319199, "learning_rate": 3.6108564178127804e-11, "loss": 0.5242, "step": 9364 }, { "avg_step_time": 5.6710040448892, "epoch": 0.9988266666666666, "eta_time": 0.01732806791493922, "step": 9364 }, { "epoch": 0.9989333333333333, "grad_norm": 1.9088967449528054, "learning_rate": 2.9841794810803185e-11, "loss": 0.4559, "step": 9365 }, { "avg_step_time": 5.65727460986436, "epoch": 0.9989333333333333, "eta_time": 0.015714651694067668, "step": 9365 }, { "epoch": 0.99904, "grad_norm": 1.6423110039719933, "learning_rate": 2.417185836545155e-11, "loss": 0.3832, "step": 9366 }, { "avg_step_time": 5.650086506448611, "epoch": 0.99904, "eta_time": 0.014125216266121527, "step": 9366 }, { "epoch": 0.9991466666666666, "grad_norm": 2.2445343262345263, "learning_rate": 1.909875551819873e-11, "loss": 0.5628, "step": 9367 }, { "avg_step_time": 5.624092564438328, "epoch": 0.9991466666666666, "eta_time": 0.012497983476529619, "step": 9367 }, { "epoch": 0.9992533333333333, "grad_norm": 1.908549815482854, "learning_rate": 1.4622486875226494e-11, "loss": 0.4684, "step": 9368 }, { "avg_step_time": 5.62549926295425, "epoch": 0.9992533333333333, "eta_time": 0.010938470789077708, "step": 9368 }, { "epoch": 0.99936, "grad_norm": 1.9769928279316327, "learning_rate": 1.0743052971107225e-11, "loss": 0.5126, "step": 9369 }, { "avg_step_time": 5.63009192486002, "epoch": 0.99936, "eta_time": 0.009383486541433367, "step": 9369 }, { "epoch": 0.9994666666666666, "grad_norm": 1.8175302186192481, "learning_rate": 7.46045426880393e-12, "loss": 0.4716, "step": 9370 }, { "avg_step_time": 5.629836258262094, "epoch": 0.9994666666666666, "eta_time": 0.00781921702536402, "step": 9370 }, { "epoch": 0.9995733333333333, "grad_norm": 1.6608847099740887, "learning_rate": 4.774691159115108e-12, "loss": 0.4345, "step": 9371 }, { "avg_step_time": 5.629834379812683, "epoch": 0.9995733333333333, "eta_time": 0.006255371533125204, "step": 9371 }, { "epoch": 0.99968, "grad_norm": 0.6623312221831511, "learning_rate": 2.6857639640054387e-12, "loss": 0.4233, "step": 9372 }, { "avg_step_time": 5.593203852875064, "epoch": 0.99968, "eta_time": 0.00466100321072922, "step": 9372 }, { "epoch": 0.9997866666666667, "grad_norm": 0.6289302219014059, "learning_rate": 1.19367293216488e-12, "loss": 0.4325, "step": 9373 }, { "avg_step_time": 5.555490710518577, "epoch": 0.9997866666666667, "eta_time": 0.003086383728065876, "step": 9373 }, { "epoch": 0.9998933333333333, "grad_norm": 1.9063631729698096, "learning_rate": 2.984182417842263e-13, "loss": 0.5182, "step": 9374 }, { "avg_step_time": 5.558208846082591, "epoch": 0.9998933333333333, "eta_time": 0.0015439469016896086, "step": 9374 }, { "epoch": 1.0, "grad_norm": 1.3285605677763141, "learning_rate": 0.0, "loss": 0.5022, "step": 9375 }, { "epoch": 1.0, "step": 9375, "total_flos": 2247637690736640.0, "train_loss": 0.0, "train_runtime": 0.0324, "train_samples_per_second": 37053519.343, "train_steps_per_second": 289480.62 } ], "logging_steps": 1.0, "max_steps": 9375, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 5000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2247637690736640.0, "train_batch_size": 2, "trial_name": null, "trial_params": null }