{ "best_metric": null, "best_model_checkpoint": null, "epoch": 1.9984, "eval_steps": 500, "global_step": 1874, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0010666666666666667, "grad_norm": 1.025353663148215, "learning_rate": 5.319148936170213e-06, "loss": 2.0934, "step": 1 }, { "epoch": 0.005333333333333333, "grad_norm": 1.0073016650551612, "learning_rate": 2.6595744680851064e-05, "loss": 2.2073, "step": 5 }, { "epoch": 0.010666666666666666, "grad_norm": 0.8403586474410296, "learning_rate": 5.319148936170213e-05, "loss": 1.9872, "step": 10 }, { "epoch": 0.016, "grad_norm": 1.6704469547467542, "learning_rate": 7.97872340425532e-05, "loss": 1.9288, "step": 15 }, { "epoch": 0.021333333333333333, "grad_norm": 0.4351417145277095, "learning_rate": 0.00010638297872340425, "loss": 1.8294, "step": 20 }, { "epoch": 0.02666666666666667, "grad_norm": 1.3745811073468592, "learning_rate": 0.00013297872340425532, "loss": 1.9251, "step": 25 }, { "epoch": 0.032, "grad_norm": 0.452091271658716, "learning_rate": 0.0001595744680851064, "loss": 1.6644, "step": 30 }, { "epoch": 0.037333333333333336, "grad_norm": 0.5172113273089282, "learning_rate": 0.00018617021276595746, "loss": 1.7198, "step": 35 }, { "epoch": 0.042666666666666665, "grad_norm": 0.513214328373238, "learning_rate": 0.0002127659574468085, "loss": 1.6338, "step": 40 }, { "epoch": 0.048, "grad_norm": 0.3908673106799022, "learning_rate": 0.0002393617021276596, "loss": 1.6093, "step": 45 }, { "epoch": 0.05333333333333334, "grad_norm": 0.4299555243962387, "learning_rate": 0.00026595744680851064, "loss": 1.559, "step": 50 }, { "epoch": 0.058666666666666666, "grad_norm": 0.6731086482447908, "learning_rate": 0.0002925531914893617, "loss": 1.5649, "step": 55 }, { "epoch": 0.064, "grad_norm": 0.40272851795918835, "learning_rate": 0.0003191489361702128, "loss": 1.5667, "step": 60 }, { "epoch": 0.06933333333333333, "grad_norm": 0.389854657320343, "learning_rate": 0.0003457446808510639, "loss": 1.4147, "step": 65 }, { "epoch": 0.07466666666666667, "grad_norm": 0.434843747510558, "learning_rate": 0.0003723404255319149, "loss": 1.4142, "step": 70 }, { "epoch": 0.08, "grad_norm": 0.3841978972505265, "learning_rate": 0.00039893617021276594, "loss": 1.4433, "step": 75 }, { "epoch": 0.08533333333333333, "grad_norm": 0.4822814531639033, "learning_rate": 0.000425531914893617, "loss": 1.4766, "step": 80 }, { "epoch": 0.09066666666666667, "grad_norm": 0.351825010378204, "learning_rate": 0.0004521276595744681, "loss": 1.4839, "step": 85 }, { "epoch": 0.096, "grad_norm": 0.44385196927324716, "learning_rate": 0.0004787234042553192, "loss": 1.6069, "step": 90 }, { "epoch": 0.10133333333333333, "grad_norm": 0.5158370083401014, "learning_rate": 0.0005053191489361702, "loss": 1.6519, "step": 95 }, { "epoch": 0.10666666666666667, "grad_norm": 0.37281767374353214, "learning_rate": 0.0005319148936170213, "loss": 1.5102, "step": 100 }, { "epoch": 0.112, "grad_norm": 1.0115666481148895, "learning_rate": 0.0005585106382978723, "loss": 1.9115, "step": 105 }, { "epoch": 0.11733333333333333, "grad_norm": 0.6441717535762306, "learning_rate": 0.0005851063829787234, "loss": 1.7532, "step": 110 }, { "epoch": 0.12266666666666666, "grad_norm": 0.47701493648265697, "learning_rate": 0.0006117021276595744, "loss": 1.5467, "step": 115 }, { "epoch": 0.128, "grad_norm": 1.1515445806294975, "learning_rate": 0.0006382978723404256, "loss": 1.6593, "step": 120 }, { "epoch": 0.13333333333333333, "grad_norm": 0.8548603793551325, "learning_rate": 0.0006648936170212766, "loss": 1.7672, "step": 125 }, { "epoch": 0.13866666666666666, "grad_norm": 1.4992963532840262, "learning_rate": 0.0006914893617021278, "loss": 1.8751, "step": 130 }, { "epoch": 0.144, "grad_norm": 0.8103246834733876, "learning_rate": 0.0007180851063829787, "loss": 1.7591, "step": 135 }, { "epoch": 0.14933333333333335, "grad_norm": 0.400124176701121, "learning_rate": 0.0007446808510638298, "loss": 1.523, "step": 140 }, { "epoch": 0.15466666666666667, "grad_norm": 0.4208796878106105, "learning_rate": 0.0007712765957446809, "loss": 1.4838, "step": 145 }, { "epoch": 0.16, "grad_norm": 0.6211070310626203, "learning_rate": 0.0007978723404255319, "loss": 1.4811, "step": 150 }, { "epoch": 0.16533333333333333, "grad_norm": 0.49115788735331706, "learning_rate": 0.0008244680851063831, "loss": 1.6881, "step": 155 }, { "epoch": 0.17066666666666666, "grad_norm": 0.378987417938993, "learning_rate": 0.000851063829787234, "loss": 1.6061, "step": 160 }, { "epoch": 0.176, "grad_norm": 0.36651479904546935, "learning_rate": 0.0008776595744680851, "loss": 1.5002, "step": 165 }, { "epoch": 0.18133333333333335, "grad_norm": 0.48635712401543163, "learning_rate": 0.0009042553191489362, "loss": 1.6535, "step": 170 }, { "epoch": 0.18666666666666668, "grad_norm": 0.3627048200877666, "learning_rate": 0.0009308510638297873, "loss": 1.5524, "step": 175 }, { "epoch": 0.192, "grad_norm": 0.5868150018304205, "learning_rate": 0.0009574468085106384, "loss": 1.9321, "step": 180 }, { "epoch": 0.19733333333333333, "grad_norm": 0.44210337994703247, "learning_rate": 0.0009840425531914894, "loss": 1.6421, "step": 185 }, { "epoch": 0.20266666666666666, "grad_norm": 0.7496290874803799, "learning_rate": 0.0009999965279649382, "loss": 1.9841, "step": 190 }, { "epoch": 0.208, "grad_norm": 1.8329284819742508, "learning_rate": 0.0009999574681242686, "loss": 1.9012, "step": 195 }, { "epoch": 0.21333333333333335, "grad_norm": 3.2771218627271597, "learning_rate": 0.0009998750118008115, "loss": 2.0973, "step": 200 }, { "epoch": 0.21866666666666668, "grad_norm": 0.9364720070291311, "learning_rate": 0.0009997491661518049, "loss": 2.3706, "step": 205 }, { "epoch": 0.224, "grad_norm": 0.8794820257077164, "learning_rate": 0.0009995799421006946, "loss": 1.8743, "step": 210 }, { "epoch": 0.22933333333333333, "grad_norm": 0.42266437725788164, "learning_rate": 0.0009993673543361875, "loss": 1.7138, "step": 215 }, { "epoch": 0.23466666666666666, "grad_norm": 2.0325117029926956, "learning_rate": 0.0009991114213109757, "loss": 2.0366, "step": 220 }, { "epoch": 0.24, "grad_norm": 0.4559995642715011, "learning_rate": 0.0009988121652401353, "loss": 1.7211, "step": 225 }, { "epoch": 0.24533333333333332, "grad_norm": 0.43471769056713755, "learning_rate": 0.0009984696120991978, "loss": 1.9585, "step": 230 }, { "epoch": 0.25066666666666665, "grad_norm": 0.37132370575141604, "learning_rate": 0.0009980837916218953, "loss": 1.7572, "step": 235 }, { "epoch": 0.256, "grad_norm": 0.40398687509926645, "learning_rate": 0.00099765473729758, "loss": 1.612, "step": 240 }, { "epoch": 0.2613333333333333, "grad_norm": 0.3420700552633242, "learning_rate": 0.0009971824863683168, "loss": 1.6719, "step": 245 }, { "epoch": 0.26666666666666666, "grad_norm": 0.3738137859260969, "learning_rate": 0.0009966670798256514, "loss": 1.6583, "step": 250 }, { "epoch": 0.272, "grad_norm": 0.3909831001027425, "learning_rate": 0.000996108562407052, "loss": 1.6484, "step": 255 }, { "epoch": 0.2773333333333333, "grad_norm": 0.31864076117741635, "learning_rate": 0.0009955069825920248, "loss": 1.5752, "step": 260 }, { "epoch": 0.2826666666666667, "grad_norm": 0.3268559009525741, "learning_rate": 0.0009948623925979086, "loss": 1.5789, "step": 265 }, { "epoch": 0.288, "grad_norm": 0.27150171775162996, "learning_rate": 0.0009941748483753394, "loss": 1.5125, "step": 270 }, { "epoch": 0.29333333333333333, "grad_norm": 0.28307748270046823, "learning_rate": 0.0009934444096033957, "loss": 1.5551, "step": 275 }, { "epoch": 0.2986666666666667, "grad_norm": 0.2498088988038753, "learning_rate": 0.0009926711396844184, "loss": 1.5271, "step": 280 }, { "epoch": 0.304, "grad_norm": 0.3164602901780144, "learning_rate": 0.000991855105738506, "loss": 1.4155, "step": 285 }, { "epoch": 0.30933333333333335, "grad_norm": 1.3738582254309721, "learning_rate": 0.0009909963785976902, "loss": 1.8502, "step": 290 }, { "epoch": 0.31466666666666665, "grad_norm": 0.31581861329570465, "learning_rate": 0.0009900950327997866, "loss": 1.5411, "step": 295 }, { "epoch": 0.32, "grad_norm": 0.36754798488647455, "learning_rate": 0.000989151146581925, "loss": 1.7674, "step": 300 }, { "epoch": 0.3253333333333333, "grad_norm": 0.29944480181802774, "learning_rate": 0.0009881648018737585, "loss": 1.5164, "step": 305 }, { "epoch": 0.33066666666666666, "grad_norm": 0.2628270108439651, "learning_rate": 0.0009871360842903527, "loss": 1.5128, "step": 310 }, { "epoch": 0.336, "grad_norm": 0.2923695414321689, "learning_rate": 0.0009860650831247527, "loss": 1.4182, "step": 315 }, { "epoch": 0.3413333333333333, "grad_norm": 0.3279094676582173, "learning_rate": 0.0009849518913402334, "loss": 1.5292, "step": 320 }, { "epoch": 0.3466666666666667, "grad_norm": 0.952580278209342, "learning_rate": 0.0009837966055622305, "loss": 1.6099, "step": 325 }, { "epoch": 0.352, "grad_norm": 0.29662753256399843, "learning_rate": 0.000982599326069953, "loss": 1.6371, "step": 330 }, { "epoch": 0.35733333333333334, "grad_norm": 0.3703081862144953, "learning_rate": 0.000981360156787679, "loss": 1.5532, "step": 335 }, { "epoch": 0.3626666666666667, "grad_norm": 0.2943954971118444, "learning_rate": 0.0009800792052757341, "loss": 1.5065, "step": 340 }, { "epoch": 0.368, "grad_norm": 0.48407683150539693, "learning_rate": 0.0009787565827211577, "loss": 1.5649, "step": 345 }, { "epoch": 0.37333333333333335, "grad_norm": 0.37571854753154726, "learning_rate": 0.0009773924039280487, "loss": 1.5486, "step": 350 }, { "epoch": 0.37866666666666665, "grad_norm": 0.28550201693775606, "learning_rate": 0.0009759867873076029, "loss": 1.5438, "step": 355 }, { "epoch": 0.384, "grad_norm": 1.0966419638587266, "learning_rate": 0.0009745398548678337, "loss": 1.5429, "step": 360 }, { "epoch": 0.3893333333333333, "grad_norm": 0.8671897876776524, "learning_rate": 0.0009730517322029819, "loss": 1.6025, "step": 365 }, { "epoch": 0.39466666666666667, "grad_norm": 0.48729005458217245, "learning_rate": 0.0009715225484826144, "loss": 1.6058, "step": 370 }, { "epoch": 0.4, "grad_norm": 0.5778074037313877, "learning_rate": 0.0009699524364404122, "loss": 1.6887, "step": 375 }, { "epoch": 0.4053333333333333, "grad_norm": 0.32570623450369585, "learning_rate": 0.0009683415323626486, "loss": 1.5021, "step": 380 }, { "epoch": 0.4106666666666667, "grad_norm": 1.0406664613089323, "learning_rate": 0.0009666899760763599, "loss": 1.7534, "step": 385 }, { "epoch": 0.416, "grad_norm": 0.5207157132493063, "learning_rate": 0.0009649979109372085, "loss": 1.454, "step": 390 }, { "epoch": 0.42133333333333334, "grad_norm": 0.9655598893446471, "learning_rate": 0.0009632654838170393, "loss": 1.5354, "step": 395 }, { "epoch": 0.4266666666666667, "grad_norm": 0.29547113215537685, "learning_rate": 0.000961492845091131, "loss": 1.5549, "step": 400 }, { "epoch": 0.432, "grad_norm": 0.32167179991849687, "learning_rate": 0.0009596801486251441, "loss": 1.4426, "step": 405 }, { "epoch": 0.43733333333333335, "grad_norm": 0.4026305688865151, "learning_rate": 0.0009578275517617645, "loss": 1.5076, "step": 410 }, { "epoch": 0.44266666666666665, "grad_norm": 0.5415812396263526, "learning_rate": 0.000955935215307047, "loss": 1.536, "step": 415 }, { "epoch": 0.448, "grad_norm": 0.2796583902857776, "learning_rate": 0.0009540033035164566, "loss": 1.4906, "step": 420 }, { "epoch": 0.4533333333333333, "grad_norm": 0.3241773644851488, "learning_rate": 0.0009520319840806108, "loss": 1.8151, "step": 425 }, { "epoch": 0.45866666666666667, "grad_norm": 0.3415334147330933, "learning_rate": 0.0009500214281107254, "loss": 1.4654, "step": 430 }, { "epoch": 0.464, "grad_norm": 0.3117573797314584, "learning_rate": 0.0009479718101237601, "loss": 1.3794, "step": 435 }, { "epoch": 0.4693333333333333, "grad_norm": 0.4629112137723022, "learning_rate": 0.0009458833080272722, "loss": 1.4449, "step": 440 }, { "epoch": 0.4746666666666667, "grad_norm": 0.324233755253269, "learning_rate": 0.0009437561031039725, "loss": 1.4737, "step": 445 }, { "epoch": 0.48, "grad_norm": 0.34425730189965853, "learning_rate": 0.0009415903799959911, "loss": 1.5055, "step": 450 }, { "epoch": 0.48533333333333334, "grad_norm": 0.2796212009444716, "learning_rate": 0.0009393863266888502, "loss": 1.377, "step": 455 }, { "epoch": 0.49066666666666664, "grad_norm": 0.2803540315979411, "learning_rate": 0.0009371441344951459, "loss": 1.4671, "step": 460 }, { "epoch": 0.496, "grad_norm": 0.4511822137675929, "learning_rate": 0.0009348639980379438, "loss": 1.4765, "step": 465 }, { "epoch": 0.5013333333333333, "grad_norm": 0.3209915201604652, "learning_rate": 0.0009325461152338845, "loss": 1.4392, "step": 470 }, { "epoch": 0.5066666666666667, "grad_norm": 0.32695640303172246, "learning_rate": 0.0009301906872760045, "loss": 1.3737, "step": 475 }, { "epoch": 0.512, "grad_norm": 0.25622904240764466, "learning_rate": 0.0009277979186162728, "loss": 1.4457, "step": 480 }, { "epoch": 0.5173333333333333, "grad_norm": 0.5874484720837727, "learning_rate": 0.0009253680169478448, "loss": 1.6047, "step": 485 }, { "epoch": 0.5226666666666666, "grad_norm": 0.3250697503071867, "learning_rate": 0.0009229011931870334, "loss": 1.4778, "step": 490 }, { "epoch": 0.528, "grad_norm": 0.38328788475762254, "learning_rate": 0.0009203976614550024, "loss": 1.7788, "step": 495 }, { "epoch": 0.5333333333333333, "grad_norm": 0.29516524754929424, "learning_rate": 0.0009178576390591801, "loss": 1.4176, "step": 500 }, { "epoch": 0.5386666666666666, "grad_norm": 0.3174390076458993, "learning_rate": 0.0009152813464743977, "loss": 1.4025, "step": 505 }, { "epoch": 0.544, "grad_norm": 0.8938759125496708, "learning_rate": 0.0009126690073237505, "loss": 1.7661, "step": 510 }, { "epoch": 0.5493333333333333, "grad_norm": 0.29754131393056804, "learning_rate": 0.0009100208483591892, "loss": 1.4888, "step": 515 }, { "epoch": 0.5546666666666666, "grad_norm": 0.3198136310514123, "learning_rate": 0.0009073370994418363, "loss": 1.3152, "step": 520 }, { "epoch": 0.56, "grad_norm": 0.264050388742427, "learning_rate": 0.0009046179935220349, "loss": 1.4827, "step": 525 }, { "epoch": 0.5653333333333334, "grad_norm": 0.27834962646280587, "learning_rate": 0.0009018637666191282, "loss": 1.553, "step": 530 }, { "epoch": 0.5706666666666667, "grad_norm": 1.7085448865830675, "learning_rate": 0.0008990746578009731, "loss": 1.4265, "step": 535 }, { "epoch": 0.576, "grad_norm": 0.5081745052271874, "learning_rate": 0.0008962509091631885, "loss": 1.5823, "step": 540 }, { "epoch": 0.5813333333333334, "grad_norm": 0.42947729663441186, "learning_rate": 0.0008933927658081423, "loss": 1.4452, "step": 545 }, { "epoch": 0.5866666666666667, "grad_norm": 0.27401507985050816, "learning_rate": 0.0008905004758236754, "loss": 1.6376, "step": 550 }, { "epoch": 0.592, "grad_norm": 0.24781113007068206, "learning_rate": 0.0008875742902615687, "loss": 1.3772, "step": 555 }, { "epoch": 0.5973333333333334, "grad_norm": 0.6266769920094106, "learning_rate": 0.00088461446311575, "loss": 1.4608, "step": 560 }, { "epoch": 0.6026666666666667, "grad_norm": 0.27268110385413297, "learning_rate": 0.0008816212513002492, "loss": 1.4036, "step": 565 }, { "epoch": 0.608, "grad_norm": 0.23763295459853148, "learning_rate": 0.0008785949146268972, "loss": 1.3759, "step": 570 }, { "epoch": 0.6133333333333333, "grad_norm": 0.229943824768871, "learning_rate": 0.0008755357157827734, "loss": 1.3175, "step": 575 }, { "epoch": 0.6186666666666667, "grad_norm": 0.2848531427426304, "learning_rate": 0.000872443920307406, "loss": 1.4058, "step": 580 }, { "epoch": 0.624, "grad_norm": 0.24100692376448324, "learning_rate": 0.0008693197965697214, "loss": 1.4337, "step": 585 }, { "epoch": 0.6293333333333333, "grad_norm": 0.26724229331433924, "learning_rate": 0.000866163615744751, "loss": 1.4641, "step": 590 }, { "epoch": 0.6346666666666667, "grad_norm": 1.8716894557404855, "learning_rate": 0.0008629756517900922, "loss": 1.3343, "step": 595 }, { "epoch": 0.64, "grad_norm": 0.26684748038394546, "learning_rate": 0.0008597561814221294, "loss": 1.4537, "step": 600 }, { "epoch": 0.6453333333333333, "grad_norm": 0.29301955613104774, "learning_rate": 0.0008565054840920144, "loss": 1.5818, "step": 605 }, { "epoch": 0.6506666666666666, "grad_norm": 0.2585082407546307, "learning_rate": 0.0008532238419614107, "loss": 1.4092, "step": 610 }, { "epoch": 0.656, "grad_norm": 0.282132460391062, "learning_rate": 0.0008499115398780008, "loss": 1.4987, "step": 615 }, { "epoch": 0.6613333333333333, "grad_norm": 0.25926306917446595, "learning_rate": 0.000846568865350762, "loss": 1.5092, "step": 620 }, { "epoch": 0.6666666666666666, "grad_norm": 0.2856344752563644, "learning_rate": 0.0008431961085250102, "loss": 1.3709, "step": 625 }, { "epoch": 0.672, "grad_norm": 0.2562081097417051, "learning_rate": 0.0008397935621572156, "loss": 1.3805, "step": 630 }, { "epoch": 0.6773333333333333, "grad_norm": 0.25775793429375343, "learning_rate": 0.0008363615215895907, "loss": 1.3734, "step": 635 }, { "epoch": 0.6826666666666666, "grad_norm": 0.3251996314134232, "learning_rate": 0.0008329002847244554, "loss": 1.7453, "step": 640 }, { "epoch": 0.688, "grad_norm": 0.2661089983813654, "learning_rate": 0.0008294101519983778, "loss": 1.5644, "step": 645 }, { "epoch": 0.6933333333333334, "grad_norm": 0.35454830460725234, "learning_rate": 0.0008258914263560971, "loss": 1.8277, "step": 650 }, { "epoch": 0.6986666666666667, "grad_norm": 0.4496677928734538, "learning_rate": 0.0008223444132242273, "loss": 1.6298, "step": 655 }, { "epoch": 0.704, "grad_norm": 0.2841445771605398, "learning_rate": 0.0008187694204847471, "loss": 1.4243, "step": 660 }, { "epoch": 0.7093333333333334, "grad_norm": 0.2788013728177341, "learning_rate": 0.0008151667584482742, "loss": 1.4312, "step": 665 }, { "epoch": 0.7146666666666667, "grad_norm": 0.2341570709513829, "learning_rate": 0.0008115367398271313, "loss": 1.4778, "step": 670 }, { "epoch": 0.72, "grad_norm": 0.2976621825342735, "learning_rate": 0.000807879679708202, "loss": 1.4419, "step": 675 }, { "epoch": 0.7253333333333334, "grad_norm": 1.1430568098535205, "learning_rate": 0.0008041958955255814, "loss": 1.5066, "step": 680 }, { "epoch": 0.7306666666666667, "grad_norm": 0.2630022425192997, "learning_rate": 0.0008004857070330228, "loss": 1.4802, "step": 685 }, { "epoch": 0.736, "grad_norm": 0.3133911521662503, "learning_rate": 0.0007967494362761826, "loss": 1.3672, "step": 690 }, { "epoch": 0.7413333333333333, "grad_norm": 1.037850518801157, "learning_rate": 0.0007929874075646672, "loss": 1.4554, "step": 695 }, { "epoch": 0.7466666666666667, "grad_norm": 0.32121120519626173, "learning_rate": 0.000789199947443882, "loss": 1.5206, "step": 700 }, { "epoch": 0.752, "grad_norm": 0.2690138882904106, "learning_rate": 0.0007853873846666882, "loss": 1.3927, "step": 705 }, { "epoch": 0.7573333333333333, "grad_norm": 0.2204721874192953, "learning_rate": 0.0007815500501648653, "loss": 1.4498, "step": 710 }, { "epoch": 0.7626666666666667, "grad_norm": 0.41384094085262313, "learning_rate": 0.0007776882770203884, "loss": 1.6084, "step": 715 }, { "epoch": 0.768, "grad_norm": 0.23500441095577035, "learning_rate": 0.0007738024004365145, "loss": 1.343, "step": 720 }, { "epoch": 0.7733333333333333, "grad_norm": 0.3031690526484772, "learning_rate": 0.0007698927577086879, "loss": 1.3261, "step": 725 }, { "epoch": 0.7786666666666666, "grad_norm": 0.2173350988487867, "learning_rate": 0.0007659596881952623, "loss": 1.398, "step": 730 }, { "epoch": 0.784, "grad_norm": 0.22432153365330343, "learning_rate": 0.0007620035332880446, "loss": 1.3252, "step": 735 }, { "epoch": 0.7893333333333333, "grad_norm": 0.5176812623021104, "learning_rate": 0.0007580246363826621, "loss": 1.4138, "step": 740 }, { "epoch": 0.7946666666666666, "grad_norm": 0.5442939180379192, "learning_rate": 0.0007540233428487553, "loss": 1.5071, "step": 745 }, { "epoch": 0.8, "grad_norm": 0.4657821555441536, "learning_rate": 0.00075, "loss": 1.3947, "step": 750 }, { "epoch": 0.8053333333333333, "grad_norm": 0.2587290859640374, "learning_rate": 0.0007459549570639602, "loss": 1.4032, "step": 755 }, { "epoch": 0.8106666666666666, "grad_norm": 0.20742411946649386, "learning_rate": 0.0007418885651517749, "loss": 1.371, "step": 760 }, { "epoch": 0.816, "grad_norm": 0.2813804407797948, "learning_rate": 0.0007378011772276819, "loss": 1.4431, "step": 765 }, { "epoch": 0.8213333333333334, "grad_norm": 0.2491476787148849, "learning_rate": 0.0007336931480783801, "loss": 1.3521, "step": 770 }, { "epoch": 0.8266666666666667, "grad_norm": 0.2137272713463183, "learning_rate": 0.0007295648342822338, "loss": 1.3559, "step": 775 }, { "epoch": 0.832, "grad_norm": 0.21302741731223762, "learning_rate": 0.0007254165941783222, "loss": 1.3302, "step": 780 }, { "epoch": 0.8373333333333334, "grad_norm": 0.20810577973947722, "learning_rate": 0.0007212487878353339, "loss": 1.4919, "step": 785 }, { "epoch": 0.8426666666666667, "grad_norm": 0.26581921762693905, "learning_rate": 0.0007170617770203156, "loss": 1.3736, "step": 790 }, { "epoch": 0.848, "grad_norm": 0.7528568323629194, "learning_rate": 0.0007128559251672672, "loss": 1.3069, "step": 795 }, { "epoch": 0.8533333333333334, "grad_norm": 0.2899687956879251, "learning_rate": 0.0007086315973455982, "loss": 1.4401, "step": 800 }, { "epoch": 0.8586666666666667, "grad_norm": 0.226430278347682, "learning_rate": 0.0007043891602284381, "loss": 1.5733, "step": 805 }, { "epoch": 0.864, "grad_norm": 0.2526766372875731, "learning_rate": 0.0007001289820608103, "loss": 1.3432, "step": 810 }, { "epoch": 0.8693333333333333, "grad_norm": 0.21781788872036703, "learning_rate": 0.0006958514326276668, "loss": 1.3523, "step": 815 }, { "epoch": 0.8746666666666667, "grad_norm": 0.1973728082346854, "learning_rate": 0.0006915568832217922, "loss": 1.3817, "step": 820 }, { "epoch": 0.88, "grad_norm": 0.3465576048706322, "learning_rate": 0.000687245706611574, "loss": 1.4444, "step": 825 }, { "epoch": 0.8853333333333333, "grad_norm": 0.21342267225208703, "learning_rate": 0.0006829182770086474, "loss": 1.3087, "step": 830 }, { "epoch": 0.8906666666666667, "grad_norm": 0.2257006267789732, "learning_rate": 0.0006785749700354127, "loss": 1.3911, "step": 835 }, { "epoch": 0.896, "grad_norm": 0.1746468602862575, "learning_rate": 0.0006742161626924315, "loss": 1.2583, "step": 840 }, { "epoch": 0.9013333333333333, "grad_norm": 0.2120073852900308, "learning_rate": 0.000669842233325703, "loss": 1.3586, "step": 845 }, { "epoch": 0.9066666666666666, "grad_norm": 0.2044370124978722, "learning_rate": 0.0006654535615938234, "loss": 1.4464, "step": 850 }, { "epoch": 0.912, "grad_norm": 0.21849736593404215, "learning_rate": 0.0006610505284350315, "loss": 1.3936, "step": 855 }, { "epoch": 0.9173333333333333, "grad_norm": 0.20888939384508912, "learning_rate": 0.0006566335160341425, "loss": 1.2349, "step": 860 }, { "epoch": 0.9226666666666666, "grad_norm": 0.45131714740098067, "learning_rate": 0.000652202907789375, "loss": 1.4883, "step": 865 }, { "epoch": 0.928, "grad_norm": 0.2687416929855546, "learning_rate": 0.0006477590882790714, "loss": 1.36, "step": 870 }, { "epoch": 0.9333333333333333, "grad_norm": 0.1954839084964324, "learning_rate": 0.0006433024432283169, "loss": 1.375, "step": 875 }, { "epoch": 0.9386666666666666, "grad_norm": 0.23015599279834617, "learning_rate": 0.0006388333594754578, "loss": 1.3108, "step": 880 }, { "epoch": 0.944, "grad_norm": 0.24203956086674247, "learning_rate": 0.0006343522249385242, "loss": 1.4298, "step": 885 }, { "epoch": 0.9493333333333334, "grad_norm": 0.32338683333113855, "learning_rate": 0.0006298594285815585, "loss": 1.472, "step": 890 }, { "epoch": 0.9546666666666667, "grad_norm": 0.2738494939706216, "learning_rate": 0.000625355360380853, "loss": 1.3338, "step": 895 }, { "epoch": 0.96, "grad_norm": 0.19384572273911285, "learning_rate": 0.0006208404112911001, "loss": 1.4382, "step": 900 }, { "epoch": 0.9653333333333334, "grad_norm": 0.25012818231266304, "learning_rate": 0.0006163149732114571, "loss": 1.2958, "step": 905 }, { "epoch": 0.9706666666666667, "grad_norm": 0.19372839259579602, "learning_rate": 0.0006117794389515293, "loss": 1.3235, "step": 910 }, { "epoch": 0.976, "grad_norm": 0.19776631710396467, "learning_rate": 0.0006072342021972742, "loss": 1.3604, "step": 915 }, { "epoch": 0.9813333333333333, "grad_norm": 0.21155371331418676, "learning_rate": 0.0006026796574768287, "loss": 1.293, "step": 920 }, { "epoch": 0.9866666666666667, "grad_norm": 0.18689655080652406, "learning_rate": 0.0005981162001262648, "loss": 1.1575, "step": 925 }, { "epoch": 0.992, "grad_norm": 0.5112464154814882, "learning_rate": 0.000593544226255274, "loss": 1.4212, "step": 930 }, { "epoch": 0.9973333333333333, "grad_norm": 0.19746715661378877, "learning_rate": 0.0005889641327127842, "loss": 1.2629, "step": 935 }, { "epoch": 1.0, "eval_loss": 1.263826847076416, "eval_runtime": 0.319, "eval_samples_per_second": 47.022, "eval_steps_per_second": 6.27, "step": 938 }, { "epoch": 1.0021333333333333, "grad_norm": 0.3028763892252459, "learning_rate": 0.0005843763170525143, "loss": 1.2318, "step": 940 }, { "epoch": 1.0074666666666667, "grad_norm": 0.1690911041387363, "learning_rate": 0.0005797811774984651, "loss": 1.2044, "step": 945 }, { "epoch": 1.0128, "grad_norm": 0.20940183900677087, "learning_rate": 0.0005751791129103545, "loss": 1.1828, "step": 950 }, { "epoch": 1.0181333333333333, "grad_norm": 0.17089397063797965, "learning_rate": 0.0005705705227489952, "loss": 1.1616, "step": 955 }, { "epoch": 1.0234666666666667, "grad_norm": 0.16748012414484828, "learning_rate": 0.0005659558070416225, "loss": 1.1397, "step": 960 }, { "epoch": 1.0288, "grad_norm": 0.1919783865145093, "learning_rate": 0.000561335366347171, "loss": 1.2155, "step": 965 }, { "epoch": 1.0341333333333333, "grad_norm": 0.16622190604750287, "learning_rate": 0.0005567096017215061, "loss": 1.1942, "step": 970 }, { "epoch": 1.0394666666666668, "grad_norm": 0.16158979366907286, "learning_rate": 0.0005520789146826122, "loss": 1.1221, "step": 975 }, { "epoch": 1.0448, "grad_norm": 0.1794064027390999, "learning_rate": 0.000547443707175741, "loss": 1.2021, "step": 980 }, { "epoch": 1.0501333333333334, "grad_norm": 0.16458201324349775, "learning_rate": 0.0005428043815385226, "loss": 1.2206, "step": 985 }, { "epoch": 1.0554666666666668, "grad_norm": 0.15569340088021658, "learning_rate": 0.000538161340466042, "loss": 1.2925, "step": 990 }, { "epoch": 1.0608, "grad_norm": 0.21100950649345113, "learning_rate": 0.0005335149869758854, "loss": 1.1555, "step": 995 }, { "epoch": 1.0661333333333334, "grad_norm": 0.201598595052442, "learning_rate": 0.0005288657243731579, "loss": 1.2261, "step": 1000 }, { "epoch": 1.0714666666666666, "grad_norm": 0.18950453681969995, "learning_rate": 0.0005242139562154767, "loss": 1.3433, "step": 1005 }, { "epoch": 1.0768, "grad_norm": 0.1782632963417662, "learning_rate": 0.000519560086277942, "loss": 1.3204, "step": 1010 }, { "epoch": 1.0821333333333334, "grad_norm": 0.2046558278608113, "learning_rate": 0.0005149045185180892, "loss": 1.3207, "step": 1015 }, { "epoch": 1.0874666666666666, "grad_norm": 0.17960935648906937, "learning_rate": 0.0005102476570408252, "loss": 1.1371, "step": 1020 }, { "epoch": 1.0928, "grad_norm": 0.18411181774152324, "learning_rate": 0.0005055899060633524, "loss": 1.1657, "step": 1025 }, { "epoch": 1.0981333333333334, "grad_norm": 0.13803723882192662, "learning_rate": 0.0005009316698800816, "loss": 1.0602, "step": 1030 }, { "epoch": 1.1034666666666666, "grad_norm": 0.14720775204649345, "learning_rate": 0.0004962733528275398, "loss": 1.3975, "step": 1035 }, { "epoch": 1.1088, "grad_norm": 0.3053913141396038, "learning_rate": 0.0004916153592492737, "loss": 1.1186, "step": 1040 }, { "epoch": 1.1141333333333334, "grad_norm": 0.19878382700532568, "learning_rate": 0.0004869580934607522, "loss": 1.1222, "step": 1045 }, { "epoch": 1.1194666666666666, "grad_norm": 0.23947191555604813, "learning_rate": 0.00048230195971427184, "loss": 1.1563, "step": 1050 }, { "epoch": 1.1248, "grad_norm": 0.1904044971173981, "learning_rate": 0.00047764736216386724, "loss": 1.1358, "step": 1055 }, { "epoch": 1.1301333333333332, "grad_norm": 0.18470386586285945, "learning_rate": 0.00047299470483023093, "loss": 1.1339, "step": 1060 }, { "epoch": 1.1354666666666666, "grad_norm": 0.17204573106045493, "learning_rate": 0.0004683443915656439, "loss": 1.2217, "step": 1065 }, { "epoch": 1.1408, "grad_norm": 0.19045173085854777, "learning_rate": 0.0004636968260189214, "loss": 1.282, "step": 1070 }, { "epoch": 1.1461333333333332, "grad_norm": 0.2276612685774946, "learning_rate": 0.00045905241160037503, "loss": 1.1334, "step": 1075 }, { "epoch": 1.1514666666666666, "grad_norm": 0.2241864859517548, "learning_rate": 0.00045441155144679827, "loss": 1.1574, "step": 1080 }, { "epoch": 1.1568, "grad_norm": 2.497568644174775, "learning_rate": 0.00044977464838647245, "loss": 1.282, "step": 1085 }, { "epoch": 1.1621333333333332, "grad_norm": 0.21140764857796504, "learning_rate": 0.0004451421049042024, "loss": 1.0997, "step": 1090 }, { "epoch": 1.1674666666666667, "grad_norm": 0.1962270051938931, "learning_rate": 0.00044051432310637963, "loss": 1.255, "step": 1095 }, { "epoch": 1.1728, "grad_norm": 0.19693325757663727, "learning_rate": 0.0004358917046860799, "loss": 1.1683, "step": 1100 }, { "epoch": 1.1781333333333333, "grad_norm": 0.21754788278685347, "learning_rate": 0.00043127465088819625, "loss": 1.1766, "step": 1105 }, { "epoch": 1.1834666666666667, "grad_norm": 0.19801596283584358, "learning_rate": 0.0004266635624746099, "loss": 1.1804, "step": 1110 }, { "epoch": 1.1888, "grad_norm": 0.1664422855035997, "learning_rate": 0.00042205883968940547, "loss": 1.3179, "step": 1115 }, { "epoch": 1.1941333333333333, "grad_norm": 0.18785506181193706, "learning_rate": 0.0004174608822241281, "loss": 1.1257, "step": 1120 }, { "epoch": 1.1994666666666667, "grad_norm": 0.20769365870330864, "learning_rate": 0.0004128700891830912, "loss": 1.2603, "step": 1125 }, { "epoch": 1.2048, "grad_norm": 0.15721236482936196, "learning_rate": 0.00040828685904873384, "loss": 1.121, "step": 1130 }, { "epoch": 1.2101333333333333, "grad_norm": 0.2174262161486507, "learning_rate": 0.0004037115896470314, "loss": 1.1916, "step": 1135 }, { "epoch": 1.2154666666666667, "grad_norm": 0.2712216090739743, "learning_rate": 0.0003991446781129658, "loss": 1.2572, "step": 1140 }, { "epoch": 1.2208, "grad_norm": 0.20707325928047665, "learning_rate": 0.0003945865208560522, "loss": 1.1414, "step": 1145 }, { "epoch": 1.2261333333333333, "grad_norm": 0.20700451077771687, "learning_rate": 0.00039003751352593215, "loss": 1.2071, "step": 1150 }, { "epoch": 1.2314666666666667, "grad_norm": 0.17804398632353918, "learning_rate": 0.00038549805097803024, "loss": 1.1486, "step": 1155 }, { "epoch": 1.2368000000000001, "grad_norm": 0.29716739836020906, "learning_rate": 0.00038096852723928037, "loss": 1.1453, "step": 1160 }, { "epoch": 1.2421333333333333, "grad_norm": 0.17805463856929005, "learning_rate": 0.0003764493354739248, "loss": 1.0745, "step": 1165 }, { "epoch": 1.2474666666666667, "grad_norm": 0.3307453071495873, "learning_rate": 0.0003719408679493861, "loss": 1.2995, "step": 1170 }, { "epoch": 1.2528000000000001, "grad_norm": 0.3986446686635144, "learning_rate": 0.0003674435160022199, "loss": 1.2249, "step": 1175 }, { "epoch": 1.2581333333333333, "grad_norm": 0.1592392522678876, "learning_rate": 0.00036295767000414517, "loss": 1.206, "step": 1180 }, { "epoch": 1.2634666666666667, "grad_norm": 0.21338148908648794, "learning_rate": 0.0003584837193281607, "loss": 1.0907, "step": 1185 }, { "epoch": 1.2688, "grad_norm": 0.16865623382570738, "learning_rate": 0.0003540220523147474, "loss": 1.1004, "step": 1190 }, { "epoch": 1.2741333333333333, "grad_norm": 0.1690108213548777, "learning_rate": 0.00034957305623815947, "loss": 1.1252, "step": 1195 }, { "epoch": 1.2794666666666665, "grad_norm": 0.15388806312176215, "learning_rate": 0.00034513711727281014, "loss": 1.1079, "step": 1200 }, { "epoch": 1.2848, "grad_norm": 0.17537973973266685, "learning_rate": 0.00034071462045974987, "loss": 1.1085, "step": 1205 }, { "epoch": 1.2901333333333334, "grad_norm": 0.18415351471182478, "learning_rate": 0.00033630594967324636, "loss": 1.1486, "step": 1210 }, { "epoch": 1.2954666666666665, "grad_norm": 0.1548589935037453, "learning_rate": 0.0003319114875874632, "loss": 1.1421, "step": 1215 }, { "epoch": 1.3008, "grad_norm": 0.1666294773271725, "learning_rate": 0.0003275316156432434, "loss": 1.1158, "step": 1220 }, { "epoch": 1.3061333333333334, "grad_norm": 0.1761122954317537, "learning_rate": 0.0003231667140150011, "loss": 1.1218, "step": 1225 }, { "epoch": 1.3114666666666666, "grad_norm": 0.16528762370509964, "learning_rate": 0.0003188171615777216, "loss": 1.1655, "step": 1230 }, { "epoch": 1.3168, "grad_norm": 0.1686578772785309, "learning_rate": 0.00031448333587407487, "loss": 1.0697, "step": 1235 }, { "epoch": 1.3221333333333334, "grad_norm": 0.3211805746587772, "learning_rate": 0.0003101656130816454, "loss": 1.2515, "step": 1240 }, { "epoch": 1.3274666666666666, "grad_norm": 0.18773910466880037, "learning_rate": 0.0003058643679802787, "loss": 1.0976, "step": 1245 }, { "epoch": 1.3328, "grad_norm": 0.17192994755354327, "learning_rate": 0.00030157997391955173, "loss": 1.1526, "step": 1250 }, { "epoch": 1.3381333333333334, "grad_norm": 0.1657946430130008, "learning_rate": 0.00029731280278636434, "loss": 1.1037, "step": 1255 }, { "epoch": 1.3434666666666666, "grad_norm": 0.17800148959460818, "learning_rate": 0.00029306322497266103, "loss": 1.1455, "step": 1260 }, { "epoch": 1.3488, "grad_norm": 0.1597631757484366, "learning_rate": 0.0002888316093432797, "loss": 1.2538, "step": 1265 }, { "epoch": 1.3541333333333334, "grad_norm": 0.1827635309870778, "learning_rate": 0.0002846183232039341, "loss": 1.1853, "step": 1270 }, { "epoch": 1.3594666666666666, "grad_norm": 0.15749380877038888, "learning_rate": 0.0002804237322693324, "loss": 1.0526, "step": 1275 }, { "epoch": 1.3648, "grad_norm": 0.24635088431490124, "learning_rate": 0.0002762482006314324, "loss": 1.218, "step": 1280 }, { "epoch": 1.3701333333333334, "grad_norm": 0.16416301590918, "learning_rate": 0.0002720920907278377, "loss": 1.0745, "step": 1285 }, { "epoch": 1.3754666666666666, "grad_norm": 0.18158801649559791, "learning_rate": 0.0002679557633103392, "loss": 1.1175, "step": 1290 }, { "epoch": 1.3808, "grad_norm": 0.16489828365844636, "learning_rate": 0.00026383957741360085, "loss": 1.0936, "step": 1295 }, { "epoch": 1.3861333333333334, "grad_norm": 0.1743283792964651, "learning_rate": 0.00025974389032399584, "loss": 1.0985, "step": 1300 }, { "epoch": 1.3914666666666666, "grad_norm": 0.6023419118527868, "learning_rate": 0.00025566905754859304, "loss": 1.1333, "step": 1305 }, { "epoch": 1.3968, "grad_norm": 0.18567788287306228, "learning_rate": 0.00025161543278430054, "loss": 1.1752, "step": 1310 }, { "epoch": 1.4021333333333335, "grad_norm": 0.5346706208549356, "learning_rate": 0.0002475833678871627, "loss": 1.1622, "step": 1315 }, { "epoch": 1.4074666666666666, "grad_norm": 0.17705070314434798, "learning_rate": 0.0002435732128418207, "loss": 1.1335, "step": 1320 }, { "epoch": 1.4128, "grad_norm": 0.17236140875502903, "learning_rate": 0.00023958531573113224, "loss": 1.0556, "step": 1325 }, { "epoch": 1.4181333333333335, "grad_norm": 0.18514524842329227, "learning_rate": 0.00023562002270595907, "loss": 1.0812, "step": 1330 }, { "epoch": 1.4234666666666667, "grad_norm": 0.17260814254396956, "learning_rate": 0.0002316776779551203, "loss": 1.0749, "step": 1335 }, { "epoch": 1.4288, "grad_norm": 0.16499640025327883, "learning_rate": 0.00022775862367551642, "loss": 1.097, "step": 1340 }, { "epoch": 1.4341333333333333, "grad_norm": 0.19121145982481483, "learning_rate": 0.00022386320004242737, "loss": 1.0204, "step": 1345 }, { "epoch": 1.4394666666666667, "grad_norm": 0.16441529369716262, "learning_rate": 0.00021999174517998461, "loss": 1.1163, "step": 1350 }, { "epoch": 1.4447999999999999, "grad_norm": 0.17699389232458682, "learning_rate": 0.0002161445951318217, "loss": 1.1866, "step": 1355 }, { "epoch": 1.4501333333333333, "grad_norm": 0.19825525986534817, "learning_rate": 0.00021232208383190637, "loss": 1.098, "step": 1360 }, { "epoch": 1.4554666666666667, "grad_norm": 0.1850769111568691, "learning_rate": 0.00020852454307555357, "loss": 1.0992, "step": 1365 }, { "epoch": 1.4607999999999999, "grad_norm": 0.19909379535103594, "learning_rate": 0.00020475230249062727, "loss": 1.2304, "step": 1370 }, { "epoch": 1.4661333333333333, "grad_norm": 0.1639108372110236, "learning_rate": 0.0002010056895089268, "loss": 1.0858, "step": 1375 }, { "epoch": 1.4714666666666667, "grad_norm": 0.16416417589116514, "learning_rate": 0.00019728502933776727, "loss": 1.1777, "step": 1380 }, { "epoch": 1.4768, "grad_norm": 0.14619738087554637, "learning_rate": 0.00019359064493175077, "loss": 1.1293, "step": 1385 }, { "epoch": 1.4821333333333333, "grad_norm": 0.185247161094156, "learning_rate": 0.00018992285696473323, "loss": 1.1667, "step": 1390 }, { "epoch": 1.4874666666666667, "grad_norm": 0.15271425397319685, "learning_rate": 0.00018628198380199113, "loss": 1.0531, "step": 1395 }, { "epoch": 1.4928, "grad_norm": 0.17019366510921383, "learning_rate": 0.00018266834147258576, "loss": 1.1772, "step": 1400 }, { "epoch": 1.4981333333333333, "grad_norm": 0.12663743422264612, "learning_rate": 0.00017908224364193332, "loss": 1.1762, "step": 1405 }, { "epoch": 1.5034666666666667, "grad_norm": 0.18374984198586938, "learning_rate": 0.00017552400158457726, "loss": 1.2118, "step": 1410 }, { "epoch": 1.5088, "grad_norm": 0.18213097211572615, "learning_rate": 0.00017199392415717064, "loss": 1.0965, "step": 1415 }, { "epoch": 1.5141333333333333, "grad_norm": 0.1935865174646522, "learning_rate": 0.00016849231777166663, "loss": 1.0732, "step": 1420 }, { "epoch": 1.5194666666666667, "grad_norm": 0.16998847375207274, "learning_rate": 0.000165019486368722, "loss": 1.2086, "step": 1425 }, { "epoch": 1.5248, "grad_norm": 0.17269197449102963, "learning_rate": 0.00016157573139131525, "loss": 1.1697, "step": 1430 }, { "epoch": 1.5301333333333333, "grad_norm": 0.2542299292418642, "learning_rate": 0.00015816135175858044, "loss": 1.0647, "step": 1435 }, { "epoch": 1.5354666666666668, "grad_norm": 0.17851754239280926, "learning_rate": 0.00015477664383986185, "loss": 1.0466, "step": 1440 }, { "epoch": 1.5408, "grad_norm": 0.16801909594212655, "learning_rate": 0.00015142190142898883, "loss": 1.2513, "step": 1445 }, { "epoch": 1.5461333333333334, "grad_norm": 0.1768098886057116, "learning_rate": 0.0001480974157187735, "loss": 1.1022, "step": 1450 }, { "epoch": 1.5514666666666668, "grad_norm": 0.13074932256774485, "learning_rate": 0.00014480347527573662, "loss": 1.1594, "step": 1455 }, { "epoch": 1.5568, "grad_norm": 0.17151393003946244, "learning_rate": 0.00014154036601505833, "loss": 1.1216, "step": 1460 }, { "epoch": 1.5621333333333334, "grad_norm": 0.1442138264963272, "learning_rate": 0.000138308371175762, "loss": 1.1133, "step": 1465 }, { "epoch": 1.5674666666666668, "grad_norm": 0.15292101822795443, "learning_rate": 0.00013510777129612783, "loss": 1.0646, "step": 1470 }, { "epoch": 1.5728, "grad_norm": 0.14518033310599648, "learning_rate": 0.00013193884418934298, "loss": 1.1725, "step": 1475 }, { "epoch": 1.5781333333333334, "grad_norm": 0.1387564449550164, "learning_rate": 0.00012880186491938685, "loss": 1.0344, "step": 1480 }, { "epoch": 1.5834666666666668, "grad_norm": 0.17556308049979588, "learning_rate": 0.000125697105777155, "loss": 1.1217, "step": 1485 }, { "epoch": 1.5888, "grad_norm": 0.15364142693042634, "learning_rate": 0.00012262483625682512, "loss": 1.0741, "step": 1490 }, { "epoch": 1.5941333333333332, "grad_norm": 0.1257504271843633, "learning_rate": 0.00011958532303246428, "loss": 1.1047, "step": 1495 }, { "epoch": 1.5994666666666668, "grad_norm": 0.1714899548495689, "learning_rate": 0.0001165788299348815, "loss": 1.1906, "step": 1500 }, { "epoch": 1.6048, "grad_norm": 0.16059021937187, "learning_rate": 0.00011360561792872754, "loss": 1.1153, "step": 1505 }, { "epoch": 1.6101333333333332, "grad_norm": 0.15266747079109294, "learning_rate": 0.00011066594508984217, "loss": 1.0299, "step": 1510 }, { "epoch": 1.6154666666666668, "grad_norm": 0.18413047654392758, "learning_rate": 0.00010776006658285458, "loss": 1.1035, "step": 1515 }, { "epoch": 1.6208, "grad_norm": 0.13501802336499244, "learning_rate": 0.00010488823463903341, "loss": 1.1939, "step": 1520 }, { "epoch": 1.6261333333333332, "grad_norm": 0.18132272783455455, "learning_rate": 0.00010205069853439431, "loss": 1.0675, "step": 1525 }, { "epoch": 1.6314666666666666, "grad_norm": 0.1553879361835766, "learning_rate": 9.924770456806159e-05, "loss": 0.9619, "step": 1530 }, { "epoch": 1.6368, "grad_norm": 0.15677326778270695, "learning_rate": 9.64794960408903e-05, "loss": 1.1185, "step": 1535 }, { "epoch": 1.6421333333333332, "grad_norm": 0.183904030958283, "learning_rate": 9.374631323434719e-05, "loss": 1.0008, "step": 1540 }, { "epoch": 1.6474666666666666, "grad_norm": 0.13145031909119617, "learning_rate": 9.104839338965393e-05, "loss": 1.0259, "step": 1545 }, { "epoch": 1.6528, "grad_norm": 0.17394350793641394, "learning_rate": 8.838597068719518e-05, "loss": 1.1038, "step": 1550 }, { "epoch": 1.6581333333333332, "grad_norm": 0.15112701394329306, "learning_rate": 8.575927622619084e-05, "loss": 1.0518, "step": 1555 }, { "epoch": 1.6634666666666666, "grad_norm": 0.18457879532970395, "learning_rate": 8.31685380046373e-05, "loss": 1.0938, "step": 1560 }, { "epoch": 1.6688, "grad_norm": 0.15865922448373265, "learning_rate": 8.061398089951677e-05, "loss": 1.0676, "step": 1565 }, { "epoch": 1.6741333333333333, "grad_norm": 0.15818513759146322, "learning_rate": 7.809582664727788e-05, "loss": 1.1206, "step": 1570 }, { "epoch": 1.6794666666666667, "grad_norm": 0.16605698265037827, "learning_rate": 7.561429382458895e-05, "loss": 1.1635, "step": 1575 }, { "epoch": 1.6848, "grad_norm": 0.16238437395645972, "learning_rate": 7.316959782936516e-05, "loss": 1.0103, "step": 1580 }, { "epoch": 1.6901333333333333, "grad_norm": 0.16415876294556223, "learning_rate": 7.07619508620726e-05, "loss": 1.0221, "step": 1585 }, { "epoch": 1.6954666666666667, "grad_norm": 0.22190798957904975, "learning_rate": 6.839156190730877e-05, "loss": 1.2264, "step": 1590 }, { "epoch": 1.7008, "grad_norm": 0.17183984111524558, "learning_rate": 6.60586367156622e-05, "loss": 1.007, "step": 1595 }, { "epoch": 1.7061333333333333, "grad_norm": 0.1753408649724588, "learning_rate": 6.376337778585439e-05, "loss": 1.0607, "step": 1600 }, { "epoch": 1.7114666666666667, "grad_norm": 0.22660718012834263, "learning_rate": 6.150598434716148e-05, "loss": 1.1437, "step": 1605 }, { "epoch": 1.7168, "grad_norm": 0.14453741780818383, "learning_rate": 5.9286652342122325e-05, "loss": 1.1789, "step": 1610 }, { "epoch": 1.7221333333333333, "grad_norm": 0.14788308441353806, "learning_rate": 5.710557440952968e-05, "loss": 1.1564, "step": 1615 }, { "epoch": 1.7274666666666667, "grad_norm": 0.16293346101924713, "learning_rate": 5.4962939867709674e-05, "loss": 1.2645, "step": 1620 }, { "epoch": 1.7328000000000001, "grad_norm": 0.1618172860472594, "learning_rate": 5.2858934698088556e-05, "loss": 1.3056, "step": 1625 }, { "epoch": 1.7381333333333333, "grad_norm": 0.16813149252617032, "learning_rate": 5.079374152904975e-05, "loss": 1.0604, "step": 1630 }, { "epoch": 1.7434666666666667, "grad_norm": 0.3050120054079309, "learning_rate": 4.876753962008123e-05, "loss": 1.1512, "step": 1635 }, { "epoch": 1.7488000000000001, "grad_norm": 0.1498940891002612, "learning_rate": 4.678050484621615e-05, "loss": 1.0855, "step": 1640 }, { "epoch": 1.7541333333333333, "grad_norm": 0.2084298980888837, "learning_rate": 4.483280968276665e-05, "loss": 1.1466, "step": 1645 }, { "epoch": 1.7594666666666665, "grad_norm": 0.16219437203822037, "learning_rate": 4.2924623190353066e-05, "loss": 0.9921, "step": 1650 }, { "epoch": 1.7648000000000001, "grad_norm": 0.20896122347720203, "learning_rate": 4.1056111000228934e-05, "loss": 1.0907, "step": 1655 }, { "epoch": 1.7701333333333333, "grad_norm": 0.3242291984960243, "learning_rate": 3.9227435299904855e-05, "loss": 1.1352, "step": 1660 }, { "epoch": 1.7754666666666665, "grad_norm": 0.1771274911966117, "learning_rate": 3.743875481907005e-05, "loss": 1.0497, "step": 1665 }, { "epoch": 1.7808000000000002, "grad_norm": 0.149812505846832, "learning_rate": 3.56902248158148e-05, "loss": 1.3751, "step": 1670 }, { "epoch": 1.7861333333333334, "grad_norm": 0.1856718152762663, "learning_rate": 3.398199706315369e-05, "loss": 1.058, "step": 1675 }, { "epoch": 1.7914666666666665, "grad_norm": 0.17090794493295533, "learning_rate": 3.23142198358522e-05, "loss": 1.2158, "step": 1680 }, { "epoch": 1.7968, "grad_norm": 0.1521435938436169, "learning_rate": 3.068703789755606e-05, "loss": 1.1261, "step": 1685 }, { "epoch": 1.8021333333333334, "grad_norm": 0.161652615543206, "learning_rate": 2.9100592488225385e-05, "loss": 1.0485, "step": 1690 }, { "epoch": 1.8074666666666666, "grad_norm": 0.17453419961628236, "learning_rate": 2.755502131187565e-05, "loss": 1.2057, "step": 1695 }, { "epoch": 1.8128, "grad_norm": 0.15324687430235318, "learning_rate": 2.6050458524624732e-05, "loss": 1.1074, "step": 1700 }, { "epoch": 1.8181333333333334, "grad_norm": 0.20701608116652448, "learning_rate": 2.4587034723047686e-05, "loss": 1.0499, "step": 1705 }, { "epoch": 1.8234666666666666, "grad_norm": 0.17881412566707608, "learning_rate": 2.3164876932841637e-05, "loss": 1.0506, "step": 1710 }, { "epoch": 1.8288, "grad_norm": 0.17548002358261802, "learning_rate": 2.1784108597799058e-05, "loss": 1.0772, "step": 1715 }, { "epoch": 1.8341333333333334, "grad_norm": 0.16841596309024212, "learning_rate": 2.0444849569093704e-05, "loss": 1.036, "step": 1720 }, { "epoch": 1.8394666666666666, "grad_norm": 0.15755645491229145, "learning_rate": 1.914721609487674e-05, "loss": 1.0655, "step": 1725 }, { "epoch": 1.8448, "grad_norm": 0.14647072795812208, "learning_rate": 1.789132081018674e-05, "loss": 1.0548, "step": 1730 }, { "epoch": 1.8501333333333334, "grad_norm": 0.1288875157536536, "learning_rate": 1.667727272717312e-05, "loss": 1.1746, "step": 1735 }, { "epoch": 1.8554666666666666, "grad_norm": 0.15713233990852032, "learning_rate": 1.5505177225633106e-05, "loss": 1.0253, "step": 1740 }, { "epoch": 1.8608, "grad_norm": 0.15444231585730003, "learning_rate": 1.4375136043865589e-05, "loss": 1.1086, "step": 1745 }, { "epoch": 1.8661333333333334, "grad_norm": 0.1457103798945488, "learning_rate": 1.3287247269839653e-05, "loss": 0.9883, "step": 1750 }, { "epoch": 1.8714666666666666, "grad_norm": 0.1461088373925164, "learning_rate": 1.2241605332680705e-05, "loss": 1.1277, "step": 1755 }, { "epoch": 1.8768, "grad_norm": 0.18463349614895772, "learning_rate": 1.1238300994473982e-05, "loss": 1.1317, "step": 1760 }, { "epoch": 1.8821333333333334, "grad_norm": 0.1469484098104942, "learning_rate": 1.027742134238624e-05, "loss": 1.0894, "step": 1765 }, { "epoch": 1.8874666666666666, "grad_norm": 0.1616209508465538, "learning_rate": 9.35904978110691e-06, "loss": 1.1087, "step": 1770 }, { "epoch": 1.8928, "grad_norm": 0.22233329736540142, "learning_rate": 8.48326602560806e-06, "loss": 1.0474, "step": 1775 }, { "epoch": 1.8981333333333335, "grad_norm": 0.14488632071642446, "learning_rate": 7.650146094225486e-06, "loss": 1.0071, "step": 1780 }, { "epoch": 1.9034666666666666, "grad_norm": 0.1808192541806915, "learning_rate": 6.859762302060035e-06, "loss": 1.1205, "step": 1785 }, { "epoch": 1.9088, "grad_norm": 0.14001780671817604, "learning_rate": 6.112183254700865e-06, "loss": 1.093, "step": 1790 }, { "epoch": 1.9141333333333335, "grad_norm": 0.16818818035471877, "learning_rate": 5.407473842270305e-06, "loss": 1.1112, "step": 1795 }, { "epoch": 1.9194666666666667, "grad_norm": 0.13682206605113123, "learning_rate": 4.7456952337913694e-06, "loss": 1.0366, "step": 1800 }, { "epoch": 1.9247999999999998, "grad_norm": 0.15960165300480034, "learning_rate": 4.126904871878334e-06, "loss": 1.067, "step": 1805 }, { "epoch": 1.9301333333333335, "grad_norm": 0.14032818975327635, "learning_rate": 3.5511564677506712e-06, "loss": 1.0757, "step": 1810 }, { "epoch": 1.9354666666666667, "grad_norm": 0.18317574559260785, "learning_rate": 3.0184999965708337e-06, "loss": 1.0497, "step": 1815 }, { "epoch": 1.9407999999999999, "grad_norm": 0.162203137931073, "learning_rate": 2.528981693106558e-06, "loss": 1.1701, "step": 1820 }, { "epoch": 1.9461333333333335, "grad_norm": 0.1650874191372878, "learning_rate": 2.082644047717408e-06, "loss": 1.0776, "step": 1825 }, { "epoch": 1.9514666666666667, "grad_norm": 0.18010028782998333, "learning_rate": 1.679525802666948e-06, "loss": 1.0009, "step": 1830 }, { "epoch": 1.9567999999999999, "grad_norm": 0.14049323816547904, "learning_rate": 1.3196619487594875e-06, "loss": 1.1805, "step": 1835 }, { "epoch": 1.9621333333333333, "grad_norm": 0.1577866946390395, "learning_rate": 1.003083722303233e-06, "loss": 1.2408, "step": 1840 }, { "epoch": 1.9674666666666667, "grad_norm": 0.17138408929845347, "learning_rate": 7.298186023987352e-07, "loss": 1.036, "step": 1845 }, { "epoch": 1.9727999999999999, "grad_norm": 0.1461980237293837, "learning_rate": 4.998903085539075e-07, "loss": 1.0519, "step": 1850 }, { "epoch": 1.9781333333333333, "grad_norm": 0.1573855131338624, "learning_rate": 3.1331879862483983e-07, "loss": 1.0433, "step": 1855 }, { "epoch": 1.9834666666666667, "grad_norm": 0.16821650086152165, "learning_rate": 1.7012026708373985e-07, "loss": 1.2959, "step": 1860 }, { "epoch": 1.9888, "grad_norm": 0.16564054704082737, "learning_rate": 7.030714361316859e-08, "loss": 0.9995, "step": 1865 }, { "epoch": 1.9941333333333333, "grad_norm": 0.15825246868150133, "learning_rate": 1.3888092027125598e-08, "loss": 0.9994, "step": 1870 }, { "epoch": 1.9984, "eval_loss": 1.0428143739700317, "eval_runtime": 0.3173, "eval_samples_per_second": 47.276, "eval_steps_per_second": 6.303, "step": 1874 }, { "epoch": 1.9984, "step": 1874, "total_flos": 6.947467639232922e+16, "train_loss": 1.3333745476021457, "train_runtime": 7682.7872, "train_samples_per_second": 7.808, "train_steps_per_second": 0.244 } ], "logging_steps": 5, "max_steps": 1874, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": false, "should_training_stop": false }, "attributes": {} } }, "total_flos": 6.947467639232922e+16, "train_batch_size": 8, "trial_name": null, "trial_params": null }