{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.9984,
  "eval_steps": 500,
  "global_step": 1874,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0010666666666666667,
      "grad_norm": 1.025353663148215,
      "learning_rate": 5.319148936170213e-06,
      "loss": 2.0934,
      "step": 1
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 1.0073016650551612,
      "learning_rate": 2.6595744680851064e-05,
      "loss": 2.2073,
      "step": 5
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 0.8403586474410296,
      "learning_rate": 5.319148936170213e-05,
      "loss": 1.9872,
      "step": 10
    },
    {
      "epoch": 0.016,
      "grad_norm": 1.6704469547467542,
      "learning_rate": 7.97872340425532e-05,
      "loss": 1.9288,
      "step": 15
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 0.4351417145277095,
      "learning_rate": 0.00010638297872340425,
      "loss": 1.8294,
      "step": 20
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 1.3745811073468592,
      "learning_rate": 0.00013297872340425532,
      "loss": 1.9251,
      "step": 25
    },
    {
      "epoch": 0.032,
      "grad_norm": 0.452091271658716,
      "learning_rate": 0.0001595744680851064,
      "loss": 1.6644,
      "step": 30
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 0.5172113273089282,
      "learning_rate": 0.00018617021276595746,
      "loss": 1.7198,
      "step": 35
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 0.513214328373238,
      "learning_rate": 0.0002127659574468085,
      "loss": 1.6338,
      "step": 40
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.3908673106799022,
      "learning_rate": 0.0002393617021276596,
      "loss": 1.6093,
      "step": 45
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 0.4299555243962387,
      "learning_rate": 0.00026595744680851064,
      "loss": 1.559,
      "step": 50
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 0.6731086482447908,
      "learning_rate": 0.0002925531914893617,
      "loss": 1.5649,
      "step": 55
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.40272851795918835,
      "learning_rate": 0.0003191489361702128,
      "loss": 1.5667,
      "step": 60
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 0.389854657320343,
      "learning_rate": 0.0003457446808510639,
      "loss": 1.4147,
      "step": 65
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 0.434843747510558,
      "learning_rate": 0.0003723404255319149,
      "loss": 1.4142,
      "step": 70
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.3841978972505265,
      "learning_rate": 0.00039893617021276594,
      "loss": 1.4433,
      "step": 75
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 0.4822814531639033,
      "learning_rate": 0.000425531914893617,
      "loss": 1.4766,
      "step": 80
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 0.351825010378204,
      "learning_rate": 0.0004521276595744681,
      "loss": 1.4839,
      "step": 85
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.44385196927324716,
      "learning_rate": 0.0004787234042553192,
      "loss": 1.6069,
      "step": 90
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 0.5158370083401014,
      "learning_rate": 0.0005053191489361702,
      "loss": 1.6519,
      "step": 95
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 0.37281767374353214,
      "learning_rate": 0.0005319148936170213,
      "loss": 1.5102,
      "step": 100
    },
    {
      "epoch": 0.112,
      "grad_norm": 1.0115666481148895,
      "learning_rate": 0.0005585106382978723,
      "loss": 1.9115,
      "step": 105
    },
    {
      "epoch": 0.11733333333333333,
      "grad_norm": 0.6441717535762306,
      "learning_rate": 0.0005851063829787234,
      "loss": 1.7532,
      "step": 110
    },
    {
      "epoch": 0.12266666666666666,
      "grad_norm": 0.47701493648265697,
      "learning_rate": 0.0006117021276595744,
      "loss": 1.5467,
      "step": 115
    },
    {
      "epoch": 0.128,
      "grad_norm": 1.1515445806294975,
      "learning_rate": 0.0006382978723404256,
      "loss": 1.6593,
      "step": 120
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 0.8548603793551325,
      "learning_rate": 0.0006648936170212766,
      "loss": 1.7672,
      "step": 125
    },
    {
      "epoch": 0.13866666666666666,
      "grad_norm": 1.4992963532840262,
      "learning_rate": 0.0006914893617021278,
      "loss": 1.8751,
      "step": 130
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.8103246834733876,
      "learning_rate": 0.0007180851063829787,
      "loss": 1.7591,
      "step": 135
    },
    {
      "epoch": 0.14933333333333335,
      "grad_norm": 0.400124176701121,
      "learning_rate": 0.0007446808510638298,
      "loss": 1.523,
      "step": 140
    },
    {
      "epoch": 0.15466666666666667,
      "grad_norm": 0.4208796878106105,
      "learning_rate": 0.0007712765957446809,
      "loss": 1.4838,
      "step": 145
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6211070310626203,
      "learning_rate": 0.0007978723404255319,
      "loss": 1.4811,
      "step": 150
    },
    {
      "epoch": 0.16533333333333333,
      "grad_norm": 0.49115788735331706,
      "learning_rate": 0.0008244680851063831,
      "loss": 1.6881,
      "step": 155
    },
    {
      "epoch": 0.17066666666666666,
      "grad_norm": 0.378987417938993,
      "learning_rate": 0.000851063829787234,
      "loss": 1.6061,
      "step": 160
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.36651479904546935,
      "learning_rate": 0.0008776595744680851,
      "loss": 1.5002,
      "step": 165
    },
    {
      "epoch": 0.18133333333333335,
      "grad_norm": 0.48635712401543163,
      "learning_rate": 0.0009042553191489362,
      "loss": 1.6535,
      "step": 170
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.3627048200877666,
      "learning_rate": 0.0009308510638297873,
      "loss": 1.5524,
      "step": 175
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.5868150018304205,
      "learning_rate": 0.0009574468085106384,
      "loss": 1.9321,
      "step": 180
    },
    {
      "epoch": 0.19733333333333333,
      "grad_norm": 0.44210337994703247,
      "learning_rate": 0.0009840425531914894,
      "loss": 1.6421,
      "step": 185
    },
    {
      "epoch": 0.20266666666666666,
      "grad_norm": 0.7496290874803799,
      "learning_rate": 0.0009999965279649382,
      "loss": 1.9841,
      "step": 190
    },
    {
      "epoch": 0.208,
      "grad_norm": 1.8329284819742508,
      "learning_rate": 0.0009999574681242686,
      "loss": 1.9012,
      "step": 195
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 3.2771218627271597,
      "learning_rate": 0.0009998750118008115,
      "loss": 2.0973,
      "step": 200
    },
    {
      "epoch": 0.21866666666666668,
      "grad_norm": 0.9364720070291311,
      "learning_rate": 0.0009997491661518049,
      "loss": 2.3706,
      "step": 205
    },
    {
      "epoch": 0.224,
      "grad_norm": 0.8794820257077164,
      "learning_rate": 0.0009995799421006946,
      "loss": 1.8743,
      "step": 210
    },
    {
      "epoch": 0.22933333333333333,
      "grad_norm": 0.42266437725788164,
      "learning_rate": 0.0009993673543361875,
      "loss": 1.7138,
      "step": 215
    },
    {
      "epoch": 0.23466666666666666,
      "grad_norm": 2.0325117029926956,
      "learning_rate": 0.0009991114213109757,
      "loss": 2.0366,
      "step": 220
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4559995642715011,
      "learning_rate": 0.0009988121652401353,
      "loss": 1.7211,
      "step": 225
    },
    {
      "epoch": 0.24533333333333332,
      "grad_norm": 0.43471769056713755,
      "learning_rate": 0.0009984696120991978,
      "loss": 1.9585,
      "step": 230
    },
    {
      "epoch": 0.25066666666666665,
      "grad_norm": 0.37132370575141604,
      "learning_rate": 0.0009980837916218953,
      "loss": 1.7572,
      "step": 235
    },
    {
      "epoch": 0.256,
      "grad_norm": 0.40398687509926645,
      "learning_rate": 0.00099765473729758,
      "loss": 1.612,
      "step": 240
    },
    {
      "epoch": 0.2613333333333333,
      "grad_norm": 0.3420700552633242,
      "learning_rate": 0.0009971824863683168,
      "loss": 1.6719,
      "step": 245
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.3738137859260969,
      "learning_rate": 0.0009966670798256514,
      "loss": 1.6583,
      "step": 250
    },
    {
      "epoch": 0.272,
      "grad_norm": 0.3909831001027425,
      "learning_rate": 0.000996108562407052,
      "loss": 1.6484,
      "step": 255
    },
    {
      "epoch": 0.2773333333333333,
      "grad_norm": 0.31864076117741635,
      "learning_rate": 0.0009955069825920248,
      "loss": 1.5752,
      "step": 260
    },
    {
      "epoch": 0.2826666666666667,
      "grad_norm": 0.3268559009525741,
      "learning_rate": 0.0009948623925979086,
      "loss": 1.5789,
      "step": 265
    },
    {
      "epoch": 0.288,
      "grad_norm": 0.27150171775162996,
      "learning_rate": 0.0009941748483753394,
      "loss": 1.5125,
      "step": 270
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 0.28307748270046823,
      "learning_rate": 0.0009934444096033957,
      "loss": 1.5551,
      "step": 275
    },
    {
      "epoch": 0.2986666666666667,
      "grad_norm": 0.2498088988038753,
      "learning_rate": 0.0009926711396844184,
      "loss": 1.5271,
      "step": 280
    },
    {
      "epoch": 0.304,
      "grad_norm": 0.3164602901780144,
      "learning_rate": 0.000991855105738506,
      "loss": 1.4155,
      "step": 285
    },
    {
      "epoch": 0.30933333333333335,
      "grad_norm": 1.3738582254309721,
      "learning_rate": 0.0009909963785976902,
      "loss": 1.8502,
      "step": 290
    },
    {
      "epoch": 0.31466666666666665,
      "grad_norm": 0.31581861329570465,
      "learning_rate": 0.0009900950327997866,
      "loss": 1.5411,
      "step": 295
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.36754798488647455,
      "learning_rate": 0.000989151146581925,
      "loss": 1.7674,
      "step": 300
    },
    {
      "epoch": 0.3253333333333333,
      "grad_norm": 0.29944480181802774,
      "learning_rate": 0.0009881648018737585,
      "loss": 1.5164,
      "step": 305
    },
    {
      "epoch": 0.33066666666666666,
      "grad_norm": 0.2628270108439651,
      "learning_rate": 0.0009871360842903527,
      "loss": 1.5128,
      "step": 310
    },
    {
      "epoch": 0.336,
      "grad_norm": 0.2923695414321689,
      "learning_rate": 0.0009860650831247527,
      "loss": 1.4182,
      "step": 315
    },
    {
      "epoch": 0.3413333333333333,
      "grad_norm": 0.3279094676582173,
      "learning_rate": 0.0009849518913402334,
      "loss": 1.5292,
      "step": 320
    },
    {
      "epoch": 0.3466666666666667,
      "grad_norm": 0.952580278209342,
      "learning_rate": 0.0009837966055622305,
      "loss": 1.6099,
      "step": 325
    },
    {
      "epoch": 0.352,
      "grad_norm": 0.29662753256399843,
      "learning_rate": 0.000982599326069953,
      "loss": 1.6371,
      "step": 330
    },
    {
      "epoch": 0.35733333333333334,
      "grad_norm": 0.3703081862144953,
      "learning_rate": 0.000981360156787679,
      "loss": 1.5532,
      "step": 335
    },
    {
      "epoch": 0.3626666666666667,
      "grad_norm": 0.2943954971118444,
      "learning_rate": 0.0009800792052757341,
      "loss": 1.5065,
      "step": 340
    },
    {
      "epoch": 0.368,
      "grad_norm": 0.48407683150539693,
      "learning_rate": 0.0009787565827211577,
      "loss": 1.5649,
      "step": 345
    },
    {
      "epoch": 0.37333333333333335,
      "grad_norm": 0.37571854753154726,
      "learning_rate": 0.0009773924039280487,
      "loss": 1.5486,
      "step": 350
    },
    {
      "epoch": 0.37866666666666665,
      "grad_norm": 0.28550201693775606,
      "learning_rate": 0.0009759867873076029,
      "loss": 1.5438,
      "step": 355
    },
    {
      "epoch": 0.384,
      "grad_norm": 1.0966419638587266,
      "learning_rate": 0.0009745398548678337,
      "loss": 1.5429,
      "step": 360
    },
    {
      "epoch": 0.3893333333333333,
      "grad_norm": 0.8671897876776524,
      "learning_rate": 0.0009730517322029819,
      "loss": 1.6025,
      "step": 365
    },
    {
      "epoch": 0.39466666666666667,
      "grad_norm": 0.48729005458217245,
      "learning_rate": 0.0009715225484826144,
      "loss": 1.6058,
      "step": 370
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.5778074037313877,
      "learning_rate": 0.0009699524364404122,
      "loss": 1.6887,
      "step": 375
    },
    {
      "epoch": 0.4053333333333333,
      "grad_norm": 0.32570623450369585,
      "learning_rate": 0.0009683415323626486,
      "loss": 1.5021,
      "step": 380
    },
    {
      "epoch": 0.4106666666666667,
      "grad_norm": 1.0406664613089323,
      "learning_rate": 0.0009666899760763599,
      "loss": 1.7534,
      "step": 385
    },
    {
      "epoch": 0.416,
      "grad_norm": 0.5207157132493063,
      "learning_rate": 0.0009649979109372085,
      "loss": 1.454,
      "step": 390
    },
    {
      "epoch": 0.42133333333333334,
      "grad_norm": 0.9655598893446471,
      "learning_rate": 0.0009632654838170393,
      "loss": 1.5354,
      "step": 395
    },
    {
      "epoch": 0.4266666666666667,
      "grad_norm": 0.29547113215537685,
      "learning_rate": 0.000961492845091131,
      "loss": 1.5549,
      "step": 400
    },
    {
      "epoch": 0.432,
      "grad_norm": 0.32167179991849687,
      "learning_rate": 0.0009596801486251441,
      "loss": 1.4426,
      "step": 405
    },
    {
      "epoch": 0.43733333333333335,
      "grad_norm": 0.4026305688865151,
      "learning_rate": 0.0009578275517617645,
      "loss": 1.5076,
      "step": 410
    },
    {
      "epoch": 0.44266666666666665,
      "grad_norm": 0.5415812396263526,
      "learning_rate": 0.000955935215307047,
      "loss": 1.536,
      "step": 415
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.2796583902857776,
      "learning_rate": 0.0009540033035164566,
      "loss": 1.4906,
      "step": 420
    },
    {
      "epoch": 0.4533333333333333,
      "grad_norm": 0.3241773644851488,
      "learning_rate": 0.0009520319840806108,
      "loss": 1.8151,
      "step": 425
    },
    {
      "epoch": 0.45866666666666667,
      "grad_norm": 0.3415334147330933,
      "learning_rate": 0.0009500214281107254,
      "loss": 1.4654,
      "step": 430
    },
    {
      "epoch": 0.464,
      "grad_norm": 0.3117573797314584,
      "learning_rate": 0.0009479718101237601,
      "loss": 1.3794,
      "step": 435
    },
    {
      "epoch": 0.4693333333333333,
      "grad_norm": 0.4629112137723022,
      "learning_rate": 0.0009458833080272722,
      "loss": 1.4449,
      "step": 440
    },
    {
      "epoch": 0.4746666666666667,
      "grad_norm": 0.324233755253269,
      "learning_rate": 0.0009437561031039725,
      "loss": 1.4737,
      "step": 445
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.34425730189965853,
      "learning_rate": 0.0009415903799959911,
      "loss": 1.5055,
      "step": 450
    },
    {
      "epoch": 0.48533333333333334,
      "grad_norm": 0.2796212009444716,
      "learning_rate": 0.0009393863266888502,
      "loss": 1.377,
      "step": 455
    },
    {
      "epoch": 0.49066666666666664,
      "grad_norm": 0.2803540315979411,
      "learning_rate": 0.0009371441344951459,
      "loss": 1.4671,
      "step": 460
    },
    {
      "epoch": 0.496,
      "grad_norm": 0.4511822137675929,
      "learning_rate": 0.0009348639980379438,
      "loss": 1.4765,
      "step": 465
    },
    {
      "epoch": 0.5013333333333333,
      "grad_norm": 0.3209915201604652,
      "learning_rate": 0.0009325461152338845,
      "loss": 1.4392,
      "step": 470
    },
    {
      "epoch": 0.5066666666666667,
      "grad_norm": 0.32695640303172246,
      "learning_rate": 0.0009301906872760045,
      "loss": 1.3737,
      "step": 475
    },
    {
      "epoch": 0.512,
      "grad_norm": 0.25622904240764466,
      "learning_rate": 0.0009277979186162728,
      "loss": 1.4457,
      "step": 480
    },
    {
      "epoch": 0.5173333333333333,
      "grad_norm": 0.5874484720837727,
      "learning_rate": 0.0009253680169478448,
      "loss": 1.6047,
      "step": 485
    },
    {
      "epoch": 0.5226666666666666,
      "grad_norm": 0.3250697503071867,
      "learning_rate": 0.0009229011931870334,
      "loss": 1.4778,
      "step": 490
    },
    {
      "epoch": 0.528,
      "grad_norm": 0.38328788475762254,
      "learning_rate": 0.0009203976614550024,
      "loss": 1.7788,
      "step": 495
    },
    {
      "epoch": 0.5333333333333333,
      "grad_norm": 0.29516524754929424,
      "learning_rate": 0.0009178576390591801,
      "loss": 1.4176,
      "step": 500
    },
    {
      "epoch": 0.5386666666666666,
      "grad_norm": 0.3174390076458993,
      "learning_rate": 0.0009152813464743977,
      "loss": 1.4025,
      "step": 505
    },
    {
      "epoch": 0.544,
      "grad_norm": 0.8938759125496708,
      "learning_rate": 0.0009126690073237505,
      "loss": 1.7661,
      "step": 510
    },
    {
      "epoch": 0.5493333333333333,
      "grad_norm": 0.29754131393056804,
      "learning_rate": 0.0009100208483591892,
      "loss": 1.4888,
      "step": 515
    },
    {
      "epoch": 0.5546666666666666,
      "grad_norm": 0.3198136310514123,
      "learning_rate": 0.0009073370994418363,
      "loss": 1.3152,
      "step": 520
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.264050388742427,
      "learning_rate": 0.0009046179935220349,
      "loss": 1.4827,
      "step": 525
    },
    {
      "epoch": 0.5653333333333334,
      "grad_norm": 0.27834962646280587,
      "learning_rate": 0.0009018637666191282,
      "loss": 1.553,
      "step": 530
    },
    {
      "epoch": 0.5706666666666667,
      "grad_norm": 1.7085448865830675,
      "learning_rate": 0.0008990746578009731,
      "loss": 1.4265,
      "step": 535
    },
    {
      "epoch": 0.576,
      "grad_norm": 0.5081745052271874,
      "learning_rate": 0.0008962509091631885,
      "loss": 1.5823,
      "step": 540
    },
    {
      "epoch": 0.5813333333333334,
      "grad_norm": 0.42947729663441186,
      "learning_rate": 0.0008933927658081423,
      "loss": 1.4452,
      "step": 545
    },
    {
      "epoch": 0.5866666666666667,
      "grad_norm": 0.27401507985050816,
      "learning_rate": 0.0008905004758236754,
      "loss": 1.6376,
      "step": 550
    },
    {
      "epoch": 0.592,
      "grad_norm": 0.24781113007068206,
      "learning_rate": 0.0008875742902615687,
      "loss": 1.3772,
      "step": 555
    },
    {
      "epoch": 0.5973333333333334,
      "grad_norm": 0.6266769920094106,
      "learning_rate": 0.00088461446311575,
      "loss": 1.4608,
      "step": 560
    },
    {
      "epoch": 0.6026666666666667,
      "grad_norm": 0.27268110385413297,
      "learning_rate": 0.0008816212513002492,
      "loss": 1.4036,
      "step": 565
    },
    {
      "epoch": 0.608,
      "grad_norm": 0.23763295459853148,
      "learning_rate": 0.0008785949146268972,
      "loss": 1.3759,
      "step": 570
    },
    {
      "epoch": 0.6133333333333333,
      "grad_norm": 0.229943824768871,
      "learning_rate": 0.0008755357157827734,
      "loss": 1.3175,
      "step": 575
    },
    {
      "epoch": 0.6186666666666667,
      "grad_norm": 0.2848531427426304,
      "learning_rate": 0.000872443920307406,
      "loss": 1.4058,
      "step": 580
    },
    {
      "epoch": 0.624,
      "grad_norm": 0.24100692376448324,
      "learning_rate": 0.0008693197965697214,
      "loss": 1.4337,
      "step": 585
    },
    {
      "epoch": 0.6293333333333333,
      "grad_norm": 0.26724229331433924,
      "learning_rate": 0.000866163615744751,
      "loss": 1.4641,
      "step": 590
    },
    {
      "epoch": 0.6346666666666667,
      "grad_norm": 1.8716894557404855,
      "learning_rate": 0.0008629756517900922,
      "loss": 1.3343,
      "step": 595
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.26684748038394546,
      "learning_rate": 0.0008597561814221294,
      "loss": 1.4537,
      "step": 600
    },
    {
      "epoch": 0.6453333333333333,
      "grad_norm": 0.29301955613104774,
      "learning_rate": 0.0008565054840920144,
      "loss": 1.5818,
      "step": 605
    },
    {
      "epoch": 0.6506666666666666,
      "grad_norm": 0.2585082407546307,
      "learning_rate": 0.0008532238419614107,
      "loss": 1.4092,
      "step": 610
    },
    {
      "epoch": 0.656,
      "grad_norm": 0.282132460391062,
      "learning_rate": 0.0008499115398780008,
      "loss": 1.4987,
      "step": 615
    },
    {
      "epoch": 0.6613333333333333,
      "grad_norm": 0.25926306917446595,
      "learning_rate": 0.000846568865350762,
      "loss": 1.5092,
      "step": 620
    },
    {
      "epoch": 0.6666666666666666,
      "grad_norm": 0.2856344752563644,
      "learning_rate": 0.0008431961085250102,
      "loss": 1.3709,
      "step": 625
    },
    {
      "epoch": 0.672,
      "grad_norm": 0.2562081097417051,
      "learning_rate": 0.0008397935621572156,
      "loss": 1.3805,
      "step": 630
    },
    {
      "epoch": 0.6773333333333333,
      "grad_norm": 0.25775793429375343,
      "learning_rate": 0.0008363615215895907,
      "loss": 1.3734,
      "step": 635
    },
    {
      "epoch": 0.6826666666666666,
      "grad_norm": 0.3251996314134232,
      "learning_rate": 0.0008329002847244554,
      "loss": 1.7453,
      "step": 640
    },
    {
      "epoch": 0.688,
      "grad_norm": 0.2661089983813654,
      "learning_rate": 0.0008294101519983778,
      "loss": 1.5644,
      "step": 645
    },
    {
      "epoch": 0.6933333333333334,
      "grad_norm": 0.35454830460725234,
      "learning_rate": 0.0008258914263560971,
      "loss": 1.8277,
      "step": 650
    },
    {
      "epoch": 0.6986666666666667,
      "grad_norm": 0.4496677928734538,
      "learning_rate": 0.0008223444132242273,
      "loss": 1.6298,
      "step": 655
    },
    {
      "epoch": 0.704,
      "grad_norm": 0.2841445771605398,
      "learning_rate": 0.0008187694204847471,
      "loss": 1.4243,
      "step": 660
    },
    {
      "epoch": 0.7093333333333334,
      "grad_norm": 0.2788013728177341,
      "learning_rate": 0.0008151667584482742,
      "loss": 1.4312,
      "step": 665
    },
    {
      "epoch": 0.7146666666666667,
      "grad_norm": 0.2341570709513829,
      "learning_rate": 0.0008115367398271313,
      "loss": 1.4778,
      "step": 670
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.2976621825342735,
      "learning_rate": 0.000807879679708202,
      "loss": 1.4419,
      "step": 675
    },
    {
      "epoch": 0.7253333333333334,
      "grad_norm": 1.1430568098535205,
      "learning_rate": 0.0008041958955255814,
      "loss": 1.5066,
      "step": 680
    },
    {
      "epoch": 0.7306666666666667,
      "grad_norm": 0.2630022425192997,
      "learning_rate": 0.0008004857070330228,
      "loss": 1.4802,
      "step": 685
    },
    {
      "epoch": 0.736,
      "grad_norm": 0.3133911521662503,
      "learning_rate": 0.0007967494362761826,
      "loss": 1.3672,
      "step": 690
    },
    {
      "epoch": 0.7413333333333333,
      "grad_norm": 1.037850518801157,
      "learning_rate": 0.0007929874075646672,
      "loss": 1.4554,
      "step": 695
    },
    {
      "epoch": 0.7466666666666667,
      "grad_norm": 0.32121120519626173,
      "learning_rate": 0.000789199947443882,
      "loss": 1.5206,
      "step": 700
    },
    {
      "epoch": 0.752,
      "grad_norm": 0.2690138882904106,
      "learning_rate": 0.0007853873846666882,
      "loss": 1.3927,
      "step": 705
    },
    {
      "epoch": 0.7573333333333333,
      "grad_norm": 0.2204721874192953,
      "learning_rate": 0.0007815500501648653,
      "loss": 1.4498,
      "step": 710
    },
    {
      "epoch": 0.7626666666666667,
      "grad_norm": 0.41384094085262313,
      "learning_rate": 0.0007776882770203884,
      "loss": 1.6084,
      "step": 715
    },
    {
      "epoch": 0.768,
      "grad_norm": 0.23500441095577035,
      "learning_rate": 0.0007738024004365145,
      "loss": 1.343,
      "step": 720
    },
    {
      "epoch": 0.7733333333333333,
      "grad_norm": 0.3031690526484772,
      "learning_rate": 0.0007698927577086879,
      "loss": 1.3261,
      "step": 725
    },
    {
      "epoch": 0.7786666666666666,
      "grad_norm": 0.2173350988487867,
      "learning_rate": 0.0007659596881952623,
      "loss": 1.398,
      "step": 730
    },
    {
      "epoch": 0.784,
      "grad_norm": 0.22432153365330343,
      "learning_rate": 0.0007620035332880446,
      "loss": 1.3252,
      "step": 735
    },
    {
      "epoch": 0.7893333333333333,
      "grad_norm": 0.5176812623021104,
      "learning_rate": 0.0007580246363826621,
      "loss": 1.4138,
      "step": 740
    },
    {
      "epoch": 0.7946666666666666,
      "grad_norm": 0.5442939180379192,
      "learning_rate": 0.0007540233428487553,
      "loss": 1.5071,
      "step": 745
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4657821555441536,
      "learning_rate": 0.00075,
      "loss": 1.3947,
      "step": 750
    },
    {
      "epoch": 0.8053333333333333,
      "grad_norm": 0.2587290859640374,
      "learning_rate": 0.0007459549570639602,
      "loss": 1.4032,
      "step": 755
    },
    {
      "epoch": 0.8106666666666666,
      "grad_norm": 0.20742411946649386,
      "learning_rate": 0.0007418885651517749,
      "loss": 1.371,
      "step": 760
    },
    {
      "epoch": 0.816,
      "grad_norm": 0.2813804407797948,
      "learning_rate": 0.0007378011772276819,
      "loss": 1.4431,
      "step": 765
    },
    {
      "epoch": 0.8213333333333334,
      "grad_norm": 0.2491476787148849,
      "learning_rate": 0.0007336931480783801,
      "loss": 1.3521,
      "step": 770
    },
    {
      "epoch": 0.8266666666666667,
      "grad_norm": 0.2137272713463183,
      "learning_rate": 0.0007295648342822338,
      "loss": 1.3559,
      "step": 775
    },
    {
      "epoch": 0.832,
      "grad_norm": 0.21302741731223762,
      "learning_rate": 0.0007254165941783222,
      "loss": 1.3302,
      "step": 780
    },
    {
      "epoch": 0.8373333333333334,
      "grad_norm": 0.20810577973947722,
      "learning_rate": 0.0007212487878353339,
      "loss": 1.4919,
      "step": 785
    },
    {
      "epoch": 0.8426666666666667,
      "grad_norm": 0.26581921762693905,
      "learning_rate": 0.0007170617770203156,
      "loss": 1.3736,
      "step": 790
    },
    {
      "epoch": 0.848,
      "grad_norm": 0.7528568323629194,
      "learning_rate": 0.0007128559251672672,
      "loss": 1.3069,
      "step": 795
    },
    {
      "epoch": 0.8533333333333334,
      "grad_norm": 0.2899687956879251,
      "learning_rate": 0.0007086315973455982,
      "loss": 1.4401,
      "step": 800
    },
    {
      "epoch": 0.8586666666666667,
      "grad_norm": 0.226430278347682,
      "learning_rate": 0.0007043891602284381,
      "loss": 1.5733,
      "step": 805
    },
    {
      "epoch": 0.864,
      "grad_norm": 0.2526766372875731,
      "learning_rate": 0.0007001289820608103,
      "loss": 1.3432,
      "step": 810
    },
    {
      "epoch": 0.8693333333333333,
      "grad_norm": 0.21781788872036703,
      "learning_rate": 0.0006958514326276668,
      "loss": 1.3523,
      "step": 815
    },
    {
      "epoch": 0.8746666666666667,
      "grad_norm": 0.1973728082346854,
      "learning_rate": 0.0006915568832217922,
      "loss": 1.3817,
      "step": 820
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3465576048706322,
      "learning_rate": 0.000687245706611574,
      "loss": 1.4444,
      "step": 825
    },
    {
      "epoch": 0.8853333333333333,
      "grad_norm": 0.21342267225208703,
      "learning_rate": 0.0006829182770086474,
      "loss": 1.3087,
      "step": 830
    },
    {
      "epoch": 0.8906666666666667,
      "grad_norm": 0.2257006267789732,
      "learning_rate": 0.0006785749700354127,
      "loss": 1.3911,
      "step": 835
    },
    {
      "epoch": 0.896,
      "grad_norm": 0.1746468602862575,
      "learning_rate": 0.0006742161626924315,
      "loss": 1.2583,
      "step": 840
    },
    {
      "epoch": 0.9013333333333333,
      "grad_norm": 0.2120073852900308,
      "learning_rate": 0.000669842233325703,
      "loss": 1.3586,
      "step": 845
    },
    {
      "epoch": 0.9066666666666666,
      "grad_norm": 0.2044370124978722,
      "learning_rate": 0.0006654535615938234,
      "loss": 1.4464,
      "step": 850
    },
    {
      "epoch": 0.912,
      "grad_norm": 0.21849736593404215,
      "learning_rate": 0.0006610505284350315,
      "loss": 1.3936,
      "step": 855
    },
    {
      "epoch": 0.9173333333333333,
      "grad_norm": 0.20888939384508912,
      "learning_rate": 0.0006566335160341425,
      "loss": 1.2349,
      "step": 860
    },
    {
      "epoch": 0.9226666666666666,
      "grad_norm": 0.45131714740098067,
      "learning_rate": 0.000652202907789375,
      "loss": 1.4883,
      "step": 865
    },
    {
      "epoch": 0.928,
      "grad_norm": 0.2687416929855546,
      "learning_rate": 0.0006477590882790714,
      "loss": 1.36,
      "step": 870
    },
    {
      "epoch": 0.9333333333333333,
      "grad_norm": 0.1954839084964324,
      "learning_rate": 0.0006433024432283169,
      "loss": 1.375,
      "step": 875
    },
    {
      "epoch": 0.9386666666666666,
      "grad_norm": 0.23015599279834617,
      "learning_rate": 0.0006388333594754578,
      "loss": 1.3108,
      "step": 880
    },
    {
      "epoch": 0.944,
      "grad_norm": 0.24203956086674247,
      "learning_rate": 0.0006343522249385242,
      "loss": 1.4298,
      "step": 885
    },
    {
      "epoch": 0.9493333333333334,
      "grad_norm": 0.32338683333113855,
      "learning_rate": 0.0006298594285815585,
      "loss": 1.472,
      "step": 890
    },
    {
      "epoch": 0.9546666666666667,
      "grad_norm": 0.2738494939706216,
      "learning_rate": 0.000625355360380853,
      "loss": 1.3338,
      "step": 895
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.19384572273911285,
      "learning_rate": 0.0006208404112911001,
      "loss": 1.4382,
      "step": 900
    },
    {
      "epoch": 0.9653333333333334,
      "grad_norm": 0.25012818231266304,
      "learning_rate": 0.0006163149732114571,
      "loss": 1.2958,
      "step": 905
    },
    {
      "epoch": 0.9706666666666667,
      "grad_norm": 0.19372839259579602,
      "learning_rate": 0.0006117794389515293,
      "loss": 1.3235,
      "step": 910
    },
    {
      "epoch": 0.976,
      "grad_norm": 0.19776631710396467,
      "learning_rate": 0.0006072342021972742,
      "loss": 1.3604,
      "step": 915
    },
    {
      "epoch": 0.9813333333333333,
      "grad_norm": 0.21155371331418676,
      "learning_rate": 0.0006026796574768287,
      "loss": 1.293,
      "step": 920
    },
    {
      "epoch": 0.9866666666666667,
      "grad_norm": 0.18689655080652406,
      "learning_rate": 0.0005981162001262648,
      "loss": 1.1575,
      "step": 925
    },
    {
      "epoch": 0.992,
      "grad_norm": 0.5112464154814882,
      "learning_rate": 0.000593544226255274,
      "loss": 1.4212,
      "step": 930
    },
    {
      "epoch": 0.9973333333333333,
      "grad_norm": 0.19746715661378877,
      "learning_rate": 0.0005889641327127842,
      "loss": 1.2629,
      "step": 935
    },
    {
      "epoch": 1.0,
      "eval_loss": 1.263826847076416,
      "eval_runtime": 0.319,
      "eval_samples_per_second": 47.022,
      "eval_steps_per_second": 6.27,
      "step": 938
    },
    {
      "epoch": 1.0021333333333333,
      "grad_norm": 0.3028763892252459,
      "learning_rate": 0.0005843763170525143,
      "loss": 1.2318,
      "step": 940
    },
    {
      "epoch": 1.0074666666666667,
      "grad_norm": 0.1690911041387363,
      "learning_rate": 0.0005797811774984651,
      "loss": 1.2044,
      "step": 945
    },
    {
      "epoch": 1.0128,
      "grad_norm": 0.20940183900677087,
      "learning_rate": 0.0005751791129103545,
      "loss": 1.1828,
      "step": 950
    },
    {
      "epoch": 1.0181333333333333,
      "grad_norm": 0.17089397063797965,
      "learning_rate": 0.0005705705227489952,
      "loss": 1.1616,
      "step": 955
    },
    {
      "epoch": 1.0234666666666667,
      "grad_norm": 0.16748012414484828,
      "learning_rate": 0.0005659558070416225,
      "loss": 1.1397,
      "step": 960
    },
    {
      "epoch": 1.0288,
      "grad_norm": 0.1919783865145093,
      "learning_rate": 0.000561335366347171,
      "loss": 1.2155,
      "step": 965
    },
    {
      "epoch": 1.0341333333333333,
      "grad_norm": 0.16622190604750287,
      "learning_rate": 0.0005567096017215061,
      "loss": 1.1942,
      "step": 970
    },
    {
      "epoch": 1.0394666666666668,
      "grad_norm": 0.16158979366907286,
      "learning_rate": 0.0005520789146826122,
      "loss": 1.1221,
      "step": 975
    },
    {
      "epoch": 1.0448,
      "grad_norm": 0.1794064027390999,
      "learning_rate": 0.000547443707175741,
      "loss": 1.2021,
      "step": 980
    },
    {
      "epoch": 1.0501333333333334,
      "grad_norm": 0.16458201324349775,
      "learning_rate": 0.0005428043815385226,
      "loss": 1.2206,
      "step": 985
    },
    {
      "epoch": 1.0554666666666668,
      "grad_norm": 0.15569340088021658,
      "learning_rate": 0.000538161340466042,
      "loss": 1.2925,
      "step": 990
    },
    {
      "epoch": 1.0608,
      "grad_norm": 0.21100950649345113,
      "learning_rate": 0.0005335149869758854,
      "loss": 1.1555,
      "step": 995
    },
    {
      "epoch": 1.0661333333333334,
      "grad_norm": 0.201598595052442,
      "learning_rate": 0.0005288657243731579,
      "loss": 1.2261,
      "step": 1000
    },
    {
      "epoch": 1.0714666666666666,
      "grad_norm": 0.18950453681969995,
      "learning_rate": 0.0005242139562154767,
      "loss": 1.3433,
      "step": 1005
    },
    {
      "epoch": 1.0768,
      "grad_norm": 0.1782632963417662,
      "learning_rate": 0.000519560086277942,
      "loss": 1.3204,
      "step": 1010
    },
    {
      "epoch": 1.0821333333333334,
      "grad_norm": 0.2046558278608113,
      "learning_rate": 0.0005149045185180892,
      "loss": 1.3207,
      "step": 1015
    },
    {
      "epoch": 1.0874666666666666,
      "grad_norm": 0.17960935648906937,
      "learning_rate": 0.0005102476570408252,
      "loss": 1.1371,
      "step": 1020
    },
    {
      "epoch": 1.0928,
      "grad_norm": 0.18411181774152324,
      "learning_rate": 0.0005055899060633524,
      "loss": 1.1657,
      "step": 1025
    },
    {
      "epoch": 1.0981333333333334,
      "grad_norm": 0.13803723882192662,
      "learning_rate": 0.0005009316698800816,
      "loss": 1.0602,
      "step": 1030
    },
    {
      "epoch": 1.1034666666666666,
      "grad_norm": 0.14720775204649345,
      "learning_rate": 0.0004962733528275398,
      "loss": 1.3975,
      "step": 1035
    },
    {
      "epoch": 1.1088,
      "grad_norm": 0.3053913141396038,
      "learning_rate": 0.0004916153592492737,
      "loss": 1.1186,
      "step": 1040
    },
    {
      "epoch": 1.1141333333333334,
      "grad_norm": 0.19878382700532568,
      "learning_rate": 0.0004869580934607522,
      "loss": 1.1222,
      "step": 1045
    },
    {
      "epoch": 1.1194666666666666,
      "grad_norm": 0.23947191555604813,
      "learning_rate": 0.00048230195971427184,
      "loss": 1.1563,
      "step": 1050
    },
    {
      "epoch": 1.1248,
      "grad_norm": 0.1904044971173981,
      "learning_rate": 0.00047764736216386724,
      "loss": 1.1358,
      "step": 1055
    },
    {
      "epoch": 1.1301333333333332,
      "grad_norm": 0.18470386586285945,
      "learning_rate": 0.00047299470483023093,
      "loss": 1.1339,
      "step": 1060
    },
    {
      "epoch": 1.1354666666666666,
      "grad_norm": 0.17204573106045493,
      "learning_rate": 0.0004683443915656439,
      "loss": 1.2217,
      "step": 1065
    },
    {
      "epoch": 1.1408,
      "grad_norm": 0.19045173085854777,
      "learning_rate": 0.0004636968260189214,
      "loss": 1.282,
      "step": 1070
    },
    {
      "epoch": 1.1461333333333332,
      "grad_norm": 0.2276612685774946,
      "learning_rate": 0.00045905241160037503,
      "loss": 1.1334,
      "step": 1075
    },
    {
      "epoch": 1.1514666666666666,
      "grad_norm": 0.2241864859517548,
      "learning_rate": 0.00045441155144679827,
      "loss": 1.1574,
      "step": 1080
    },
    {
      "epoch": 1.1568,
      "grad_norm": 2.497568644174775,
      "learning_rate": 0.00044977464838647245,
      "loss": 1.282,
      "step": 1085
    },
    {
      "epoch": 1.1621333333333332,
      "grad_norm": 0.21140764857796504,
      "learning_rate": 0.0004451421049042024,
      "loss": 1.0997,
      "step": 1090
    },
    {
      "epoch": 1.1674666666666667,
      "grad_norm": 0.1962270051938931,
      "learning_rate": 0.00044051432310637963,
      "loss": 1.255,
      "step": 1095
    },
    {
      "epoch": 1.1728,
      "grad_norm": 0.19693325757663727,
      "learning_rate": 0.0004358917046860799,
      "loss": 1.1683,
      "step": 1100
    },
    {
      "epoch": 1.1781333333333333,
      "grad_norm": 0.21754788278685347,
      "learning_rate": 0.00043127465088819625,
      "loss": 1.1766,
      "step": 1105
    },
    {
      "epoch": 1.1834666666666667,
      "grad_norm": 0.19801596283584358,
      "learning_rate": 0.0004266635624746099,
      "loss": 1.1804,
      "step": 1110
    },
    {
      "epoch": 1.1888,
      "grad_norm": 0.1664422855035997,
      "learning_rate": 0.00042205883968940547,
      "loss": 1.3179,
      "step": 1115
    },
    {
      "epoch": 1.1941333333333333,
      "grad_norm": 0.18785506181193706,
      "learning_rate": 0.0004174608822241281,
      "loss": 1.1257,
      "step": 1120
    },
    {
      "epoch": 1.1994666666666667,
      "grad_norm": 0.20769365870330864,
      "learning_rate": 0.0004128700891830912,
      "loss": 1.2603,
      "step": 1125
    },
    {
      "epoch": 1.2048,
      "grad_norm": 0.15721236482936196,
      "learning_rate": 0.00040828685904873384,
      "loss": 1.121,
      "step": 1130
    },
    {
      "epoch": 1.2101333333333333,
      "grad_norm": 0.2174262161486507,
      "learning_rate": 0.0004037115896470314,
      "loss": 1.1916,
      "step": 1135
    },
    {
      "epoch": 1.2154666666666667,
      "grad_norm": 0.2712216090739743,
      "learning_rate": 0.0003991446781129658,
      "loss": 1.2572,
      "step": 1140
    },
    {
      "epoch": 1.2208,
      "grad_norm": 0.20707325928047665,
      "learning_rate": 0.0003945865208560522,
      "loss": 1.1414,
      "step": 1145
    },
    {
      "epoch": 1.2261333333333333,
      "grad_norm": 0.20700451077771687,
      "learning_rate": 0.00039003751352593215,
      "loss": 1.2071,
      "step": 1150
    },
    {
      "epoch": 1.2314666666666667,
      "grad_norm": 0.17804398632353918,
      "learning_rate": 0.00038549805097803024,
      "loss": 1.1486,
      "step": 1155
    },
    {
      "epoch": 1.2368000000000001,
      "grad_norm": 0.29716739836020906,
      "learning_rate": 0.00038096852723928037,
      "loss": 1.1453,
      "step": 1160
    },
    {
      "epoch": 1.2421333333333333,
      "grad_norm": 0.17805463856929005,
      "learning_rate": 0.0003764493354739248,
      "loss": 1.0745,
      "step": 1165
    },
    {
      "epoch": 1.2474666666666667,
      "grad_norm": 0.3307453071495873,
      "learning_rate": 0.0003719408679493861,
      "loss": 1.2995,
      "step": 1170
    },
    {
      "epoch": 1.2528000000000001,
      "grad_norm": 0.3986446686635144,
      "learning_rate": 0.0003674435160022199,
      "loss": 1.2249,
      "step": 1175
    },
    {
      "epoch": 1.2581333333333333,
      "grad_norm": 0.1592392522678876,
      "learning_rate": 0.00036295767000414517,
      "loss": 1.206,
      "step": 1180
    },
    {
      "epoch": 1.2634666666666667,
      "grad_norm": 0.21338148908648794,
      "learning_rate": 0.0003584837193281607,
      "loss": 1.0907,
      "step": 1185
    },
    {
      "epoch": 1.2688,
      "grad_norm": 0.16865623382570738,
      "learning_rate": 0.0003540220523147474,
      "loss": 1.1004,
      "step": 1190
    },
    {
      "epoch": 1.2741333333333333,
      "grad_norm": 0.1690108213548777,
      "learning_rate": 0.00034957305623815947,
      "loss": 1.1252,
      "step": 1195
    },
    {
      "epoch": 1.2794666666666665,
      "grad_norm": 0.15388806312176215,
      "learning_rate": 0.00034513711727281014,
      "loss": 1.1079,
      "step": 1200
    },
    {
      "epoch": 1.2848,
      "grad_norm": 0.17537973973266685,
      "learning_rate": 0.00034071462045974987,
      "loss": 1.1085,
      "step": 1205
    },
    {
      "epoch": 1.2901333333333334,
      "grad_norm": 0.18415351471182478,
      "learning_rate": 0.00033630594967324636,
      "loss": 1.1486,
      "step": 1210
    },
    {
      "epoch": 1.2954666666666665,
      "grad_norm": 0.1548589935037453,
      "learning_rate": 0.0003319114875874632,
      "loss": 1.1421,
      "step": 1215
    },
    {
      "epoch": 1.3008,
      "grad_norm": 0.1666294773271725,
      "learning_rate": 0.0003275316156432434,
      "loss": 1.1158,
      "step": 1220
    },
    {
      "epoch": 1.3061333333333334,
      "grad_norm": 0.1761122954317537,
      "learning_rate": 0.0003231667140150011,
      "loss": 1.1218,
      "step": 1225
    },
    {
      "epoch": 1.3114666666666666,
      "grad_norm": 0.16528762370509964,
      "learning_rate": 0.0003188171615777216,
      "loss": 1.1655,
      "step": 1230
    },
    {
      "epoch": 1.3168,
      "grad_norm": 0.1686578772785309,
      "learning_rate": 0.00031448333587407487,
      "loss": 1.0697,
      "step": 1235
    },
    {
      "epoch": 1.3221333333333334,
      "grad_norm": 0.3211805746587772,
      "learning_rate": 0.0003101656130816454,
      "loss": 1.2515,
      "step": 1240
    },
    {
      "epoch": 1.3274666666666666,
      "grad_norm": 0.18773910466880037,
      "learning_rate": 0.0003058643679802787,
      "loss": 1.0976,
      "step": 1245
    },
    {
      "epoch": 1.3328,
      "grad_norm": 0.17192994755354327,
      "learning_rate": 0.00030157997391955173,
      "loss": 1.1526,
      "step": 1250
    },
    {
      "epoch": 1.3381333333333334,
      "grad_norm": 0.1657946430130008,
      "learning_rate": 0.00029731280278636434,
      "loss": 1.1037,
      "step": 1255
    },
    {
      "epoch": 1.3434666666666666,
      "grad_norm": 0.17800148959460818,
      "learning_rate": 0.00029306322497266103,
      "loss": 1.1455,
      "step": 1260
    },
    {
      "epoch": 1.3488,
      "grad_norm": 0.1597631757484366,
      "learning_rate": 0.0002888316093432797,
      "loss": 1.2538,
      "step": 1265
    },
    {
      "epoch": 1.3541333333333334,
      "grad_norm": 0.1827635309870778,
      "learning_rate": 0.0002846183232039341,
      "loss": 1.1853,
      "step": 1270
    },
    {
      "epoch": 1.3594666666666666,
      "grad_norm": 0.15749380877038888,
      "learning_rate": 0.0002804237322693324,
      "loss": 1.0526,
      "step": 1275
    },
    {
      "epoch": 1.3648,
      "grad_norm": 0.24635088431490124,
      "learning_rate": 0.0002762482006314324,
      "loss": 1.218,
      "step": 1280
    },
    {
      "epoch": 1.3701333333333334,
      "grad_norm": 0.16416301590918,
      "learning_rate": 0.0002720920907278377,
      "loss": 1.0745,
      "step": 1285
    },
    {
      "epoch": 1.3754666666666666,
      "grad_norm": 0.18158801649559791,
      "learning_rate": 0.0002679557633103392,
      "loss": 1.1175,
      "step": 1290
    },
    {
      "epoch": 1.3808,
      "grad_norm": 0.16489828365844636,
      "learning_rate": 0.00026383957741360085,
      "loss": 1.0936,
      "step": 1295
    },
    {
      "epoch": 1.3861333333333334,
      "grad_norm": 0.1743283792964651,
      "learning_rate": 0.00025974389032399584,
      "loss": 1.0985,
      "step": 1300
    },
    {
      "epoch": 1.3914666666666666,
      "grad_norm": 0.6023419118527868,
      "learning_rate": 0.00025566905754859304,
      "loss": 1.1333,
      "step": 1305
    },
    {
      "epoch": 1.3968,
      "grad_norm": 0.18567788287306228,
      "learning_rate": 0.00025161543278430054,
      "loss": 1.1752,
      "step": 1310
    },
    {
      "epoch": 1.4021333333333335,
      "grad_norm": 0.5346706208549356,
      "learning_rate": 0.0002475833678871627,
      "loss": 1.1622,
      "step": 1315
    },
    {
      "epoch": 1.4074666666666666,
      "grad_norm": 0.17705070314434798,
      "learning_rate": 0.0002435732128418207,
      "loss": 1.1335,
      "step": 1320
    },
    {
      "epoch": 1.4128,
      "grad_norm": 0.17236140875502903,
      "learning_rate": 0.00023958531573113224,
      "loss": 1.0556,
      "step": 1325
    },
    {
      "epoch": 1.4181333333333335,
      "grad_norm": 0.18514524842329227,
      "learning_rate": 0.00023562002270595907,
      "loss": 1.0812,
      "step": 1330
    },
    {
      "epoch": 1.4234666666666667,
      "grad_norm": 0.17260814254396956,
      "learning_rate": 0.0002316776779551203,
      "loss": 1.0749,
      "step": 1335
    },
    {
      "epoch": 1.4288,
      "grad_norm": 0.16499640025327883,
      "learning_rate": 0.00022775862367551642,
      "loss": 1.097,
      "step": 1340
    },
    {
      "epoch": 1.4341333333333333,
      "grad_norm": 0.19121145982481483,
      "learning_rate": 0.00022386320004242737,
      "loss": 1.0204,
      "step": 1345
    },
    {
      "epoch": 1.4394666666666667,
      "grad_norm": 0.16441529369716262,
      "learning_rate": 0.00021999174517998461,
      "loss": 1.1163,
      "step": 1350
    },
    {
      "epoch": 1.4447999999999999,
      "grad_norm": 0.17699389232458682,
      "learning_rate": 0.0002161445951318217,
      "loss": 1.1866,
      "step": 1355
    },
    {
      "epoch": 1.4501333333333333,
      "grad_norm": 0.19825525986534817,
      "learning_rate": 0.00021232208383190637,
      "loss": 1.098,
      "step": 1360
    },
    {
      "epoch": 1.4554666666666667,
      "grad_norm": 0.1850769111568691,
      "learning_rate": 0.00020852454307555357,
      "loss": 1.0992,
      "step": 1365
    },
    {
      "epoch": 1.4607999999999999,
      "grad_norm": 0.19909379535103594,
      "learning_rate": 0.00020475230249062727,
      "loss": 1.2304,
      "step": 1370
    },
    {
      "epoch": 1.4661333333333333,
      "grad_norm": 0.1639108372110236,
      "learning_rate": 0.0002010056895089268,
      "loss": 1.0858,
      "step": 1375
    },
    {
      "epoch": 1.4714666666666667,
      "grad_norm": 0.16416417589116514,
      "learning_rate": 0.00019728502933776727,
      "loss": 1.1777,
      "step": 1380
    },
    {
      "epoch": 1.4768,
      "grad_norm": 0.14619738087554637,
      "learning_rate": 0.00019359064493175077,
      "loss": 1.1293,
      "step": 1385
    },
    {
      "epoch": 1.4821333333333333,
      "grad_norm": 0.185247161094156,
      "learning_rate": 0.00018992285696473323,
      "loss": 1.1667,
      "step": 1390
    },
    {
      "epoch": 1.4874666666666667,
      "grad_norm": 0.15271425397319685,
      "learning_rate": 0.00018628198380199113,
      "loss": 1.0531,
      "step": 1395
    },
    {
      "epoch": 1.4928,
      "grad_norm": 0.17019366510921383,
      "learning_rate": 0.00018266834147258576,
      "loss": 1.1772,
      "step": 1400
    },
    {
      "epoch": 1.4981333333333333,
      "grad_norm": 0.12663743422264612,
      "learning_rate": 0.00017908224364193332,
      "loss": 1.1762,
      "step": 1405
    },
    {
      "epoch": 1.5034666666666667,
      "grad_norm": 0.18374984198586938,
      "learning_rate": 0.00017552400158457726,
      "loss": 1.2118,
      "step": 1410
    },
    {
      "epoch": 1.5088,
      "grad_norm": 0.18213097211572615,
      "learning_rate": 0.00017199392415717064,
      "loss": 1.0965,
      "step": 1415
    },
    {
      "epoch": 1.5141333333333333,
      "grad_norm": 0.1935865174646522,
      "learning_rate": 0.00016849231777166663,
      "loss": 1.0732,
      "step": 1420
    },
    {
      "epoch": 1.5194666666666667,
      "grad_norm": 0.16998847375207274,
      "learning_rate": 0.000165019486368722,
      "loss": 1.2086,
      "step": 1425
    },
    {
      "epoch": 1.5248,
      "grad_norm": 0.17269197449102963,
      "learning_rate": 0.00016157573139131525,
      "loss": 1.1697,
      "step": 1430
    },
    {
      "epoch": 1.5301333333333333,
      "grad_norm": 0.2542299292418642,
      "learning_rate": 0.00015816135175858044,
      "loss": 1.0647,
      "step": 1435
    },
    {
      "epoch": 1.5354666666666668,
      "grad_norm": 0.17851754239280926,
      "learning_rate": 0.00015477664383986185,
      "loss": 1.0466,
      "step": 1440
    },
    {
      "epoch": 1.5408,
      "grad_norm": 0.16801909594212655,
      "learning_rate": 0.00015142190142898883,
      "loss": 1.2513,
      "step": 1445
    },
    {
      "epoch": 1.5461333333333334,
      "grad_norm": 0.1768098886057116,
      "learning_rate": 0.0001480974157187735,
      "loss": 1.1022,
      "step": 1450
    },
    {
      "epoch": 1.5514666666666668,
      "grad_norm": 0.13074932256774485,
      "learning_rate": 0.00014480347527573662,
      "loss": 1.1594,
      "step": 1455
    },
    {
      "epoch": 1.5568,
      "grad_norm": 0.17151393003946244,
      "learning_rate": 0.00014154036601505833,
      "loss": 1.1216,
      "step": 1460
    },
    {
      "epoch": 1.5621333333333334,
      "grad_norm": 0.1442138264963272,
      "learning_rate": 0.000138308371175762,
      "loss": 1.1133,
      "step": 1465
    },
    {
      "epoch": 1.5674666666666668,
      "grad_norm": 0.15292101822795443,
      "learning_rate": 0.00013510777129612783,
      "loss": 1.0646,
      "step": 1470
    },
    {
      "epoch": 1.5728,
      "grad_norm": 0.14518033310599648,
      "learning_rate": 0.00013193884418934298,
      "loss": 1.1725,
      "step": 1475
    },
    {
      "epoch": 1.5781333333333334,
      "grad_norm": 0.1387564449550164,
      "learning_rate": 0.00012880186491938685,
      "loss": 1.0344,
      "step": 1480
    },
    {
      "epoch": 1.5834666666666668,
      "grad_norm": 0.17556308049979588,
      "learning_rate": 0.000125697105777155,
      "loss": 1.1217,
      "step": 1485
    },
    {
      "epoch": 1.5888,
      "grad_norm": 0.15364142693042634,
      "learning_rate": 0.00012262483625682512,
      "loss": 1.0741,
      "step": 1490
    },
    {
      "epoch": 1.5941333333333332,
      "grad_norm": 0.1257504271843633,
      "learning_rate": 0.00011958532303246428,
      "loss": 1.1047,
      "step": 1495
    },
    {
      "epoch": 1.5994666666666668,
      "grad_norm": 0.1714899548495689,
      "learning_rate": 0.0001165788299348815,
      "loss": 1.1906,
      "step": 1500
    },
    {
      "epoch": 1.6048,
      "grad_norm": 0.16059021937187,
      "learning_rate": 0.00011360561792872754,
      "loss": 1.1153,
      "step": 1505
    },
    {
      "epoch": 1.6101333333333332,
      "grad_norm": 0.15266747079109294,
      "learning_rate": 0.00011066594508984217,
      "loss": 1.0299,
      "step": 1510
    },
    {
      "epoch": 1.6154666666666668,
      "grad_norm": 0.18413047654392758,
      "learning_rate": 0.00010776006658285458,
      "loss": 1.1035,
      "step": 1515
    },
    {
      "epoch": 1.6208,
      "grad_norm": 0.13501802336499244,
      "learning_rate": 0.00010488823463903341,
      "loss": 1.1939,
      "step": 1520
    },
    {
      "epoch": 1.6261333333333332,
      "grad_norm": 0.18132272783455455,
      "learning_rate": 0.00010205069853439431,
      "loss": 1.0675,
      "step": 1525
    },
    {
      "epoch": 1.6314666666666666,
      "grad_norm": 0.1553879361835766,
      "learning_rate": 9.924770456806159e-05,
      "loss": 0.9619,
      "step": 1530
    },
    {
      "epoch": 1.6368,
      "grad_norm": 0.15677326778270695,
      "learning_rate": 9.64794960408903e-05,
      "loss": 1.1185,
      "step": 1535
    },
    {
      "epoch": 1.6421333333333332,
      "grad_norm": 0.183904030958283,
      "learning_rate": 9.374631323434719e-05,
      "loss": 1.0008,
      "step": 1540
    },
    {
      "epoch": 1.6474666666666666,
      "grad_norm": 0.13145031909119617,
      "learning_rate": 9.104839338965393e-05,
      "loss": 1.0259,
      "step": 1545
    },
    {
      "epoch": 1.6528,
      "grad_norm": 0.17394350793641394,
      "learning_rate": 8.838597068719518e-05,
      "loss": 1.1038,
      "step": 1550
    },
    {
      "epoch": 1.6581333333333332,
      "grad_norm": 0.15112701394329306,
      "learning_rate": 8.575927622619084e-05,
      "loss": 1.0518,
      "step": 1555
    },
    {
      "epoch": 1.6634666666666666,
      "grad_norm": 0.18457879532970395,
      "learning_rate": 8.31685380046373e-05,
      "loss": 1.0938,
      "step": 1560
    },
    {
      "epoch": 1.6688,
      "grad_norm": 0.15865922448373265,
      "learning_rate": 8.061398089951677e-05,
      "loss": 1.0676,
      "step": 1565
    },
    {
      "epoch": 1.6741333333333333,
      "grad_norm": 0.15818513759146322,
      "learning_rate": 7.809582664727788e-05,
      "loss": 1.1206,
      "step": 1570
    },
    {
      "epoch": 1.6794666666666667,
      "grad_norm": 0.16605698265037827,
      "learning_rate": 7.561429382458895e-05,
      "loss": 1.1635,
      "step": 1575
    },
    {
      "epoch": 1.6848,
      "grad_norm": 0.16238437395645972,
      "learning_rate": 7.316959782936516e-05,
      "loss": 1.0103,
      "step": 1580
    },
    {
      "epoch": 1.6901333333333333,
      "grad_norm": 0.16415876294556223,
      "learning_rate": 7.07619508620726e-05,
      "loss": 1.0221,
      "step": 1585
    },
    {
      "epoch": 1.6954666666666667,
      "grad_norm": 0.22190798957904975,
      "learning_rate": 6.839156190730877e-05,
      "loss": 1.2264,
      "step": 1590
    },
    {
      "epoch": 1.7008,
      "grad_norm": 0.17183984111524558,
      "learning_rate": 6.60586367156622e-05,
      "loss": 1.007,
      "step": 1595
    },
    {
      "epoch": 1.7061333333333333,
      "grad_norm": 0.1753408649724588,
      "learning_rate": 6.376337778585439e-05,
      "loss": 1.0607,
      "step": 1600
    },
    {
      "epoch": 1.7114666666666667,
      "grad_norm": 0.22660718012834263,
      "learning_rate": 6.150598434716148e-05,
      "loss": 1.1437,
      "step": 1605
    },
    {
      "epoch": 1.7168,
      "grad_norm": 0.14453741780818383,
      "learning_rate": 5.9286652342122325e-05,
      "loss": 1.1789,
      "step": 1610
    },
    {
      "epoch": 1.7221333333333333,
      "grad_norm": 0.14788308441353806,
      "learning_rate": 5.710557440952968e-05,
      "loss": 1.1564,
      "step": 1615
    },
    {
      "epoch": 1.7274666666666667,
      "grad_norm": 0.16293346101924713,
      "learning_rate": 5.4962939867709674e-05,
      "loss": 1.2645,
      "step": 1620
    },
    {
      "epoch": 1.7328000000000001,
      "grad_norm": 0.1618172860472594,
      "learning_rate": 5.2858934698088556e-05,
      "loss": 1.3056,
      "step": 1625
    },
    {
      "epoch": 1.7381333333333333,
      "grad_norm": 0.16813149252617032,
      "learning_rate": 5.079374152904975e-05,
      "loss": 1.0604,
      "step": 1630
    },
    {
      "epoch": 1.7434666666666667,
      "grad_norm": 0.3050120054079309,
      "learning_rate": 4.876753962008123e-05,
      "loss": 1.1512,
      "step": 1635
    },
    {
      "epoch": 1.7488000000000001,
      "grad_norm": 0.1498940891002612,
      "learning_rate": 4.678050484621615e-05,
      "loss": 1.0855,
      "step": 1640
    },
    {
      "epoch": 1.7541333333333333,
      "grad_norm": 0.2084298980888837,
      "learning_rate": 4.483280968276665e-05,
      "loss": 1.1466,
      "step": 1645
    },
    {
      "epoch": 1.7594666666666665,
      "grad_norm": 0.16219437203822037,
      "learning_rate": 4.2924623190353066e-05,
      "loss": 0.9921,
      "step": 1650
    },
    {
      "epoch": 1.7648000000000001,
      "grad_norm": 0.20896122347720203,
      "learning_rate": 4.1056111000228934e-05,
      "loss": 1.0907,
      "step": 1655
    },
    {
      "epoch": 1.7701333333333333,
      "grad_norm": 0.3242291984960243,
      "learning_rate": 3.9227435299904855e-05,
      "loss": 1.1352,
      "step": 1660
    },
    {
      "epoch": 1.7754666666666665,
      "grad_norm": 0.1771274911966117,
      "learning_rate": 3.743875481907005e-05,
      "loss": 1.0497,
      "step": 1665
    },
    {
      "epoch": 1.7808000000000002,
      "grad_norm": 0.149812505846832,
      "learning_rate": 3.56902248158148e-05,
      "loss": 1.3751,
      "step": 1670
    },
    {
      "epoch": 1.7861333333333334,
      "grad_norm": 0.1856718152762663,
      "learning_rate": 3.398199706315369e-05,
      "loss": 1.058,
      "step": 1675
    },
    {
      "epoch": 1.7914666666666665,
      "grad_norm": 0.17090794493295533,
      "learning_rate": 3.23142198358522e-05,
      "loss": 1.2158,
      "step": 1680
    },
    {
      "epoch": 1.7968,
      "grad_norm": 0.1521435938436169,
      "learning_rate": 3.068703789755606e-05,
      "loss": 1.1261,
      "step": 1685
    },
    {
      "epoch": 1.8021333333333334,
      "grad_norm": 0.161652615543206,
      "learning_rate": 2.9100592488225385e-05,
      "loss": 1.0485,
      "step": 1690
    },
    {
      "epoch": 1.8074666666666666,
      "grad_norm": 0.17453419961628236,
      "learning_rate": 2.755502131187565e-05,
      "loss": 1.2057,
      "step": 1695
    },
    {
      "epoch": 1.8128,
      "grad_norm": 0.15324687430235318,
      "learning_rate": 2.6050458524624732e-05,
      "loss": 1.1074,
      "step": 1700
    },
    {
      "epoch": 1.8181333333333334,
      "grad_norm": 0.20701608116652448,
      "learning_rate": 2.4587034723047686e-05,
      "loss": 1.0499,
      "step": 1705
    },
    {
      "epoch": 1.8234666666666666,
      "grad_norm": 0.17881412566707608,
      "learning_rate": 2.3164876932841637e-05,
      "loss": 1.0506,
      "step": 1710
    },
    {
      "epoch": 1.8288,
      "grad_norm": 0.17548002358261802,
      "learning_rate": 2.1784108597799058e-05,
      "loss": 1.0772,
      "step": 1715
    },
    {
      "epoch": 1.8341333333333334,
      "grad_norm": 0.16841596309024212,
      "learning_rate": 2.0444849569093704e-05,
      "loss": 1.036,
      "step": 1720
    },
    {
      "epoch": 1.8394666666666666,
      "grad_norm": 0.15755645491229145,
      "learning_rate": 1.914721609487674e-05,
      "loss": 1.0655,
      "step": 1725
    },
    {
      "epoch": 1.8448,
      "grad_norm": 0.14647072795812208,
      "learning_rate": 1.789132081018674e-05,
      "loss": 1.0548,
      "step": 1730
    },
    {
      "epoch": 1.8501333333333334,
      "grad_norm": 0.1288875157536536,
      "learning_rate": 1.667727272717312e-05,
      "loss": 1.1746,
      "step": 1735
    },
    {
      "epoch": 1.8554666666666666,
      "grad_norm": 0.15713233990852032,
      "learning_rate": 1.5505177225633106e-05,
      "loss": 1.0253,
      "step": 1740
    },
    {
      "epoch": 1.8608,
      "grad_norm": 0.15444231585730003,
      "learning_rate": 1.4375136043865589e-05,
      "loss": 1.1086,
      "step": 1745
    },
    {
      "epoch": 1.8661333333333334,
      "grad_norm": 0.1457103798945488,
      "learning_rate": 1.3287247269839653e-05,
      "loss": 0.9883,
      "step": 1750
    },
    {
      "epoch": 1.8714666666666666,
      "grad_norm": 0.1461088373925164,
      "learning_rate": 1.2241605332680705e-05,
      "loss": 1.1277,
      "step": 1755
    },
    {
      "epoch": 1.8768,
      "grad_norm": 0.18463349614895772,
      "learning_rate": 1.1238300994473982e-05,
      "loss": 1.1317,
      "step": 1760
    },
    {
      "epoch": 1.8821333333333334,
      "grad_norm": 0.1469484098104942,
      "learning_rate": 1.027742134238624e-05,
      "loss": 1.0894,
      "step": 1765
    },
    {
      "epoch": 1.8874666666666666,
      "grad_norm": 0.1616209508465538,
      "learning_rate": 9.35904978110691e-06,
      "loss": 1.1087,
      "step": 1770
    },
    {
      "epoch": 1.8928,
      "grad_norm": 0.22233329736540142,
      "learning_rate": 8.48326602560806e-06,
      "loss": 1.0474,
      "step": 1775
    },
    {
      "epoch": 1.8981333333333335,
      "grad_norm": 0.14488632071642446,
      "learning_rate": 7.650146094225486e-06,
      "loss": 1.0071,
      "step": 1780
    },
    {
      "epoch": 1.9034666666666666,
      "grad_norm": 0.1808192541806915,
      "learning_rate": 6.859762302060035e-06,
      "loss": 1.1205,
      "step": 1785
    },
    {
      "epoch": 1.9088,
      "grad_norm": 0.14001780671817604,
      "learning_rate": 6.112183254700865e-06,
      "loss": 1.093,
      "step": 1790
    },
    {
      "epoch": 1.9141333333333335,
      "grad_norm": 0.16818818035471877,
      "learning_rate": 5.407473842270305e-06,
      "loss": 1.1112,
      "step": 1795
    },
    {
      "epoch": 1.9194666666666667,
      "grad_norm": 0.13682206605113123,
      "learning_rate": 4.7456952337913694e-06,
      "loss": 1.0366,
      "step": 1800
    },
    {
      "epoch": 1.9247999999999998,
      "grad_norm": 0.15960165300480034,
      "learning_rate": 4.126904871878334e-06,
      "loss": 1.067,
      "step": 1805
    },
    {
      "epoch": 1.9301333333333335,
      "grad_norm": 0.14032818975327635,
      "learning_rate": 3.5511564677506712e-06,
      "loss": 1.0757,
      "step": 1810
    },
    {
      "epoch": 1.9354666666666667,
      "grad_norm": 0.18317574559260785,
      "learning_rate": 3.0184999965708337e-06,
      "loss": 1.0497,
      "step": 1815
    },
    {
      "epoch": 1.9407999999999999,
      "grad_norm": 0.162203137931073,
      "learning_rate": 2.528981693106558e-06,
      "loss": 1.1701,
      "step": 1820
    },
    {
      "epoch": 1.9461333333333335,
      "grad_norm": 0.1650874191372878,
      "learning_rate": 2.082644047717408e-06,
      "loss": 1.0776,
      "step": 1825
    },
    {
      "epoch": 1.9514666666666667,
      "grad_norm": 0.18010028782998333,
      "learning_rate": 1.679525802666948e-06,
      "loss": 1.0009,
      "step": 1830
    },
    {
      "epoch": 1.9567999999999999,
      "grad_norm": 0.14049323816547904,
      "learning_rate": 1.3196619487594875e-06,
      "loss": 1.1805,
      "step": 1835
    },
    {
      "epoch": 1.9621333333333333,
      "grad_norm": 0.1577866946390395,
      "learning_rate": 1.003083722303233e-06,
      "loss": 1.2408,
      "step": 1840
    },
    {
      "epoch": 1.9674666666666667,
      "grad_norm": 0.17138408929845347,
      "learning_rate": 7.298186023987352e-07,
      "loss": 1.036,
      "step": 1845
    },
    {
      "epoch": 1.9727999999999999,
      "grad_norm": 0.1461980237293837,
      "learning_rate": 4.998903085539075e-07,
      "loss": 1.0519,
      "step": 1850
    },
    {
      "epoch": 1.9781333333333333,
      "grad_norm": 0.1573855131338624,
      "learning_rate": 3.1331879862483983e-07,
      "loss": 1.0433,
      "step": 1855
    },
    {
      "epoch": 1.9834666666666667,
      "grad_norm": 0.16821650086152165,
      "learning_rate": 1.7012026708373985e-07,
      "loss": 1.2959,
      "step": 1860
    },
    {
      "epoch": 1.9888,
      "grad_norm": 0.16564054704082737,
      "learning_rate": 7.030714361316859e-08,
      "loss": 0.9995,
      "step": 1865
    },
    {
      "epoch": 1.9941333333333333,
      "grad_norm": 0.15825246868150133,
      "learning_rate": 1.3888092027125598e-08,
      "loss": 0.9994,
      "step": 1870
    },
    {
      "epoch": 1.9984,
      "eval_loss": 1.0428143739700317,
      "eval_runtime": 0.3173,
      "eval_samples_per_second": 47.276,
      "eval_steps_per_second": 6.303,
      "step": 1874
    },
    {
      "epoch": 1.9984,
      "step": 1874,
      "total_flos": 6.947467639232922e+16,
      "train_loss": 1.3333745476021457,
      "train_runtime": 7682.7872,
      "train_samples_per_second": 7.808,
      "train_steps_per_second": 0.244
    }
  ],
  "logging_steps": 5,
  "max_steps": 1874,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": false,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.947467639232922e+16,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}