{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.937062937062937,
  "eval_steps": 18,
  "global_step": 355,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.013986013986013986,
      "grad_norm": 6.746792793273926,
      "learning_rate": 3.3333333333333335e-07,
      "loss": 0.8294,
      "step": 1
    },
    {
      "epoch": 0.013986013986013986,
      "eval_loss": 0.8744672536849976,
      "eval_runtime": 36.967,
      "eval_samples_per_second": 17.367,
      "eval_steps_per_second": 2.191,
      "step": 1
    },
    {
      "epoch": 0.027972027972027972,
      "grad_norm": 6.9825944900512695,
      "learning_rate": 6.666666666666667e-07,
      "loss": 0.8694,
      "step": 2
    },
    {
      "epoch": 0.04195804195804196,
      "grad_norm": 7.01480770111084,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 0.861,
      "step": 3
    },
    {
      "epoch": 0.055944055944055944,
      "grad_norm": 7.156968593597412,
      "learning_rate": 1.3333333333333334e-06,
      "loss": 0.9027,
      "step": 4
    },
    {
      "epoch": 0.06993006993006994,
      "grad_norm": 6.0878005027771,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 0.8577,
      "step": 5
    },
    {
      "epoch": 0.08391608391608392,
      "grad_norm": 5.853216648101807,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 0.8168,
      "step": 6
    },
    {
      "epoch": 0.0979020979020979,
      "grad_norm": 4.9973978996276855,
      "learning_rate": 2.3333333333333336e-06,
      "loss": 0.788,
      "step": 7
    },
    {
      "epoch": 0.11188811188811189,
      "grad_norm": 4.611128330230713,
      "learning_rate": 2.666666666666667e-06,
      "loss": 0.7959,
      "step": 8
    },
    {
      "epoch": 0.1258741258741259,
      "grad_norm": 3.1312103271484375,
      "learning_rate": 3e-06,
      "loss": 0.7374,
      "step": 9
    },
    {
      "epoch": 0.13986013986013987,
      "grad_norm": 2.9217381477355957,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 0.7329,
      "step": 10
    },
    {
      "epoch": 0.15384615384615385,
      "grad_norm": 2.5225424766540527,
      "learning_rate": 3.6666666666666666e-06,
      "loss": 0.6905,
      "step": 11
    },
    {
      "epoch": 0.16783216783216784,
      "grad_norm": 2.8658440113067627,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.702,
      "step": 12
    },
    {
      "epoch": 0.18181818181818182,
      "grad_norm": 2.6459388732910156,
      "learning_rate": 4.333333333333334e-06,
      "loss": 0.6659,
      "step": 13
    },
    {
      "epoch": 0.1958041958041958,
      "grad_norm": 2.4082329273223877,
      "learning_rate": 4.666666666666667e-06,
      "loss": 0.6732,
      "step": 14
    },
    {
      "epoch": 0.2097902097902098,
      "grad_norm": 1.8969792127609253,
      "learning_rate": 5e-06,
      "loss": 0.626,
      "step": 15
    },
    {
      "epoch": 0.22377622377622378,
      "grad_norm": 1.705984354019165,
      "learning_rate": 5.333333333333334e-06,
      "loss": 0.6357,
      "step": 16
    },
    {
      "epoch": 0.23776223776223776,
      "grad_norm": 1.5265748500823975,
      "learning_rate": 5.666666666666667e-06,
      "loss": 0.6409,
      "step": 17
    },
    {
      "epoch": 0.2517482517482518,
      "grad_norm": 1.3590223789215088,
      "learning_rate": 6e-06,
      "loss": 0.6128,
      "step": 18
    },
    {
      "epoch": 0.2517482517482518,
      "eval_loss": 0.6171885132789612,
      "eval_runtime": 35.4252,
      "eval_samples_per_second": 18.123,
      "eval_steps_per_second": 2.287,
      "step": 18
    },
    {
      "epoch": 0.26573426573426573,
      "grad_norm": 1.3791933059692383,
      "learning_rate": 6.333333333333333e-06,
      "loss": 0.6181,
      "step": 19
    },
    {
      "epoch": 0.27972027972027974,
      "grad_norm": 1.398863434791565,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.593,
      "step": 20
    },
    {
      "epoch": 0.2937062937062937,
      "grad_norm": 1.1556097269058228,
      "learning_rate": 7e-06,
      "loss": 0.6274,
      "step": 21
    },
    {
      "epoch": 0.3076923076923077,
      "grad_norm": 1.094146728515625,
      "learning_rate": 7.333333333333333e-06,
      "loss": 0.6113,
      "step": 22
    },
    {
      "epoch": 0.32167832167832167,
      "grad_norm": 1.2191824913024902,
      "learning_rate": 7.666666666666667e-06,
      "loss": 0.6111,
      "step": 23
    },
    {
      "epoch": 0.3356643356643357,
      "grad_norm": 0.9371815323829651,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.5895,
      "step": 24
    },
    {
      "epoch": 0.34965034965034963,
      "grad_norm": 0.8173602223396301,
      "learning_rate": 8.333333333333334e-06,
      "loss": 0.6083,
      "step": 25
    },
    {
      "epoch": 0.36363636363636365,
      "grad_norm": 1.0984693765640259,
      "learning_rate": 8.666666666666668e-06,
      "loss": 0.6072,
      "step": 26
    },
    {
      "epoch": 0.3776223776223776,
      "grad_norm": 1.0279648303985596,
      "learning_rate": 9e-06,
      "loss": 0.6001,
      "step": 27
    },
    {
      "epoch": 0.3916083916083916,
      "grad_norm": 0.9129611253738403,
      "learning_rate": 9.333333333333334e-06,
      "loss": 0.5644,
      "step": 28
    },
    {
      "epoch": 0.40559440559440557,
      "grad_norm": 0.832744300365448,
      "learning_rate": 9.666666666666667e-06,
      "loss": 0.5716,
      "step": 29
    },
    {
      "epoch": 0.4195804195804196,
      "grad_norm": 0.8230701684951782,
      "learning_rate": 1e-05,
      "loss": 0.59,
      "step": 30
    },
    {
      "epoch": 0.43356643356643354,
      "grad_norm": 0.8343638181686401,
      "learning_rate": 9.999766401714795e-06,
      "loss": 0.5876,
      "step": 31
    },
    {
      "epoch": 0.44755244755244755,
      "grad_norm": 0.7421298623085022,
      "learning_rate": 9.999065628686439e-06,
      "loss": 0.5959,
      "step": 32
    },
    {
      "epoch": 0.46153846153846156,
      "grad_norm": 0.7471378445625305,
      "learning_rate": 9.997897746394684e-06,
      "loss": 0.5804,
      "step": 33
    },
    {
      "epoch": 0.4755244755244755,
      "grad_norm": 0.8300222754478455,
      "learning_rate": 9.996262863965651e-06,
      "loss": 0.5726,
      "step": 34
    },
    {
      "epoch": 0.48951048951048953,
      "grad_norm": 0.7753379940986633,
      "learning_rate": 9.994161134161635e-06,
      "loss": 0.6034,
      "step": 35
    },
    {
      "epoch": 0.5034965034965035,
      "grad_norm": 0.8331146240234375,
      "learning_rate": 9.991592753366822e-06,
      "loss": 0.5953,
      "step": 36
    },
    {
      "epoch": 0.5034965034965035,
      "eval_loss": 0.5805296897888184,
      "eval_runtime": 35.0435,
      "eval_samples_per_second": 18.32,
      "eval_steps_per_second": 2.311,
      "step": 36
    },
    {
      "epoch": 0.5174825174825175,
      "grad_norm": 0.7212592959403992,
      "learning_rate": 9.988557961568956e-06,
      "loss": 0.5639,
      "step": 37
    },
    {
      "epoch": 0.5314685314685315,
      "grad_norm": 0.796295166015625,
      "learning_rate": 9.985057042336898e-06,
      "loss": 0.5771,
      "step": 38
    },
    {
      "epoch": 0.5454545454545454,
      "grad_norm": 0.8607219457626343,
      "learning_rate": 9.981090322794145e-06,
      "loss": 0.5763,
      "step": 39
    },
    {
      "epoch": 0.5594405594405595,
      "grad_norm": 0.861869215965271,
      "learning_rate": 9.976658173588244e-06,
      "loss": 0.5729,
      "step": 40
    },
    {
      "epoch": 0.5734265734265734,
      "grad_norm": 0.7538414597511292,
      "learning_rate": 9.97176100885618e-06,
      "loss": 0.571,
      "step": 41
    },
    {
      "epoch": 0.5874125874125874,
      "grad_norm": 0.7197255492210388,
      "learning_rate": 9.966399286185666e-06,
      "loss": 0.5421,
      "step": 42
    },
    {
      "epoch": 0.6013986013986014,
      "grad_norm": 0.7522373199462891,
      "learning_rate": 9.960573506572391e-06,
      "loss": 0.5603,
      "step": 43
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 0.8054993152618408,
      "learning_rate": 9.954284214373204e-06,
      "loss": 0.5723,
      "step": 44
    },
    {
      "epoch": 0.6293706293706294,
      "grad_norm": 0.639057457447052,
      "learning_rate": 9.947531997255256e-06,
      "loss": 0.5483,
      "step": 45
    },
    {
      "epoch": 0.6433566433566433,
      "grad_norm": 0.6742891073226929,
      "learning_rate": 9.940317486141084e-06,
      "loss": 0.5845,
      "step": 46
    },
    {
      "epoch": 0.6573426573426573,
      "grad_norm": 0.6605424880981445,
      "learning_rate": 9.932641355149655e-06,
      "loss": 0.5639,
      "step": 47
    },
    {
      "epoch": 0.6713286713286714,
      "grad_norm": 0.7080878019332886,
      "learning_rate": 9.924504321533387e-06,
      "loss": 0.5851,
      "step": 48
    },
    {
      "epoch": 0.6853146853146853,
      "grad_norm": 0.6235523223876953,
      "learning_rate": 9.915907145611117e-06,
      "loss": 0.574,
      "step": 49
    },
    {
      "epoch": 0.6993006993006993,
      "grad_norm": 0.6567375063896179,
      "learning_rate": 9.906850630697068e-06,
      "loss": 0.5705,
      "step": 50
    },
    {
      "epoch": 0.7132867132867133,
      "grad_norm": 0.6011090278625488,
      "learning_rate": 9.89733562302578e-06,
      "loss": 0.574,
      "step": 51
    },
    {
      "epoch": 0.7272727272727273,
      "grad_norm": 0.6043576002120972,
      "learning_rate": 9.887363011673046e-06,
      "loss": 0.5849,
      "step": 52
    },
    {
      "epoch": 0.7412587412587412,
      "grad_norm": 0.7147118449211121,
      "learning_rate": 9.876933728472826e-06,
      "loss": 0.5584,
      "step": 53
    },
    {
      "epoch": 0.7552447552447552,
      "grad_norm": 0.6480064392089844,
      "learning_rate": 9.866048747930194e-06,
      "loss": 0.5494,
      "step": 54
    },
    {
      "epoch": 0.7552447552447552,
      "eval_loss": 0.5708758234977722,
      "eval_runtime": 34.9921,
      "eval_samples_per_second": 18.347,
      "eval_steps_per_second": 2.315,
      "step": 54
    },
    {
      "epoch": 0.7692307692307693,
      "grad_norm": 0.6563164591789246,
      "learning_rate": 9.854709087130261e-06,
      "loss": 0.5491,
      "step": 55
    },
    {
      "epoch": 0.7832167832167832,
      "grad_norm": 0.6024691462516785,
      "learning_rate": 9.842915805643156e-06,
      "loss": 0.5589,
      "step": 56
    },
    {
      "epoch": 0.7972027972027972,
      "grad_norm": 0.6186073422431946,
      "learning_rate": 9.830670005425012e-06,
      "loss": 0.5567,
      "step": 57
    },
    {
      "epoch": 0.8111888111888111,
      "grad_norm": 0.6993715763092041,
      "learning_rate": 9.817972830715003e-06,
      "loss": 0.5534,
      "step": 58
    },
    {
      "epoch": 0.8251748251748252,
      "grad_norm": 0.6327122449874878,
      "learning_rate": 9.804825467928423e-06,
      "loss": 0.5709,
      "step": 59
    },
    {
      "epoch": 0.8391608391608392,
      "grad_norm": 0.6156756281852722,
      "learning_rate": 9.791229145545832e-06,
      "loss": 0.5445,
      "step": 60
    },
    {
      "epoch": 0.8531468531468531,
      "grad_norm": 0.7704036235809326,
      "learning_rate": 9.777185133998268e-06,
      "loss": 0.5743,
      "step": 61
    },
    {
      "epoch": 0.8671328671328671,
      "grad_norm": 0.5839553475379944,
      "learning_rate": 9.76269474554854e-06,
      "loss": 0.5536,
      "step": 62
    },
    {
      "epoch": 0.8811188811188811,
      "grad_norm": 0.6872385144233704,
      "learning_rate": 9.747759334168602e-06,
      "loss": 0.5627,
      "step": 63
    },
    {
      "epoch": 0.8951048951048951,
      "grad_norm": 0.663074791431427,
      "learning_rate": 9.73238029541305e-06,
      "loss": 0.5643,
      "step": 64
    },
    {
      "epoch": 0.9090909090909091,
      "grad_norm": 0.7018933296203613,
      "learning_rate": 9.716559066288716e-06,
      "loss": 0.5729,
      "step": 65
    },
    {
      "epoch": 0.9230769230769231,
      "grad_norm": 0.7574678659439087,
      "learning_rate": 9.7002971251204e-06,
      "loss": 0.5813,
      "step": 66
    },
    {
      "epoch": 0.9370629370629371,
      "grad_norm": 0.6293357014656067,
      "learning_rate": 9.683595991412725e-06,
      "loss": 0.5819,
      "step": 67
    },
    {
      "epoch": 0.951048951048951,
      "grad_norm": 0.6524381041526794,
      "learning_rate": 9.666457225708175e-06,
      "loss": 0.5856,
      "step": 68
    },
    {
      "epoch": 0.965034965034965,
      "grad_norm": 0.8389201164245605,
      "learning_rate": 9.648882429441258e-06,
      "loss": 0.5587,
      "step": 69
    },
    {
      "epoch": 0.9790209790209791,
      "grad_norm": 0.6339119672775269,
      "learning_rate": 9.630873244788884e-06,
      "loss": 0.5655,
      "step": 70
    },
    {
      "epoch": 0.993006993006993,
      "grad_norm": 0.6689181923866272,
      "learning_rate": 9.612431354516912e-06,
      "loss": 0.574,
      "step": 71
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.7970519661903381,
      "learning_rate": 9.593558481822923e-06,
      "loss": 0.5541,
      "step": 72
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.5664608478546143,
      "eval_runtime": 34.9634,
      "eval_samples_per_second": 18.362,
      "eval_steps_per_second": 2.317,
      "step": 72
    },
    {
      "epoch": 1.013986013986014,
      "grad_norm": 0.6805382370948792,
      "learning_rate": 9.574256390175192e-06,
      "loss": 0.5175,
      "step": 73
    },
    {
      "epoch": 1.027972027972028,
      "grad_norm": 0.6378044486045837,
      "learning_rate": 9.554526883147926e-06,
      "loss": 0.5323,
      "step": 74
    },
    {
      "epoch": 1.0419580419580419,
      "grad_norm": 0.6296578645706177,
      "learning_rate": 9.534371804252727e-06,
      "loss": 0.5197,
      "step": 75
    },
    {
      "epoch": 1.055944055944056,
      "grad_norm": 0.6116400361061096,
      "learning_rate": 9.513793036766345e-06,
      "loss": 0.504,
      "step": 76
    },
    {
      "epoch": 1.06993006993007,
      "grad_norm": 0.6288114190101624,
      "learning_rate": 9.492792503554695e-06,
      "loss": 0.5314,
      "step": 77
    },
    {
      "epoch": 1.083916083916084,
      "grad_norm": 0.6576322913169861,
      "learning_rate": 9.4713721668932e-06,
      "loss": 0.5437,
      "step": 78
    },
    {
      "epoch": 1.097902097902098,
      "grad_norm": 0.5930177569389343,
      "learning_rate": 9.44953402828342e-06,
      "loss": 0.5213,
      "step": 79
    },
    {
      "epoch": 1.1118881118881119,
      "grad_norm": 0.7437406778335571,
      "learning_rate": 9.427280128266049e-06,
      "loss": 0.5441,
      "step": 80
    },
    {
      "epoch": 1.1258741258741258,
      "grad_norm": 0.7347025275230408,
      "learning_rate": 9.404612546230244e-06,
      "loss": 0.5078,
      "step": 81
    },
    {
      "epoch": 1.1398601398601398,
      "grad_norm": 0.6133800148963928,
      "learning_rate": 9.381533400219319e-06,
      "loss": 0.5129,
      "step": 82
    },
    {
      "epoch": 1.1538461538461537,
      "grad_norm": 0.8068645000457764,
      "learning_rate": 9.358044846732848e-06,
      "loss": 0.5252,
      "step": 83
    },
    {
      "epoch": 1.167832167832168,
      "grad_norm": 0.7470645904541016,
      "learning_rate": 9.334149080525154e-06,
      "loss": 0.5251,
      "step": 84
    },
    {
      "epoch": 1.1818181818181819,
      "grad_norm": 0.6085983514785767,
      "learning_rate": 9.309848334400247e-06,
      "loss": 0.5119,
      "step": 85
    },
    {
      "epoch": 1.1958041958041958,
      "grad_norm": 0.6427562236785889,
      "learning_rate": 9.285144879003173e-06,
      "loss": 0.5327,
      "step": 86
    },
    {
      "epoch": 1.2097902097902098,
      "grad_norm": 0.5992908477783203,
      "learning_rate": 9.26004102260786e-06,
      "loss": 0.5174,
      "step": 87
    },
    {
      "epoch": 1.2237762237762237,
      "grad_norm": 0.6650605201721191,
      "learning_rate": 9.23453911090143e-06,
      "loss": 0.541,
      "step": 88
    },
    {
      "epoch": 1.2377622377622377,
      "grad_norm": 0.6733765602111816,
      "learning_rate": 9.208641526765024e-06,
      "loss": 0.4968,
      "step": 89
    },
    {
      "epoch": 1.2517482517482517,
      "grad_norm": 0.5896586775779724,
      "learning_rate": 9.182350690051134e-06,
      "loss": 0.5111,
      "step": 90
    },
    {
      "epoch": 1.2517482517482517,
      "eval_loss": 0.5681217312812805,
      "eval_runtime": 34.9547,
      "eval_samples_per_second": 18.367,
      "eval_steps_per_second": 2.317,
      "step": 90
    },
    {
      "epoch": 1.2657342657342658,
      "grad_norm": 0.5879291892051697,
      "learning_rate": 9.155669057357515e-06,
      "loss": 0.5124,
      "step": 91
    },
    {
      "epoch": 1.2797202797202798,
      "grad_norm": 0.6704349517822266,
      "learning_rate": 9.12859912179762e-06,
      "loss": 0.5264,
      "step": 92
    },
    {
      "epoch": 1.2937062937062938,
      "grad_norm": 0.7005125284194946,
      "learning_rate": 9.101143412767665e-06,
      "loss": 0.5426,
      "step": 93
    },
    {
      "epoch": 1.3076923076923077,
      "grad_norm": 0.5738447904586792,
      "learning_rate": 9.073304495710267e-06,
      "loss": 0.5057,
      "step": 94
    },
    {
      "epoch": 1.3216783216783217,
      "grad_norm": 0.6039765477180481,
      "learning_rate": 9.045084971874738e-06,
      "loss": 0.5106,
      "step": 95
    },
    {
      "epoch": 1.3356643356643356,
      "grad_norm": 0.6626608967781067,
      "learning_rate": 9.016487478074032e-06,
      "loss": 0.5231,
      "step": 96
    },
    {
      "epoch": 1.3496503496503496,
      "grad_norm": 0.607319176197052,
      "learning_rate": 8.987514686438353e-06,
      "loss": 0.5373,
      "step": 97
    },
    {
      "epoch": 1.3636363636363638,
      "grad_norm": 0.6294829249382019,
      "learning_rate": 8.95816930416548e-06,
      "loss": 0.5478,
      "step": 98
    },
    {
      "epoch": 1.3776223776223775,
      "grad_norm": 0.5931101441383362,
      "learning_rate": 8.928454073267801e-06,
      "loss": 0.5183,
      "step": 99
    },
    {
      "epoch": 1.3916083916083917,
      "grad_norm": 0.5525672435760498,
      "learning_rate": 8.898371770316113e-06,
      "loss": 0.5049,
      "step": 100
    },
    {
      "epoch": 1.4055944055944056,
      "grad_norm": 0.5554185509681702,
      "learning_rate": 8.867925206180166e-06,
      "loss": 0.5329,
      "step": 101
    },
    {
      "epoch": 1.4195804195804196,
      "grad_norm": 0.6104192137718201,
      "learning_rate": 8.837117225766033e-06,
      "loss": 0.5421,
      "step": 102
    },
    {
      "epoch": 1.4335664335664335,
      "grad_norm": 0.5591093897819519,
      "learning_rate": 8.805950707750268e-06,
      "loss": 0.5434,
      "step": 103
    },
    {
      "epoch": 1.4475524475524475,
      "grad_norm": 0.5589428544044495,
      "learning_rate": 8.774428564310939e-06,
      "loss": 0.5159,
      "step": 104
    },
    {
      "epoch": 1.4615384615384617,
      "grad_norm": 0.580699622631073,
      "learning_rate": 8.742553740855507e-06,
      "loss": 0.5143,
      "step": 105
    },
    {
      "epoch": 1.4755244755244754,
      "grad_norm": 0.6007757186889648,
      "learning_rate": 8.710329215745612e-06,
      "loss": 0.5066,
      "step": 106
    },
    {
      "epoch": 1.4895104895104896,
      "grad_norm": 0.6713395118713379,
      "learning_rate": 8.677758000018777e-06,
      "loss": 0.5318,
      "step": 107
    },
    {
      "epoch": 1.5034965034965035,
      "grad_norm": 0.5536379814147949,
      "learning_rate": 8.644843137107058e-06,
      "loss": 0.5159,
      "step": 108
    },
    {
      "epoch": 1.5034965034965035,
      "eval_loss": 0.5661691427230835,
      "eval_runtime": 35.3668,
      "eval_samples_per_second": 18.153,
      "eval_steps_per_second": 2.29,
      "step": 108
    },
    {
      "epoch": 1.5174825174825175,
      "grad_norm": 0.645210325717926,
      "learning_rate": 8.61158770255267e-06,
      "loss": 0.5312,
      "step": 109
    },
    {
      "epoch": 1.5314685314685315,
      "grad_norm": 0.601094126701355,
      "learning_rate": 8.577994803720605e-06,
      "loss": 0.5394,
      "step": 110
    },
    {
      "epoch": 1.5454545454545454,
      "grad_norm": 0.5418203473091125,
      "learning_rate": 8.544067579508292e-06,
      "loss": 0.5264,
      "step": 111
    },
    {
      "epoch": 1.5594405594405596,
      "grad_norm": 0.5513077974319458,
      "learning_rate": 8.509809200052286e-06,
      "loss": 0.5269,
      "step": 112
    },
    {
      "epoch": 1.5734265734265733,
      "grad_norm": 0.6063372492790222,
      "learning_rate": 8.475222866432065e-06,
      "loss": 0.5199,
      "step": 113
    },
    {
      "epoch": 1.5874125874125875,
      "grad_norm": 0.5637122988700867,
      "learning_rate": 8.440311810370921e-06,
      "loss": 0.5342,
      "step": 114
    },
    {
      "epoch": 1.6013986013986012,
      "grad_norm": 0.5762498378753662,
      "learning_rate": 8.405079293933986e-06,
      "loss": 0.5419,
      "step": 115
    },
    {
      "epoch": 1.6153846153846154,
      "grad_norm": 0.557772159576416,
      "learning_rate": 8.36952860922343e-06,
      "loss": 0.5217,
      "step": 116
    },
    {
      "epoch": 1.6293706293706294,
      "grad_norm": 0.6382875442504883,
      "learning_rate": 8.333663078070845e-06,
      "loss": 0.5366,
      "step": 117
    },
    {
      "epoch": 1.6433566433566433,
      "grad_norm": 0.5209150910377502,
      "learning_rate": 8.297486051726864e-06,
      "loss": 0.5087,
      "step": 118
    },
    {
      "epoch": 1.6573426573426573,
      "grad_norm": 0.5415475964546204,
      "learning_rate": 8.26100091054801e-06,
      "loss": 0.5026,
      "step": 119
    },
    {
      "epoch": 1.6713286713286712,
      "grad_norm": 0.6667906641960144,
      "learning_rate": 8.224211063680854e-06,
      "loss": 0.5224,
      "step": 120
    },
    {
      "epoch": 1.6853146853146854,
      "grad_norm": 0.573965311050415,
      "learning_rate": 8.18711994874345e-06,
      "loss": 0.538,
      "step": 121
    },
    {
      "epoch": 1.6993006993006992,
      "grad_norm": 0.6206014156341553,
      "learning_rate": 8.149731031504136e-06,
      "loss": 0.5161,
      "step": 122
    },
    {
      "epoch": 1.7132867132867133,
      "grad_norm": 0.6324427127838135,
      "learning_rate": 8.112047805557693e-06,
      "loss": 0.5407,
      "step": 123
    },
    {
      "epoch": 1.7272727272727273,
      "grad_norm": 0.5460613965988159,
      "learning_rate": 8.074073791998907e-06,
      "loss": 0.5238,
      "step": 124
    },
    {
      "epoch": 1.7412587412587412,
      "grad_norm": 0.5684161186218262,
      "learning_rate": 8.035812539093557e-06,
      "loss": 0.5166,
      "step": 125
    },
    {
      "epoch": 1.7552447552447552,
      "grad_norm": 0.6114190816879272,
      "learning_rate": 7.997267621946871e-06,
      "loss": 0.5212,
      "step": 126
    },
    {
      "epoch": 1.7552447552447552,
      "eval_loss": 0.5644441843032837,
      "eval_runtime": 34.8941,
      "eval_samples_per_second": 18.399,
      "eval_steps_per_second": 2.321,
      "step": 126
    },
    {
      "epoch": 1.7692307692307692,
      "grad_norm": 0.5791452527046204,
      "learning_rate": 7.958442642169469e-06,
      "loss": 0.5219,
      "step": 127
    },
    {
      "epoch": 1.7832167832167833,
      "grad_norm": 0.5814895033836365,
      "learning_rate": 7.919341227540828e-06,
      "loss": 0.5492,
      "step": 128
    },
    {
      "epoch": 1.797202797202797,
      "grad_norm": 0.5562170147895813,
      "learning_rate": 7.879967031670313e-06,
      "loss": 0.5065,
      "step": 129
    },
    {
      "epoch": 1.8111888111888113,
      "grad_norm": 0.5666476488113403,
      "learning_rate": 7.84032373365578e-06,
      "loss": 0.508,
      "step": 130
    },
    {
      "epoch": 1.8251748251748252,
      "grad_norm": 0.6123917102813721,
      "learning_rate": 7.800415037739802e-06,
      "loss": 0.5245,
      "step": 131
    },
    {
      "epoch": 1.8391608391608392,
      "grad_norm": 0.6137180924415588,
      "learning_rate": 7.760244672963548e-06,
      "loss": 0.5281,
      "step": 132
    },
    {
      "epoch": 1.8531468531468531,
      "grad_norm": 0.5444206595420837,
      "learning_rate": 7.719816392818354e-06,
      "loss": 0.496,
      "step": 133
    },
    {
      "epoch": 1.867132867132867,
      "grad_norm": 0.5935954451560974,
      "learning_rate": 7.679133974894984e-06,
      "loss": 0.5164,
      "step": 134
    },
    {
      "epoch": 1.8811188811188813,
      "grad_norm": 0.568263828754425,
      "learning_rate": 7.638201220530664e-06,
      "loss": 0.509,
      "step": 135
    },
    {
      "epoch": 1.895104895104895,
      "grad_norm": 0.641503095626831,
      "learning_rate": 7.597021954453887e-06,
      "loss": 0.5389,
      "step": 136
    },
    {
      "epoch": 1.9090909090909092,
      "grad_norm": 0.5866712927818298,
      "learning_rate": 7.555600024427028e-06,
      "loss": 0.5163,
      "step": 137
    },
    {
      "epoch": 1.9230769230769231,
      "grad_norm": 0.559259831905365,
      "learning_rate": 7.513939300886816e-06,
      "loss": 0.5074,
      "step": 138
    },
    {
      "epoch": 1.937062937062937,
      "grad_norm": 0.5635555386543274,
      "learning_rate": 7.472043676582685e-06,
      "loss": 0.5184,
      "step": 139
    },
    {
      "epoch": 1.951048951048951,
      "grad_norm": 0.6236100196838379,
      "learning_rate": 7.42991706621303e-06,
      "loss": 0.5162,
      "step": 140
    },
    {
      "epoch": 1.965034965034965,
      "grad_norm": 0.60297691822052,
      "learning_rate": 7.387563406059433e-06,
      "loss": 0.5123,
      "step": 141
    },
    {
      "epoch": 1.9790209790209792,
      "grad_norm": 0.5734803080558777,
      "learning_rate": 7.344986653618844e-06,
      "loss": 0.5281,
      "step": 142
    },
    {
      "epoch": 1.993006993006993,
      "grad_norm": 0.561177134513855,
      "learning_rate": 7.302190787233808e-06,
      "loss": 0.5256,
      "step": 143
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6918484568595886,
      "learning_rate": 7.259179805720726e-06,
      "loss": 0.4956,
      "step": 144
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.5634886622428894,
      "eval_runtime": 34.1505,
      "eval_samples_per_second": 18.799,
      "eval_steps_per_second": 2.372,
      "step": 144
    },
    {
      "epoch": 2.013986013986014,
      "grad_norm": 0.6467083096504211,
      "learning_rate": 7.215957727996208e-06,
      "loss": 0.4757,
      "step": 145
    },
    {
      "epoch": 2.027972027972028,
      "grad_norm": 0.628153920173645,
      "learning_rate": 7.17252859270155e-06,
      "loss": 0.4701,
      "step": 146
    },
    {
      "epoch": 2.041958041958042,
      "grad_norm": 0.6287585496902466,
      "learning_rate": 7.128896457825364e-06,
      "loss": 0.4334,
      "step": 147
    },
    {
      "epoch": 2.055944055944056,
      "grad_norm": 0.5704949498176575,
      "learning_rate": 7.085065400324407e-06,
      "loss": 0.4723,
      "step": 148
    },
    {
      "epoch": 2.06993006993007,
      "grad_norm": 0.6293634176254272,
      "learning_rate": 7.041039515742626e-06,
      "loss": 0.4875,
      "step": 149
    },
    {
      "epoch": 2.0839160839160837,
      "grad_norm": 0.7220337390899658,
      "learning_rate": 6.9968229178284775e-06,
      "loss": 0.4809,
      "step": 150
    },
    {
      "epoch": 2.097902097902098,
      "grad_norm": 0.5713090896606445,
      "learning_rate": 6.952419738150546e-06,
      "loss": 0.4998,
      "step": 151
    },
    {
      "epoch": 2.111888111888112,
      "grad_norm": 0.6713567972183228,
      "learning_rate": 6.9078341257114765e-06,
      "loss": 0.4837,
      "step": 152
    },
    {
      "epoch": 2.125874125874126,
      "grad_norm": 0.6542858481407166,
      "learning_rate": 6.863070246560319e-06,
      "loss": 0.4798,
      "step": 153
    },
    {
      "epoch": 2.13986013986014,
      "grad_norm": 0.5555688738822937,
      "learning_rate": 6.818132283403236e-06,
      "loss": 0.4593,
      "step": 154
    },
    {
      "epoch": 2.1538461538461537,
      "grad_norm": 0.5947204232215881,
      "learning_rate": 6.773024435212678e-06,
      "loss": 0.4831,
      "step": 155
    },
    {
      "epoch": 2.167832167832168,
      "grad_norm": 0.6230157613754272,
      "learning_rate": 6.7277509168350445e-06,
      "loss": 0.4634,
      "step": 156
    },
    {
      "epoch": 2.1818181818181817,
      "grad_norm": 0.5586286783218384,
      "learning_rate": 6.6823159585968355e-06,
      "loss": 0.4803,
      "step": 157
    },
    {
      "epoch": 2.195804195804196,
      "grad_norm": 0.5558333396911621,
      "learning_rate": 6.636723805909384e-06,
      "loss": 0.4734,
      "step": 158
    },
    {
      "epoch": 2.20979020979021,
      "grad_norm": 0.5960513949394226,
      "learning_rate": 6.590978718872166e-06,
      "loss": 0.4746,
      "step": 159
    },
    {
      "epoch": 2.2237762237762237,
      "grad_norm": 0.5779184103012085,
      "learning_rate": 6.545084971874738e-06,
      "loss": 0.4499,
      "step": 160
    },
    {
      "epoch": 2.237762237762238,
      "grad_norm": 0.5827864408493042,
      "learning_rate": 6.499046853197338e-06,
      "loss": 0.4826,
      "step": 161
    },
    {
      "epoch": 2.2517482517482517,
      "grad_norm": 0.6769295930862427,
      "learning_rate": 6.452868664610197e-06,
      "loss": 0.4797,
      "step": 162
    },
    {
      "epoch": 2.2517482517482517,
      "eval_loss": 0.5764052271842957,
      "eval_runtime": 34.051,
      "eval_samples_per_second": 18.854,
      "eval_steps_per_second": 2.379,
      "step": 162
    },
    {
      "epoch": 2.265734265734266,
      "grad_norm": 0.5850751996040344,
      "learning_rate": 6.406554720971583e-06,
      "loss": 0.4829,
      "step": 163
    },
    {
      "epoch": 2.2797202797202796,
      "grad_norm": 0.5925103425979614,
      "learning_rate": 6.3601093498246215e-06,
      "loss": 0.4936,
      "step": 164
    },
    {
      "epoch": 2.2937062937062938,
      "grad_norm": 0.5747277140617371,
      "learning_rate": 6.313536890992935e-06,
      "loss": 0.4686,
      "step": 165
    },
    {
      "epoch": 2.3076923076923075,
      "grad_norm": 0.6141413450241089,
      "learning_rate": 6.266841696175132e-06,
      "loss": 0.4659,
      "step": 166
    },
    {
      "epoch": 2.3216783216783217,
      "grad_norm": 0.5214844942092896,
      "learning_rate": 6.220028128538188e-06,
      "loss": 0.4714,
      "step": 167
    },
    {
      "epoch": 2.335664335664336,
      "grad_norm": 0.6260507106781006,
      "learning_rate": 6.173100562309751e-06,
      "loss": 0.4731,
      "step": 168
    },
    {
      "epoch": 2.3496503496503496,
      "grad_norm": 0.6246528625488281,
      "learning_rate": 6.1260633823694224e-06,
      "loss": 0.4575,
      "step": 169
    },
    {
      "epoch": 2.3636363636363638,
      "grad_norm": 0.5592030882835388,
      "learning_rate": 6.078920983839032e-06,
      "loss": 0.4293,
      "step": 170
    },
    {
      "epoch": 2.3776223776223775,
      "grad_norm": 0.5436908602714539,
      "learning_rate": 6.031677771671962e-06,
      "loss": 0.4821,
      "step": 171
    },
    {
      "epoch": 2.3916083916083917,
      "grad_norm": 0.5873638987541199,
      "learning_rate": 5.984338160241552e-06,
      "loss": 0.4755,
      "step": 172
    },
    {
      "epoch": 2.4055944055944054,
      "grad_norm": 0.6056978106498718,
      "learning_rate": 5.936906572928625e-06,
      "loss": 0.479,
      "step": 173
    },
    {
      "epoch": 2.4195804195804196,
      "grad_norm": 0.5452414751052856,
      "learning_rate": 5.889387441708162e-06,
      "loss": 0.4545,
      "step": 174
    },
    {
      "epoch": 2.4335664335664333,
      "grad_norm": 0.5708940625190735,
      "learning_rate": 5.841785206735192e-06,
      "loss": 0.4706,
      "step": 175
    },
    {
      "epoch": 2.4475524475524475,
      "grad_norm": 0.5819888114929199,
      "learning_rate": 5.794104315929904e-06,
      "loss": 0.4608,
      "step": 176
    },
    {
      "epoch": 2.4615384615384617,
      "grad_norm": 0.5468575358390808,
      "learning_rate": 5.746349224562021e-06,
      "loss": 0.4696,
      "step": 177
    },
    {
      "epoch": 2.4755244755244754,
      "grad_norm": 0.6171605587005615,
      "learning_rate": 5.698524394834531e-06,
      "loss": 0.4809,
      "step": 178
    },
    {
      "epoch": 2.4895104895104896,
      "grad_norm": 0.6046556234359741,
      "learning_rate": 5.650634295466717e-06,
      "loss": 0.4727,
      "step": 179
    },
    {
      "epoch": 2.5034965034965033,
      "grad_norm": 0.5517058968544006,
      "learning_rate": 5.6026834012766155e-06,
      "loss": 0.4728,
      "step": 180
    },
    {
      "epoch": 2.5034965034965033,
      "eval_loss": 0.5757314562797546,
      "eval_runtime": 34.5495,
      "eval_samples_per_second": 18.582,
      "eval_steps_per_second": 2.344,
      "step": 180
    },
    {
      "epoch": 2.5174825174825175,
      "grad_norm": 0.5916588306427002,
      "learning_rate": 5.554676192762891e-06,
      "loss": 0.4738,
      "step": 181
    },
    {
      "epoch": 2.5314685314685317,
      "grad_norm": 0.596782386302948,
      "learning_rate": 5.506617155686177e-06,
      "loss": 0.4725,
      "step": 182
    },
    {
      "epoch": 2.5454545454545454,
      "grad_norm": 0.5784814357757568,
      "learning_rate": 5.458510780649932e-06,
      "loss": 0.4743,
      "step": 183
    },
    {
      "epoch": 2.5594405594405596,
      "grad_norm": 0.5162186622619629,
      "learning_rate": 5.4103615626808426e-06,
      "loss": 0.4501,
      "step": 184
    },
    {
      "epoch": 2.5734265734265733,
      "grad_norm": 0.5629183053970337,
      "learning_rate": 5.362174000808813e-06,
      "loss": 0.4631,
      "step": 185
    },
    {
      "epoch": 2.5874125874125875,
      "grad_norm": 0.5455092191696167,
      "learning_rate": 5.3139525976465675e-06,
      "loss": 0.4839,
      "step": 186
    },
    {
      "epoch": 2.6013986013986012,
      "grad_norm": 0.6234388947486877,
      "learning_rate": 5.265701858968944e-06,
      "loss": 0.4729,
      "step": 187
    },
    {
      "epoch": 2.6153846153846154,
      "grad_norm": 0.5270193815231323,
      "learning_rate": 5.217426293291869e-06,
      "loss": 0.4767,
      "step": 188
    },
    {
      "epoch": 2.629370629370629,
      "grad_norm": 0.5291939973831177,
      "learning_rate": 5.169130411451083e-06,
      "loss": 0.4659,
      "step": 189
    },
    {
      "epoch": 2.6433566433566433,
      "grad_norm": 0.5210967063903809,
      "learning_rate": 5.120818726180662e-06,
      "loss": 0.4532,
      "step": 190
    },
    {
      "epoch": 2.6573426573426575,
      "grad_norm": 0.5697853565216064,
      "learning_rate": 5.072495751691338e-06,
      "loss": 0.4669,
      "step": 191
    },
    {
      "epoch": 2.6713286713286712,
      "grad_norm": 0.4967118203639984,
      "learning_rate": 5.024166003248703e-06,
      "loss": 0.4777,
      "step": 192
    },
    {
      "epoch": 2.6853146853146854,
      "grad_norm": 0.5514243245124817,
      "learning_rate": 4.9758339967512995e-06,
      "loss": 0.4689,
      "step": 193
    },
    {
      "epoch": 2.699300699300699,
      "grad_norm": 0.5476483702659607,
      "learning_rate": 4.927504248308663e-06,
      "loss": 0.4898,
      "step": 194
    },
    {
      "epoch": 2.7132867132867133,
      "grad_norm": 0.5073778033256531,
      "learning_rate": 4.87918127381934e-06,
      "loss": 0.4462,
      "step": 195
    },
    {
      "epoch": 2.7272727272727275,
      "grad_norm": 0.5061259865760803,
      "learning_rate": 4.830869588548918e-06,
      "loss": 0.4811,
      "step": 196
    },
    {
      "epoch": 2.7412587412587412,
      "grad_norm": 0.532632052898407,
      "learning_rate": 4.782573706708133e-06,
      "loss": 0.4514,
      "step": 197
    },
    {
      "epoch": 2.755244755244755,
      "grad_norm": 0.5079967379570007,
      "learning_rate": 4.734298141031057e-06,
      "loss": 0.4706,
      "step": 198
    },
    {
      "epoch": 2.755244755244755,
      "eval_loss": 0.5748186111450195,
      "eval_runtime": 34.6547,
      "eval_samples_per_second": 18.526,
      "eval_steps_per_second": 2.337,
      "step": 198
    },
    {
      "epoch": 2.769230769230769,
      "grad_norm": 0.5450592637062073,
      "learning_rate": 4.686047402353433e-06,
      "loss": 0.4717,
      "step": 199
    },
    {
      "epoch": 2.7832167832167833,
      "grad_norm": 0.4929758906364441,
      "learning_rate": 4.637825999191189e-06,
      "loss": 0.469,
      "step": 200
    },
    {
      "epoch": 2.797202797202797,
      "grad_norm": 0.514842689037323,
      "learning_rate": 4.589638437319157e-06,
      "loss": 0.4848,
      "step": 201
    },
    {
      "epoch": 2.8111888111888113,
      "grad_norm": 0.5259736776351929,
      "learning_rate": 4.541489219350069e-06,
      "loss": 0.4676,
      "step": 202
    },
    {
      "epoch": 2.825174825174825,
      "grad_norm": 0.571843683719635,
      "learning_rate": 4.493382844313826e-06,
      "loss": 0.482,
      "step": 203
    },
    {
      "epoch": 2.839160839160839,
      "grad_norm": 0.49216270446777344,
      "learning_rate": 4.445323807237112e-06,
      "loss": 0.479,
      "step": 204
    },
    {
      "epoch": 2.8531468531468533,
      "grad_norm": 0.5383098721504211,
      "learning_rate": 4.397316598723385e-06,
      "loss": 0.4517,
      "step": 205
    },
    {
      "epoch": 2.867132867132867,
      "grad_norm": 0.5011985898017883,
      "learning_rate": 4.349365704533285e-06,
      "loss": 0.4678,
      "step": 206
    },
    {
      "epoch": 2.8811188811188813,
      "grad_norm": 0.5291906595230103,
      "learning_rate": 4.301475605165471e-06,
      "loss": 0.4717,
      "step": 207
    },
    {
      "epoch": 2.895104895104895,
      "grad_norm": 0.5500873923301697,
      "learning_rate": 4.25365077543798e-06,
      "loss": 0.4572,
      "step": 208
    },
    {
      "epoch": 2.909090909090909,
      "grad_norm": 0.5690264105796814,
      "learning_rate": 4.205895684070099e-06,
      "loss": 0.4675,
      "step": 209
    },
    {
      "epoch": 2.9230769230769234,
      "grad_norm": 0.4746716022491455,
      "learning_rate": 4.158214793264808e-06,
      "loss": 0.4579,
      "step": 210
    },
    {
      "epoch": 2.937062937062937,
      "grad_norm": 0.5113067626953125,
      "learning_rate": 4.1106125582918385e-06,
      "loss": 0.5104,
      "step": 211
    },
    {
      "epoch": 2.951048951048951,
      "grad_norm": 0.5272907018661499,
      "learning_rate": 4.063093427071376e-06,
      "loss": 0.4532,
      "step": 212
    },
    {
      "epoch": 2.965034965034965,
      "grad_norm": 0.5059399008750916,
      "learning_rate": 4.01566183975845e-06,
      "loss": 0.4555,
      "step": 213
    },
    {
      "epoch": 2.979020979020979,
      "grad_norm": 0.4909096658229828,
      "learning_rate": 3.968322228328041e-06,
      "loss": 0.4785,
      "step": 214
    },
    {
      "epoch": 2.993006993006993,
      "grad_norm": 0.5192479491233826,
      "learning_rate": 3.92107901616097e-06,
      "loss": 0.4477,
      "step": 215
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7363195419311523,
      "learning_rate": 3.873936617630578e-06,
      "loss": 0.4927,
      "step": 216
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.5740084052085876,
      "eval_runtime": 34.8551,
      "eval_samples_per_second": 18.419,
      "eval_steps_per_second": 2.324,
      "step": 216
    },
    {
      "epoch": 3.013986013986014,
      "grad_norm": 0.5987377762794495,
      "learning_rate": 3.82689943769025e-06,
      "loss": 0.4246,
      "step": 217
    },
    {
      "epoch": 3.027972027972028,
      "grad_norm": 0.589948832988739,
      "learning_rate": 3.779971871461813e-06,
      "loss": 0.4367,
      "step": 218
    },
    {
      "epoch": 3.041958041958042,
      "grad_norm": 0.5003005862236023,
      "learning_rate": 3.7331583038248688e-06,
      "loss": 0.4346,
      "step": 219
    },
    {
      "epoch": 3.055944055944056,
      "grad_norm": 0.528349757194519,
      "learning_rate": 3.6864631090070656e-06,
      "loss": 0.3993,
      "step": 220
    },
    {
      "epoch": 3.06993006993007,
      "grad_norm": 0.5285301208496094,
      "learning_rate": 3.639890650175379e-06,
      "loss": 0.419,
      "step": 221
    },
    {
      "epoch": 3.0839160839160837,
      "grad_norm": 0.5721102356910706,
      "learning_rate": 3.593445279028418e-06,
      "loss": 0.4328,
      "step": 222
    },
    {
      "epoch": 3.097902097902098,
      "grad_norm": 0.5271673202514648,
      "learning_rate": 3.5471313353898056e-06,
      "loss": 0.4252,
      "step": 223
    },
    {
      "epoch": 3.111888111888112,
      "grad_norm": 0.5354319214820862,
      "learning_rate": 3.5009531468026646e-06,
      "loss": 0.4367,
      "step": 224
    },
    {
      "epoch": 3.125874125874126,
      "grad_norm": 0.5849824547767639,
      "learning_rate": 3.4549150281252635e-06,
      "loss": 0.4263,
      "step": 225
    },
    {
      "epoch": 3.13986013986014,
      "grad_norm": 0.6300305128097534,
      "learning_rate": 3.409021281127835e-06,
      "loss": 0.4331,
      "step": 226
    },
    {
      "epoch": 3.1538461538461537,
      "grad_norm": 0.5985769033432007,
      "learning_rate": 3.3632761940906167e-06,
      "loss": 0.4316,
      "step": 227
    },
    {
      "epoch": 3.167832167832168,
      "grad_norm": 0.5028027296066284,
      "learning_rate": 3.3176840414031653e-06,
      "loss": 0.4243,
      "step": 228
    },
    {
      "epoch": 3.1818181818181817,
      "grad_norm": 0.5299258232116699,
      "learning_rate": 3.2722490831649568e-06,
      "loss": 0.4166,
      "step": 229
    },
    {
      "epoch": 3.195804195804196,
      "grad_norm": 0.5425248742103577,
      "learning_rate": 3.226975564787322e-06,
      "loss": 0.4389,
      "step": 230
    },
    {
      "epoch": 3.20979020979021,
      "grad_norm": 0.5929123759269714,
      "learning_rate": 3.181867716596765e-06,
      "loss": 0.4288,
      "step": 231
    },
    {
      "epoch": 3.2237762237762237,
      "grad_norm": 0.5462735891342163,
      "learning_rate": 3.1369297534396823e-06,
      "loss": 0.4434,
      "step": 232
    },
    {
      "epoch": 3.237762237762238,
      "grad_norm": 0.4862322211265564,
      "learning_rate": 3.092165874288525e-06,
      "loss": 0.4133,
      "step": 233
    },
    {
      "epoch": 3.2517482517482517,
      "grad_norm": 0.48885804414749146,
      "learning_rate": 3.0475802618494564e-06,
      "loss": 0.4426,
      "step": 234
    },
    {
      "epoch": 3.2517482517482517,
      "eval_loss": 0.5924859046936035,
      "eval_runtime": 34.7085,
      "eval_samples_per_second": 18.497,
      "eval_steps_per_second": 2.334,
      "step": 234
    },
    {
      "epoch": 3.265734265734266,
      "grad_norm": 0.4652189314365387,
      "learning_rate": 3.0031770821715233e-06,
      "loss": 0.4189,
      "step": 235
    },
    {
      "epoch": 3.2797202797202796,
      "grad_norm": 0.5389134883880615,
      "learning_rate": 2.9589604842573762e-06,
      "loss": 0.4226,
      "step": 236
    },
    {
      "epoch": 3.2937062937062938,
      "grad_norm": 0.507276177406311,
      "learning_rate": 2.914934599675594e-06,
      "loss": 0.4084,
      "step": 237
    },
    {
      "epoch": 3.3076923076923075,
      "grad_norm": 0.4876704216003418,
      "learning_rate": 2.871103542174637e-06,
      "loss": 0.4256,
      "step": 238
    },
    {
      "epoch": 3.3216783216783217,
      "grad_norm": 0.48441073298454285,
      "learning_rate": 2.827471407298451e-06,
      "loss": 0.4297,
      "step": 239
    },
    {
      "epoch": 3.335664335664336,
      "grad_norm": 0.4634881317615509,
      "learning_rate": 2.7840422720037943e-06,
      "loss": 0.4227,
      "step": 240
    },
    {
      "epoch": 3.3496503496503496,
      "grad_norm": 0.49520549178123474,
      "learning_rate": 2.7408201942792755e-06,
      "loss": 0.414,
      "step": 241
    },
    {
      "epoch": 3.3636363636363638,
      "grad_norm": 0.4892767369747162,
      "learning_rate": 2.697809212766195e-06,
      "loss": 0.4326,
      "step": 242
    },
    {
      "epoch": 3.3776223776223775,
      "grad_norm": 0.4968920052051544,
      "learning_rate": 2.655013346381158e-06,
      "loss": 0.4327,
      "step": 243
    },
    {
      "epoch": 3.3916083916083917,
      "grad_norm": 0.4823973476886749,
      "learning_rate": 2.612436593940568e-06,
      "loss": 0.4329,
      "step": 244
    },
    {
      "epoch": 3.4055944055944054,
      "grad_norm": 0.4838135540485382,
      "learning_rate": 2.57008293378697e-06,
      "loss": 0.4206,
      "step": 245
    },
    {
      "epoch": 3.4195804195804196,
      "grad_norm": 0.47422581911087036,
      "learning_rate": 2.5279563234173177e-06,
      "loss": 0.4336,
      "step": 246
    },
    {
      "epoch": 3.4335664335664333,
      "grad_norm": 0.4846055209636688,
      "learning_rate": 2.4860606991131857e-06,
      "loss": 0.4184,
      "step": 247
    },
    {
      "epoch": 3.4475524475524475,
      "grad_norm": 0.5305242538452148,
      "learning_rate": 2.444399975572974e-06,
      "loss": 0.4394,
      "step": 248
    },
    {
      "epoch": 3.4615384615384617,
      "grad_norm": 0.487332820892334,
      "learning_rate": 2.402978045546114e-06,
      "loss": 0.4033,
      "step": 249
    },
    {
      "epoch": 3.4755244755244754,
      "grad_norm": 0.4706343114376068,
      "learning_rate": 2.3617987794693358e-06,
      "loss": 0.4408,
      "step": 250
    },
    {
      "epoch": 3.4895104895104896,
      "grad_norm": 0.503103494644165,
      "learning_rate": 2.320866025105016e-06,
      "loss": 0.4166,
      "step": 251
    },
    {
      "epoch": 3.5034965034965033,
      "grad_norm": 0.5077600479125977,
      "learning_rate": 2.2801836071816476e-06,
      "loss": 0.4423,
      "step": 252
    },
    {
      "epoch": 3.5034965034965033,
      "eval_loss": 0.5952551364898682,
      "eval_runtime": 33.5546,
      "eval_samples_per_second": 19.133,
      "eval_steps_per_second": 2.414,
      "step": 252
    },
    {
      "epoch": 3.5174825174825175,
      "grad_norm": 0.48870253562927246,
      "learning_rate": 2.2397553270364546e-06,
      "loss": 0.4241,
      "step": 253
    },
    {
      "epoch": 3.5314685314685317,
      "grad_norm": 0.4966093897819519,
      "learning_rate": 2.1995849622602017e-06,
      "loss": 0.4396,
      "step": 254
    },
    {
      "epoch": 3.5454545454545454,
      "grad_norm": 0.4564977288246155,
      "learning_rate": 2.159676266344222e-06,
      "loss": 0.4223,
      "step": 255
    },
    {
      "epoch": 3.5594405594405596,
      "grad_norm": 0.46915507316589355,
      "learning_rate": 2.120032968329687e-06,
      "loss": 0.4283,
      "step": 256
    },
    {
      "epoch": 3.5734265734265733,
      "grad_norm": 0.49805694818496704,
      "learning_rate": 2.0806587724591725e-06,
      "loss": 0.4382,
      "step": 257
    },
    {
      "epoch": 3.5874125874125875,
      "grad_norm": 0.48657479882240295,
      "learning_rate": 2.0415573578305343e-06,
      "loss": 0.4378,
      "step": 258
    },
    {
      "epoch": 3.6013986013986012,
      "grad_norm": 0.46977299451828003,
      "learning_rate": 2.0027323780531312e-06,
      "loss": 0.4224,
      "step": 259
    },
    {
      "epoch": 3.6153846153846154,
      "grad_norm": 0.49343907833099365,
      "learning_rate": 1.9641874609064443e-06,
      "loss": 0.4088,
      "step": 260
    },
    {
      "epoch": 3.629370629370629,
      "grad_norm": 0.4801478385925293,
      "learning_rate": 1.9259262080010938e-06,
      "loss": 0.419,
      "step": 261
    },
    {
      "epoch": 3.6433566433566433,
      "grad_norm": 0.4632829427719116,
      "learning_rate": 1.887952194442309e-06,
      "loss": 0.4185,
      "step": 262
    },
    {
      "epoch": 3.6573426573426575,
      "grad_norm": 0.4722610414028168,
      "learning_rate": 1.8502689684958664e-06,
      "loss": 0.4223,
      "step": 263
    },
    {
      "epoch": 3.6713286713286712,
      "grad_norm": 0.46521317958831787,
      "learning_rate": 1.8128800512565514e-06,
      "loss": 0.4311,
      "step": 264
    },
    {
      "epoch": 3.6853146853146854,
      "grad_norm": 0.49360647797584534,
      "learning_rate": 1.7757889363191484e-06,
      "loss": 0.4336,
      "step": 265
    },
    {
      "epoch": 3.699300699300699,
      "grad_norm": 0.46490150690078735,
      "learning_rate": 1.738999089451991e-06,
      "loss": 0.41,
      "step": 266
    },
    {
      "epoch": 3.7132867132867133,
      "grad_norm": 0.47419989109039307,
      "learning_rate": 1.7025139482731385e-06,
      "loss": 0.4489,
      "step": 267
    },
    {
      "epoch": 3.7272727272727275,
      "grad_norm": 0.4471936821937561,
      "learning_rate": 1.6663369219291558e-06,
      "loss": 0.4075,
      "step": 268
    },
    {
      "epoch": 3.7412587412587412,
      "grad_norm": 0.4871998727321625,
      "learning_rate": 1.6304713907765713e-06,
      "loss": 0.4138,
      "step": 269
    },
    {
      "epoch": 3.755244755244755,
      "grad_norm": 0.4558921754360199,
      "learning_rate": 1.5949207060660138e-06,
      "loss": 0.4209,
      "step": 270
    },
    {
      "epoch": 3.755244755244755,
      "eval_loss": 0.5941651463508606,
      "eval_runtime": 34.8033,
      "eval_samples_per_second": 18.447,
      "eval_steps_per_second": 2.327,
      "step": 270
    },
    {
      "epoch": 3.769230769230769,
      "grad_norm": 0.43444135785102844,
      "learning_rate": 1.55968818962908e-06,
      "loss": 0.4186,
      "step": 271
    },
    {
      "epoch": 3.7832167832167833,
      "grad_norm": 0.47602659463882446,
      "learning_rate": 1.5247771335679372e-06,
      "loss": 0.4138,
      "step": 272
    },
    {
      "epoch": 3.797202797202797,
      "grad_norm": 0.4794568121433258,
      "learning_rate": 1.4901907999477167e-06,
      "loss": 0.4512,
      "step": 273
    },
    {
      "epoch": 3.8111888111888113,
      "grad_norm": 0.47370994091033936,
      "learning_rate": 1.4559324204917102e-06,
      "loss": 0.4446,
      "step": 274
    },
    {
      "epoch": 3.825174825174825,
      "grad_norm": 0.4493069052696228,
      "learning_rate": 1.4220051962793952e-06,
      "loss": 0.4316,
      "step": 275
    },
    {
      "epoch": 3.839160839160839,
      "grad_norm": 0.4439810812473297,
      "learning_rate": 1.3884122974473307e-06,
      "loss": 0.4276,
      "step": 276
    },
    {
      "epoch": 3.8531468531468533,
      "grad_norm": 0.44139519333839417,
      "learning_rate": 1.3551568628929434e-06,
      "loss": 0.427,
      "step": 277
    },
    {
      "epoch": 3.867132867132867,
      "grad_norm": 0.45054903626441956,
      "learning_rate": 1.3222419999812248e-06,
      "loss": 0.4356,
      "step": 278
    },
    {
      "epoch": 3.8811188811188813,
      "grad_norm": 0.44140151143074036,
      "learning_rate": 1.2896707842543898e-06,
      "loss": 0.4287,
      "step": 279
    },
    {
      "epoch": 3.895104895104895,
      "grad_norm": 0.4277818202972412,
      "learning_rate": 1.257446259144494e-06,
      "loss": 0.4298,
      "step": 280
    },
    {
      "epoch": 3.909090909090909,
      "grad_norm": 0.4403057098388672,
      "learning_rate": 1.225571435689062e-06,
      "loss": 0.4185,
      "step": 281
    },
    {
      "epoch": 3.9230769230769234,
      "grad_norm": 0.4724678099155426,
      "learning_rate": 1.1940492922497337e-06,
      "loss": 0.4465,
      "step": 282
    },
    {
      "epoch": 3.937062937062937,
      "grad_norm": 0.47128820419311523,
      "learning_rate": 1.1628827742339688e-06,
      "loss": 0.4126,
      "step": 283
    },
    {
      "epoch": 3.951048951048951,
      "grad_norm": 0.4331970512866974,
      "learning_rate": 1.1320747938198356e-06,
      "loss": 0.4105,
      "step": 284
    },
    {
      "epoch": 3.965034965034965,
      "grad_norm": 0.4537077844142914,
      "learning_rate": 1.1016282296838887e-06,
      "loss": 0.4257,
      "step": 285
    },
    {
      "epoch": 3.979020979020979,
      "grad_norm": 0.46981024742126465,
      "learning_rate": 1.0715459267321998e-06,
      "loss": 0.4336,
      "step": 286
    },
    {
      "epoch": 3.993006993006993,
      "grad_norm": 0.4497096538543701,
      "learning_rate": 1.0418306958345214e-06,
      "loss": 0.4326,
      "step": 287
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.6176419258117676,
      "learning_rate": 1.0124853135616475e-06,
      "loss": 0.4261,
      "step": 288
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.594137966632843,
      "eval_runtime": 35.3287,
      "eval_samples_per_second": 18.172,
      "eval_steps_per_second": 2.293,
      "step": 288
    },
    {
      "epoch": 4.013986013986014,
      "grad_norm": 0.48881927132606506,
      "learning_rate": 9.835125219259694e-07,
      "loss": 0.4126,
      "step": 289
    },
    {
      "epoch": 4.027972027972028,
      "grad_norm": 0.47744905948638916,
      "learning_rate": 9.549150281252633e-07,
      "loss": 0.3887,
      "step": 290
    },
    {
      "epoch": 4.041958041958042,
      "grad_norm": 0.4749980568885803,
      "learning_rate": 9.266955042897357e-07,
      "loss": 0.4085,
      "step": 291
    },
    {
      "epoch": 4.055944055944056,
      "grad_norm": 0.4653206169605255,
      "learning_rate": 8.988565872323362e-07,
      "loss": 0.3949,
      "step": 292
    },
    {
      "epoch": 4.06993006993007,
      "grad_norm": 0.44160446524620056,
      "learning_rate": 8.714008782023797e-07,
      "loss": 0.4049,
      "step": 293
    },
    {
      "epoch": 4.083916083916084,
      "grad_norm": 0.43797171115875244,
      "learning_rate": 8.443309426424862e-07,
      "loss": 0.4038,
      "step": 294
    },
    {
      "epoch": 4.0979020979020975,
      "grad_norm": 0.4569723904132843,
      "learning_rate": 8.176493099488664e-07,
      "loss": 0.3956,
      "step": 295
    },
    {
      "epoch": 4.111888111888112,
      "grad_norm": 0.47445249557495117,
      "learning_rate": 7.913584732349788e-07,
      "loss": 0.4107,
      "step": 296
    },
    {
      "epoch": 4.125874125874126,
      "grad_norm": 0.46384716033935547,
      "learning_rate": 7.654608890985709e-07,
      "loss": 0.3895,
      "step": 297
    },
    {
      "epoch": 4.13986013986014,
      "grad_norm": 0.47651711106300354,
      "learning_rate": 7.399589773921412e-07,
      "loss": 0.3859,
      "step": 298
    },
    {
      "epoch": 4.153846153846154,
      "grad_norm": 0.4623275697231293,
      "learning_rate": 7.148551209968279e-07,
      "loss": 0.394,
      "step": 299
    },
    {
      "epoch": 4.1678321678321675,
      "grad_norm": 0.4649985432624817,
      "learning_rate": 6.901516655997536e-07,
      "loss": 0.4108,
      "step": 300
    },
    {
      "epoch": 4.181818181818182,
      "grad_norm": 0.4691464304924011,
      "learning_rate": 6.658509194748463e-07,
      "loss": 0.3626,
      "step": 301
    },
    {
      "epoch": 4.195804195804196,
      "grad_norm": 0.48455217480659485,
      "learning_rate": 6.419551532671542e-07,
      "loss": 0.4172,
      "step": 302
    },
    {
      "epoch": 4.20979020979021,
      "grad_norm": 0.482030987739563,
      "learning_rate": 6.184665997806832e-07,
      "loss": 0.4038,
      "step": 303
    },
    {
      "epoch": 4.223776223776224,
      "grad_norm": 0.4398139715194702,
      "learning_rate": 5.953874537697573e-07,
      "loss": 0.4033,
      "step": 304
    },
    {
      "epoch": 4.2377622377622375,
      "grad_norm": 0.46925652027130127,
      "learning_rate": 5.727198717339511e-07,
      "loss": 0.4091,
      "step": 305
    },
    {
      "epoch": 4.251748251748252,
      "grad_norm": 0.46952134370803833,
      "learning_rate": 5.504659717165812e-07,
      "loss": 0.4111,
      "step": 306
    },
    {
      "epoch": 4.251748251748252,
      "eval_loss": 0.6070981025695801,
      "eval_runtime": 35.5097,
      "eval_samples_per_second": 18.08,
      "eval_steps_per_second": 2.281,
      "step": 306
    },
    {
      "epoch": 4.265734265734266,
      "grad_norm": 0.45535174012184143,
      "learning_rate": 5.286278331068018e-07,
      "loss": 0.4128,
      "step": 307
    },
    {
      "epoch": 4.27972027972028,
      "grad_norm": 0.4438033998012543,
      "learning_rate": 5.072074964453055e-07,
      "loss": 0.4052,
      "step": 308
    },
    {
      "epoch": 4.293706293706293,
      "grad_norm": 0.4887377917766571,
      "learning_rate": 4.862069632336558e-07,
      "loss": 0.3894,
      "step": 309
    },
    {
      "epoch": 4.3076923076923075,
      "grad_norm": 0.4616340100765228,
      "learning_rate": 4.6562819574727304e-07,
      "loss": 0.4242,
      "step": 310
    },
    {
      "epoch": 4.321678321678322,
      "grad_norm": 0.44037091732025146,
      "learning_rate": 4.454731168520754e-07,
      "loss": 0.4052,
      "step": 311
    },
    {
      "epoch": 4.335664335664336,
      "grad_norm": 0.4455097019672394,
      "learning_rate": 4.257436098248091e-07,
      "loss": 0.3882,
      "step": 312
    },
    {
      "epoch": 4.34965034965035,
      "grad_norm": 0.47457605600357056,
      "learning_rate": 4.064415181770787e-07,
      "loss": 0.4102,
      "step": 313
    },
    {
      "epoch": 4.363636363636363,
      "grad_norm": 0.4474296271800995,
      "learning_rate": 3.875686454830885e-07,
      "loss": 0.3866,
      "step": 314
    },
    {
      "epoch": 4.3776223776223775,
      "grad_norm": 0.44111815094947815,
      "learning_rate": 3.691267552111183e-07,
      "loss": 0.4091,
      "step": 315
    },
    {
      "epoch": 4.391608391608392,
      "grad_norm": 0.46066638827323914,
      "learning_rate": 3.511175705587433e-07,
      "loss": 0.422,
      "step": 316
    },
    {
      "epoch": 4.405594405594406,
      "grad_norm": 0.4345090389251709,
      "learning_rate": 3.3354277429182626e-07,
      "loss": 0.3882,
      "step": 317
    },
    {
      "epoch": 4.41958041958042,
      "grad_norm": 0.462768018245697,
      "learning_rate": 3.164040085872755e-07,
      "loss": 0.4125,
      "step": 318
    },
    {
      "epoch": 4.433566433566433,
      "grad_norm": 0.4575034976005554,
      "learning_rate": 2.997028748796016e-07,
      "loss": 0.4138,
      "step": 319
    },
    {
      "epoch": 4.4475524475524475,
      "grad_norm": 0.43728622794151306,
      "learning_rate": 2.834409337112842e-07,
      "loss": 0.4133,
      "step": 320
    },
    {
      "epoch": 4.461538461538462,
      "grad_norm": 0.4533195495605469,
      "learning_rate": 2.676197045869511e-07,
      "loss": 0.4067,
      "step": 321
    },
    {
      "epoch": 4.475524475524476,
      "grad_norm": 0.44842609763145447,
      "learning_rate": 2.522406658313997e-07,
      "loss": 0.4042,
      "step": 322
    },
    {
      "epoch": 4.489510489510489,
      "grad_norm": 0.4315699636936188,
      "learning_rate": 2.3730525445146146e-07,
      "loss": 0.3969,
      "step": 323
    },
    {
      "epoch": 4.503496503496503,
      "grad_norm": 0.43630900979042053,
      "learning_rate": 2.2281486600173207e-07,
      "loss": 0.3907,
      "step": 324
    },
    {
      "epoch": 4.503496503496503,
      "eval_loss": 0.6088654398918152,
      "eval_runtime": 35.0812,
      "eval_samples_per_second": 18.3,
      "eval_steps_per_second": 2.309,
      "step": 324
    },
    {
      "epoch": 4.5174825174825175,
      "grad_norm": 0.43661531805992126,
      "learning_rate": 2.0877085445416889e-07,
      "loss": 0.4079,
      "step": 325
    },
    {
      "epoch": 4.531468531468532,
      "grad_norm": 0.43984201550483704,
      "learning_rate": 1.9517453207157865e-07,
      "loss": 0.4071,
      "step": 326
    },
    {
      "epoch": 4.545454545454545,
      "grad_norm": 0.43304693698883057,
      "learning_rate": 1.8202716928499842e-07,
      "loss": 0.4,
      "step": 327
    },
    {
      "epoch": 4.559440559440559,
      "grad_norm": 0.44190627336502075,
      "learning_rate": 1.6932999457498823e-07,
      "loss": 0.3936,
      "step": 328
    },
    {
      "epoch": 4.573426573426573,
      "grad_norm": 0.46403783559799194,
      "learning_rate": 1.5708419435684463e-07,
      "loss": 0.4142,
      "step": 329
    },
    {
      "epoch": 4.5874125874125875,
      "grad_norm": 0.448397159576416,
      "learning_rate": 1.4529091286973994e-07,
      "loss": 0.411,
      "step": 330
    },
    {
      "epoch": 4.601398601398602,
      "grad_norm": 0.4263162910938263,
      "learning_rate": 1.3395125206980774e-07,
      "loss": 0.3991,
      "step": 331
    },
    {
      "epoch": 4.615384615384615,
      "grad_norm": 0.4367568790912628,
      "learning_rate": 1.230662715271741e-07,
      "loss": 0.4144,
      "step": 332
    },
    {
      "epoch": 4.629370629370629,
      "grad_norm": 0.4405047297477722,
      "learning_rate": 1.1263698832695513e-07,
      "loss": 0.3935,
      "step": 333
    },
    {
      "epoch": 4.643356643356643,
      "grad_norm": 0.4359452426433563,
      "learning_rate": 1.0266437697422026e-07,
      "loss": 0.3913,
      "step": 334
    },
    {
      "epoch": 4.6573426573426575,
      "grad_norm": 0.44500768184661865,
      "learning_rate": 9.314936930293283e-08,
      "loss": 0.4102,
      "step": 335
    },
    {
      "epoch": 4.671328671328672,
      "grad_norm": 0.46006131172180176,
      "learning_rate": 8.40928543888836e-08,
      "loss": 0.4138,
      "step": 336
    },
    {
      "epoch": 4.685314685314685,
      "grad_norm": 0.44435447454452515,
      "learning_rate": 7.549567846661388e-08,
      "loss": 0.4185,
      "step": 337
    },
    {
      "epoch": 4.699300699300699,
      "grad_norm": 0.43049922585487366,
      "learning_rate": 6.735864485034493e-08,
      "loss": 0.3946,
      "step": 338
    },
    {
      "epoch": 4.713286713286713,
      "grad_norm": 0.4270278513431549,
      "learning_rate": 5.968251385891744e-08,
      "loss": 0.3969,
      "step": 339
    },
    {
      "epoch": 4.7272727272727275,
      "grad_norm": 0.4480164647102356,
      "learning_rate": 5.246800274474439e-08,
      "loss": 0.4005,
      "step": 340
    },
    {
      "epoch": 4.741258741258742,
      "grad_norm": 0.4490266740322113,
      "learning_rate": 4.571578562679757e-08,
      "loss": 0.3884,
      "step": 341
    },
    {
      "epoch": 4.755244755244755,
      "grad_norm": 0.4623181223869324,
      "learning_rate": 3.9426493427611177e-08,
      "loss": 0.4169,
      "step": 342
    },
    {
      "epoch": 4.755244755244755,
      "eval_loss": 0.6084015965461731,
      "eval_runtime": 34.879,
      "eval_samples_per_second": 18.406,
      "eval_steps_per_second": 2.322,
      "step": 342
    },
    {
      "epoch": 4.769230769230769,
      "grad_norm": 0.4283956289291382,
      "learning_rate": 3.360071381433516e-08,
      "loss": 0.3969,
      "step": 343
    },
    {
      "epoch": 4.783216783216783,
      "grad_norm": 0.4356008470058441,
      "learning_rate": 2.823899114382078e-08,
      "loss": 0.4027,
      "step": 344
    },
    {
      "epoch": 4.7972027972027975,
      "grad_norm": 0.44547533988952637,
      "learning_rate": 2.3341826411756863e-08,
      "loss": 0.3987,
      "step": 345
    },
    {
      "epoch": 4.811188811188811,
      "grad_norm": 0.4299108386039734,
      "learning_rate": 1.8909677205856682e-08,
      "loss": 0.4017,
      "step": 346
    },
    {
      "epoch": 4.825174825174825,
      "grad_norm": 0.4200840890407562,
      "learning_rate": 1.494295766310161e-08,
      "loss": 0.3885,
      "step": 347
    },
    {
      "epoch": 4.839160839160839,
      "grad_norm": 0.43688181042671204,
      "learning_rate": 1.1442038431044856e-08,
      "loss": 0.4119,
      "step": 348
    },
    {
      "epoch": 4.853146853146853,
      "grad_norm": 0.4302099943161011,
      "learning_rate": 8.407246633178601e-09,
      "loss": 0.3843,
      "step": 349
    },
    {
      "epoch": 4.867132867132867,
      "grad_norm": 0.45412999391555786,
      "learning_rate": 5.838865838366792e-09,
      "loss": 0.4009,
      "step": 350
    },
    {
      "epoch": 4.881118881118881,
      "grad_norm": 0.43274399638175964,
      "learning_rate": 3.737136034349109e-09,
      "loss": 0.3951,
      "step": 351
    },
    {
      "epoch": 4.895104895104895,
      "grad_norm": 0.4244266450405121,
      "learning_rate": 2.102253605316684e-09,
      "loss": 0.4059,
      "step": 352
    },
    {
      "epoch": 4.909090909090909,
      "grad_norm": 0.4323265552520752,
      "learning_rate": 9.343713135623323e-10,
      "loss": 0.3963,
      "step": 353
    },
    {
      "epoch": 4.923076923076923,
      "grad_norm": 0.4487632215023041,
      "learning_rate": 2.335982852064156e-10,
      "loss": 0.3937,
      "step": 354
    },
    {
      "epoch": 4.937062937062937,
      "grad_norm": 0.4363052546977997,
      "learning_rate": 0.0,
      "loss": 0.405,
      "step": 355
    }
  ],
  "logging_steps": 1,
  "max_steps": 355,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 36,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5.28345287429718e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}