{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.9946949602122017,
  "eval_steps": 500,
  "global_step": 282,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.007073386383731211,
      "grad_norm": 0.4045802652835846,
      "learning_rate": 0.0,
      "loss": 2.592,
      "step": 1
    },
    {
      "epoch": 0.014146772767462422,
      "grad_norm": 0.4087854325771332,
      "learning_rate": 0.00018927892607143717,
      "loss": 2.3663,
      "step": 2
    },
    {
      "epoch": 0.021220159151193633,
      "grad_norm": 0.391991525888443,
      "learning_rate": 0.0003,
      "loss": 2.3427,
      "step": 3
    },
    {
      "epoch": 0.028293545534924844,
      "grad_norm": 0.47497037053108215,
      "learning_rate": 0.0003,
      "loss": 2.4095,
      "step": 4
    },
    {
      "epoch": 0.03536693191865606,
      "grad_norm": 0.3936399221420288,
      "learning_rate": 0.0003,
      "loss": 1.7048,
      "step": 5
    },
    {
      "epoch": 0.042440318302387266,
      "grad_norm": 0.6155605316162109,
      "learning_rate": 0.0003,
      "loss": 1.8204,
      "step": 6
    },
    {
      "epoch": 0.04951370468611848,
      "grad_norm": 0.49080851674079895,
      "learning_rate": 0.0003,
      "loss": 1.4646,
      "step": 7
    },
    {
      "epoch": 0.05658709106984969,
      "grad_norm": 0.5759713053703308,
      "learning_rate": 0.0003,
      "loss": 1.4984,
      "step": 8
    },
    {
      "epoch": 0.0636604774535809,
      "grad_norm": 0.5349287390708923,
      "learning_rate": 0.0003,
      "loss": 1.3691,
      "step": 9
    },
    {
      "epoch": 0.07073386383731212,
      "grad_norm": 0.3948557674884796,
      "learning_rate": 0.0003,
      "loss": 1.4401,
      "step": 10
    },
    {
      "epoch": 0.07780725022104333,
      "grad_norm": 0.37507522106170654,
      "learning_rate": 0.0003,
      "loss": 1.1852,
      "step": 11
    },
    {
      "epoch": 0.08488063660477453,
      "grad_norm": 0.32405033707618713,
      "learning_rate": 0.0003,
      "loss": 1.051,
      "step": 12
    },
    {
      "epoch": 0.09195402298850575,
      "grad_norm": 0.4525175392627716,
      "learning_rate": 0.0003,
      "loss": 1.2695,
      "step": 13
    },
    {
      "epoch": 0.09902740937223696,
      "grad_norm": 0.42692625522613525,
      "learning_rate": 0.0003,
      "loss": 1.1057,
      "step": 14
    },
    {
      "epoch": 0.10610079575596817,
      "grad_norm": 0.5049455761909485,
      "learning_rate": 0.0003,
      "loss": 1.6851,
      "step": 15
    },
    {
      "epoch": 0.11317418213969938,
      "grad_norm": 0.38740119338035583,
      "learning_rate": 0.0003,
      "loss": 1.2632,
      "step": 16
    },
    {
      "epoch": 0.12024756852343059,
      "grad_norm": 0.3729807138442993,
      "learning_rate": 0.0003,
      "loss": 1.2857,
      "step": 17
    },
    {
      "epoch": 0.1273209549071618,
      "grad_norm": 0.4548921287059784,
      "learning_rate": 0.0003,
      "loss": 1.2233,
      "step": 18
    },
    {
      "epoch": 0.134394341290893,
      "grad_norm": 0.4324336051940918,
      "learning_rate": 0.0003,
      "loss": 1.1058,
      "step": 19
    },
    {
      "epoch": 0.14146772767462423,
      "grad_norm": 0.5775079727172852,
      "learning_rate": 0.0003,
      "loss": 1.0475,
      "step": 20
    },
    {
      "epoch": 0.14854111405835543,
      "grad_norm": 0.40563157200813293,
      "learning_rate": 0.0003,
      "loss": 1.1364,
      "step": 21
    },
    {
      "epoch": 0.15561450044208666,
      "grad_norm": 0.4697245657444,
      "learning_rate": 0.0003,
      "loss": 1.3599,
      "step": 22
    },
    {
      "epoch": 0.16268788682581786,
      "grad_norm": 0.42879530787467957,
      "learning_rate": 0.0003,
      "loss": 1.1086,
      "step": 23
    },
    {
      "epoch": 0.16976127320954906,
      "grad_norm": 0.42367979884147644,
      "learning_rate": 0.0003,
      "loss": 0.9705,
      "step": 24
    },
    {
      "epoch": 0.1768346595932803,
      "grad_norm": 0.3987770080566406,
      "learning_rate": 0.0003,
      "loss": 1.0087,
      "step": 25
    },
    {
      "epoch": 0.1839080459770115,
      "grad_norm": 0.3194337487220764,
      "learning_rate": 0.0003,
      "loss": 0.8143,
      "step": 26
    },
    {
      "epoch": 0.1909814323607427,
      "grad_norm": 0.3626921474933624,
      "learning_rate": 0.0003,
      "loss": 0.9763,
      "step": 27
    },
    {
      "epoch": 0.19805481874447392,
      "grad_norm": 0.38496437668800354,
      "learning_rate": 0.0003,
      "loss": 0.6315,
      "step": 28
    },
    {
      "epoch": 0.20512820512820512,
      "grad_norm": 0.41984379291534424,
      "learning_rate": 0.0003,
      "loss": 1.0303,
      "step": 29
    },
    {
      "epoch": 0.21220159151193635,
      "grad_norm": 0.4012935161590576,
      "learning_rate": 0.0003,
      "loss": 0.9862,
      "step": 30
    },
    {
      "epoch": 0.21927497789566755,
      "grad_norm": 0.40578627586364746,
      "learning_rate": 0.0003,
      "loss": 1.0094,
      "step": 31
    },
    {
      "epoch": 0.22634836427939875,
      "grad_norm": 0.41153454780578613,
      "learning_rate": 0.0003,
      "loss": 0.966,
      "step": 32
    },
    {
      "epoch": 0.23342175066312998,
      "grad_norm": 0.3835723400115967,
      "learning_rate": 0.0003,
      "loss": 0.5704,
      "step": 33
    },
    {
      "epoch": 0.24049513704686118,
      "grad_norm": 0.4588032066822052,
      "learning_rate": 0.0003,
      "loss": 0.8564,
      "step": 34
    },
    {
      "epoch": 0.2475685234305924,
      "grad_norm": 0.42644572257995605,
      "learning_rate": 0.0003,
      "loss": 0.8448,
      "step": 35
    },
    {
      "epoch": 0.2546419098143236,
      "grad_norm": 0.44491246342658997,
      "learning_rate": 0.0003,
      "loss": 1.1484,
      "step": 36
    },
    {
      "epoch": 0.26171529619805484,
      "grad_norm": 0.44271302223205566,
      "learning_rate": 0.0003,
      "loss": 0.7746,
      "step": 37
    },
    {
      "epoch": 0.268788682581786,
      "grad_norm": 0.4080619215965271,
      "learning_rate": 0.0003,
      "loss": 0.5377,
      "step": 38
    },
    {
      "epoch": 0.27586206896551724,
      "grad_norm": 0.3697488605976105,
      "learning_rate": 0.0003,
      "loss": 0.9936,
      "step": 39
    },
    {
      "epoch": 0.28293545534924847,
      "grad_norm": 0.37987953424453735,
      "learning_rate": 0.0003,
      "loss": 0.7066,
      "step": 40
    },
    {
      "epoch": 0.29000884173297964,
      "grad_norm": 0.5652127861976624,
      "learning_rate": 0.0003,
      "loss": 0.8813,
      "step": 41
    },
    {
      "epoch": 0.29708222811671087,
      "grad_norm": 0.45179855823516846,
      "learning_rate": 0.0003,
      "loss": 0.6442,
      "step": 42
    },
    {
      "epoch": 0.3041556145004421,
      "grad_norm": 0.40251022577285767,
      "learning_rate": 0.0003,
      "loss": 0.6876,
      "step": 43
    },
    {
      "epoch": 0.3112290008841733,
      "grad_norm": 0.3425946831703186,
      "learning_rate": 0.0003,
      "loss": 0.4759,
      "step": 44
    },
    {
      "epoch": 0.3183023872679045,
      "grad_norm": 0.3156929016113281,
      "learning_rate": 0.0003,
      "loss": 0.5237,
      "step": 45
    },
    {
      "epoch": 0.3253757736516357,
      "grad_norm": 0.5097647309303284,
      "learning_rate": 0.0003,
      "loss": 1.0965,
      "step": 46
    },
    {
      "epoch": 0.33244916003536695,
      "grad_norm": 0.4245418906211853,
      "learning_rate": 0.0003,
      "loss": 0.717,
      "step": 47
    },
    {
      "epoch": 0.3395225464190981,
      "grad_norm": 0.36271074414253235,
      "learning_rate": 0.0003,
      "loss": 0.925,
      "step": 48
    },
    {
      "epoch": 0.34659593280282935,
      "grad_norm": 0.3543199300765991,
      "learning_rate": 0.0003,
      "loss": 0.52,
      "step": 49
    },
    {
      "epoch": 0.3536693191865606,
      "grad_norm": 0.4760311245918274,
      "learning_rate": 0.0003,
      "loss": 0.6514,
      "step": 50
    },
    {
      "epoch": 0.36074270557029176,
      "grad_norm": 0.36290043592453003,
      "learning_rate": 0.0003,
      "loss": 0.6391,
      "step": 51
    },
    {
      "epoch": 0.367816091954023,
      "grad_norm": 0.4390805959701538,
      "learning_rate": 0.0003,
      "loss": 0.7822,
      "step": 52
    },
    {
      "epoch": 0.3748894783377542,
      "grad_norm": 0.402041494846344,
      "learning_rate": 0.0003,
      "loss": 0.5967,
      "step": 53
    },
    {
      "epoch": 0.3819628647214854,
      "grad_norm": 0.42580777406692505,
      "learning_rate": 0.0003,
      "loss": 0.7591,
      "step": 54
    },
    {
      "epoch": 0.3890362511052166,
      "grad_norm": 0.4342993199825287,
      "learning_rate": 0.0003,
      "loss": 0.9428,
      "step": 55
    },
    {
      "epoch": 0.39610963748894784,
      "grad_norm": 0.42949816584587097,
      "learning_rate": 0.0003,
      "loss": 0.6546,
      "step": 56
    },
    {
      "epoch": 0.40318302387267907,
      "grad_norm": 0.44655221700668335,
      "learning_rate": 0.0003,
      "loss": 0.6999,
      "step": 57
    },
    {
      "epoch": 0.41025641025641024,
      "grad_norm": 0.38236895203590393,
      "learning_rate": 0.0003,
      "loss": 0.5464,
      "step": 58
    },
    {
      "epoch": 0.41732979664014147,
      "grad_norm": 0.39055347442626953,
      "learning_rate": 0.0003,
      "loss": 0.8726,
      "step": 59
    },
    {
      "epoch": 0.4244031830238727,
      "grad_norm": 0.47743409872055054,
      "learning_rate": 0.0003,
      "loss": 0.6839,
      "step": 60
    },
    {
      "epoch": 0.43147656940760387,
      "grad_norm": 0.5571391582489014,
      "learning_rate": 0.0003,
      "loss": 0.6384,
      "step": 61
    },
    {
      "epoch": 0.4385499557913351,
      "grad_norm": 0.4612606465816498,
      "learning_rate": 0.0003,
      "loss": 0.8187,
      "step": 62
    },
    {
      "epoch": 0.44562334217506633,
      "grad_norm": 0.3999072313308716,
      "learning_rate": 0.0003,
      "loss": 0.6792,
      "step": 63
    },
    {
      "epoch": 0.4526967285587975,
      "grad_norm": 0.4889736771583557,
      "learning_rate": 0.0003,
      "loss": 0.7837,
      "step": 64
    },
    {
      "epoch": 0.45977011494252873,
      "grad_norm": 0.4411163628101349,
      "learning_rate": 0.0003,
      "loss": 0.7325,
      "step": 65
    },
    {
      "epoch": 0.46684350132625996,
      "grad_norm": 0.4137038588523865,
      "learning_rate": 0.0003,
      "loss": 0.5974,
      "step": 66
    },
    {
      "epoch": 0.4739168877099912,
      "grad_norm": 0.4226423501968384,
      "learning_rate": 0.0003,
      "loss": 0.6251,
      "step": 67
    },
    {
      "epoch": 0.48099027409372236,
      "grad_norm": 0.4461803734302521,
      "learning_rate": 0.0003,
      "loss": 0.5721,
      "step": 68
    },
    {
      "epoch": 0.4880636604774536,
      "grad_norm": 0.4135233461856842,
      "learning_rate": 0.0003,
      "loss": 0.708,
      "step": 69
    },
    {
      "epoch": 0.4951370468611848,
      "grad_norm": 0.40338656306266785,
      "learning_rate": 0.0003,
      "loss": 0.6943,
      "step": 70
    },
    {
      "epoch": 0.502210433244916,
      "grad_norm": 0.47266095876693726,
      "learning_rate": 0.0003,
      "loss": 0.6883,
      "step": 71
    },
    {
      "epoch": 0.5092838196286472,
      "grad_norm": 0.45008358359336853,
      "learning_rate": 0.0003,
      "loss": 0.6347,
      "step": 72
    },
    {
      "epoch": 0.5163572060123784,
      "grad_norm": 0.36589792370796204,
      "learning_rate": 0.0003,
      "loss": 0.746,
      "step": 73
    },
    {
      "epoch": 0.5234305923961097,
      "grad_norm": 0.36300450563430786,
      "learning_rate": 0.0003,
      "loss": 0.7846,
      "step": 74
    },
    {
      "epoch": 0.5305039787798409,
      "grad_norm": 0.42305129766464233,
      "learning_rate": 0.0003,
      "loss": 0.7909,
      "step": 75
    },
    {
      "epoch": 0.537577365163572,
      "grad_norm": 0.36807361245155334,
      "learning_rate": 0.0003,
      "loss": 0.578,
      "step": 76
    },
    {
      "epoch": 0.5446507515473032,
      "grad_norm": 0.3479249179363251,
      "learning_rate": 0.0003,
      "loss": 0.4358,
      "step": 77
    },
    {
      "epoch": 0.5517241379310345,
      "grad_norm": 0.4373302161693573,
      "learning_rate": 0.0003,
      "loss": 0.8263,
      "step": 78
    },
    {
      "epoch": 0.5587975243147657,
      "grad_norm": 0.5427613854408264,
      "learning_rate": 0.0003,
      "loss": 0.7728,
      "step": 79
    },
    {
      "epoch": 0.5658709106984969,
      "grad_norm": 0.4510067403316498,
      "learning_rate": 0.0003,
      "loss": 0.7188,
      "step": 80
    },
    {
      "epoch": 0.5729442970822282,
      "grad_norm": 0.3964546322822571,
      "learning_rate": 0.0003,
      "loss": 0.6707,
      "step": 81
    },
    {
      "epoch": 0.5800176834659593,
      "grad_norm": 0.40177956223487854,
      "learning_rate": 0.0003,
      "loss": 0.7056,
      "step": 82
    },
    {
      "epoch": 0.5870910698496905,
      "grad_norm": 0.4081084728240967,
      "learning_rate": 0.0003,
      "loss": 0.6588,
      "step": 83
    },
    {
      "epoch": 0.5941644562334217,
      "grad_norm": 0.3595137298107147,
      "learning_rate": 0.0003,
      "loss": 0.6469,
      "step": 84
    },
    {
      "epoch": 0.601237842617153,
      "grad_norm": 0.40407031774520874,
      "learning_rate": 0.0003,
      "loss": 0.6954,
      "step": 85
    },
    {
      "epoch": 0.6083112290008842,
      "grad_norm": 0.47531482577323914,
      "learning_rate": 0.0003,
      "loss": 0.5842,
      "step": 86
    },
    {
      "epoch": 0.6153846153846154,
      "grad_norm": 0.3669019639492035,
      "learning_rate": 0.0003,
      "loss": 0.6278,
      "step": 87
    },
    {
      "epoch": 0.6224580017683466,
      "grad_norm": 0.3638778030872345,
      "learning_rate": 0.0003,
      "loss": 0.4731,
      "step": 88
    },
    {
      "epoch": 0.6295313881520778,
      "grad_norm": 0.39883217215538025,
      "learning_rate": 0.0003,
      "loss": 0.6891,
      "step": 89
    },
    {
      "epoch": 0.636604774535809,
      "grad_norm": 0.627139687538147,
      "learning_rate": 0.0003,
      "loss": 0.58,
      "step": 90
    },
    {
      "epoch": 0.6436781609195402,
      "grad_norm": 0.5339258313179016,
      "learning_rate": 0.0003,
      "loss": 0.6198,
      "step": 91
    },
    {
      "epoch": 0.6507515473032714,
      "grad_norm": 0.4699147939682007,
      "learning_rate": 0.0003,
      "loss": 0.7175,
      "step": 92
    },
    {
      "epoch": 0.6578249336870027,
      "grad_norm": 0.3144320249557495,
      "learning_rate": 0.0003,
      "loss": 0.4438,
      "step": 93
    },
    {
      "epoch": 0.6648983200707339,
      "grad_norm": 0.47343114018440247,
      "learning_rate": 0.0003,
      "loss": 0.7511,
      "step": 94
    },
    {
      "epoch": 0.671971706454465,
      "grad_norm": 0.43690529465675354,
      "learning_rate": 0.0003,
      "loss": 0.4847,
      "step": 95
    },
    {
      "epoch": 0.6790450928381963,
      "grad_norm": 0.5092759728431702,
      "learning_rate": 0.0003,
      "loss": 0.6703,
      "step": 96
    },
    {
      "epoch": 0.6861184792219275,
      "grad_norm": 0.7045844793319702,
      "learning_rate": 0.0003,
      "loss": 0.717,
      "step": 97
    },
    {
      "epoch": 0.6931918656056587,
      "grad_norm": 0.34709087014198303,
      "learning_rate": 0.0003,
      "loss": 0.5597,
      "step": 98
    },
    {
      "epoch": 0.7002652519893899,
      "grad_norm": 0.39407986402511597,
      "learning_rate": 0.0003,
      "loss": 0.5079,
      "step": 99
    },
    {
      "epoch": 0.7073386383731212,
      "grad_norm": 0.6836314797401428,
      "learning_rate": 0.0003,
      "loss": 0.5947,
      "step": 100
    },
    {
      "epoch": 0.7144120247568524,
      "grad_norm": 0.4487530291080475,
      "learning_rate": 0.0003,
      "loss": 0.5638,
      "step": 101
    },
    {
      "epoch": 0.7214854111405835,
      "grad_norm": 0.34299322962760925,
      "learning_rate": 0.0003,
      "loss": 0.4268,
      "step": 102
    },
    {
      "epoch": 0.7285587975243147,
      "grad_norm": 0.4325425624847412,
      "learning_rate": 0.0003,
      "loss": 0.7195,
      "step": 103
    },
    {
      "epoch": 0.735632183908046,
      "grad_norm": 0.3857167959213257,
      "learning_rate": 0.0003,
      "loss": 0.5525,
      "step": 104
    },
    {
      "epoch": 0.7427055702917772,
      "grad_norm": 0.5439281463623047,
      "learning_rate": 0.0003,
      "loss": 0.8488,
      "step": 105
    },
    {
      "epoch": 0.7497789566755084,
      "grad_norm": 0.5054299831390381,
      "learning_rate": 0.0003,
      "loss": 0.5801,
      "step": 106
    },
    {
      "epoch": 0.7568523430592397,
      "grad_norm": 0.5152317881584167,
      "learning_rate": 0.0003,
      "loss": 0.6918,
      "step": 107
    },
    {
      "epoch": 0.7639257294429708,
      "grad_norm": 0.32669249176979065,
      "learning_rate": 0.0003,
      "loss": 0.5322,
      "step": 108
    },
    {
      "epoch": 0.770999115826702,
      "grad_norm": 0.4302417039871216,
      "learning_rate": 0.0003,
      "loss": 0.6439,
      "step": 109
    },
    {
      "epoch": 0.7780725022104332,
      "grad_norm": 0.4388223886489868,
      "learning_rate": 0.0003,
      "loss": 0.6196,
      "step": 110
    },
    {
      "epoch": 0.7851458885941645,
      "grad_norm": 0.42924442887306213,
      "learning_rate": 0.0003,
      "loss": 0.5175,
      "step": 111
    },
    {
      "epoch": 0.7922192749778957,
      "grad_norm": 0.4361798167228699,
      "learning_rate": 0.0003,
      "loss": 0.5342,
      "step": 112
    },
    {
      "epoch": 0.7992926613616269,
      "grad_norm": 0.4133489429950714,
      "learning_rate": 0.0003,
      "loss": 0.5639,
      "step": 113
    },
    {
      "epoch": 0.8063660477453581,
      "grad_norm": 0.34224194288253784,
      "learning_rate": 0.0003,
      "loss": 0.4695,
      "step": 114
    },
    {
      "epoch": 0.8134394341290893,
      "grad_norm": 0.4219891428947449,
      "learning_rate": 0.0003,
      "loss": 0.6307,
      "step": 115
    },
    {
      "epoch": 0.8205128205128205,
      "grad_norm": 0.44273802638053894,
      "learning_rate": 0.0003,
      "loss": 0.5475,
      "step": 116
    },
    {
      "epoch": 0.8275862068965517,
      "grad_norm": 0.42054426670074463,
      "learning_rate": 0.0003,
      "loss": 0.827,
      "step": 117
    },
    {
      "epoch": 0.8346595932802829,
      "grad_norm": 0.4792965054512024,
      "learning_rate": 0.0003,
      "loss": 0.6,
      "step": 118
    },
    {
      "epoch": 0.8417329796640142,
      "grad_norm": 0.5182773470878601,
      "learning_rate": 0.0003,
      "loss": 0.8832,
      "step": 119
    },
    {
      "epoch": 0.8488063660477454,
      "grad_norm": 0.41087284684181213,
      "learning_rate": 0.0003,
      "loss": 0.5825,
      "step": 120
    },
    {
      "epoch": 0.8558797524314765,
      "grad_norm": 0.36328765749931335,
      "learning_rate": 0.0003,
      "loss": 0.4198,
      "step": 121
    },
    {
      "epoch": 0.8629531388152077,
      "grad_norm": 0.43922775983810425,
      "learning_rate": 0.0003,
      "loss": 0.5495,
      "step": 122
    },
    {
      "epoch": 0.870026525198939,
      "grad_norm": 0.5079771876335144,
      "learning_rate": 0.0003,
      "loss": 0.6814,
      "step": 123
    },
    {
      "epoch": 0.8770999115826702,
      "grad_norm": 0.3167728781700134,
      "learning_rate": 0.0003,
      "loss": 0.5706,
      "step": 124
    },
    {
      "epoch": 0.8841732979664014,
      "grad_norm": 0.45660603046417236,
      "learning_rate": 0.0003,
      "loss": 0.7102,
      "step": 125
    },
    {
      "epoch": 0.8912466843501327,
      "grad_norm": 0.42243629693984985,
      "learning_rate": 0.0003,
      "loss": 0.5449,
      "step": 126
    },
    {
      "epoch": 0.8983200707338639,
      "grad_norm": 0.32169416546821594,
      "learning_rate": 0.0003,
      "loss": 0.3933,
      "step": 127
    },
    {
      "epoch": 0.905393457117595,
      "grad_norm": 0.32228872179985046,
      "learning_rate": 0.0003,
      "loss": 0.6444,
      "step": 128
    },
    {
      "epoch": 0.9124668435013262,
      "grad_norm": 0.47969621419906616,
      "learning_rate": 0.0003,
      "loss": 0.7959,
      "step": 129
    },
    {
      "epoch": 0.9195402298850575,
      "grad_norm": 0.35543474555015564,
      "learning_rate": 0.0003,
      "loss": 0.6535,
      "step": 130
    },
    {
      "epoch": 0.9266136162687887,
      "grad_norm": 0.4273511469364166,
      "learning_rate": 0.0003,
      "loss": 0.6058,
      "step": 131
    },
    {
      "epoch": 0.9336870026525199,
      "grad_norm": 0.3400624692440033,
      "learning_rate": 0.0003,
      "loss": 0.6066,
      "step": 132
    },
    {
      "epoch": 0.9407603890362511,
      "grad_norm": 0.3195785582065582,
      "learning_rate": 0.0003,
      "loss": 0.5878,
      "step": 133
    },
    {
      "epoch": 0.9478337754199824,
      "grad_norm": 0.34657567739486694,
      "learning_rate": 0.0003,
      "loss": 0.6462,
      "step": 134
    },
    {
      "epoch": 0.9549071618037135,
      "grad_norm": 0.4706454873085022,
      "learning_rate": 0.0003,
      "loss": 0.8299,
      "step": 135
    },
    {
      "epoch": 0.9619805481874447,
      "grad_norm": 0.41353291273117065,
      "learning_rate": 0.0003,
      "loss": 0.6372,
      "step": 136
    },
    {
      "epoch": 0.969053934571176,
      "grad_norm": 0.34282562136650085,
      "learning_rate": 0.0003,
      "loss": 0.5901,
      "step": 137
    },
    {
      "epoch": 0.9761273209549072,
      "grad_norm": 0.4154914617538452,
      "learning_rate": 0.0003,
      "loss": 0.6213,
      "step": 138
    },
    {
      "epoch": 0.9832007073386384,
      "grad_norm": 0.2933409810066223,
      "learning_rate": 0.0003,
      "loss": 0.4435,
      "step": 139
    },
    {
      "epoch": 0.9902740937223696,
      "grad_norm": 0.3763149082660675,
      "learning_rate": 0.0003,
      "loss": 0.4754,
      "step": 140
    },
    {
      "epoch": 0.9973474801061007,
      "grad_norm": 0.4369047284126282,
      "learning_rate": 0.0003,
      "loss": 0.6313,
      "step": 141
    },
    {
      "epoch": 1.004420866489832,
      "grad_norm": 0.40332600474357605,
      "learning_rate": 0.0003,
      "loss": 0.4778,
      "step": 142
    },
    {
      "epoch": 1.0114942528735633,
      "grad_norm": 0.31336432695388794,
      "learning_rate": 0.0003,
      "loss": 0.4599,
      "step": 143
    },
    {
      "epoch": 1.0185676392572944,
      "grad_norm": 0.3116231858730316,
      "learning_rate": 0.0003,
      "loss": 0.3823,
      "step": 144
    },
    {
      "epoch": 1.0256410256410255,
      "grad_norm": 0.47887638211250305,
      "learning_rate": 0.0003,
      "loss": 0.4838,
      "step": 145
    },
    {
      "epoch": 1.032714412024757,
      "grad_norm": 0.3979848325252533,
      "learning_rate": 0.0003,
      "loss": 0.3765,
      "step": 146
    },
    {
      "epoch": 1.039787798408488,
      "grad_norm": 0.3911687433719635,
      "learning_rate": 0.0003,
      "loss": 0.379,
      "step": 147
    },
    {
      "epoch": 1.0468611847922193,
      "grad_norm": 0.41035008430480957,
      "learning_rate": 0.0003,
      "loss": 0.4544,
      "step": 148
    },
    {
      "epoch": 1.0539345711759505,
      "grad_norm": 0.3448046147823334,
      "learning_rate": 0.0003,
      "loss": 0.3809,
      "step": 149
    },
    {
      "epoch": 1.0610079575596818,
      "grad_norm": 0.3258429765701294,
      "learning_rate": 0.0003,
      "loss": 0.3027,
      "step": 150
    },
    {
      "epoch": 1.068081343943413,
      "grad_norm": 0.4393693208694458,
      "learning_rate": 0.0003,
      "loss": 0.4825,
      "step": 151
    },
    {
      "epoch": 1.075154730327144,
      "grad_norm": 0.29749980568885803,
      "learning_rate": 0.0003,
      "loss": 0.2696,
      "step": 152
    },
    {
      "epoch": 1.0822281167108754,
      "grad_norm": 0.3464600741863251,
      "learning_rate": 0.0003,
      "loss": 0.2812,
      "step": 153
    },
    {
      "epoch": 1.0893015030946065,
      "grad_norm": 0.3517362177371979,
      "learning_rate": 0.0003,
      "loss": 0.4352,
      "step": 154
    },
    {
      "epoch": 1.0963748894783378,
      "grad_norm": 0.3475998640060425,
      "learning_rate": 0.0003,
      "loss": 0.3298,
      "step": 155
    },
    {
      "epoch": 1.103448275862069,
      "grad_norm": 0.41514718532562256,
      "learning_rate": 0.0003,
      "loss": 0.2779,
      "step": 156
    },
    {
      "epoch": 1.1105216622458003,
      "grad_norm": 0.38064250349998474,
      "learning_rate": 0.0003,
      "loss": 0.3552,
      "step": 157
    },
    {
      "epoch": 1.1175950486295314,
      "grad_norm": 0.48406025767326355,
      "learning_rate": 0.0003,
      "loss": 0.4691,
      "step": 158
    },
    {
      "epoch": 1.1246684350132625,
      "grad_norm": 0.3856564462184906,
      "learning_rate": 0.0003,
      "loss": 0.3817,
      "step": 159
    },
    {
      "epoch": 1.1317418213969939,
      "grad_norm": 0.40879660844802856,
      "learning_rate": 0.0003,
      "loss": 0.3555,
      "step": 160
    },
    {
      "epoch": 1.138815207780725,
      "grad_norm": 0.4073532223701477,
      "learning_rate": 0.0003,
      "loss": 0.3218,
      "step": 161
    },
    {
      "epoch": 1.1458885941644563,
      "grad_norm": 0.5433499217033386,
      "learning_rate": 0.0003,
      "loss": 0.4749,
      "step": 162
    },
    {
      "epoch": 1.1529619805481874,
      "grad_norm": 0.47047749161720276,
      "learning_rate": 0.0003,
      "loss": 0.3945,
      "step": 163
    },
    {
      "epoch": 1.1600353669319188,
      "grad_norm": 0.3000759184360504,
      "learning_rate": 0.0003,
      "loss": 0.3944,
      "step": 164
    },
    {
      "epoch": 1.16710875331565,
      "grad_norm": 0.38655105233192444,
      "learning_rate": 0.0003,
      "loss": 0.458,
      "step": 165
    },
    {
      "epoch": 1.174182139699381,
      "grad_norm": 0.3441111743450165,
      "learning_rate": 0.0003,
      "loss": 0.3388,
      "step": 166
    },
    {
      "epoch": 1.1812555260831124,
      "grad_norm": 0.5380314588546753,
      "learning_rate": 0.0003,
      "loss": 0.5506,
      "step": 167
    },
    {
      "epoch": 1.1883289124668435,
      "grad_norm": 0.2528212070465088,
      "learning_rate": 0.0003,
      "loss": 0.3144,
      "step": 168
    },
    {
      "epoch": 1.1954022988505748,
      "grad_norm": 0.3783420920372009,
      "learning_rate": 0.0003,
      "loss": 0.5596,
      "step": 169
    },
    {
      "epoch": 1.202475685234306,
      "grad_norm": 0.3812076449394226,
      "learning_rate": 0.0003,
      "loss": 0.42,
      "step": 170
    },
    {
      "epoch": 1.209549071618037,
      "grad_norm": 0.43172749876976013,
      "learning_rate": 0.0003,
      "loss": 0.4931,
      "step": 171
    },
    {
      "epoch": 1.2166224580017684,
      "grad_norm": 0.41426223516464233,
      "learning_rate": 0.0003,
      "loss": 0.2998,
      "step": 172
    },
    {
      "epoch": 1.2236958443854995,
      "grad_norm": 0.35829058289527893,
      "learning_rate": 0.0003,
      "loss": 0.4243,
      "step": 173
    },
    {
      "epoch": 1.2307692307692308,
      "grad_norm": 0.4014543294906616,
      "learning_rate": 0.0003,
      "loss": 0.3049,
      "step": 174
    },
    {
      "epoch": 1.237842617152962,
      "grad_norm": 0.3007238507270813,
      "learning_rate": 0.0003,
      "loss": 0.2005,
      "step": 175
    },
    {
      "epoch": 1.244916003536693,
      "grad_norm": 0.3595844507217407,
      "learning_rate": 0.0003,
      "loss": 0.344,
      "step": 176
    },
    {
      "epoch": 1.2519893899204244,
      "grad_norm": 0.34730204939842224,
      "learning_rate": 0.0003,
      "loss": 0.2573,
      "step": 177
    },
    {
      "epoch": 1.2590627763041558,
      "grad_norm": 0.39390042424201965,
      "learning_rate": 0.0003,
      "loss": 0.3177,
      "step": 178
    },
    {
      "epoch": 1.2661361626878869,
      "grad_norm": 0.41631364822387695,
      "learning_rate": 0.0003,
      "loss": 0.4541,
      "step": 179
    },
    {
      "epoch": 1.273209549071618,
      "grad_norm": 0.4117166996002197,
      "learning_rate": 0.0003,
      "loss": 0.4597,
      "step": 180
    },
    {
      "epoch": 1.2802829354553493,
      "grad_norm": 0.46357792615890503,
      "learning_rate": 0.0003,
      "loss": 0.3166,
      "step": 181
    },
    {
      "epoch": 1.2873563218390804,
      "grad_norm": 0.31492120027542114,
      "learning_rate": 0.0003,
      "loss": 0.2183,
      "step": 182
    },
    {
      "epoch": 1.2944297082228116,
      "grad_norm": 0.31738027930259705,
      "learning_rate": 0.0003,
      "loss": 0.3114,
      "step": 183
    },
    {
      "epoch": 1.301503094606543,
      "grad_norm": 0.37768757343292236,
      "learning_rate": 0.0003,
      "loss": 0.2977,
      "step": 184
    },
    {
      "epoch": 1.308576480990274,
      "grad_norm": 0.45224347710609436,
      "learning_rate": 0.0003,
      "loss": 0.3788,
      "step": 185
    },
    {
      "epoch": 1.3156498673740054,
      "grad_norm": 0.42707428336143494,
      "learning_rate": 0.0003,
      "loss": 0.3065,
      "step": 186
    },
    {
      "epoch": 1.3227232537577365,
      "grad_norm": 0.359110027551651,
      "learning_rate": 0.0003,
      "loss": 0.3916,
      "step": 187
    },
    {
      "epoch": 1.3297966401414678,
      "grad_norm": 0.4212663173675537,
      "learning_rate": 0.0003,
      "loss": 0.592,
      "step": 188
    },
    {
      "epoch": 1.336870026525199,
      "grad_norm": 0.4227355122566223,
      "learning_rate": 0.0003,
      "loss": 0.4278,
      "step": 189
    },
    {
      "epoch": 1.34394341290893,
      "grad_norm": 0.45795100927352905,
      "learning_rate": 0.0003,
      "loss": 0.4068,
      "step": 190
    },
    {
      "epoch": 1.3510167992926614,
      "grad_norm": 0.47883355617523193,
      "learning_rate": 0.0003,
      "loss": 0.5285,
      "step": 191
    },
    {
      "epoch": 1.3580901856763925,
      "grad_norm": 0.36151745915412903,
      "learning_rate": 0.0003,
      "loss": 0.365,
      "step": 192
    },
    {
      "epoch": 1.3651635720601238,
      "grad_norm": 0.38841187953948975,
      "learning_rate": 0.0003,
      "loss": 0.4783,
      "step": 193
    },
    {
      "epoch": 1.372236958443855,
      "grad_norm": 0.3572918772697449,
      "learning_rate": 0.0003,
      "loss": 0.4407,
      "step": 194
    },
    {
      "epoch": 1.3793103448275863,
      "grad_norm": 0.36447620391845703,
      "learning_rate": 0.0003,
      "loss": 0.3111,
      "step": 195
    },
    {
      "epoch": 1.3863837312113174,
      "grad_norm": 0.31043165922164917,
      "learning_rate": 0.0003,
      "loss": 0.3809,
      "step": 196
    },
    {
      "epoch": 1.3934571175950485,
      "grad_norm": 0.4331524670124054,
      "learning_rate": 0.0003,
      "loss": 0.3464,
      "step": 197
    },
    {
      "epoch": 1.4005305039787799,
      "grad_norm": 0.5187276005744934,
      "learning_rate": 0.0003,
      "loss": 0.4041,
      "step": 198
    },
    {
      "epoch": 1.407603890362511,
      "grad_norm": 0.3016161322593689,
      "learning_rate": 0.0003,
      "loss": 0.1315,
      "step": 199
    },
    {
      "epoch": 1.4146772767462423,
      "grad_norm": 0.3778589069843292,
      "learning_rate": 0.0003,
      "loss": 0.2563,
      "step": 200
    },
    {
      "epoch": 1.4217506631299734,
      "grad_norm": 0.4542739987373352,
      "learning_rate": 0.0003,
      "loss": 0.3676,
      "step": 201
    },
    {
      "epoch": 1.4288240495137048,
      "grad_norm": 0.37201106548309326,
      "learning_rate": 0.0003,
      "loss": 0.4023,
      "step": 202
    },
    {
      "epoch": 1.435897435897436,
      "grad_norm": 0.3098253607749939,
      "learning_rate": 0.0003,
      "loss": 0.2013,
      "step": 203
    },
    {
      "epoch": 1.442970822281167,
      "grad_norm": 0.41762611269950867,
      "learning_rate": 0.0003,
      "loss": 0.2562,
      "step": 204
    },
    {
      "epoch": 1.4500442086648984,
      "grad_norm": 0.3805309534072876,
      "learning_rate": 0.0003,
      "loss": 0.2091,
      "step": 205
    },
    {
      "epoch": 1.4571175950486295,
      "grad_norm": 0.30562469363212585,
      "learning_rate": 0.0003,
      "loss": 0.3204,
      "step": 206
    },
    {
      "epoch": 1.4641909814323608,
      "grad_norm": 0.40833625197410583,
      "learning_rate": 0.0003,
      "loss": 0.3828,
      "step": 207
    },
    {
      "epoch": 1.471264367816092,
      "grad_norm": 0.44443726539611816,
      "learning_rate": 0.0003,
      "loss": 0.3023,
      "step": 208
    },
    {
      "epoch": 1.4783377541998233,
      "grad_norm": 0.3216983675956726,
      "learning_rate": 0.0003,
      "loss": 0.148,
      "step": 209
    },
    {
      "epoch": 1.4854111405835544,
      "grad_norm": 0.49379777908325195,
      "learning_rate": 0.0003,
      "loss": 0.3597,
      "step": 210
    },
    {
      "epoch": 1.4924845269672855,
      "grad_norm": 0.41881895065307617,
      "learning_rate": 0.0003,
      "loss": 0.3724,
      "step": 211
    },
    {
      "epoch": 1.4995579133510168,
      "grad_norm": 0.37855106592178345,
      "learning_rate": 0.0003,
      "loss": 0.2177,
      "step": 212
    },
    {
      "epoch": 1.506631299734748,
      "grad_norm": 0.4481782615184784,
      "learning_rate": 0.0003,
      "loss": 0.4668,
      "step": 213
    },
    {
      "epoch": 1.513704686118479,
      "grad_norm": 0.45132726430892944,
      "learning_rate": 0.0003,
      "loss": 0.5844,
      "step": 214
    },
    {
      "epoch": 1.5207780725022104,
      "grad_norm": 0.4039032459259033,
      "learning_rate": 0.0003,
      "loss": 0.411,
      "step": 215
    },
    {
      "epoch": 1.5278514588859418,
      "grad_norm": 0.3423170745372772,
      "learning_rate": 0.0003,
      "loss": 0.3069,
      "step": 216
    },
    {
      "epoch": 1.5349248452696729,
      "grad_norm": 0.3927661180496216,
      "learning_rate": 0.0003,
      "loss": 0.5008,
      "step": 217
    },
    {
      "epoch": 1.541998231653404,
      "grad_norm": 0.43571972846984863,
      "learning_rate": 0.0003,
      "loss": 0.4626,
      "step": 218
    },
    {
      "epoch": 1.5490716180371353,
      "grad_norm": 0.370449423789978,
      "learning_rate": 0.0003,
      "loss": 0.2882,
      "step": 219
    },
    {
      "epoch": 1.5561450044208665,
      "grad_norm": 0.3305343687534332,
      "learning_rate": 0.0003,
      "loss": 0.2781,
      "step": 220
    },
    {
      "epoch": 1.5632183908045976,
      "grad_norm": 0.40083616971969604,
      "learning_rate": 0.0003,
      "loss": 0.2652,
      "step": 221
    },
    {
      "epoch": 1.570291777188329,
      "grad_norm": 0.38695937395095825,
      "learning_rate": 0.0003,
      "loss": 0.4565,
      "step": 222
    },
    {
      "epoch": 1.5773651635720602,
      "grad_norm": 0.5376386046409607,
      "learning_rate": 0.0003,
      "loss": 0.4184,
      "step": 223
    },
    {
      "epoch": 1.5844385499557914,
      "grad_norm": 0.5290461182594299,
      "learning_rate": 0.0003,
      "loss": 0.3836,
      "step": 224
    },
    {
      "epoch": 1.5915119363395225,
      "grad_norm": 0.39294925332069397,
      "learning_rate": 0.0003,
      "loss": 0.446,
      "step": 225
    },
    {
      "epoch": 1.5985853227232538,
      "grad_norm": 0.3946995139122009,
      "learning_rate": 0.0003,
      "loss": 0.3433,
      "step": 226
    },
    {
      "epoch": 1.605658709106985,
      "grad_norm": 0.3850666880607605,
      "learning_rate": 0.0003,
      "loss": 0.515,
      "step": 227
    },
    {
      "epoch": 1.612732095490716,
      "grad_norm": 0.3812507688999176,
      "learning_rate": 0.0003,
      "loss": 0.4666,
      "step": 228
    },
    {
      "epoch": 1.6198054818744474,
      "grad_norm": 0.34343773126602173,
      "learning_rate": 0.0003,
      "loss": 0.3437,
      "step": 229
    },
    {
      "epoch": 1.6268788682581787,
      "grad_norm": 0.42423132061958313,
      "learning_rate": 0.0003,
      "loss": 0.2998,
      "step": 230
    },
    {
      "epoch": 1.6339522546419099,
      "grad_norm": 0.36676838994026184,
      "learning_rate": 0.0003,
      "loss": 0.381,
      "step": 231
    },
    {
      "epoch": 1.641025641025641,
      "grad_norm": 0.45891061425209045,
      "learning_rate": 0.0003,
      "loss": 0.4426,
      "step": 232
    },
    {
      "epoch": 1.6480990274093723,
      "grad_norm": 0.4290439188480377,
      "learning_rate": 0.0003,
      "loss": 0.3475,
      "step": 233
    },
    {
      "epoch": 1.6551724137931034,
      "grad_norm": 0.3556974232196808,
      "learning_rate": 0.0003,
      "loss": 0.328,
      "step": 234
    },
    {
      "epoch": 1.6622458001768345,
      "grad_norm": 0.30578428506851196,
      "learning_rate": 0.0003,
      "loss": 0.2591,
      "step": 235
    },
    {
      "epoch": 1.6693191865605659,
      "grad_norm": 0.3522488474845886,
      "learning_rate": 0.0003,
      "loss": 0.416,
      "step": 236
    },
    {
      "epoch": 1.6763925729442972,
      "grad_norm": 0.3940620720386505,
      "learning_rate": 0.0003,
      "loss": 0.548,
      "step": 237
    },
    {
      "epoch": 1.6834659593280283,
      "grad_norm": 0.4076889455318451,
      "learning_rate": 0.0003,
      "loss": 0.5044,
      "step": 238
    },
    {
      "epoch": 1.6905393457117595,
      "grad_norm": 0.49337613582611084,
      "learning_rate": 0.0003,
      "loss": 0.4355,
      "step": 239
    },
    {
      "epoch": 1.6976127320954908,
      "grad_norm": 0.37077927589416504,
      "learning_rate": 0.0003,
      "loss": 0.4739,
      "step": 240
    },
    {
      "epoch": 1.704686118479222,
      "grad_norm": 0.4110550880432129,
      "learning_rate": 0.0003,
      "loss": 0.428,
      "step": 241
    },
    {
      "epoch": 1.711759504862953,
      "grad_norm": 0.49631252884864807,
      "learning_rate": 0.0003,
      "loss": 0.4227,
      "step": 242
    },
    {
      "epoch": 1.7188328912466844,
      "grad_norm": 0.3230995535850525,
      "learning_rate": 0.0003,
      "loss": 0.3451,
      "step": 243
    },
    {
      "epoch": 1.7259062776304157,
      "grad_norm": 0.36575183272361755,
      "learning_rate": 0.0003,
      "loss": 0.2817,
      "step": 244
    },
    {
      "epoch": 1.7329796640141468,
      "grad_norm": 0.4187852740287781,
      "learning_rate": 0.0003,
      "loss": 0.319,
      "step": 245
    },
    {
      "epoch": 1.740053050397878,
      "grad_norm": 0.3224227726459503,
      "learning_rate": 0.0003,
      "loss": 0.3406,
      "step": 246
    },
    {
      "epoch": 1.7471264367816093,
      "grad_norm": 0.379561185836792,
      "learning_rate": 0.0003,
      "loss": 0.3817,
      "step": 247
    },
    {
      "epoch": 1.7541998231653404,
      "grad_norm": 0.44703027606010437,
      "learning_rate": 0.0003,
      "loss": 0.3879,
      "step": 248
    },
    {
      "epoch": 1.7612732095490715,
      "grad_norm": 0.34053027629852295,
      "learning_rate": 0.0003,
      "loss": 0.2767,
      "step": 249
    },
    {
      "epoch": 1.7683465959328029,
      "grad_norm": 0.48519593477249146,
      "learning_rate": 0.0003,
      "loss": 0.5043,
      "step": 250
    },
    {
      "epoch": 1.7754199823165342,
      "grad_norm": 0.3466756045818329,
      "learning_rate": 0.0003,
      "loss": 0.2593,
      "step": 251
    },
    {
      "epoch": 1.782493368700265,
      "grad_norm": 0.5155137777328491,
      "learning_rate": 0.0003,
      "loss": 0.3529,
      "step": 252
    },
    {
      "epoch": 1.7895667550839964,
      "grad_norm": 0.4184979796409607,
      "learning_rate": 0.0003,
      "loss": 0.535,
      "step": 253
    },
    {
      "epoch": 1.7966401414677278,
      "grad_norm": 0.3188352882862091,
      "learning_rate": 0.0003,
      "loss": 0.2358,
      "step": 254
    },
    {
      "epoch": 1.8037135278514589,
      "grad_norm": 0.42813432216644287,
      "learning_rate": 0.0003,
      "loss": 0.374,
      "step": 255
    },
    {
      "epoch": 1.81078691423519,
      "grad_norm": 0.40070992708206177,
      "learning_rate": 0.0003,
      "loss": 0.4326,
      "step": 256
    },
    {
      "epoch": 1.8178603006189213,
      "grad_norm": 0.45408982038497925,
      "learning_rate": 0.0003,
      "loss": 0.4945,
      "step": 257
    },
    {
      "epoch": 1.8249336870026527,
      "grad_norm": 0.42870137095451355,
      "learning_rate": 0.0003,
      "loss": 0.4528,
      "step": 258
    },
    {
      "epoch": 1.8320070733863836,
      "grad_norm": 0.3272749185562134,
      "learning_rate": 0.0003,
      "loss": 0.2587,
      "step": 259
    },
    {
      "epoch": 1.839080459770115,
      "grad_norm": 0.4601209759712219,
      "learning_rate": 0.0003,
      "loss": 0.5043,
      "step": 260
    },
    {
      "epoch": 1.8461538461538463,
      "grad_norm": 0.48971623182296753,
      "learning_rate": 0.0003,
      "loss": 0.4837,
      "step": 261
    },
    {
      "epoch": 1.8532272325375774,
      "grad_norm": 0.37702813744544983,
      "learning_rate": 0.0003,
      "loss": 0.421,
      "step": 262
    },
    {
      "epoch": 1.8603006189213085,
      "grad_norm": 0.37648722529411316,
      "learning_rate": 0.0003,
      "loss": 0.2666,
      "step": 263
    },
    {
      "epoch": 1.8673740053050398,
      "grad_norm": 0.5787553787231445,
      "learning_rate": 0.0003,
      "loss": 0.2987,
      "step": 264
    },
    {
      "epoch": 1.874447391688771,
      "grad_norm": 0.4249975085258484,
      "learning_rate": 0.0003,
      "loss": 0.5577,
      "step": 265
    },
    {
      "epoch": 1.881520778072502,
      "grad_norm": 0.3846690356731415,
      "learning_rate": 0.0003,
      "loss": 0.3106,
      "step": 266
    },
    {
      "epoch": 1.8885941644562334,
      "grad_norm": 0.37595272064208984,
      "learning_rate": 0.0003,
      "loss": 0.3638,
      "step": 267
    },
    {
      "epoch": 1.8956675508399647,
      "grad_norm": 0.4609120190143585,
      "learning_rate": 0.0003,
      "loss": 0.4356,
      "step": 268
    },
    {
      "epoch": 1.9027409372236959,
      "grad_norm": 0.3405689299106598,
      "learning_rate": 0.0003,
      "loss": 0.3113,
      "step": 269
    },
    {
      "epoch": 1.909814323607427,
      "grad_norm": 0.30769774317741394,
      "learning_rate": 0.0003,
      "loss": 0.2626,
      "step": 270
    },
    {
      "epoch": 1.9168877099911583,
      "grad_norm": 0.36806437373161316,
      "learning_rate": 0.0003,
      "loss": 0.401,
      "step": 271
    },
    {
      "epoch": 1.9239610963748894,
      "grad_norm": 0.45491501688957214,
      "learning_rate": 0.0003,
      "loss": 0.4295,
      "step": 272
    },
    {
      "epoch": 1.9310344827586206,
      "grad_norm": 0.3272283971309662,
      "learning_rate": 0.0003,
      "loss": 0.3143,
      "step": 273
    },
    {
      "epoch": 1.938107869142352,
      "grad_norm": 0.32763826847076416,
      "learning_rate": 0.0003,
      "loss": 0.246,
      "step": 274
    },
    {
      "epoch": 1.9451812555260832,
      "grad_norm": 0.43065381050109863,
      "learning_rate": 0.0003,
      "loss": 0.3338,
      "step": 275
    },
    {
      "epoch": 1.9522546419098143,
      "grad_norm": 0.43713968992233276,
      "learning_rate": 0.0003,
      "loss": 0.3136,
      "step": 276
    },
    {
      "epoch": 1.9593280282935455,
      "grad_norm": 0.2735891342163086,
      "learning_rate": 0.0003,
      "loss": 0.2381,
      "step": 277
    },
    {
      "epoch": 1.9664014146772768,
      "grad_norm": 0.3156580626964569,
      "learning_rate": 0.0003,
      "loss": 0.3336,
      "step": 278
    },
    {
      "epoch": 1.973474801061008,
      "grad_norm": 0.4958134591579437,
      "learning_rate": 0.0003,
      "loss": 0.5279,
      "step": 279
    },
    {
      "epoch": 1.980548187444739,
      "grad_norm": 0.41325512528419495,
      "learning_rate": 0.0003,
      "loss": 0.3997,
      "step": 280
    },
    {
      "epoch": 1.9876215738284704,
      "grad_norm": 0.29986992478370667,
      "learning_rate": 0.0003,
      "loss": 0.2996,
      "step": 281
    },
    {
      "epoch": 1.9946949602122017,
      "grad_norm": 0.3219819962978363,
      "learning_rate": 0.0003,
      "loss": 0.2875,
      "step": 282
    },
    {
      "epoch": 1.9946949602122017,
      "step": 282,
      "total_flos": 1.061363392708608e+16,
      "train_loss": 0.5953954255327265,
      "train_runtime": 9564.3104,
      "train_samples_per_second": 0.473,
      "train_steps_per_second": 0.029
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 282,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 1000,
  "total_flos": 1.061363392708608e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}