{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.24991175432403812,
  "eval_steps": 500,
  "global_step": 531,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0004706436051300153,
      "grad_norm": 0.6595008969306946,
      "learning_rate": 2.5000000000000004e-07,
      "loss": 9.6515,
      "step": 1
    },
    {
      "epoch": 0.0009412872102600306,
      "grad_norm": 0.7391405701637268,
      "learning_rate": 5.000000000000001e-07,
      "loss": 9.5434,
      "step": 2
    },
    {
      "epoch": 0.0014119308153900459,
      "grad_norm": 0.8721428513526917,
      "learning_rate": 7.5e-07,
      "loss": 9.0645,
      "step": 3
    },
    {
      "epoch": 0.0018825744205200612,
      "grad_norm": 0.9540417790412903,
      "learning_rate": 1.0000000000000002e-06,
      "loss": 9.0978,
      "step": 4
    },
    {
      "epoch": 0.0023532180256500765,
      "grad_norm": 1.0068703889846802,
      "learning_rate": 1.25e-06,
      "loss": 8.8096,
      "step": 5
    },
    {
      "epoch": 0.0028238616307800918,
      "grad_norm": 0.7046281695365906,
      "learning_rate": 1.5e-06,
      "loss": 9.5863,
      "step": 6
    },
    {
      "epoch": 0.003294505235910107,
      "grad_norm": 1.027761459350586,
      "learning_rate": 1.7500000000000002e-06,
      "loss": 9.3746,
      "step": 7
    },
    {
      "epoch": 0.0037651488410401224,
      "grad_norm": 0.7785173058509827,
      "learning_rate": 2.0000000000000003e-06,
      "loss": 9.1443,
      "step": 8
    },
    {
      "epoch": 0.004235792446170138,
      "grad_norm": 0.8485608696937561,
      "learning_rate": 2.25e-06,
      "loss": 9.2293,
      "step": 9
    },
    {
      "epoch": 0.004706436051300153,
      "grad_norm": 0.8275871872901917,
      "learning_rate": 2.5e-06,
      "loss": 8.7838,
      "step": 10
    },
    {
      "epoch": 0.005177079656430168,
      "grad_norm": 0.5895422101020813,
      "learning_rate": 2.7500000000000004e-06,
      "loss": 9.5706,
      "step": 11
    },
    {
      "epoch": 0.0056477232615601836,
      "grad_norm": 0.9113247394561768,
      "learning_rate": 3e-06,
      "loss": 8.9198,
      "step": 12
    },
    {
      "epoch": 0.006118366866690199,
      "grad_norm": 0.7459664940834045,
      "learning_rate": 3.2500000000000002e-06,
      "loss": 9.2372,
      "step": 13
    },
    {
      "epoch": 0.006589010471820214,
      "grad_norm": 0.6556370854377747,
      "learning_rate": 3.5000000000000004e-06,
      "loss": 9.1809,
      "step": 14
    },
    {
      "epoch": 0.0070596540769502295,
      "grad_norm": 0.719078540802002,
      "learning_rate": 3.75e-06,
      "loss": 9.2422,
      "step": 15
    },
    {
      "epoch": 0.007530297682080245,
      "grad_norm": 0.8138344287872314,
      "learning_rate": 4.000000000000001e-06,
      "loss": 9.271,
      "step": 16
    },
    {
      "epoch": 0.00800094128721026,
      "grad_norm": 0.7246189713478088,
      "learning_rate": 4.250000000000001e-06,
      "loss": 9.5405,
      "step": 17
    },
    {
      "epoch": 0.008471584892340275,
      "grad_norm": 0.8132815361022949,
      "learning_rate": 4.5e-06,
      "loss": 9.7983,
      "step": 18
    },
    {
      "epoch": 0.00894222849747029,
      "grad_norm": 0.5946951508522034,
      "learning_rate": 4.75e-06,
      "loss": 9.733,
      "step": 19
    },
    {
      "epoch": 0.009412872102600306,
      "grad_norm": 0.5157704949378967,
      "learning_rate": 5e-06,
      "loss": 9.6086,
      "step": 20
    },
    {
      "epoch": 0.009883515707730321,
      "grad_norm": 0.5629891157150269,
      "learning_rate": 5.25e-06,
      "loss": 9.2102,
      "step": 21
    },
    {
      "epoch": 0.010354159312860337,
      "grad_norm": 0.48590287566185,
      "learning_rate": 5.500000000000001e-06,
      "loss": 9.7732,
      "step": 22
    },
    {
      "epoch": 0.010824802917990352,
      "grad_norm": 0.5960127711296082,
      "learning_rate": 5.750000000000001e-06,
      "loss": 9.3421,
      "step": 23
    },
    {
      "epoch": 0.011295446523120367,
      "grad_norm": 0.48235076665878296,
      "learning_rate": 6e-06,
      "loss": 9.5374,
      "step": 24
    },
    {
      "epoch": 0.011766090128250382,
      "grad_norm": 0.4856416881084442,
      "learning_rate": 6.25e-06,
      "loss": 9.2162,
      "step": 25
    },
    {
      "epoch": 0.012236733733380398,
      "grad_norm": 0.45604783296585083,
      "learning_rate": 6.5000000000000004e-06,
      "loss": 9.3802,
      "step": 26
    },
    {
      "epoch": 0.012707377338510413,
      "grad_norm": 0.4940997064113617,
      "learning_rate": 6.750000000000001e-06,
      "loss": 8.9352,
      "step": 27
    },
    {
      "epoch": 0.013178020943640428,
      "grad_norm": 0.5067102909088135,
      "learning_rate": 7.000000000000001e-06,
      "loss": 9.6871,
      "step": 28
    },
    {
      "epoch": 0.013648664548770444,
      "grad_norm": 0.5070438385009766,
      "learning_rate": 7.25e-06,
      "loss": 9.1244,
      "step": 29
    },
    {
      "epoch": 0.014119308153900459,
      "grad_norm": 0.47256559133529663,
      "learning_rate": 7.5e-06,
      "loss": 9.6139,
      "step": 30
    },
    {
      "epoch": 0.014589951759030474,
      "grad_norm": 0.6668869853019714,
      "learning_rate": 7.75e-06,
      "loss": 8.9173,
      "step": 31
    },
    {
      "epoch": 0.01506059536416049,
      "grad_norm": 0.7926103472709656,
      "learning_rate": 8.000000000000001e-06,
      "loss": 8.8604,
      "step": 32
    },
    {
      "epoch": 0.015531238969290505,
      "grad_norm": 0.4389215409755707,
      "learning_rate": 8.25e-06,
      "loss": 9.42,
      "step": 33
    },
    {
      "epoch": 0.01600188257442052,
      "grad_norm": 0.527125895023346,
      "learning_rate": 8.500000000000002e-06,
      "loss": 9.5552,
      "step": 34
    },
    {
      "epoch": 0.016472526179550535,
      "grad_norm": 0.5376142263412476,
      "learning_rate": 8.75e-06,
      "loss": 9.1412,
      "step": 35
    },
    {
      "epoch": 0.01694316978468055,
      "grad_norm": 0.4762144386768341,
      "learning_rate": 9e-06,
      "loss": 9.2153,
      "step": 36
    },
    {
      "epoch": 0.017413813389810566,
      "grad_norm": 0.46567338705062866,
      "learning_rate": 9.25e-06,
      "loss": 9.3836,
      "step": 37
    },
    {
      "epoch": 0.01788445699494058,
      "grad_norm": 0.4322827458381653,
      "learning_rate": 9.5e-06,
      "loss": 8.9984,
      "step": 38
    },
    {
      "epoch": 0.018355100600070597,
      "grad_norm": 0.42570286989212036,
      "learning_rate": 9.750000000000002e-06,
      "loss": 9.0916,
      "step": 39
    },
    {
      "epoch": 0.018825744205200612,
      "grad_norm": 0.43363815546035767,
      "learning_rate": 1e-05,
      "loss": 9.0663,
      "step": 40
    },
    {
      "epoch": 0.019296387810330627,
      "grad_norm": 0.3969482481479645,
      "learning_rate": 1.025e-05,
      "loss": 9.4064,
      "step": 41
    },
    {
      "epoch": 0.019767031415460642,
      "grad_norm": 0.4335750639438629,
      "learning_rate": 1.05e-05,
      "loss": 9.262,
      "step": 42
    },
    {
      "epoch": 0.020237675020590658,
      "grad_norm": 0.4210178852081299,
      "learning_rate": 1.075e-05,
      "loss": 9.4898,
      "step": 43
    },
    {
      "epoch": 0.020708318625720673,
      "grad_norm": 0.39311668276786804,
      "learning_rate": 1.1000000000000001e-05,
      "loss": 9.7063,
      "step": 44
    },
    {
      "epoch": 0.02117896223085069,
      "grad_norm": 0.39521753787994385,
      "learning_rate": 1.125e-05,
      "loss": 9.3065,
      "step": 45
    },
    {
      "epoch": 0.021649605835980704,
      "grad_norm": 0.42978909611701965,
      "learning_rate": 1.1500000000000002e-05,
      "loss": 8.9722,
      "step": 46
    },
    {
      "epoch": 0.02212024944111072,
      "grad_norm": 0.47351160645484924,
      "learning_rate": 1.175e-05,
      "loss": 8.9028,
      "step": 47
    },
    {
      "epoch": 0.022590893046240734,
      "grad_norm": 0.4192260801792145,
      "learning_rate": 1.2e-05,
      "loss": 8.913,
      "step": 48
    },
    {
      "epoch": 0.02306153665137075,
      "grad_norm": 0.42306703329086304,
      "learning_rate": 1.225e-05,
      "loss": 9.3223,
      "step": 49
    },
    {
      "epoch": 0.023532180256500765,
      "grad_norm": 0.40158239006996155,
      "learning_rate": 1.25e-05,
      "loss": 9.5922,
      "step": 50
    },
    {
      "epoch": 0.02400282386163078,
      "grad_norm": 0.5165021419525146,
      "learning_rate": 1.2750000000000002e-05,
      "loss": 9.24,
      "step": 51
    },
    {
      "epoch": 0.024473467466760795,
      "grad_norm": 0.3930136263370514,
      "learning_rate": 1.3000000000000001e-05,
      "loss": 8.7955,
      "step": 52
    },
    {
      "epoch": 0.02494411107189081,
      "grad_norm": 0.3975488543510437,
      "learning_rate": 1.3250000000000002e-05,
      "loss": 8.7474,
      "step": 53
    },
    {
      "epoch": 0.025414754677020826,
      "grad_norm": 0.46201732754707336,
      "learning_rate": 1.3500000000000001e-05,
      "loss": 9.1239,
      "step": 54
    },
    {
      "epoch": 0.02588539828215084,
      "grad_norm": 0.42599615454673767,
      "learning_rate": 1.3750000000000002e-05,
      "loss": 9.2889,
      "step": 55
    },
    {
      "epoch": 0.026356041887280857,
      "grad_norm": 0.3889259994029999,
      "learning_rate": 1.4000000000000001e-05,
      "loss": 9.5315,
      "step": 56
    },
    {
      "epoch": 0.026826685492410872,
      "grad_norm": 0.3762259781360626,
      "learning_rate": 1.4249999999999999e-05,
      "loss": 9.3968,
      "step": 57
    },
    {
      "epoch": 0.027297329097540887,
      "grad_norm": 0.4486519396305084,
      "learning_rate": 1.45e-05,
      "loss": 9.2345,
      "step": 58
    },
    {
      "epoch": 0.027767972702670903,
      "grad_norm": 0.43613263964653015,
      "learning_rate": 1.475e-05,
      "loss": 9.293,
      "step": 59
    },
    {
      "epoch": 0.028238616307800918,
      "grad_norm": 0.40770891308784485,
      "learning_rate": 1.5e-05,
      "loss": 8.9544,
      "step": 60
    },
    {
      "epoch": 0.028709259912930933,
      "grad_norm": 0.36603429913520813,
      "learning_rate": 1.525e-05,
      "loss": 9.5768,
      "step": 61
    },
    {
      "epoch": 0.02917990351806095,
      "grad_norm": 0.41165047883987427,
      "learning_rate": 1.55e-05,
      "loss": 9.0203,
      "step": 62
    },
    {
      "epoch": 0.029650547123190964,
      "grad_norm": 0.4514125883579254,
      "learning_rate": 1.575e-05,
      "loss": 9.2653,
      "step": 63
    },
    {
      "epoch": 0.03012119072832098,
      "grad_norm": 0.41333243250846863,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 8.9577,
      "step": 64
    },
    {
      "epoch": 0.030591834333450994,
      "grad_norm": 0.42950087785720825,
      "learning_rate": 1.6250000000000002e-05,
      "loss": 9.341,
      "step": 65
    },
    {
      "epoch": 0.03106247793858101,
      "grad_norm": 0.4158640205860138,
      "learning_rate": 1.65e-05,
      "loss": 9.6118,
      "step": 66
    },
    {
      "epoch": 0.031533121543711025,
      "grad_norm": 0.39954355359077454,
      "learning_rate": 1.675e-05,
      "loss": 9.0818,
      "step": 67
    },
    {
      "epoch": 0.03200376514884104,
      "grad_norm": 0.38233450055122375,
      "learning_rate": 1.7000000000000003e-05,
      "loss": 9.3953,
      "step": 68
    },
    {
      "epoch": 0.032474408753971055,
      "grad_norm": 0.37950408458709717,
      "learning_rate": 1.725e-05,
      "loss": 9.3594,
      "step": 69
    },
    {
      "epoch": 0.03294505235910107,
      "grad_norm": 0.475953608751297,
      "learning_rate": 1.75e-05,
      "loss": 9.0956,
      "step": 70
    },
    {
      "epoch": 0.033415695964231086,
      "grad_norm": 0.4252181947231293,
      "learning_rate": 1.775e-05,
      "loss": 9.1928,
      "step": 71
    },
    {
      "epoch": 0.0338863395693611,
      "grad_norm": 0.3946019411087036,
      "learning_rate": 1.8e-05,
      "loss": 9.1933,
      "step": 72
    },
    {
      "epoch": 0.03435698317449112,
      "grad_norm": 0.4342809021472931,
      "learning_rate": 1.825e-05,
      "loss": 9.2859,
      "step": 73
    },
    {
      "epoch": 0.03482762677962113,
      "grad_norm": 0.3921419084072113,
      "learning_rate": 1.85e-05,
      "loss": 9.1214,
      "step": 74
    },
    {
      "epoch": 0.03529827038475115,
      "grad_norm": 0.3992595374584198,
      "learning_rate": 1.8750000000000002e-05,
      "loss": 9.332,
      "step": 75
    },
    {
      "epoch": 0.03576891398988116,
      "grad_norm": 0.40269696712493896,
      "learning_rate": 1.9e-05,
      "loss": 9.4244,
      "step": 76
    },
    {
      "epoch": 0.03623955759501118,
      "grad_norm": 0.41852205991744995,
      "learning_rate": 1.925e-05,
      "loss": 9.3765,
      "step": 77
    },
    {
      "epoch": 0.03671020120014119,
      "grad_norm": 0.5162649750709534,
      "learning_rate": 1.9500000000000003e-05,
      "loss": 8.3471,
      "step": 78
    },
    {
      "epoch": 0.03718084480527121,
      "grad_norm": 0.4802299737930298,
      "learning_rate": 1.9750000000000002e-05,
      "loss": 9.3251,
      "step": 79
    },
    {
      "epoch": 0.037651488410401224,
      "grad_norm": 0.4261873960494995,
      "learning_rate": 2e-05,
      "loss": 9.5181,
      "step": 80
    },
    {
      "epoch": 0.03812213201553124,
      "grad_norm": 0.4193435311317444,
      "learning_rate": 2.025e-05,
      "loss": 9.4217,
      "step": 81
    },
    {
      "epoch": 0.038592775620661254,
      "grad_norm": 0.4148464798927307,
      "learning_rate": 2.05e-05,
      "loss": 8.7618,
      "step": 82
    },
    {
      "epoch": 0.03906341922579127,
      "grad_norm": 0.4396406412124634,
      "learning_rate": 2.075e-05,
      "loss": 9.4059,
      "step": 83
    },
    {
      "epoch": 0.039534062830921285,
      "grad_norm": 0.43215858936309814,
      "learning_rate": 2.1e-05,
      "loss": 9.0061,
      "step": 84
    },
    {
      "epoch": 0.0400047064360513,
      "grad_norm": 0.4347785711288452,
      "learning_rate": 2.125e-05,
      "loss": 8.5384,
      "step": 85
    },
    {
      "epoch": 0.040475350041181316,
      "grad_norm": 0.47068068385124207,
      "learning_rate": 2.15e-05,
      "loss": 9.2299,
      "step": 86
    },
    {
      "epoch": 0.04094599364631133,
      "grad_norm": 0.44863706827163696,
      "learning_rate": 2.175e-05,
      "loss": 8.7932,
      "step": 87
    },
    {
      "epoch": 0.041416637251441346,
      "grad_norm": 0.4525277316570282,
      "learning_rate": 2.2000000000000003e-05,
      "loss": 9.1699,
      "step": 88
    },
    {
      "epoch": 0.04188728085657136,
      "grad_norm": 0.41207849979400635,
      "learning_rate": 2.2250000000000002e-05,
      "loss": 9.4979,
      "step": 89
    },
    {
      "epoch": 0.04235792446170138,
      "grad_norm": 0.4179534912109375,
      "learning_rate": 2.25e-05,
      "loss": 9.1519,
      "step": 90
    },
    {
      "epoch": 0.04282856806683139,
      "grad_norm": 0.472789466381073,
      "learning_rate": 2.275e-05,
      "loss": 9.1048,
      "step": 91
    },
    {
      "epoch": 0.04329921167196141,
      "grad_norm": 0.44435739517211914,
      "learning_rate": 2.3000000000000003e-05,
      "loss": 9.2816,
      "step": 92
    },
    {
      "epoch": 0.04376985527709142,
      "grad_norm": 0.41012299060821533,
      "learning_rate": 2.3250000000000003e-05,
      "loss": 9.4546,
      "step": 93
    },
    {
      "epoch": 0.04424049888222144,
      "grad_norm": 0.4100490212440491,
      "learning_rate": 2.35e-05,
      "loss": 9.4397,
      "step": 94
    },
    {
      "epoch": 0.04471114248735145,
      "grad_norm": 0.4229314923286438,
      "learning_rate": 2.375e-05,
      "loss": 8.9033,
      "step": 95
    },
    {
      "epoch": 0.04518178609248147,
      "grad_norm": 0.39841172099113464,
      "learning_rate": 2.4e-05,
      "loss": 9.3391,
      "step": 96
    },
    {
      "epoch": 0.045652429697611484,
      "grad_norm": 0.4041540324687958,
      "learning_rate": 2.425e-05,
      "loss": 9.3347,
      "step": 97
    },
    {
      "epoch": 0.0461230733027415,
      "grad_norm": 0.4046013653278351,
      "learning_rate": 2.45e-05,
      "loss": 9.4645,
      "step": 98
    },
    {
      "epoch": 0.046593716907871514,
      "grad_norm": 0.3989504277706146,
      "learning_rate": 2.4750000000000002e-05,
      "loss": 9.2343,
      "step": 99
    },
    {
      "epoch": 0.04706436051300153,
      "grad_norm": 0.41768062114715576,
      "learning_rate": 2.5e-05,
      "loss": 9.6114,
      "step": 100
    },
    {
      "epoch": 0.047535004118131545,
      "grad_norm": 0.4360901713371277,
      "learning_rate": 2.525e-05,
      "loss": 9.3584,
      "step": 101
    },
    {
      "epoch": 0.04800564772326156,
      "grad_norm": 0.5093626976013184,
      "learning_rate": 2.5500000000000003e-05,
      "loss": 9.3969,
      "step": 102
    },
    {
      "epoch": 0.048476291328391576,
      "grad_norm": 0.5148160457611084,
      "learning_rate": 2.5750000000000002e-05,
      "loss": 9.3607,
      "step": 103
    },
    {
      "epoch": 0.04894693493352159,
      "grad_norm": 0.4556065797805786,
      "learning_rate": 2.6000000000000002e-05,
      "loss": 8.6494,
      "step": 104
    },
    {
      "epoch": 0.049417578538651606,
      "grad_norm": 0.48136287927627563,
      "learning_rate": 2.625e-05,
      "loss": 8.8816,
      "step": 105
    },
    {
      "epoch": 0.04988822214378162,
      "grad_norm": 0.4007977247238159,
      "learning_rate": 2.6500000000000004e-05,
      "loss": 9.0173,
      "step": 106
    },
    {
      "epoch": 0.05035886574891164,
      "grad_norm": 0.5088827610015869,
      "learning_rate": 2.6750000000000003e-05,
      "loss": 9.4898,
      "step": 107
    },
    {
      "epoch": 0.05082950935404165,
      "grad_norm": 0.4222247898578644,
      "learning_rate": 2.7000000000000002e-05,
      "loss": 9.5039,
      "step": 108
    },
    {
      "epoch": 0.05130015295917167,
      "grad_norm": 0.42676958441734314,
      "learning_rate": 2.725e-05,
      "loss": 9.3007,
      "step": 109
    },
    {
      "epoch": 0.05177079656430168,
      "grad_norm": 0.4315201938152313,
      "learning_rate": 2.7500000000000004e-05,
      "loss": 9.1473,
      "step": 110
    },
    {
      "epoch": 0.0522414401694317,
      "grad_norm": 0.5586130619049072,
      "learning_rate": 2.7750000000000004e-05,
      "loss": 9.486,
      "step": 111
    },
    {
      "epoch": 0.05271208377456171,
      "grad_norm": 0.4153185486793518,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 9.2632,
      "step": 112
    },
    {
      "epoch": 0.05318272737969173,
      "grad_norm": 0.47736650705337524,
      "learning_rate": 2.825e-05,
      "loss": 8.9582,
      "step": 113
    },
    {
      "epoch": 0.053653370984821744,
      "grad_norm": 0.4127710163593292,
      "learning_rate": 2.8499999999999998e-05,
      "loss": 9.3019,
      "step": 114
    },
    {
      "epoch": 0.05412401458995176,
      "grad_norm": 0.44509121775627136,
      "learning_rate": 2.8749999999999997e-05,
      "loss": 9.1081,
      "step": 115
    },
    {
      "epoch": 0.054594658195081774,
      "grad_norm": 0.4519471526145935,
      "learning_rate": 2.9e-05,
      "loss": 9.4795,
      "step": 116
    },
    {
      "epoch": 0.05506530180021179,
      "grad_norm": 0.4292161464691162,
      "learning_rate": 2.925e-05,
      "loss": 9.2027,
      "step": 117
    },
    {
      "epoch": 0.055535945405341805,
      "grad_norm": 0.46465009450912476,
      "learning_rate": 2.95e-05,
      "loss": 9.081,
      "step": 118
    },
    {
      "epoch": 0.05600658901047182,
      "grad_norm": 0.4395250976085663,
      "learning_rate": 2.975e-05,
      "loss": 9.4345,
      "step": 119
    },
    {
      "epoch": 0.056477232615601836,
      "grad_norm": 0.4673008918762207,
      "learning_rate": 3e-05,
      "loss": 9.3435,
      "step": 120
    },
    {
      "epoch": 0.05694787622073185,
      "grad_norm": 0.4328051209449768,
      "learning_rate": 3.025e-05,
      "loss": 8.7147,
      "step": 121
    },
    {
      "epoch": 0.057418519825861866,
      "grad_norm": 0.444002240896225,
      "learning_rate": 3.05e-05,
      "loss": 8.8049,
      "step": 122
    },
    {
      "epoch": 0.05788916343099188,
      "grad_norm": 0.4078370928764343,
      "learning_rate": 3.075e-05,
      "loss": 9.1032,
      "step": 123
    },
    {
      "epoch": 0.0583598070361219,
      "grad_norm": 0.4445233941078186,
      "learning_rate": 3.1e-05,
      "loss": 9.279,
      "step": 124
    },
    {
      "epoch": 0.05883045064125191,
      "grad_norm": 0.4282757639884949,
      "learning_rate": 3.125e-05,
      "loss": 9.4163,
      "step": 125
    },
    {
      "epoch": 0.05930109424638193,
      "grad_norm": 0.41878628730773926,
      "learning_rate": 3.15e-05,
      "loss": 8.9876,
      "step": 126
    },
    {
      "epoch": 0.05977173785151194,
      "grad_norm": 0.6357080340385437,
      "learning_rate": 3.175e-05,
      "loss": 8.4245,
      "step": 127
    },
    {
      "epoch": 0.06024238145664196,
      "grad_norm": 0.4595104455947876,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 9.1227,
      "step": 128
    },
    {
      "epoch": 0.06071302506177197,
      "grad_norm": 1.0947221517562866,
      "learning_rate": 3.2250000000000005e-05,
      "loss": 8.6819,
      "step": 129
    },
    {
      "epoch": 0.06118366866690199,
      "grad_norm": 0.43211594223976135,
      "learning_rate": 3.2500000000000004e-05,
      "loss": 9.1862,
      "step": 130
    },
    {
      "epoch": 0.061654312272032004,
      "grad_norm": 0.4080043137073517,
      "learning_rate": 3.275e-05,
      "loss": 9.0489,
      "step": 131
    },
    {
      "epoch": 0.06212495587716202,
      "grad_norm": 0.48265427350997925,
      "learning_rate": 3.3e-05,
      "loss": 9.257,
      "step": 132
    },
    {
      "epoch": 0.06259559948229203,
      "grad_norm": 0.45756152272224426,
      "learning_rate": 3.325e-05,
      "loss": 8.9598,
      "step": 133
    },
    {
      "epoch": 0.06306624308742205,
      "grad_norm": 0.3848661780357361,
      "learning_rate": 3.35e-05,
      "loss": 9.5542,
      "step": 134
    },
    {
      "epoch": 0.06353688669255206,
      "grad_norm": 0.43142908811569214,
      "learning_rate": 3.375000000000001e-05,
      "loss": 9.0434,
      "step": 135
    },
    {
      "epoch": 0.06400753029768208,
      "grad_norm": 0.39845573902130127,
      "learning_rate": 3.4000000000000007e-05,
      "loss": 9.7228,
      "step": 136
    },
    {
      "epoch": 0.06447817390281209,
      "grad_norm": 0.4854653775691986,
      "learning_rate": 3.4250000000000006e-05,
      "loss": 8.9226,
      "step": 137
    },
    {
      "epoch": 0.06494881750794211,
      "grad_norm": 0.41691291332244873,
      "learning_rate": 3.45e-05,
      "loss": 9.4588,
      "step": 138
    },
    {
      "epoch": 0.06541946111307212,
      "grad_norm": 0.41709139943122864,
      "learning_rate": 3.475e-05,
      "loss": 8.9146,
      "step": 139
    },
    {
      "epoch": 0.06589010471820214,
      "grad_norm": 0.3843998312950134,
      "learning_rate": 3.5e-05,
      "loss": 8.9889,
      "step": 140
    },
    {
      "epoch": 0.06636074832333215,
      "grad_norm": 0.4418933391571045,
      "learning_rate": 3.525e-05,
      "loss": 9.3688,
      "step": 141
    },
    {
      "epoch": 0.06683139192846217,
      "grad_norm": 0.3844826817512512,
      "learning_rate": 3.55e-05,
      "loss": 9.2518,
      "step": 142
    },
    {
      "epoch": 0.06730203553359218,
      "grad_norm": 0.4951348900794983,
      "learning_rate": 3.575e-05,
      "loss": 8.9785,
      "step": 143
    },
    {
      "epoch": 0.0677726791387222,
      "grad_norm": 0.475685179233551,
      "learning_rate": 3.6e-05,
      "loss": 9.0013,
      "step": 144
    },
    {
      "epoch": 0.06824332274385221,
      "grad_norm": 0.5578158497810364,
      "learning_rate": 3.625e-05,
      "loss": 8.9177,
      "step": 145
    },
    {
      "epoch": 0.06871396634898223,
      "grad_norm": 0.6955916881561279,
      "learning_rate": 3.65e-05,
      "loss": 8.9298,
      "step": 146
    },
    {
      "epoch": 0.06918460995411224,
      "grad_norm": 0.4071875810623169,
      "learning_rate": 3.675e-05,
      "loss": 9.1422,
      "step": 147
    },
    {
      "epoch": 0.06965525355924226,
      "grad_norm": 0.49543336033821106,
      "learning_rate": 3.7e-05,
      "loss": 9.4138,
      "step": 148
    },
    {
      "epoch": 0.07012589716437227,
      "grad_norm": 0.4391457438468933,
      "learning_rate": 3.7250000000000004e-05,
      "loss": 9.3566,
      "step": 149
    },
    {
      "epoch": 0.0705965407695023,
      "grad_norm": 0.4311358630657196,
      "learning_rate": 3.7500000000000003e-05,
      "loss": 8.6678,
      "step": 150
    },
    {
      "epoch": 0.0710671843746323,
      "grad_norm": 0.4233754873275757,
      "learning_rate": 3.775e-05,
      "loss": 8.9541,
      "step": 151
    },
    {
      "epoch": 0.07153782797976233,
      "grad_norm": 0.4653347432613373,
      "learning_rate": 3.8e-05,
      "loss": 8.953,
      "step": 152
    },
    {
      "epoch": 0.07200847158489233,
      "grad_norm": 0.4828343689441681,
      "learning_rate": 3.825e-05,
      "loss": 8.9577,
      "step": 153
    },
    {
      "epoch": 0.07247911519002236,
      "grad_norm": 0.43757960200309753,
      "learning_rate": 3.85e-05,
      "loss": 9.2349,
      "step": 154
    },
    {
      "epoch": 0.07294975879515236,
      "grad_norm": 0.4094442129135132,
      "learning_rate": 3.875e-05,
      "loss": 9.424,
      "step": 155
    },
    {
      "epoch": 0.07342040240028239,
      "grad_norm": 0.536808967590332,
      "learning_rate": 3.9000000000000006e-05,
      "loss": 8.9437,
      "step": 156
    },
    {
      "epoch": 0.0738910460054124,
      "grad_norm": 0.4084169268608093,
      "learning_rate": 3.9250000000000005e-05,
      "loss": 9.5204,
      "step": 157
    },
    {
      "epoch": 0.07436168961054242,
      "grad_norm": 0.4906410574913025,
      "learning_rate": 3.9500000000000005e-05,
      "loss": 9.0682,
      "step": 158
    },
    {
      "epoch": 0.07483233321567243,
      "grad_norm": 0.42850637435913086,
      "learning_rate": 3.9750000000000004e-05,
      "loss": 9.0241,
      "step": 159
    },
    {
      "epoch": 0.07530297682080245,
      "grad_norm": 0.3832900822162628,
      "learning_rate": 4e-05,
      "loss": 9.4956,
      "step": 160
    },
    {
      "epoch": 0.07577362042593246,
      "grad_norm": 0.39132505655288696,
      "learning_rate": 4.025e-05,
      "loss": 9.4623,
      "step": 161
    },
    {
      "epoch": 0.07624426403106248,
      "grad_norm": 0.44959893822669983,
      "learning_rate": 4.05e-05,
      "loss": 9.0518,
      "step": 162
    },
    {
      "epoch": 0.07671490763619249,
      "grad_norm": 0.41552799940109253,
      "learning_rate": 4.075e-05,
      "loss": 9.1268,
      "step": 163
    },
    {
      "epoch": 0.07718555124132251,
      "grad_norm": 0.42259296774864197,
      "learning_rate": 4.1e-05,
      "loss": 9.1533,
      "step": 164
    },
    {
      "epoch": 0.07765619484645252,
      "grad_norm": 0.4441682994365692,
      "learning_rate": 4.125e-05,
      "loss": 8.7568,
      "step": 165
    },
    {
      "epoch": 0.07812683845158254,
      "grad_norm": 0.42241615056991577,
      "learning_rate": 4.15e-05,
      "loss": 9.3366,
      "step": 166
    },
    {
      "epoch": 0.07859748205671255,
      "grad_norm": 0.3997664153575897,
      "learning_rate": 4.175e-05,
      "loss": 8.855,
      "step": 167
    },
    {
      "epoch": 0.07906812566184257,
      "grad_norm": 0.4293980300426483,
      "learning_rate": 4.2e-05,
      "loss": 8.9744,
      "step": 168
    },
    {
      "epoch": 0.07953876926697258,
      "grad_norm": 0.4279899001121521,
      "learning_rate": 4.2250000000000004e-05,
      "loss": 9.0692,
      "step": 169
    },
    {
      "epoch": 0.0800094128721026,
      "grad_norm": 0.4207955002784729,
      "learning_rate": 4.25e-05,
      "loss": 8.8506,
      "step": 170
    },
    {
      "epoch": 0.08048005647723261,
      "grad_norm": 0.41057008504867554,
      "learning_rate": 4.275e-05,
      "loss": 9.2402,
      "step": 171
    },
    {
      "epoch": 0.08095070008236263,
      "grad_norm": 0.4556719660758972,
      "learning_rate": 4.3e-05,
      "loss": 9.3806,
      "step": 172
    },
    {
      "epoch": 0.08142134368749264,
      "grad_norm": 0.4468841850757599,
      "learning_rate": 4.325e-05,
      "loss": 9.0331,
      "step": 173
    },
    {
      "epoch": 0.08189198729262266,
      "grad_norm": 0.4206986725330353,
      "learning_rate": 4.35e-05,
      "loss": 8.6767,
      "step": 174
    },
    {
      "epoch": 0.08236263089775267,
      "grad_norm": 0.42576491832733154,
      "learning_rate": 4.375e-05,
      "loss": 8.7183,
      "step": 175
    },
    {
      "epoch": 0.08283327450288269,
      "grad_norm": 0.4180700182914734,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 8.8461,
      "step": 176
    },
    {
      "epoch": 0.0833039181080127,
      "grad_norm": 0.3981553614139557,
      "learning_rate": 4.4250000000000005e-05,
      "loss": 8.9324,
      "step": 177
    },
    {
      "epoch": 0.08377456171314272,
      "grad_norm": 0.4038431942462921,
      "learning_rate": 4.4500000000000004e-05,
      "loss": 8.7611,
      "step": 178
    },
    {
      "epoch": 0.08424520531827273,
      "grad_norm": 0.4555639326572418,
      "learning_rate": 4.4750000000000004e-05,
      "loss": 8.4839,
      "step": 179
    },
    {
      "epoch": 0.08471584892340275,
      "grad_norm": 0.39343494176864624,
      "learning_rate": 4.5e-05,
      "loss": 9.0263,
      "step": 180
    },
    {
      "epoch": 0.08518649252853276,
      "grad_norm": 0.4226400852203369,
      "learning_rate": 4.525e-05,
      "loss": 8.9829,
      "step": 181
    },
    {
      "epoch": 0.08565713613366278,
      "grad_norm": 0.3735749125480652,
      "learning_rate": 4.55e-05,
      "loss": 9.6609,
      "step": 182
    },
    {
      "epoch": 0.08612777973879279,
      "grad_norm": 0.4413192868232727,
      "learning_rate": 4.575e-05,
      "loss": 9.0126,
      "step": 183
    },
    {
      "epoch": 0.08659842334392281,
      "grad_norm": 0.3925839364528656,
      "learning_rate": 4.600000000000001e-05,
      "loss": 9.2048,
      "step": 184
    },
    {
      "epoch": 0.08706906694905282,
      "grad_norm": 0.3941839933395386,
      "learning_rate": 4.6250000000000006e-05,
      "loss": 9.2662,
      "step": 185
    },
    {
      "epoch": 0.08753971055418285,
      "grad_norm": 0.47577032446861267,
      "learning_rate": 4.6500000000000005e-05,
      "loss": 8.9474,
      "step": 186
    },
    {
      "epoch": 0.08801035415931285,
      "grad_norm": 0.4306804835796356,
      "learning_rate": 4.6750000000000005e-05,
      "loss": 8.8199,
      "step": 187
    },
    {
      "epoch": 0.08848099776444288,
      "grad_norm": 0.4680851995944977,
      "learning_rate": 4.7e-05,
      "loss": 8.7651,
      "step": 188
    },
    {
      "epoch": 0.08895164136957288,
      "grad_norm": 0.4325461983680725,
      "learning_rate": 4.7249999999999997e-05,
      "loss": 9.1391,
      "step": 189
    },
    {
      "epoch": 0.0894222849747029,
      "grad_norm": 0.7051356434822083,
      "learning_rate": 4.75e-05,
      "loss": 8.8018,
      "step": 190
    },
    {
      "epoch": 0.08989292857983291,
      "grad_norm": 0.37214136123657227,
      "learning_rate": 4.775e-05,
      "loss": 9.4374,
      "step": 191
    },
    {
      "epoch": 0.09036357218496294,
      "grad_norm": 0.4161190688610077,
      "learning_rate": 4.8e-05,
      "loss": 9.0213,
      "step": 192
    },
    {
      "epoch": 0.09083421579009295,
      "grad_norm": 0.39017942547798157,
      "learning_rate": 4.825e-05,
      "loss": 9.4081,
      "step": 193
    },
    {
      "epoch": 0.09130485939522297,
      "grad_norm": 0.3661479353904724,
      "learning_rate": 4.85e-05,
      "loss": 9.5162,
      "step": 194
    },
    {
      "epoch": 0.09177550300035298,
      "grad_norm": 0.4220457077026367,
      "learning_rate": 4.875e-05,
      "loss": 8.8268,
      "step": 195
    },
    {
      "epoch": 0.092246146605483,
      "grad_norm": 0.4123201370239258,
      "learning_rate": 4.9e-05,
      "loss": 9.1464,
      "step": 196
    },
    {
      "epoch": 0.092716790210613,
      "grad_norm": 0.3835439383983612,
      "learning_rate": 4.9250000000000004e-05,
      "loss": 9.2391,
      "step": 197
    },
    {
      "epoch": 0.09318743381574303,
      "grad_norm": 0.3718632459640503,
      "learning_rate": 4.9500000000000004e-05,
      "loss": 9.2759,
      "step": 198
    },
    {
      "epoch": 0.09365807742087304,
      "grad_norm": 0.5267420411109924,
      "learning_rate": 4.975e-05,
      "loss": 9.0097,
      "step": 199
    },
    {
      "epoch": 0.09412872102600306,
      "grad_norm": 0.3542408049106598,
      "learning_rate": 5e-05,
      "loss": 9.5282,
      "step": 200
    },
    {
      "epoch": 0.09459936463113307,
      "grad_norm": 0.40344443917274475,
      "learning_rate": 4.999999247114854e-05,
      "loss": 9.3784,
      "step": 201
    },
    {
      "epoch": 0.09507000823626309,
      "grad_norm": 0.41083309054374695,
      "learning_rate": 4.999996988459869e-05,
      "loss": 9.4365,
      "step": 202
    },
    {
      "epoch": 0.0955406518413931,
      "grad_norm": 0.369400292634964,
      "learning_rate": 4.9999932240364054e-05,
      "loss": 9.3167,
      "step": 203
    },
    {
      "epoch": 0.09601129544652312,
      "grad_norm": 0.36150887608528137,
      "learning_rate": 4.9999879538467306e-05,
      "loss": 9.5957,
      "step": 204
    },
    {
      "epoch": 0.09648193905165313,
      "grad_norm": 0.44035205245018005,
      "learning_rate": 4.99998117789402e-05,
      "loss": 8.8501,
      "step": 205
    },
    {
      "epoch": 0.09695258265678315,
      "grad_norm": 0.42898210883140564,
      "learning_rate": 4.999972896182352e-05,
      "loss": 8.8283,
      "step": 206
    },
    {
      "epoch": 0.09742322626191316,
      "grad_norm": 0.3809720277786255,
      "learning_rate": 4.999963108716718e-05,
      "loss": 9.3219,
      "step": 207
    },
    {
      "epoch": 0.09789386986704318,
      "grad_norm": 0.38228464126586914,
      "learning_rate": 4.999951815503011e-05,
      "loss": 9.2669,
      "step": 208
    },
    {
      "epoch": 0.09836451347217319,
      "grad_norm": 0.3908674120903015,
      "learning_rate": 4.9999390165480335e-05,
      "loss": 8.9417,
      "step": 209
    },
    {
      "epoch": 0.09883515707730321,
      "grad_norm": 0.34623146057128906,
      "learning_rate": 4.999924711859495e-05,
      "loss": 9.6014,
      "step": 210
    },
    {
      "epoch": 0.09930580068243322,
      "grad_norm": 0.3909365236759186,
      "learning_rate": 4.99990890144601e-05,
      "loss": 9.1546,
      "step": 211
    },
    {
      "epoch": 0.09977644428756324,
      "grad_norm": 0.3888709843158722,
      "learning_rate": 4.999891585317103e-05,
      "loss": 9.3649,
      "step": 212
    },
    {
      "epoch": 0.10024708789269325,
      "grad_norm": 0.45398378372192383,
      "learning_rate": 4.9998727634832024e-05,
      "loss": 8.9172,
      "step": 213
    },
    {
      "epoch": 0.10071773149782327,
      "grad_norm": 0.36648306250572205,
      "learning_rate": 4.9998524359556445e-05,
      "loss": 9.0638,
      "step": 214
    },
    {
      "epoch": 0.10118837510295328,
      "grad_norm": 0.37433892488479614,
      "learning_rate": 4.999830602746673e-05,
      "loss": 9.3322,
      "step": 215
    },
    {
      "epoch": 0.1016590187080833,
      "grad_norm": 0.38904431462287903,
      "learning_rate": 4.99980726386944e-05,
      "loss": 9.322,
      "step": 216
    },
    {
      "epoch": 0.10212966231321331,
      "grad_norm": 0.38138681650161743,
      "learning_rate": 4.9997824193380004e-05,
      "loss": 9.6177,
      "step": 217
    },
    {
      "epoch": 0.10260030591834333,
      "grad_norm": 0.39529645442962646,
      "learning_rate": 4.9997560691673194e-05,
      "loss": 9.054,
      "step": 218
    },
    {
      "epoch": 0.10307094952347334,
      "grad_norm": 0.4126908481121063,
      "learning_rate": 4.999728213373267e-05,
      "loss": 9.4406,
      "step": 219
    },
    {
      "epoch": 0.10354159312860337,
      "grad_norm": 0.4137309491634369,
      "learning_rate": 4.999698851972622e-05,
      "loss": 9.0403,
      "step": 220
    },
    {
      "epoch": 0.10401223673373337,
      "grad_norm": 0.4086442291736603,
      "learning_rate": 4.999667984983069e-05,
      "loss": 9.3006,
      "step": 221
    },
    {
      "epoch": 0.1044828803388634,
      "grad_norm": 0.5080444812774658,
      "learning_rate": 4.999635612423198e-05,
      "loss": 9.1856,
      "step": 222
    },
    {
      "epoch": 0.1049535239439934,
      "grad_norm": 0.36199596524238586,
      "learning_rate": 4.9996017343125085e-05,
      "loss": 9.3119,
      "step": 223
    },
    {
      "epoch": 0.10542416754912343,
      "grad_norm": 0.4086923897266388,
      "learning_rate": 4.9995663506714054e-05,
      "loss": 9.1335,
      "step": 224
    },
    {
      "epoch": 0.10589481115425343,
      "grad_norm": 0.42041823267936707,
      "learning_rate": 4.9995294615212006e-05,
      "loss": 8.9113,
      "step": 225
    },
    {
      "epoch": 0.10636545475938346,
      "grad_norm": 0.35369089245796204,
      "learning_rate": 4.999491066884113e-05,
      "loss": 9.4732,
      "step": 226
    },
    {
      "epoch": 0.10683609836451347,
      "grad_norm": 0.8479387164115906,
      "learning_rate": 4.9994511667832665e-05,
      "loss": 9.1135,
      "step": 227
    },
    {
      "epoch": 0.10730674196964349,
      "grad_norm": 0.38847988843917847,
      "learning_rate": 4.999409761242696e-05,
      "loss": 9.3632,
      "step": 228
    },
    {
      "epoch": 0.1077773855747735,
      "grad_norm": 0.43660977482795715,
      "learning_rate": 4.999366850287337e-05,
      "loss": 8.6279,
      "step": 229
    },
    {
      "epoch": 0.10824802917990352,
      "grad_norm": 0.6459296345710754,
      "learning_rate": 4.999322433943038e-05,
      "loss": 9.1736,
      "step": 230
    },
    {
      "epoch": 0.10871867278503353,
      "grad_norm": 0.453952819108963,
      "learning_rate": 4.99927651223655e-05,
      "loss": 8.7847,
      "step": 231
    },
    {
      "epoch": 0.10918931639016355,
      "grad_norm": 0.3641432821750641,
      "learning_rate": 4.9992290851955325e-05,
      "loss": 9.1591,
      "step": 232
    },
    {
      "epoch": 0.10965995999529356,
      "grad_norm": 0.43097686767578125,
      "learning_rate": 4.999180152848551e-05,
      "loss": 8.8475,
      "step": 233
    },
    {
      "epoch": 0.11013060360042358,
      "grad_norm": 0.40101760625839233,
      "learning_rate": 4.999129715225077e-05,
      "loss": 9.3003,
      "step": 234
    },
    {
      "epoch": 0.11060124720555359,
      "grad_norm": 0.38456395268440247,
      "learning_rate": 4.99907777235549e-05,
      "loss": 9.0397,
      "step": 235
    },
    {
      "epoch": 0.11107189081068361,
      "grad_norm": 0.3518768846988678,
      "learning_rate": 4.9990243242710764e-05,
      "loss": 9.3619,
      "step": 236
    },
    {
      "epoch": 0.11154253441581362,
      "grad_norm": 0.43492040038108826,
      "learning_rate": 4.9989693710040284e-05,
      "loss": 8.9691,
      "step": 237
    },
    {
      "epoch": 0.11201317802094364,
      "grad_norm": 0.4434773325920105,
      "learning_rate": 4.998912912587444e-05,
      "loss": 8.6355,
      "step": 238
    },
    {
      "epoch": 0.11248382162607365,
      "grad_norm": 0.4103478193283081,
      "learning_rate": 4.998854949055328e-05,
      "loss": 9.0966,
      "step": 239
    },
    {
      "epoch": 0.11295446523120367,
      "grad_norm": 0.409065842628479,
      "learning_rate": 4.998795480442595e-05,
      "loss": 8.9825,
      "step": 240
    },
    {
      "epoch": 0.11342510883633368,
      "grad_norm": 0.3709560036659241,
      "learning_rate": 4.9987345067850596e-05,
      "loss": 9.383,
      "step": 241
    },
    {
      "epoch": 0.1138957524414637,
      "grad_norm": 0.4049656391143799,
      "learning_rate": 4.9986720281194496e-05,
      "loss": 8.8382,
      "step": 242
    },
    {
      "epoch": 0.11436639604659371,
      "grad_norm": 0.40016597509384155,
      "learning_rate": 4.998608044483396e-05,
      "loss": 9.0227,
      "step": 243
    },
    {
      "epoch": 0.11483703965172373,
      "grad_norm": 0.41628897190093994,
      "learning_rate": 4.998542555915435e-05,
      "loss": 9.1208,
      "step": 244
    },
    {
      "epoch": 0.11530768325685374,
      "grad_norm": 0.37839028239250183,
      "learning_rate": 4.998475562455013e-05,
      "loss": 9.2952,
      "step": 245
    },
    {
      "epoch": 0.11577832686198376,
      "grad_norm": 0.37010782957077026,
      "learning_rate": 4.99840706414248e-05,
      "loss": 8.8903,
      "step": 246
    },
    {
      "epoch": 0.11624897046711377,
      "grad_norm": 0.40624648332595825,
      "learning_rate": 4.998337061019092e-05,
      "loss": 9.1322,
      "step": 247
    },
    {
      "epoch": 0.1167196140722438,
      "grad_norm": 0.330285906791687,
      "learning_rate": 4.998265553127013e-05,
      "loss": 9.3509,
      "step": 248
    },
    {
      "epoch": 0.1171902576773738,
      "grad_norm": 0.4315396249294281,
      "learning_rate": 4.9981925405093146e-05,
      "loss": 8.5941,
      "step": 249
    },
    {
      "epoch": 0.11766090128250382,
      "grad_norm": 0.46557149291038513,
      "learning_rate": 4.99811802320997e-05,
      "loss": 8.7841,
      "step": 250
    },
    {
      "epoch": 0.11813154488763383,
      "grad_norm": 0.40763556957244873,
      "learning_rate": 4.998042001273864e-05,
      "loss": 9.0945,
      "step": 251
    },
    {
      "epoch": 0.11860218849276385,
      "grad_norm": 0.38328826427459717,
      "learning_rate": 4.9979644747467835e-05,
      "loss": 9.5115,
      "step": 252
    },
    {
      "epoch": 0.11907283209789386,
      "grad_norm": 0.3737850487232208,
      "learning_rate": 4.997885443675424e-05,
      "loss": 8.6629,
      "step": 253
    },
    {
      "epoch": 0.11954347570302389,
      "grad_norm": 0.38939982652664185,
      "learning_rate": 4.997804908107387e-05,
      "loss": 9.1315,
      "step": 254
    },
    {
      "epoch": 0.1200141193081539,
      "grad_norm": 0.41033586859703064,
      "learning_rate": 4.997722868091179e-05,
      "loss": 8.9948,
      "step": 255
    },
    {
      "epoch": 0.12048476291328392,
      "grad_norm": 0.4496087431907654,
      "learning_rate": 4.997639323676214e-05,
      "loss": 8.7967,
      "step": 256
    },
    {
      "epoch": 0.12095540651841392,
      "grad_norm": 0.4463037848472595,
      "learning_rate": 4.997554274912811e-05,
      "loss": 8.6575,
      "step": 257
    },
    {
      "epoch": 0.12142605012354395,
      "grad_norm": 0.447477251291275,
      "learning_rate": 4.997467721852196e-05,
      "loss": 9.4086,
      "step": 258
    },
    {
      "epoch": 0.12189669372867395,
      "grad_norm": 0.40504494309425354,
      "learning_rate": 4.9973796645465e-05,
      "loss": 9.6567,
      "step": 259
    },
    {
      "epoch": 0.12236733733380398,
      "grad_norm": 0.4193851351737976,
      "learning_rate": 4.9972901030487616e-05,
      "loss": 9.415,
      "step": 260
    },
    {
      "epoch": 0.12283798093893399,
      "grad_norm": 0.37490740418434143,
      "learning_rate": 4.997199037412923e-05,
      "loss": 9.094,
      "step": 261
    },
    {
      "epoch": 0.12330862454406401,
      "grad_norm": 0.4043318033218384,
      "learning_rate": 4.997106467693835e-05,
      "loss": 9.1566,
      "step": 262
    },
    {
      "epoch": 0.12377926814919402,
      "grad_norm": 0.3795372247695923,
      "learning_rate": 4.997012393947253e-05,
      "loss": 9.5975,
      "step": 263
    },
    {
      "epoch": 0.12424991175432404,
      "grad_norm": 0.38997772336006165,
      "learning_rate": 4.996916816229837e-05,
      "loss": 9.3275,
      "step": 264
    },
    {
      "epoch": 0.12472055535945405,
      "grad_norm": 0.41787171363830566,
      "learning_rate": 4.9968197345991565e-05,
      "loss": 8.9184,
      "step": 265
    },
    {
      "epoch": 0.12519119896458406,
      "grad_norm": 0.4403538703918457,
      "learning_rate": 4.996721149113682e-05,
      "loss": 9.0055,
      "step": 266
    },
    {
      "epoch": 0.12566184256971408,
      "grad_norm": 0.44756266474723816,
      "learning_rate": 4.996621059832795e-05,
      "loss": 9.0517,
      "step": 267
    },
    {
      "epoch": 0.1261324861748441,
      "grad_norm": 0.3958662748336792,
      "learning_rate": 4.996519466816778e-05,
      "loss": 9.1983,
      "step": 268
    },
    {
      "epoch": 0.12660312977997412,
      "grad_norm": 0.5548920035362244,
      "learning_rate": 4.9964163701268224e-05,
      "loss": 9.0239,
      "step": 269
    },
    {
      "epoch": 0.12707377338510412,
      "grad_norm": 0.38231074810028076,
      "learning_rate": 4.996311769825024e-05,
      "loss": 9.4057,
      "step": 270
    },
    {
      "epoch": 0.12754441699023414,
      "grad_norm": 0.37411412596702576,
      "learning_rate": 4.996205665974384e-05,
      "loss": 9.147,
      "step": 271
    },
    {
      "epoch": 0.12801506059536416,
      "grad_norm": 0.36638572812080383,
      "learning_rate": 4.996098058638809e-05,
      "loss": 9.3312,
      "step": 272
    },
    {
      "epoch": 0.12848570420049418,
      "grad_norm": 0.36364972591400146,
      "learning_rate": 4.995988947883114e-05,
      "loss": 9.4873,
      "step": 273
    },
    {
      "epoch": 0.12895634780562418,
      "grad_norm": 0.415054053068161,
      "learning_rate": 4.9958783337730156e-05,
      "loss": 9.0241,
      "step": 274
    },
    {
      "epoch": 0.1294269914107542,
      "grad_norm": 0.616145133972168,
      "learning_rate": 4.995766216375137e-05,
      "loss": 9.1209,
      "step": 275
    },
    {
      "epoch": 0.12989763501588422,
      "grad_norm": 0.3728233575820923,
      "learning_rate": 4.9956525957570086e-05,
      "loss": 9.5214,
      "step": 276
    },
    {
      "epoch": 0.13036827862101424,
      "grad_norm": 0.4377942681312561,
      "learning_rate": 4.995537471987066e-05,
      "loss": 8.7668,
      "step": 277
    },
    {
      "epoch": 0.13083892222614424,
      "grad_norm": 0.4865539073944092,
      "learning_rate": 4.9954208451346465e-05,
      "loss": 8.8752,
      "step": 278
    },
    {
      "epoch": 0.13130956583127426,
      "grad_norm": 0.4728136658668518,
      "learning_rate": 4.995302715269997e-05,
      "loss": 9.0947,
      "step": 279
    },
    {
      "epoch": 0.13178020943640428,
      "grad_norm": 0.40794286131858826,
      "learning_rate": 4.995183082464269e-05,
      "loss": 8.9566,
      "step": 280
    },
    {
      "epoch": 0.1322508530415343,
      "grad_norm": 0.35321590304374695,
      "learning_rate": 4.995061946789516e-05,
      "loss": 9.4166,
      "step": 281
    },
    {
      "epoch": 0.1327214966466643,
      "grad_norm": 0.41053611040115356,
      "learning_rate": 4.9949393083187005e-05,
      "loss": 9.0913,
      "step": 282
    },
    {
      "epoch": 0.13319214025179432,
      "grad_norm": 0.4475056231021881,
      "learning_rate": 4.9948151671256883e-05,
      "loss": 8.422,
      "step": 283
    },
    {
      "epoch": 0.13366278385692434,
      "grad_norm": 0.34866318106651306,
      "learning_rate": 4.994689523285251e-05,
      "loss": 9.2168,
      "step": 284
    },
    {
      "epoch": 0.13413342746205437,
      "grad_norm": 0.4374255836009979,
      "learning_rate": 4.994562376873064e-05,
      "loss": 8.9508,
      "step": 285
    },
    {
      "epoch": 0.13460407106718436,
      "grad_norm": 0.38839930295944214,
      "learning_rate": 4.9944337279657106e-05,
      "loss": 8.8695,
      "step": 286
    },
    {
      "epoch": 0.13507471467231438,
      "grad_norm": 0.4352591335773468,
      "learning_rate": 4.994303576640674e-05,
      "loss": 8.7637,
      "step": 287
    },
    {
      "epoch": 0.1355453582774444,
      "grad_norm": 0.36577296257019043,
      "learning_rate": 4.994171922976348e-05,
      "loss": 9.4622,
      "step": 288
    },
    {
      "epoch": 0.13601600188257443,
      "grad_norm": 0.3764691650867462,
      "learning_rate": 4.994038767052028e-05,
      "loss": 9.3536,
      "step": 289
    },
    {
      "epoch": 0.13648664548770442,
      "grad_norm": 0.3795958161354065,
      "learning_rate": 4.993904108947914e-05,
      "loss": 8.9066,
      "step": 290
    },
    {
      "epoch": 0.13695728909283444,
      "grad_norm": 0.42235082387924194,
      "learning_rate": 4.993767948745113e-05,
      "loss": 9.168,
      "step": 291
    },
    {
      "epoch": 0.13742793269796447,
      "grad_norm": 0.41240936517715454,
      "learning_rate": 4.993630286525634e-05,
      "loss": 8.8015,
      "step": 292
    },
    {
      "epoch": 0.1378985763030945,
      "grad_norm": 0.40508440136909485,
      "learning_rate": 4.993491122372394e-05,
      "loss": 8.9218,
      "step": 293
    },
    {
      "epoch": 0.13836921990822448,
      "grad_norm": 0.44761571288108826,
      "learning_rate": 4.99335045636921e-05,
      "loss": 8.9542,
      "step": 294
    },
    {
      "epoch": 0.1388398635133545,
      "grad_norm": 0.35136064887046814,
      "learning_rate": 4.993208288600808e-05,
      "loss": 9.0036,
      "step": 295
    },
    {
      "epoch": 0.13931050711848453,
      "grad_norm": 0.3560550808906555,
      "learning_rate": 4.9930646191528175e-05,
      "loss": 9.5513,
      "step": 296
    },
    {
      "epoch": 0.13978115072361455,
      "grad_norm": 0.40760746598243713,
      "learning_rate": 4.99291944811177e-05,
      "loss": 9.1574,
      "step": 297
    },
    {
      "epoch": 0.14025179432874454,
      "grad_norm": 0.4152514338493347,
      "learning_rate": 4.992772775565104e-05,
      "loss": 8.9221,
      "step": 298
    },
    {
      "epoch": 0.14072243793387457,
      "grad_norm": 0.36200031638145447,
      "learning_rate": 4.992624601601162e-05,
      "loss": 9.2766,
      "step": 299
    },
    {
      "epoch": 0.1411930815390046,
      "grad_norm": 0.3931048512458801,
      "learning_rate": 4.992474926309191e-05,
      "loss": 9.0796,
      "step": 300
    },
    {
      "epoch": 0.1416637251441346,
      "grad_norm": 0.3852521777153015,
      "learning_rate": 4.992323749779339e-05,
      "loss": 8.9804,
      "step": 301
    },
    {
      "epoch": 0.1421343687492646,
      "grad_norm": 0.42558741569519043,
      "learning_rate": 4.992171072102663e-05,
      "loss": 8.6188,
      "step": 302
    },
    {
      "epoch": 0.14260501235439463,
      "grad_norm": 0.40560707449913025,
      "learning_rate": 4.992016893371122e-05,
      "loss": 9.2215,
      "step": 303
    },
    {
      "epoch": 0.14307565595952465,
      "grad_norm": 0.3654381334781647,
      "learning_rate": 4.9918612136775776e-05,
      "loss": 9.6141,
      "step": 304
    },
    {
      "epoch": 0.14354629956465467,
      "grad_norm": 0.3547174632549286,
      "learning_rate": 4.9917040331157986e-05,
      "loss": 9.4322,
      "step": 305
    },
    {
      "epoch": 0.14401694316978467,
      "grad_norm": 0.3975953161716461,
      "learning_rate": 4.9915453517804554e-05,
      "loss": 9.0455,
      "step": 306
    },
    {
      "epoch": 0.1444875867749147,
      "grad_norm": 0.4045639932155609,
      "learning_rate": 4.991385169767123e-05,
      "loss": 8.6646,
      "step": 307
    },
    {
      "epoch": 0.1449582303800447,
      "grad_norm": 0.39949241280555725,
      "learning_rate": 4.9912234871722805e-05,
      "loss": 8.9656,
      "step": 308
    },
    {
      "epoch": 0.14542887398517473,
      "grad_norm": 0.38490548729896545,
      "learning_rate": 4.9910603040933116e-05,
      "loss": 9.2289,
      "step": 309
    },
    {
      "epoch": 0.14589951759030473,
      "grad_norm": 0.38393279910087585,
      "learning_rate": 4.9908956206285e-05,
      "loss": 9.5308,
      "step": 310
    },
    {
      "epoch": 0.14637016119543475,
      "grad_norm": 0.41801533102989197,
      "learning_rate": 4.990729436877038e-05,
      "loss": 9.179,
      "step": 311
    },
    {
      "epoch": 0.14684080480056477,
      "grad_norm": 0.3734685182571411,
      "learning_rate": 4.9905617529390203e-05,
      "loss": 9.4323,
      "step": 312
    },
    {
      "epoch": 0.1473114484056948,
      "grad_norm": 0.38498827815055847,
      "learning_rate": 4.9903925689154425e-05,
      "loss": 8.7253,
      "step": 313
    },
    {
      "epoch": 0.1477820920108248,
      "grad_norm": 0.4148082435131073,
      "learning_rate": 4.990221884908206e-05,
      "loss": 9.5291,
      "step": 314
    },
    {
      "epoch": 0.1482527356159548,
      "grad_norm": 0.3645360469818115,
      "learning_rate": 4.990049701020115e-05,
      "loss": 9.3854,
      "step": 315
    },
    {
      "epoch": 0.14872337922108483,
      "grad_norm": 0.39119553565979004,
      "learning_rate": 4.989876017354878e-05,
      "loss": 8.8417,
      "step": 316
    },
    {
      "epoch": 0.14919402282621486,
      "grad_norm": 0.40799564123153687,
      "learning_rate": 4.989700834017105e-05,
      "loss": 9.1028,
      "step": 317
    },
    {
      "epoch": 0.14966466643134485,
      "grad_norm": 0.36694031953811646,
      "learning_rate": 4.9895241511123114e-05,
      "loss": 9.26,
      "step": 318
    },
    {
      "epoch": 0.15013531003647487,
      "grad_norm": 0.4914778769016266,
      "learning_rate": 4.989345968746914e-05,
      "loss": 9.3256,
      "step": 319
    },
    {
      "epoch": 0.1506059536416049,
      "grad_norm": 0.43579304218292236,
      "learning_rate": 4.989166287028234e-05,
      "loss": 8.7753,
      "step": 320
    },
    {
      "epoch": 0.15107659724673492,
      "grad_norm": 0.37302032113075256,
      "learning_rate": 4.988985106064495e-05,
      "loss": 9.3832,
      "step": 321
    },
    {
      "epoch": 0.1515472408518649,
      "grad_norm": 0.3695763945579529,
      "learning_rate": 4.988802425964824e-05,
      "loss": 8.7549,
      "step": 322
    },
    {
      "epoch": 0.15201788445699493,
      "grad_norm": 0.4146966338157654,
      "learning_rate": 4.98861824683925e-05,
      "loss": 8.8819,
      "step": 323
    },
    {
      "epoch": 0.15248852806212496,
      "grad_norm": 0.36729514598846436,
      "learning_rate": 4.9884325687987056e-05,
      "loss": 8.9922,
      "step": 324
    },
    {
      "epoch": 0.15295917166725498,
      "grad_norm": 0.3997980058193207,
      "learning_rate": 4.9882453919550264e-05,
      "loss": 9.0574,
      "step": 325
    },
    {
      "epoch": 0.15342981527238497,
      "grad_norm": 0.31628280878067017,
      "learning_rate": 4.9880567164209515e-05,
      "loss": 9.7555,
      "step": 326
    },
    {
      "epoch": 0.153900458877515,
      "grad_norm": 0.3956843316555023,
      "learning_rate": 4.98786654231012e-05,
      "loss": 9.2441,
      "step": 327
    },
    {
      "epoch": 0.15437110248264502,
      "grad_norm": 0.399984747171402,
      "learning_rate": 4.987674869737077e-05,
      "loss": 9.0811,
      "step": 328
    },
    {
      "epoch": 0.15484174608777504,
      "grad_norm": 0.40124884247779846,
      "learning_rate": 4.987481698817268e-05,
      "loss": 8.7801,
      "step": 329
    },
    {
      "epoch": 0.15531238969290503,
      "grad_norm": 0.36277976632118225,
      "learning_rate": 4.98728702966704e-05,
      "loss": 9.1685,
      "step": 330
    },
    {
      "epoch": 0.15578303329803506,
      "grad_norm": 0.4415287375450134,
      "learning_rate": 4.987090862403646e-05,
      "loss": 8.6159,
      "step": 331
    },
    {
      "epoch": 0.15625367690316508,
      "grad_norm": 0.4005844295024872,
      "learning_rate": 4.986893197145237e-05,
      "loss": 8.7962,
      "step": 332
    },
    {
      "epoch": 0.1567243205082951,
      "grad_norm": 0.4147176742553711,
      "learning_rate": 4.9866940340108704e-05,
      "loss": 9.1667,
      "step": 333
    },
    {
      "epoch": 0.1571949641134251,
      "grad_norm": 0.5922366976737976,
      "learning_rate": 4.986493373120502e-05,
      "loss": 9.1685,
      "step": 334
    },
    {
      "epoch": 0.15766560771855512,
      "grad_norm": 0.42389023303985596,
      "learning_rate": 4.986291214594992e-05,
      "loss": 8.9005,
      "step": 335
    },
    {
      "epoch": 0.15813625132368514,
      "grad_norm": 3.3356659412384033,
      "learning_rate": 4.986087558556104e-05,
      "loss": 8.8868,
      "step": 336
    },
    {
      "epoch": 0.15860689492881516,
      "grad_norm": 0.3584047853946686,
      "learning_rate": 4.9858824051264985e-05,
      "loss": 9.3012,
      "step": 337
    },
    {
      "epoch": 0.15907753853394516,
      "grad_norm": 0.432365357875824,
      "learning_rate": 4.985675754429744e-05,
      "loss": 8.6683,
      "step": 338
    },
    {
      "epoch": 0.15954818213907518,
      "grad_norm": 0.4141758680343628,
      "learning_rate": 4.985467606590305e-05,
      "loss": 8.8902,
      "step": 339
    },
    {
      "epoch": 0.1600188257442052,
      "grad_norm": 0.5318158268928528,
      "learning_rate": 4.985257961733553e-05,
      "loss": 9.3213,
      "step": 340
    },
    {
      "epoch": 0.16048946934933522,
      "grad_norm": 0.4039144814014435,
      "learning_rate": 4.985046819985758e-05,
      "loss": 9.3521,
      "step": 341
    },
    {
      "epoch": 0.16096011295446522,
      "grad_norm": 0.4055419862270355,
      "learning_rate": 4.984834181474093e-05,
      "loss": 9.032,
      "step": 342
    },
    {
      "epoch": 0.16143075655959524,
      "grad_norm": 0.47234630584716797,
      "learning_rate": 4.9846200463266304e-05,
      "loss": 8.9415,
      "step": 343
    },
    {
      "epoch": 0.16190140016472526,
      "grad_norm": 0.3458828628063202,
      "learning_rate": 4.984404414672346e-05,
      "loss": 9.3418,
      "step": 344
    },
    {
      "epoch": 0.16237204376985528,
      "grad_norm": 0.4208340048789978,
      "learning_rate": 4.9841872866411175e-05,
      "loss": 8.5468,
      "step": 345
    },
    {
      "epoch": 0.16284268737498528,
      "grad_norm": 0.4632960855960846,
      "learning_rate": 4.983968662363723e-05,
      "loss": 8.357,
      "step": 346
    },
    {
      "epoch": 0.1633133309801153,
      "grad_norm": 0.3957667946815491,
      "learning_rate": 4.98374854197184e-05,
      "loss": 9.5873,
      "step": 347
    },
    {
      "epoch": 0.16378397458524532,
      "grad_norm": 0.45077890157699585,
      "learning_rate": 4.98352692559805e-05,
      "loss": 8.6973,
      "step": 348
    },
    {
      "epoch": 0.16425461819037535,
      "grad_norm": 0.36463478207588196,
      "learning_rate": 4.983303813375833e-05,
      "loss": 9.1421,
      "step": 349
    },
    {
      "epoch": 0.16472526179550534,
      "grad_norm": 0.4010748565196991,
      "learning_rate": 4.983079205439574e-05,
      "loss": 9.1377,
      "step": 350
    },
    {
      "epoch": 0.16519590540063536,
      "grad_norm": 0.39440232515335083,
      "learning_rate": 4.982853101924554e-05,
      "loss": 8.9753,
      "step": 351
    },
    {
      "epoch": 0.16566654900576538,
      "grad_norm": 0.4520394504070282,
      "learning_rate": 4.9826255029669577e-05,
      "loss": 8.7352,
      "step": 352
    },
    {
      "epoch": 0.1661371926108954,
      "grad_norm": 0.4330653250217438,
      "learning_rate": 4.98239640870387e-05,
      "loss": 9.0555,
      "step": 353
    },
    {
      "epoch": 0.1666078362160254,
      "grad_norm": 0.47660115361213684,
      "learning_rate": 4.982165819273275e-05,
      "loss": 8.6404,
      "step": 354
    },
    {
      "epoch": 0.16707847982115542,
      "grad_norm": 0.4233279228210449,
      "learning_rate": 4.98193373481406e-05,
      "loss": 8.9099,
      "step": 355
    },
    {
      "epoch": 0.16754912342628545,
      "grad_norm": 0.43518248200416565,
      "learning_rate": 4.98170015546601e-05,
      "loss": 8.6882,
      "step": 356
    },
    {
      "epoch": 0.16801976703141547,
      "grad_norm": 0.3644963800907135,
      "learning_rate": 4.981465081369814e-05,
      "loss": 9.2448,
      "step": 357
    },
    {
      "epoch": 0.16849041063654546,
      "grad_norm": 0.38815975189208984,
      "learning_rate": 4.981228512667057e-05,
      "loss": 9.558,
      "step": 358
    },
    {
      "epoch": 0.16896105424167548,
      "grad_norm": 0.4271330237388611,
      "learning_rate": 4.980990449500227e-05,
      "loss": 8.4688,
      "step": 359
    },
    {
      "epoch": 0.1694316978468055,
      "grad_norm": 0.4300340712070465,
      "learning_rate": 4.980750892012711e-05,
      "loss": 8.5112,
      "step": 360
    },
    {
      "epoch": 0.16990234145193553,
      "grad_norm": 0.3674795627593994,
      "learning_rate": 4.980509840348796e-05,
      "loss": 9.1979,
      "step": 361
    },
    {
      "epoch": 0.17037298505706552,
      "grad_norm": 0.39522647857666016,
      "learning_rate": 4.980267294653671e-05,
      "loss": 9.3743,
      "step": 362
    },
    {
      "epoch": 0.17084362866219555,
      "grad_norm": 0.4358430504798889,
      "learning_rate": 4.980023255073422e-05,
      "loss": 9.1216,
      "step": 363
    },
    {
      "epoch": 0.17131427226732557,
      "grad_norm": 0.40390607714653015,
      "learning_rate": 4.9797777217550367e-05,
      "loss": 8.9767,
      "step": 364
    },
    {
      "epoch": 0.1717849158724556,
      "grad_norm": 0.3644031584262848,
      "learning_rate": 4.9795306948464e-05,
      "loss": 9.2284,
      "step": 365
    },
    {
      "epoch": 0.17225555947758558,
      "grad_norm": 0.41837140917778015,
      "learning_rate": 4.979282174496302e-05,
      "loss": 8.8997,
      "step": 366
    },
    {
      "epoch": 0.1727262030827156,
      "grad_norm": 0.38197219371795654,
      "learning_rate": 4.979032160854424e-05,
      "loss": 9.1135,
      "step": 367
    },
    {
      "epoch": 0.17319684668784563,
      "grad_norm": 0.3703914284706116,
      "learning_rate": 4.9787806540713546e-05,
      "loss": 9.499,
      "step": 368
    },
    {
      "epoch": 0.17366749029297565,
      "grad_norm": 0.5900145769119263,
      "learning_rate": 4.978527654298576e-05,
      "loss": 9.6679,
      "step": 369
    },
    {
      "epoch": 0.17413813389810565,
      "grad_norm": 0.4443458318710327,
      "learning_rate": 4.9782731616884736e-05,
      "loss": 8.4039,
      "step": 370
    },
    {
      "epoch": 0.17460877750323567,
      "grad_norm": 0.31717589497566223,
      "learning_rate": 4.978017176394331e-05,
      "loss": 9.7594,
      "step": 371
    },
    {
      "epoch": 0.1750794211083657,
      "grad_norm": 0.3682294189929962,
      "learning_rate": 4.977759698570328e-05,
      "loss": 9.3738,
      "step": 372
    },
    {
      "epoch": 0.1755500647134957,
      "grad_norm": 0.36333027482032776,
      "learning_rate": 4.977500728371547e-05,
      "loss": 9.4728,
      "step": 373
    },
    {
      "epoch": 0.1760207083186257,
      "grad_norm": 0.38923901319503784,
      "learning_rate": 4.9772402659539674e-05,
      "loss": 9.0362,
      "step": 374
    },
    {
      "epoch": 0.17649135192375573,
      "grad_norm": 0.3548789620399475,
      "learning_rate": 4.9769783114744686e-05,
      "loss": 9.4734,
      "step": 375
    },
    {
      "epoch": 0.17696199552888575,
      "grad_norm": 0.3727724552154541,
      "learning_rate": 4.976714865090827e-05,
      "loss": 8.9019,
      "step": 376
    },
    {
      "epoch": 0.17743263913401577,
      "grad_norm": 0.3825220763683319,
      "learning_rate": 4.976449926961719e-05,
      "loss": 9.4008,
      "step": 377
    },
    {
      "epoch": 0.17790328273914577,
      "grad_norm": 0.36432167887687683,
      "learning_rate": 4.9761834972467185e-05,
      "loss": 9.4614,
      "step": 378
    },
    {
      "epoch": 0.1783739263442758,
      "grad_norm": 0.4360719621181488,
      "learning_rate": 4.975915576106299e-05,
      "loss": 8.9864,
      "step": 379
    },
    {
      "epoch": 0.1788445699494058,
      "grad_norm": 0.36198675632476807,
      "learning_rate": 4.975646163701831e-05,
      "loss": 9.3858,
      "step": 380
    },
    {
      "epoch": 0.17931521355453583,
      "grad_norm": 0.3615058362483978,
      "learning_rate": 4.9753752601955836e-05,
      "loss": 9.4513,
      "step": 381
    },
    {
      "epoch": 0.17978585715966583,
      "grad_norm": 0.38385000824928284,
      "learning_rate": 4.975102865750725e-05,
      "loss": 9.0129,
      "step": 382
    },
    {
      "epoch": 0.18025650076479585,
      "grad_norm": 0.42161351442337036,
      "learning_rate": 4.9748289805313196e-05,
      "loss": 8.8066,
      "step": 383
    },
    {
      "epoch": 0.18072714436992587,
      "grad_norm": 0.3863692879676819,
      "learning_rate": 4.9745536047023324e-05,
      "loss": 9.0613,
      "step": 384
    },
    {
      "epoch": 0.1811977879750559,
      "grad_norm": 0.35685333609580994,
      "learning_rate": 4.9742767384296216e-05,
      "loss": 9.1823,
      "step": 385
    },
    {
      "epoch": 0.1816684315801859,
      "grad_norm": 0.4146454930305481,
      "learning_rate": 4.973998381879949e-05,
      "loss": 9.0627,
      "step": 386
    },
    {
      "epoch": 0.1821390751853159,
      "grad_norm": 0.40701958537101746,
      "learning_rate": 4.973718535220969e-05,
      "loss": 9.4653,
      "step": 387
    },
    {
      "epoch": 0.18260971879044594,
      "grad_norm": 0.5105063915252686,
      "learning_rate": 4.973437198621237e-05,
      "loss": 9.1349,
      "step": 388
    },
    {
      "epoch": 0.18308036239557596,
      "grad_norm": 0.3464662730693817,
      "learning_rate": 4.973154372250203e-05,
      "loss": 9.3152,
      "step": 389
    },
    {
      "epoch": 0.18355100600070595,
      "grad_norm": 0.3519923985004425,
      "learning_rate": 4.972870056278216e-05,
      "loss": 9.6833,
      "step": 390
    },
    {
      "epoch": 0.18402164960583597,
      "grad_norm": 0.3777810037136078,
      "learning_rate": 4.972584250876522e-05,
      "loss": 8.9543,
      "step": 391
    },
    {
      "epoch": 0.184492293210966,
      "grad_norm": 0.45620018243789673,
      "learning_rate": 4.972296956217265e-05,
      "loss": 8.5477,
      "step": 392
    },
    {
      "epoch": 0.18496293681609602,
      "grad_norm": 0.3768126368522644,
      "learning_rate": 4.972008172473483e-05,
      "loss": 9.2837,
      "step": 393
    },
    {
      "epoch": 0.185433580421226,
      "grad_norm": 0.37716034054756165,
      "learning_rate": 4.971717899819113e-05,
      "loss": 9.0821,
      "step": 394
    },
    {
      "epoch": 0.18590422402635604,
      "grad_norm": 0.40171629190444946,
      "learning_rate": 4.9714261384289896e-05,
      "loss": 9.0963,
      "step": 395
    },
    {
      "epoch": 0.18637486763148606,
      "grad_norm": 0.41346555948257446,
      "learning_rate": 4.9711328884788434e-05,
      "loss": 8.6835,
      "step": 396
    },
    {
      "epoch": 0.18684551123661608,
      "grad_norm": 0.3882580101490021,
      "learning_rate": 4.970838150145299e-05,
      "loss": 8.998,
      "step": 397
    },
    {
      "epoch": 0.18731615484174607,
      "grad_norm": 0.40618547797203064,
      "learning_rate": 4.9705419236058825e-05,
      "loss": 8.8586,
      "step": 398
    },
    {
      "epoch": 0.1877867984468761,
      "grad_norm": 0.4610426127910614,
      "learning_rate": 4.970244209039012e-05,
      "loss": 8.5731,
      "step": 399
    },
    {
      "epoch": 0.18825744205200612,
      "grad_norm": 0.3799988329410553,
      "learning_rate": 4.969945006624003e-05,
      "loss": 8.9463,
      "step": 400
    },
    {
      "epoch": 0.18872808565713614,
      "grad_norm": 0.37528830766677856,
      "learning_rate": 4.969644316541068e-05,
      "loss": 8.9402,
      "step": 401
    },
    {
      "epoch": 0.18919872926226614,
      "grad_norm": 0.3422936201095581,
      "learning_rate": 4.9693421389713156e-05,
      "loss": 9.3497,
      "step": 402
    },
    {
      "epoch": 0.18966937286739616,
      "grad_norm": 0.35784366726875305,
      "learning_rate": 4.969038474096749e-05,
      "loss": 9.1984,
      "step": 403
    },
    {
      "epoch": 0.19014001647252618,
      "grad_norm": 0.36203494668006897,
      "learning_rate": 4.96873332210027e-05,
      "loss": 9.5096,
      "step": 404
    },
    {
      "epoch": 0.1906106600776562,
      "grad_norm": 0.3657507598400116,
      "learning_rate": 4.9684266831656706e-05,
      "loss": 9.4901,
      "step": 405
    },
    {
      "epoch": 0.1910813036827862,
      "grad_norm": 0.3886093199253082,
      "learning_rate": 4.9681185574776446e-05,
      "loss": 9.2492,
      "step": 406
    },
    {
      "epoch": 0.19155194728791622,
      "grad_norm": 0.4091348350048065,
      "learning_rate": 4.967808945221778e-05,
      "loss": 8.9341,
      "step": 407
    },
    {
      "epoch": 0.19202259089304624,
      "grad_norm": 0.45772606134414673,
      "learning_rate": 4.967497846584552e-05,
      "loss": 9.1159,
      "step": 408
    },
    {
      "epoch": 0.19249323449817626,
      "grad_norm": 0.4274662733078003,
      "learning_rate": 4.967185261753345e-05,
      "loss": 9.0557,
      "step": 409
    },
    {
      "epoch": 0.19296387810330626,
      "grad_norm": 0.3963877558708191,
      "learning_rate": 4.96687119091643e-05,
      "loss": 9.2221,
      "step": 410
    },
    {
      "epoch": 0.19343452170843628,
      "grad_norm": 0.3958019018173218,
      "learning_rate": 4.966555634262972e-05,
      "loss": 8.7826,
      "step": 411
    },
    {
      "epoch": 0.1939051653135663,
      "grad_norm": 0.3447028398513794,
      "learning_rate": 4.9662385919830347e-05,
      "loss": 9.5672,
      "step": 412
    },
    {
      "epoch": 0.19437580891869632,
      "grad_norm": 0.41687721014022827,
      "learning_rate": 4.965920064267575e-05,
      "loss": 8.7692,
      "step": 413
    },
    {
      "epoch": 0.19484645252382632,
      "grad_norm": 0.40204861760139465,
      "learning_rate": 4.9656000513084455e-05,
      "loss": 8.9861,
      "step": 414
    },
    {
      "epoch": 0.19531709612895634,
      "grad_norm": 0.3969802260398865,
      "learning_rate": 4.965278553298392e-05,
      "loss": 8.7663,
      "step": 415
    },
    {
      "epoch": 0.19578773973408636,
      "grad_norm": 0.3831544518470764,
      "learning_rate": 4.964955570431055e-05,
      "loss": 9.1338,
      "step": 416
    },
    {
      "epoch": 0.19625838333921639,
      "grad_norm": 0.40865185856819153,
      "learning_rate": 4.96463110290097e-05,
      "loss": 8.7582,
      "step": 417
    },
    {
      "epoch": 0.19672902694434638,
      "grad_norm": 0.36668238043785095,
      "learning_rate": 4.964305150903566e-05,
      "loss": 9.185,
      "step": 418
    },
    {
      "epoch": 0.1971996705494764,
      "grad_norm": 0.4229344129562378,
      "learning_rate": 4.963977714635168e-05,
      "loss": 9.0629,
      "step": 419
    },
    {
      "epoch": 0.19767031415460642,
      "grad_norm": 0.36557090282440186,
      "learning_rate": 4.963648794292992e-05,
      "loss": 9.2807,
      "step": 420
    },
    {
      "epoch": 0.19814095775973645,
      "grad_norm": 0.36382701992988586,
      "learning_rate": 4.9633183900751504e-05,
      "loss": 9.3589,
      "step": 421
    },
    {
      "epoch": 0.19861160136486644,
      "grad_norm": 0.34733355045318604,
      "learning_rate": 4.962986502180648e-05,
      "loss": 9.246,
      "step": 422
    },
    {
      "epoch": 0.19908224496999646,
      "grad_norm": 0.39794841408729553,
      "learning_rate": 4.962653130809383e-05,
      "loss": 8.8009,
      "step": 423
    },
    {
      "epoch": 0.19955288857512649,
      "grad_norm": 1.290969967842102,
      "learning_rate": 4.962318276162148e-05,
      "loss": 8.8199,
      "step": 424
    },
    {
      "epoch": 0.2000235321802565,
      "grad_norm": 0.41390761733055115,
      "learning_rate": 4.961981938440629e-05,
      "loss": 8.8504,
      "step": 425
    },
    {
      "epoch": 0.2004941757853865,
      "grad_norm": 0.4563705623149872,
      "learning_rate": 4.9616441178474044e-05,
      "loss": 8.4598,
      "step": 426
    },
    {
      "epoch": 0.20096481939051652,
      "grad_norm": 0.41248825192451477,
      "learning_rate": 4.9613048145859465e-05,
      "loss": 8.9862,
      "step": 427
    },
    {
      "epoch": 0.20143546299564655,
      "grad_norm": 0.3711670935153961,
      "learning_rate": 4.9609640288606205e-05,
      "loss": 9.1376,
      "step": 428
    },
    {
      "epoch": 0.20190610660077657,
      "grad_norm": 0.3998201787471771,
      "learning_rate": 4.960621760876686e-05,
      "loss": 8.8631,
      "step": 429
    },
    {
      "epoch": 0.20237675020590656,
      "grad_norm": 0.39512693881988525,
      "learning_rate": 4.96027801084029e-05,
      "loss": 8.6108,
      "step": 430
    },
    {
      "epoch": 0.20284739381103659,
      "grad_norm": 0.40403223037719727,
      "learning_rate": 4.95993277895848e-05,
      "loss": 8.9947,
      "step": 431
    },
    {
      "epoch": 0.2033180374161666,
      "grad_norm": 0.37190157175064087,
      "learning_rate": 4.959586065439189e-05,
      "loss": 9.0393,
      "step": 432
    },
    {
      "epoch": 0.20378868102129663,
      "grad_norm": 0.49797308444976807,
      "learning_rate": 4.959237870491247e-05,
      "loss": 8.4229,
      "step": 433
    },
    {
      "epoch": 0.20425932462642662,
      "grad_norm": 0.4093763828277588,
      "learning_rate": 4.958888194324374e-05,
      "loss": 9.2132,
      "step": 434
    },
    {
      "epoch": 0.20472996823155665,
      "grad_norm": 0.4164353609085083,
      "learning_rate": 4.958537037149183e-05,
      "loss": 9.3971,
      "step": 435
    },
    {
      "epoch": 0.20520061183668667,
      "grad_norm": 0.4578768312931061,
      "learning_rate": 4.958184399177178e-05,
      "loss": 8.8712,
      "step": 436
    },
    {
      "epoch": 0.2056712554418167,
      "grad_norm": 0.3586215674877167,
      "learning_rate": 4.957830280620758e-05,
      "loss": 9.3741,
      "step": 437
    },
    {
      "epoch": 0.20614189904694669,
      "grad_norm": 0.4265285134315491,
      "learning_rate": 4.9574746816932084e-05,
      "loss": 9.5791,
      "step": 438
    },
    {
      "epoch": 0.2066125426520767,
      "grad_norm": 0.4029577672481537,
      "learning_rate": 4.9571176026087116e-05,
      "loss": 8.7589,
      "step": 439
    },
    {
      "epoch": 0.20708318625720673,
      "grad_norm": 0.38180944323539734,
      "learning_rate": 4.9567590435823383e-05,
      "loss": 9.0139,
      "step": 440
    },
    {
      "epoch": 0.20755382986233675,
      "grad_norm": 0.39456745982170105,
      "learning_rate": 4.9563990048300524e-05,
      "loss": 9.1201,
      "step": 441
    },
    {
      "epoch": 0.20802447346746675,
      "grad_norm": 0.5495271682739258,
      "learning_rate": 4.956037486568706e-05,
      "loss": 8.5788,
      "step": 442
    },
    {
      "epoch": 0.20849511707259677,
      "grad_norm": 0.4691711366176605,
      "learning_rate": 4.9556744890160477e-05,
      "loss": 8.6122,
      "step": 443
    },
    {
      "epoch": 0.2089657606777268,
      "grad_norm": 0.42626431584358215,
      "learning_rate": 4.955310012390711e-05,
      "loss": 9.0031,
      "step": 444
    },
    {
      "epoch": 0.20943640428285681,
      "grad_norm": 0.3541715145111084,
      "learning_rate": 4.954944056912224e-05,
      "loss": 9.3784,
      "step": 445
    },
    {
      "epoch": 0.2099070478879868,
      "grad_norm": 0.3353878855705261,
      "learning_rate": 4.954576622801006e-05,
      "loss": 9.2536,
      "step": 446
    },
    {
      "epoch": 0.21037769149311683,
      "grad_norm": 0.45526987314224243,
      "learning_rate": 4.954207710278364e-05,
      "loss": 8.8725,
      "step": 447
    },
    {
      "epoch": 0.21084833509824685,
      "grad_norm": 0.3993997275829315,
      "learning_rate": 4.953837319566497e-05,
      "loss": 8.7531,
      "step": 448
    },
    {
      "epoch": 0.21131897870337688,
      "grad_norm": 0.4544302821159363,
      "learning_rate": 4.953465450888495e-05,
      "loss": 8.6906,
      "step": 449
    },
    {
      "epoch": 0.21178962230850687,
      "grad_norm": 0.35516420006752014,
      "learning_rate": 4.9530921044683374e-05,
      "loss": 9.0749,
      "step": 450
    },
    {
      "epoch": 0.2122602659136369,
      "grad_norm": 1.6792665719985962,
      "learning_rate": 4.9527172805308944e-05,
      "loss": 9.2437,
      "step": 451
    },
    {
      "epoch": 0.21273090951876691,
      "grad_norm": 0.46345287561416626,
      "learning_rate": 4.952340979301924e-05,
      "loss": 9.0281,
      "step": 452
    },
    {
      "epoch": 0.21320155312389694,
      "grad_norm": 0.447298139333725,
      "learning_rate": 4.951963201008076e-05,
      "loss": 8.9642,
      "step": 453
    },
    {
      "epoch": 0.21367219672902693,
      "grad_norm": 0.4767840504646301,
      "learning_rate": 4.9515839458768905e-05,
      "loss": 8.359,
      "step": 454
    },
    {
      "epoch": 0.21414284033415695,
      "grad_norm": 0.4263994097709656,
      "learning_rate": 4.9512032141367946e-05,
      "loss": 9.1196,
      "step": 455
    },
    {
      "epoch": 0.21461348393928698,
      "grad_norm": 0.4342626929283142,
      "learning_rate": 4.950821006017107e-05,
      "loss": 8.6583,
      "step": 456
    },
    {
      "epoch": 0.215084127544417,
      "grad_norm": 0.3934561610221863,
      "learning_rate": 4.950437321748034e-05,
      "loss": 9.0519,
      "step": 457
    },
    {
      "epoch": 0.215554771149547,
      "grad_norm": 0.4860813319683075,
      "learning_rate": 4.9500521615606716e-05,
      "loss": 8.5634,
      "step": 458
    },
    {
      "epoch": 0.21602541475467701,
      "grad_norm": 0.35411691665649414,
      "learning_rate": 4.949665525687005e-05,
      "loss": 9.1898,
      "step": 459
    },
    {
      "epoch": 0.21649605835980704,
      "grad_norm": 0.4290132224559784,
      "learning_rate": 4.94927741435991e-05,
      "loss": 8.9995,
      "step": 460
    },
    {
      "epoch": 0.21696670196493706,
      "grad_norm": 0.3373097777366638,
      "learning_rate": 4.948887827813147e-05,
      "loss": 9.3386,
      "step": 461
    },
    {
      "epoch": 0.21743734557006705,
      "grad_norm": 0.42341887950897217,
      "learning_rate": 4.948496766281368e-05,
      "loss": 9.3743,
      "step": 462
    },
    {
      "epoch": 0.21790798917519708,
      "grad_norm": 0.3915397524833679,
      "learning_rate": 4.9481042300001124e-05,
      "loss": 9.1503,
      "step": 463
    },
    {
      "epoch": 0.2183786327803271,
      "grad_norm": 0.4155285954475403,
      "learning_rate": 4.947710219205808e-05,
      "loss": 9.0803,
      "step": 464
    },
    {
      "epoch": 0.21884927638545712,
      "grad_norm": 0.4009873867034912,
      "learning_rate": 4.94731473413577e-05,
      "loss": 8.8088,
      "step": 465
    },
    {
      "epoch": 0.21931991999058711,
      "grad_norm": 0.3694516122341156,
      "learning_rate": 4.946917775028204e-05,
      "loss": 9.6886,
      "step": 466
    },
    {
      "epoch": 0.21979056359571714,
      "grad_norm": 0.4301382899284363,
      "learning_rate": 4.946519342122199e-05,
      "loss": 8.8388,
      "step": 467
    },
    {
      "epoch": 0.22026120720084716,
      "grad_norm": 0.3725178837776184,
      "learning_rate": 4.946119435657738e-05,
      "loss": 9.3083,
      "step": 468
    },
    {
      "epoch": 0.22073185080597718,
      "grad_norm": 0.34573477506637573,
      "learning_rate": 4.945718055875684e-05,
      "loss": 9.3972,
      "step": 469
    },
    {
      "epoch": 0.22120249441110718,
      "grad_norm": 0.4900851845741272,
      "learning_rate": 4.945315203017795e-05,
      "loss": 8.8847,
      "step": 470
    },
    {
      "epoch": 0.2216731380162372,
      "grad_norm": 0.3375721871852875,
      "learning_rate": 4.944910877326709e-05,
      "loss": 9.3369,
      "step": 471
    },
    {
      "epoch": 0.22214378162136722,
      "grad_norm": 0.38274478912353516,
      "learning_rate": 4.944505079045958e-05,
      "loss": 9.2587,
      "step": 472
    },
    {
      "epoch": 0.22261442522649724,
      "grad_norm": 0.45915624499320984,
      "learning_rate": 4.944097808419955e-05,
      "loss": 8.6162,
      "step": 473
    },
    {
      "epoch": 0.22308506883162724,
      "grad_norm": 0.4436270296573639,
      "learning_rate": 4.9436890656940045e-05,
      "loss": 8.9692,
      "step": 474
    },
    {
      "epoch": 0.22355571243675726,
      "grad_norm": 0.44073861837387085,
      "learning_rate": 4.943278851114293e-05,
      "loss": 8.6524,
      "step": 475
    },
    {
      "epoch": 0.22402635604188728,
      "grad_norm": 0.37401431798934937,
      "learning_rate": 4.942867164927899e-05,
      "loss": 9.3269,
      "step": 476
    },
    {
      "epoch": 0.2244969996470173,
      "grad_norm": 0.36092767119407654,
      "learning_rate": 4.942454007382782e-05,
      "loss": 9.0893,
      "step": 477
    },
    {
      "epoch": 0.2249676432521473,
      "grad_norm": 0.46312302350997925,
      "learning_rate": 4.9420393787277917e-05,
      "loss": 9.3986,
      "step": 478
    },
    {
      "epoch": 0.22543828685727732,
      "grad_norm": 0.339429646730423,
      "learning_rate": 4.9416232792126615e-05,
      "loss": 9.3501,
      "step": 479
    },
    {
      "epoch": 0.22590893046240734,
      "grad_norm": 0.4019092917442322,
      "learning_rate": 4.941205709088011e-05,
      "loss": 8.8818,
      "step": 480
    },
    {
      "epoch": 0.22637957406753736,
      "grad_norm": 0.4025574028491974,
      "learning_rate": 4.940786668605348e-05,
      "loss": 9.0087,
      "step": 481
    },
    {
      "epoch": 0.22685021767266736,
      "grad_norm": 0.41925379633903503,
      "learning_rate": 4.9403661580170626e-05,
      "loss": 9.0019,
      "step": 482
    },
    {
      "epoch": 0.22732086127779738,
      "grad_norm": 0.38912633061408997,
      "learning_rate": 4.939944177576432e-05,
      "loss": 9.4554,
      "step": 483
    },
    {
      "epoch": 0.2277915048829274,
      "grad_norm": 0.3775523602962494,
      "learning_rate": 4.9395207275376175e-05,
      "loss": 8.911,
      "step": 484
    },
    {
      "epoch": 0.22826214848805743,
      "grad_norm": 0.37626808881759644,
      "learning_rate": 4.939095808155668e-05,
      "loss": 8.9951,
      "step": 485
    },
    {
      "epoch": 0.22873279209318742,
      "grad_norm": 0.4059127867221832,
      "learning_rate": 4.938669419686516e-05,
      "loss": 9.0841,
      "step": 486
    },
    {
      "epoch": 0.22920343569831744,
      "grad_norm": 0.35881519317626953,
      "learning_rate": 4.938241562386977e-05,
      "loss": 9.2341,
      "step": 487
    },
    {
      "epoch": 0.22967407930344746,
      "grad_norm": 0.42100849747657776,
      "learning_rate": 4.9378122365147536e-05,
      "loss": 9.0711,
      "step": 488
    },
    {
      "epoch": 0.2301447229085775,
      "grad_norm": 0.4081602394580841,
      "learning_rate": 4.9373814423284336e-05,
      "loss": 9.0102,
      "step": 489
    },
    {
      "epoch": 0.23061536651370748,
      "grad_norm": 0.3893739581108093,
      "learning_rate": 4.936949180087486e-05,
      "loss": 9.1481,
      "step": 490
    },
    {
      "epoch": 0.2310860101188375,
      "grad_norm": 0.38784539699554443,
      "learning_rate": 4.936515450052267e-05,
      "loss": 9.2699,
      "step": 491
    },
    {
      "epoch": 0.23155665372396753,
      "grad_norm": 0.39232099056243896,
      "learning_rate": 4.9360802524840156e-05,
      "loss": 9.1015,
      "step": 492
    },
    {
      "epoch": 0.23202729732909755,
      "grad_norm": 0.4174420237541199,
      "learning_rate": 4.935643587644855e-05,
      "loss": 8.8689,
      "step": 493
    },
    {
      "epoch": 0.23249794093422754,
      "grad_norm": 0.3970744013786316,
      "learning_rate": 4.9352054557977905e-05,
      "loss": 9.134,
      "step": 494
    },
    {
      "epoch": 0.23296858453935756,
      "grad_norm": 0.34588709473609924,
      "learning_rate": 4.934765857206715e-05,
      "loss": 9.1163,
      "step": 495
    },
    {
      "epoch": 0.2334392281444876,
      "grad_norm": 0.38045328855514526,
      "learning_rate": 4.934324792136399e-05,
      "loss": 9.2736,
      "step": 496
    },
    {
      "epoch": 0.2339098717496176,
      "grad_norm": 0.3795531094074249,
      "learning_rate": 4.9338822608525027e-05,
      "loss": 9.2326,
      "step": 497
    },
    {
      "epoch": 0.2343805153547476,
      "grad_norm": 0.3959232270717621,
      "learning_rate": 4.9334382636215646e-05,
      "loss": 9.2973,
      "step": 498
    },
    {
      "epoch": 0.23485115895987763,
      "grad_norm": 0.40320464968681335,
      "learning_rate": 4.932992800711009e-05,
      "loss": 8.8766,
      "step": 499
    },
    {
      "epoch": 0.23532180256500765,
      "grad_norm": 0.35472753643989563,
      "learning_rate": 4.9325458723891405e-05,
      "loss": 9.2191,
      "step": 500
    },
    {
      "epoch": 0.23579244617013767,
      "grad_norm": 0.40472298860549927,
      "learning_rate": 4.932097478925148e-05,
      "loss": 8.8783,
      "step": 501
    },
    {
      "epoch": 0.23626308977526767,
      "grad_norm": 0.4293891489505768,
      "learning_rate": 4.931647620589104e-05,
      "loss": 8.4516,
      "step": 502
    },
    {
      "epoch": 0.2367337333803977,
      "grad_norm": 0.3897256851196289,
      "learning_rate": 4.9311962976519586e-05,
      "loss": 9.2541,
      "step": 503
    },
    {
      "epoch": 0.2372043769855277,
      "grad_norm": 0.36981016397476196,
      "learning_rate": 4.9307435103855507e-05,
      "loss": 9.0664,
      "step": 504
    },
    {
      "epoch": 0.23767502059065773,
      "grad_norm": 0.4339733421802521,
      "learning_rate": 4.930289259062596e-05,
      "loss": 9.2965,
      "step": 505
    },
    {
      "epoch": 0.23814566419578773,
      "grad_norm": 0.4204358756542206,
      "learning_rate": 4.9298335439566946e-05,
      "loss": 9.0738,
      "step": 506
    },
    {
      "epoch": 0.23861630780091775,
      "grad_norm": 0.3759208023548126,
      "learning_rate": 4.929376365342326e-05,
      "loss": 9.5119,
      "step": 507
    },
    {
      "epoch": 0.23908695140604777,
      "grad_norm": 0.3684697151184082,
      "learning_rate": 4.9289177234948535e-05,
      "loss": 9.338,
      "step": 508
    },
    {
      "epoch": 0.2395575950111778,
      "grad_norm": 0.40956175327301025,
      "learning_rate": 4.928457618690522e-05,
      "loss": 9.0164,
      "step": 509
    },
    {
      "epoch": 0.2400282386163078,
      "grad_norm": 0.4373653829097748,
      "learning_rate": 4.927996051206454e-05,
      "loss": 8.4385,
      "step": 510
    },
    {
      "epoch": 0.2404988822214378,
      "grad_norm": 0.3845258951187134,
      "learning_rate": 4.927533021320657e-05,
      "loss": 9.3247,
      "step": 511
    },
    {
      "epoch": 0.24096952582656783,
      "grad_norm": 0.3763442039489746,
      "learning_rate": 4.9270685293120164e-05,
      "loss": 9.357,
      "step": 512
    },
    {
      "epoch": 0.24144016943169785,
      "grad_norm": 0.4450169503688812,
      "learning_rate": 4.9266025754603005e-05,
      "loss": 8.5107,
      "step": 513
    },
    {
      "epoch": 0.24191081303682785,
      "grad_norm": 0.41103556752204895,
      "learning_rate": 4.926135160046157e-05,
      "loss": 9.3063,
      "step": 514
    },
    {
      "epoch": 0.24238145664195787,
      "grad_norm": 0.4856661856174469,
      "learning_rate": 4.925666283351114e-05,
      "loss": 8.7831,
      "step": 515
    },
    {
      "epoch": 0.2428521002470879,
      "grad_norm": 0.3764643371105194,
      "learning_rate": 4.92519594565758e-05,
      "loss": 9.0384,
      "step": 516
    },
    {
      "epoch": 0.24332274385221792,
      "grad_norm": 0.3988141417503357,
      "learning_rate": 4.924724147248841e-05,
      "loss": 9.1045,
      "step": 517
    },
    {
      "epoch": 0.2437933874573479,
      "grad_norm": 0.3450901210308075,
      "learning_rate": 4.924250888409069e-05,
      "loss": 9.3091,
      "step": 518
    },
    {
      "epoch": 0.24426403106247793,
      "grad_norm": 0.4347275495529175,
      "learning_rate": 4.923776169423309e-05,
      "loss": 9.115,
      "step": 519
    },
    {
      "epoch": 0.24473467466760795,
      "grad_norm": 0.36428380012512207,
      "learning_rate": 4.923299990577488e-05,
      "loss": 9.0645,
      "step": 520
    },
    {
      "epoch": 0.24520531827273798,
      "grad_norm": 0.4311101734638214,
      "learning_rate": 4.922822352158412e-05,
      "loss": 8.7247,
      "step": 521
    },
    {
      "epoch": 0.24567596187786797,
      "grad_norm": 0.4824456572532654,
      "learning_rate": 4.922343254453768e-05,
      "loss": 8.7448,
      "step": 522
    },
    {
      "epoch": 0.246146605482998,
      "grad_norm": 0.5465502738952637,
      "learning_rate": 4.9218626977521206e-05,
      "loss": 8.471,
      "step": 523
    },
    {
      "epoch": 0.24661724908812802,
      "grad_norm": 0.4191696047782898,
      "learning_rate": 4.921380682342912e-05,
      "loss": 8.4572,
      "step": 524
    },
    {
      "epoch": 0.24708789269325804,
      "grad_norm": 0.40454065799713135,
      "learning_rate": 4.920897208516464e-05,
      "loss": 9.3254,
      "step": 525
    },
    {
      "epoch": 0.24755853629838803,
      "grad_norm": 0.36362919211387634,
      "learning_rate": 4.920412276563977e-05,
      "loss": 9.4725,
      "step": 526
    },
    {
      "epoch": 0.24802917990351805,
      "grad_norm": 0.38239118456840515,
      "learning_rate": 4.91992588677753e-05,
      "loss": 8.5503,
      "step": 527
    },
    {
      "epoch": 0.24849982350864808,
      "grad_norm": 0.3423115015029907,
      "learning_rate": 4.919438039450078e-05,
      "loss": 9.294,
      "step": 528
    },
    {
      "epoch": 0.2489704671137781,
      "grad_norm": 0.3812299966812134,
      "learning_rate": 4.918948734875457e-05,
      "loss": 9.374,
      "step": 529
    },
    {
      "epoch": 0.2494411107189081,
      "grad_norm": 0.5085097551345825,
      "learning_rate": 4.9184579733483796e-05,
      "loss": 8.5979,
      "step": 530
    },
    {
      "epoch": 0.24991175432403812,
      "grad_norm": 0.34993723034858704,
      "learning_rate": 4.917965755164433e-05,
      "loss": 9.4077,
      "step": 531
    }
  ],
  "logging_steps": 1,
  "max_steps": 4248,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 531,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 6.093280422836306e+18,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}