{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9998557067962099,
  "eval_steps": 500,
  "global_step": 5197,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 8.29030438035775,
      "learning_rate": 1.282051282051282e-07,
      "loss": 1.3843,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 7.091962028141561,
      "learning_rate": 2.564102564102564e-07,
      "loss": 1.4639,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 5.361957256043256,
      "learning_rate": 3.846153846153847e-07,
      "loss": 1.2713,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 9.000803375150726,
      "learning_rate": 5.128205128205128e-07,
      "loss": 1.522,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 8.240225694954244,
      "learning_rate": 6.41025641025641e-07,
      "loss": 1.4767,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 6.015092410006374,
      "learning_rate": 7.692307692307694e-07,
      "loss": 1.2623,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 8.082045627468737,
      "learning_rate": 8.974358974358975e-07,
      "loss": 1.4913,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 8.956229418979165,
      "learning_rate": 1.0256410256410257e-06,
      "loss": 1.4471,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 6.283279437454581,
      "learning_rate": 1.153846153846154e-06,
      "loss": 1.4053,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 7.202792464087783,
      "learning_rate": 1.282051282051282e-06,
      "loss": 1.4512,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 6.431394399128463,
      "learning_rate": 1.4102564102564104e-06,
      "loss": 1.3484,
      "step": 11
    },
    {
      "epoch": 0.0,
      "grad_norm": 4.308947400807718,
      "learning_rate": 1.5384615384615387e-06,
      "loss": 1.2121,
      "step": 12
    },
    {
      "epoch": 0.0,
      "grad_norm": 4.35277047675083,
      "learning_rate": 1.6666666666666667e-06,
      "loss": 1.2421,
      "step": 13
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.4020652262822333,
      "learning_rate": 1.794871794871795e-06,
      "loss": 1.2059,
      "step": 14
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.9780418889248153,
      "learning_rate": 1.9230769230769234e-06,
      "loss": 1.2967,
      "step": 15
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.68525934032708,
      "learning_rate": 2.0512820512820513e-06,
      "loss": 1.371,
      "step": 16
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.6747043990278567,
      "learning_rate": 2.1794871794871797e-06,
      "loss": 1.3159,
      "step": 17
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.7254279161580817,
      "learning_rate": 2.307692307692308e-06,
      "loss": 1.2538,
      "step": 18
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.6603982145978455,
      "learning_rate": 2.435897435897436e-06,
      "loss": 1.2125,
      "step": 19
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.6721453404438256,
      "learning_rate": 2.564102564102564e-06,
      "loss": 1.3075,
      "step": 20
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.334864785636056,
      "learning_rate": 2.6923076923076923e-06,
      "loss": 1.2792,
      "step": 21
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.101271202326785,
      "learning_rate": 2.8205128205128207e-06,
      "loss": 1.1689,
      "step": 22
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.1568111228603533,
      "learning_rate": 2.948717948717949e-06,
      "loss": 1.1124,
      "step": 23
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.460121221495894,
      "learning_rate": 3.0769230769230774e-06,
      "loss": 1.05,
      "step": 24
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.2373762468960003,
      "learning_rate": 3.205128205128206e-06,
      "loss": 1.1642,
      "step": 25
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.9923255526636279,
      "learning_rate": 3.3333333333333333e-06,
      "loss": 1.1535,
      "step": 26
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.19521587810817,
      "learning_rate": 3.4615384615384617e-06,
      "loss": 1.1048,
      "step": 27
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.1339274677982316,
      "learning_rate": 3.58974358974359e-06,
      "loss": 1.2381,
      "step": 28
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.201463521779236,
      "learning_rate": 3.7179487179487184e-06,
      "loss": 1.0798,
      "step": 29
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.387706304887615,
      "learning_rate": 3.846153846153847e-06,
      "loss": 1.1289,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.136696257900015,
      "learning_rate": 3.974358974358974e-06,
      "loss": 1.1058,
      "step": 31
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.792234101974171,
      "learning_rate": 4.102564102564103e-06,
      "loss": 0.9869,
      "step": 32
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.577654256614686,
      "learning_rate": 4.230769230769231e-06,
      "loss": 1.0902,
      "step": 33
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6649180913703803,
      "learning_rate": 4.358974358974359e-06,
      "loss": 0.8781,
      "step": 34
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.5022010177002512,
      "learning_rate": 4.487179487179488e-06,
      "loss": 1.0691,
      "step": 35
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.0050521673145734,
      "learning_rate": 4.615384615384616e-06,
      "loss": 0.9817,
      "step": 36
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.7573431633524077,
      "learning_rate": 4.743589743589744e-06,
      "loss": 1.0906,
      "step": 37
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.2065723600411737,
      "learning_rate": 4.871794871794872e-06,
      "loss": 1.141,
      "step": 38
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.940508424748179,
      "learning_rate": 5e-06,
      "loss": 1.0797,
      "step": 39
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.9973634518697092,
      "learning_rate": 5.128205128205128e-06,
      "loss": 1.0749,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.1982048167912165,
      "learning_rate": 5.256410256410257e-06,
      "loss": 1.0692,
      "step": 41
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.395344368218117,
      "learning_rate": 5.384615384615385e-06,
      "loss": 1.1953,
      "step": 42
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6056206543148266,
      "learning_rate": 5.512820512820514e-06,
      "loss": 0.8892,
      "step": 43
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6032304713529322,
      "learning_rate": 5.641025641025641e-06,
      "loss": 1.0226,
      "step": 44
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.1124232360757578,
      "learning_rate": 5.769230769230769e-06,
      "loss": 0.9581,
      "step": 45
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6242038924178501,
      "learning_rate": 5.897435897435898e-06,
      "loss": 1.1245,
      "step": 46
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.8387792214753114,
      "learning_rate": 6.025641025641026e-06,
      "loss": 1.0415,
      "step": 47
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.2942377404194767,
      "learning_rate": 6.153846153846155e-06,
      "loss": 0.8335,
      "step": 48
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.4785776868566642,
      "learning_rate": 6.282051282051282e-06,
      "loss": 1.0558,
      "step": 49
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.0726260254752247,
      "learning_rate": 6.410256410256412e-06,
      "loss": 0.8547,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6941090701253794,
      "learning_rate": 6.538461538461539e-06,
      "loss": 1.0415,
      "step": 51
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.5136899464051468,
      "learning_rate": 6.666666666666667e-06,
      "loss": 0.9529,
      "step": 52
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.654163664866934,
      "learning_rate": 6.794871794871796e-06,
      "loss": 1.1236,
      "step": 53
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6642915675502095,
      "learning_rate": 6.923076923076923e-06,
      "loss": 1.0141,
      "step": 54
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.7729701645290703,
      "learning_rate": 7.051282051282053e-06,
      "loss": 0.9871,
      "step": 55
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.5166311113779043,
      "learning_rate": 7.17948717948718e-06,
      "loss": 1.0328,
      "step": 56
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6025916691827338,
      "learning_rate": 7.307692307692308e-06,
      "loss": 0.99,
      "step": 57
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.7730228781205557,
      "learning_rate": 7.435897435897437e-06,
      "loss": 1.1466,
      "step": 58
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.7821868868552855,
      "learning_rate": 7.564102564102564e-06,
      "loss": 1.084,
      "step": 59
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.8433436081234833,
      "learning_rate": 7.692307692307694e-06,
      "loss": 0.9762,
      "step": 60
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.5096805642311566,
      "learning_rate": 7.820512820512822e-06,
      "loss": 0.9665,
      "step": 61
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.0447600736977383,
      "learning_rate": 7.948717948717949e-06,
      "loss": 1.0672,
      "step": 62
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.3971370868918778,
      "learning_rate": 8.076923076923077e-06,
      "loss": 1.03,
      "step": 63
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6756769744735194,
      "learning_rate": 8.205128205128205e-06,
      "loss": 1.0729,
      "step": 64
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.510372818558383,
      "learning_rate": 8.333333333333334e-06,
      "loss": 0.8046,
      "step": 65
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.64287525502706,
      "learning_rate": 8.461538461538462e-06,
      "loss": 1.023,
      "step": 66
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.5760772786298947,
      "learning_rate": 8.58974358974359e-06,
      "loss": 0.981,
      "step": 67
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.923036707590296,
      "learning_rate": 8.717948717948719e-06,
      "loss": 1.0274,
      "step": 68
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.6276500358158057,
      "learning_rate": 8.846153846153847e-06,
      "loss": 0.9881,
      "step": 69
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.3035464293738543,
      "learning_rate": 8.974358974358976e-06,
      "loss": 0.976,
      "step": 70
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.274757691164805,
      "learning_rate": 9.102564102564104e-06,
      "loss": 0.9381,
      "step": 71
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.627569969803462,
      "learning_rate": 9.230769230769232e-06,
      "loss": 0.8439,
      "step": 72
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.3887510830385061,
      "learning_rate": 9.358974358974359e-06,
      "loss": 1.0475,
      "step": 73
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.8147465026757295,
      "learning_rate": 9.487179487179487e-06,
      "loss": 1.0551,
      "step": 74
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.144626828966463,
      "learning_rate": 9.615384615384616e-06,
      "loss": 1.0013,
      "step": 75
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.3153127456883686,
      "learning_rate": 9.743589743589744e-06,
      "loss": 1.0065,
      "step": 76
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.7197358127369042,
      "learning_rate": 9.871794871794872e-06,
      "loss": 0.9774,
      "step": 77
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6456022110980864,
      "learning_rate": 1e-05,
      "loss": 0.9302,
      "step": 78
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.470192710801086,
      "learning_rate": 1.012820512820513e-05,
      "loss": 1.0307,
      "step": 79
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.54870161667912,
      "learning_rate": 1.0256410256410256e-05,
      "loss": 0.9445,
      "step": 80
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.8246010230724015,
      "learning_rate": 1.0384615384615386e-05,
      "loss": 0.9975,
      "step": 81
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1604664097759527,
      "learning_rate": 1.0512820512820514e-05,
      "loss": 0.9243,
      "step": 82
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.5415294809428137,
      "learning_rate": 1.0641025641025643e-05,
      "loss": 0.9603,
      "step": 83
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.4196933706116217,
      "learning_rate": 1.076923076923077e-05,
      "loss": 1.0172,
      "step": 84
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.4439216474835543,
      "learning_rate": 1.0897435897435898e-05,
      "loss": 0.8982,
      "step": 85
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6846121771765736,
      "learning_rate": 1.1025641025641028e-05,
      "loss": 1.0459,
      "step": 86
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1974352969969626,
      "learning_rate": 1.1153846153846154e-05,
      "loss": 0.8579,
      "step": 87
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.7284750912110967,
      "learning_rate": 1.1282051282051283e-05,
      "loss": 1.0272,
      "step": 88
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.9046071780306446,
      "learning_rate": 1.1410256410256411e-05,
      "loss": 0.9461,
      "step": 89
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.7701133111248148,
      "learning_rate": 1.1538461538461538e-05,
      "loss": 0.9727,
      "step": 90
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.7461701478822012,
      "learning_rate": 1.1666666666666668e-05,
      "loss": 0.9605,
      "step": 91
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.365607062246253,
      "learning_rate": 1.1794871794871796e-05,
      "loss": 0.9381,
      "step": 92
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.5877993658335667,
      "learning_rate": 1.1923076923076925e-05,
      "loss": 0.9074,
      "step": 93
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.1347061377540846,
      "learning_rate": 1.2051282051282051e-05,
      "loss": 0.9701,
      "step": 94
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.3482071023697682,
      "learning_rate": 1.217948717948718e-05,
      "loss": 0.9384,
      "step": 95
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.4065137653872175,
      "learning_rate": 1.230769230769231e-05,
      "loss": 0.8891,
      "step": 96
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.5144410387963436,
      "learning_rate": 1.2435897435897436e-05,
      "loss": 0.9731,
      "step": 97
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.909635183627908,
      "learning_rate": 1.2564102564102565e-05,
      "loss": 1.0147,
      "step": 98
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.4674397522003344,
      "learning_rate": 1.2692307692307693e-05,
      "loss": 0.9791,
      "step": 99
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.4287331332335862,
      "learning_rate": 1.2820512820512823e-05,
      "loss": 0.8119,
      "step": 100
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.3016297909885803,
      "learning_rate": 1.294871794871795e-05,
      "loss": 1.023,
      "step": 101
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.7117519383497157,
      "learning_rate": 1.3076923076923078e-05,
      "loss": 0.8208,
      "step": 102
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.883146856326271,
      "learning_rate": 1.3205128205128207e-05,
      "loss": 0.9482,
      "step": 103
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.9352360686610894,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 1.0305,
      "step": 104
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.3763455338883894,
      "learning_rate": 1.3461538461538463e-05,
      "loss": 0.9594,
      "step": 105
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.258871888867974,
      "learning_rate": 1.3589743589743592e-05,
      "loss": 0.906,
      "step": 106
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.365049318942871,
      "learning_rate": 1.3717948717948718e-05,
      "loss": 0.9022,
      "step": 107
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.8109318417566884,
      "learning_rate": 1.3846153846153847e-05,
      "loss": 1.0507,
      "step": 108
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.961354389937906,
      "learning_rate": 1.3974358974358975e-05,
      "loss": 1.0655,
      "step": 109
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6536978618942442,
      "learning_rate": 1.4102564102564105e-05,
      "loss": 1.0848,
      "step": 110
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.334218396692043,
      "learning_rate": 1.4230769230769232e-05,
      "loss": 0.9021,
      "step": 111
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.520220520218206,
      "learning_rate": 1.435897435897436e-05,
      "loss": 1.012,
      "step": 112
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.7086682207041344,
      "learning_rate": 1.4487179487179489e-05,
      "loss": 0.9538,
      "step": 113
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.4244065793995646,
      "learning_rate": 1.4615384615384615e-05,
      "loss": 0.9343,
      "step": 114
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.8062652027709654,
      "learning_rate": 1.4743589743589745e-05,
      "loss": 1.0655,
      "step": 115
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6084602657622027,
      "learning_rate": 1.4871794871794874e-05,
      "loss": 1.0028,
      "step": 116
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6379391443784193,
      "learning_rate": 1.5000000000000002e-05,
      "loss": 0.9791,
      "step": 117
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6934929110883312,
      "learning_rate": 1.5128205128205129e-05,
      "loss": 0.9682,
      "step": 118
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.7505194441762786,
      "learning_rate": 1.5256410256410257e-05,
      "loss": 1.0388,
      "step": 119
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.7722481124303597,
      "learning_rate": 1.5384615384615387e-05,
      "loss": 1.0792,
      "step": 120
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.5899138192076814,
      "learning_rate": 1.5512820512820516e-05,
      "loss": 1.0061,
      "step": 121
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.5352285437269109,
      "learning_rate": 1.5641025641025644e-05,
      "loss": 1.0393,
      "step": 122
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.292896371008395,
      "learning_rate": 1.576923076923077e-05,
      "loss": 0.8911,
      "step": 123
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6422369517036315,
      "learning_rate": 1.5897435897435897e-05,
      "loss": 0.9704,
      "step": 124
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.8575959434934957,
      "learning_rate": 1.602564102564103e-05,
      "loss": 1.0081,
      "step": 125
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.234770294298596,
      "learning_rate": 1.6153846153846154e-05,
      "loss": 0.9086,
      "step": 126
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.638182720519514,
      "learning_rate": 1.6282051282051282e-05,
      "loss": 1.0279,
      "step": 127
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.24059188882515,
      "learning_rate": 1.641025641025641e-05,
      "loss": 0.9088,
      "step": 128
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.6847470094088817,
      "learning_rate": 1.653846153846154e-05,
      "loss": 0.9939,
      "step": 129
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.0138379823048536,
      "learning_rate": 1.6666666666666667e-05,
      "loss": 1.0475,
      "step": 130
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5835041571737363,
      "learning_rate": 1.6794871794871796e-05,
      "loss": 1.0012,
      "step": 131
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.449301413307708,
      "learning_rate": 1.6923076923076924e-05,
      "loss": 0.9633,
      "step": 132
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4671597076460914,
      "learning_rate": 1.7051282051282053e-05,
      "loss": 0.8834,
      "step": 133
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5448687383915443,
      "learning_rate": 1.717948717948718e-05,
      "loss": 0.9535,
      "step": 134
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.2442262932942645,
      "learning_rate": 1.730769230769231e-05,
      "loss": 0.8613,
      "step": 135
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4591564279052238,
      "learning_rate": 1.7435897435897438e-05,
      "loss": 0.9116,
      "step": 136
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.739994919910976,
      "learning_rate": 1.7564102564102566e-05,
      "loss": 1.0203,
      "step": 137
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4255749564643576,
      "learning_rate": 1.7692307692307694e-05,
      "loss": 0.9352,
      "step": 138
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7975673204783085,
      "learning_rate": 1.7820512820512823e-05,
      "loss": 0.9476,
      "step": 139
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.687855968856719,
      "learning_rate": 1.794871794871795e-05,
      "loss": 1.1277,
      "step": 140
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4034838547974098,
      "learning_rate": 1.807692307692308e-05,
      "loss": 1.0239,
      "step": 141
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.319073677291556,
      "learning_rate": 1.8205128205128208e-05,
      "loss": 0.893,
      "step": 142
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6426073036595905,
      "learning_rate": 1.8333333333333333e-05,
      "loss": 0.9649,
      "step": 143
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6991552774040564,
      "learning_rate": 1.8461538461538465e-05,
      "loss": 0.982,
      "step": 144
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4743710009428481,
      "learning_rate": 1.8589743589743593e-05,
      "loss": 0.971,
      "step": 145
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.9275158441350975,
      "learning_rate": 1.8717948717948718e-05,
      "loss": 1.0425,
      "step": 146
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.9464081695715907,
      "learning_rate": 1.8846153846153846e-05,
      "loss": 0.9713,
      "step": 147
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.2844666900037964,
      "learning_rate": 1.8974358974358975e-05,
      "loss": 0.9738,
      "step": 148
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7341298266191183,
      "learning_rate": 1.9102564102564106e-05,
      "loss": 0.907,
      "step": 149
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.482200595363351,
      "learning_rate": 1.923076923076923e-05,
      "loss": 0.9745,
      "step": 150
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7491378177024126,
      "learning_rate": 1.935897435897436e-05,
      "loss": 1.0545,
      "step": 151
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6655127670916188,
      "learning_rate": 1.9487179487179488e-05,
      "loss": 0.7132,
      "step": 152
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.758340750899157,
      "learning_rate": 1.9615384615384617e-05,
      "loss": 0.8769,
      "step": 153
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.508139821210731,
      "learning_rate": 1.9743589743589745e-05,
      "loss": 0.9791,
      "step": 154
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.1773713514934823,
      "learning_rate": 1.9871794871794873e-05,
      "loss": 1.0454,
      "step": 155
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.2539607326608386,
      "learning_rate": 2e-05,
      "loss": 0.8062,
      "step": 156
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.309401446143108,
      "learning_rate": 1.9999998058057616e-05,
      "loss": 0.9571,
      "step": 157
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.704243442564264,
      "learning_rate": 1.9999992232231216e-05,
      "loss": 0.9419,
      "step": 158
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.863886466991396,
      "learning_rate": 1.999998252252306e-05,
      "loss": 0.8864,
      "step": 159
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.227263540902949,
      "learning_rate": 1.9999968928936924e-05,
      "loss": 1.005,
      "step": 160
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6885364802039864,
      "learning_rate": 1.999995145147809e-05,
      "loss": 0.7565,
      "step": 161
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.900439526398236,
      "learning_rate": 1.9999930090153335e-05,
      "loss": 0.9072,
      "step": 162
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.49128794502495,
      "learning_rate": 1.9999904844970963e-05,
      "loss": 0.9896,
      "step": 163
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.550864518906363,
      "learning_rate": 1.999987571594078e-05,
      "loss": 0.8884,
      "step": 164
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4285010563704963,
      "learning_rate": 1.99998427030741e-05,
      "loss": 1.0135,
      "step": 165
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.812842518098925,
      "learning_rate": 1.999980580638374e-05,
      "loss": 0.9372,
      "step": 166
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.56498296209379,
      "learning_rate": 1.999976502588403e-05,
      "loss": 1.0684,
      "step": 167
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.6283218861590936,
      "learning_rate": 1.9999720361590812e-05,
      "loss": 1.0097,
      "step": 168
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.3745385521391984,
      "learning_rate": 1.9999671813521435e-05,
      "loss": 0.9186,
      "step": 169
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7897648369765202,
      "learning_rate": 1.999961938169475e-05,
      "loss": 0.9887,
      "step": 170
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4270704313348161,
      "learning_rate": 1.9999563066131124e-05,
      "loss": 1.0317,
      "step": 171
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.3625953072921875,
      "learning_rate": 1.9999502866852427e-05,
      "loss": 0.8898,
      "step": 172
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.8668860584702716,
      "learning_rate": 1.999943878388204e-05,
      "loss": 1.0591,
      "step": 173
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4830149989391703,
      "learning_rate": 1.9999370817244853e-05,
      "loss": 1.0062,
      "step": 174
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.731538998112669,
      "learning_rate": 1.9999298966967264e-05,
      "loss": 0.9135,
      "step": 175
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5885385927902769,
      "learning_rate": 1.9999223233077178e-05,
      "loss": 0.9871,
      "step": 176
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.4012157455260668,
      "learning_rate": 1.999914361560401e-05,
      "loss": 0.9972,
      "step": 177
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.8191011218941802,
      "learning_rate": 1.9999060114578682e-05,
      "loss": 1.0236,
      "step": 178
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.238801048664314,
      "learning_rate": 1.9998972730033624e-05,
      "loss": 1.0754,
      "step": 179
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.5219305367343197,
      "learning_rate": 1.9998881462002778e-05,
      "loss": 1.004,
      "step": 180
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7953183905684975,
      "learning_rate": 1.9998786310521585e-05,
      "loss": 1.0116,
      "step": 181
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.593577257546605,
      "learning_rate": 1.9998687275627008e-05,
      "loss": 0.9572,
      "step": 182
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7768782986072928,
      "learning_rate": 1.9998584357357503e-05,
      "loss": 1.0202,
      "step": 183
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.0219809277053704,
      "learning_rate": 1.9998477555753054e-05,
      "loss": 1.0572,
      "step": 184
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2012594129097323,
      "learning_rate": 1.9998366870855134e-05,
      "loss": 0.8105,
      "step": 185
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5517792628217912,
      "learning_rate": 1.999825230270673e-05,
      "loss": 1.0687,
      "step": 186
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.3481934882907889,
      "learning_rate": 1.9998133851352342e-05,
      "loss": 1.0118,
      "step": 187
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6037204056426515,
      "learning_rate": 1.9998011516837974e-05,
      "loss": 1.0029,
      "step": 188
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7661523954380567,
      "learning_rate": 1.999788529921114e-05,
      "loss": 0.9431,
      "step": 189
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.231871695783508,
      "learning_rate": 1.999775519852086e-05,
      "loss": 0.9818,
      "step": 190
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.235026406479297,
      "learning_rate": 1.999762121481767e-05,
      "loss": 1.0128,
      "step": 191
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5357231953885135,
      "learning_rate": 1.99974833481536e-05,
      "loss": 0.8498,
      "step": 192
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.558026805518986,
      "learning_rate": 1.9997341598582197e-05,
      "loss": 1.0232,
      "step": 193
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5236951035557438,
      "learning_rate": 1.9997195966158518e-05,
      "loss": 1.0904,
      "step": 194
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8549949005802642,
      "learning_rate": 1.9997046450939122e-05,
      "loss": 1.0112,
      "step": 195
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.3051258736589928,
      "learning_rate": 1.9996893052982083e-05,
      "loss": 0.9598,
      "step": 196
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2487214650236507,
      "learning_rate": 1.9996735772346973e-05,
      "loss": 0.9758,
      "step": 197
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8343108971205753,
      "learning_rate": 1.9996574609094887e-05,
      "loss": 1.0094,
      "step": 198
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6213888546045538,
      "learning_rate": 1.9996409563288404e-05,
      "loss": 0.8991,
      "step": 199
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2455131254655623,
      "learning_rate": 1.9996240634991645e-05,
      "loss": 0.9082,
      "step": 200
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4489609098228713,
      "learning_rate": 1.9996067824270204e-05,
      "loss": 0.8936,
      "step": 201
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2483505605622434,
      "learning_rate": 1.999589113119121e-05,
      "loss": 0.925,
      "step": 202
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6974783940723988,
      "learning_rate": 1.9995710555823277e-05,
      "loss": 0.8972,
      "step": 203
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.8555756502978749,
      "learning_rate": 1.999552609823655e-05,
      "loss": 1.0036,
      "step": 204
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.38731262459056,
      "learning_rate": 1.999533775850266e-05,
      "loss": 1.02,
      "step": 205
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6174661461370416,
      "learning_rate": 1.9995145536694764e-05,
      "loss": 1.0025,
      "step": 206
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.3218559404531078,
      "learning_rate": 1.9994949432887512e-05,
      "loss": 0.9645,
      "step": 207
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5208901832286035,
      "learning_rate": 1.999474944715708e-05,
      "loss": 0.9877,
      "step": 208
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2742485169062618,
      "learning_rate": 1.9994545579581125e-05,
      "loss": 0.7578,
      "step": 209
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5656042880638934,
      "learning_rate": 1.9994337830238836e-05,
      "loss": 1.037,
      "step": 210
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6897780541424028,
      "learning_rate": 1.9994126199210897e-05,
      "loss": 1.0001,
      "step": 211
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6424377947883473,
      "learning_rate": 1.999391068657951e-05,
      "loss": 0.9866,
      "step": 212
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4487343610666905,
      "learning_rate": 1.9993691292428364e-05,
      "loss": 1.0071,
      "step": 213
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4507181819270694,
      "learning_rate": 1.9993468016842684e-05,
      "loss": 1.0207,
      "step": 214
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7093242596107705,
      "learning_rate": 1.999324085990918e-05,
      "loss": 1.0414,
      "step": 215
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4052980677955966,
      "learning_rate": 1.9993009821716076e-05,
      "loss": 0.9055,
      "step": 216
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5947762341130793,
      "learning_rate": 1.9992774902353104e-05,
      "loss": 1.0854,
      "step": 217
    },
    {
      "epoch": 0.04,
      "grad_norm": 2.093250316004198,
      "learning_rate": 1.999253610191151e-05,
      "loss": 1.005,
      "step": 218
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4290388852767206,
      "learning_rate": 1.999229342048404e-05,
      "loss": 1.0365,
      "step": 219
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.390616152365538,
      "learning_rate": 1.9992046858164942e-05,
      "loss": 0.9085,
      "step": 220
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.9044031883787487,
      "learning_rate": 1.999179641504999e-05,
      "loss": 0.9812,
      "step": 221
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4640786022748091,
      "learning_rate": 1.9991542091236438e-05,
      "loss": 0.9174,
      "step": 222
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.6289771885599253,
      "learning_rate": 1.9991283886823075e-05,
      "loss": 1.0007,
      "step": 223
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4990288145670922,
      "learning_rate": 1.9991021801910177e-05,
      "loss": 0.9661,
      "step": 224
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.9266373238493297,
      "learning_rate": 1.999075583659954e-05,
      "loss": 1.0532,
      "step": 225
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5228789620003507,
      "learning_rate": 1.999048599099446e-05,
      "loss": 1.0694,
      "step": 226
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.5571512814000046,
      "learning_rate": 1.9990212265199738e-05,
      "loss": 0.9446,
      "step": 227
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4057475985685437,
      "learning_rate": 1.998993465932169e-05,
      "loss": 1.063,
      "step": 228
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.1803281428842873,
      "learning_rate": 1.9989653173468137e-05,
      "loss": 0.9853,
      "step": 229
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.4825629737609691,
      "learning_rate": 1.99893678077484e-05,
      "loss": 0.965,
      "step": 230
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.634217699123329,
      "learning_rate": 1.9989078562273313e-05,
      "loss": 0.9588,
      "step": 231
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0987185525286125,
      "learning_rate": 1.9988785437155222e-05,
      "loss": 0.9079,
      "step": 232
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.3358227962195612,
      "learning_rate": 1.9988488432507963e-05,
      "loss": 0.999,
      "step": 233
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6869511765962697,
      "learning_rate": 1.9988187548446895e-05,
      "loss": 1.0147,
      "step": 234
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5394053308794007,
      "learning_rate": 1.998788278508888e-05,
      "loss": 1.0317,
      "step": 235
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2155785684127154,
      "learning_rate": 1.9987574142552274e-05,
      "loss": 0.894,
      "step": 236
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0904468650154988,
      "learning_rate": 1.9987261620956964e-05,
      "loss": 0.9068,
      "step": 237
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.8264310701298212,
      "learning_rate": 1.9986945220424326e-05,
      "loss": 0.9816,
      "step": 238
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.270808892343999,
      "learning_rate": 1.998662494107724e-05,
      "loss": 0.8673,
      "step": 239
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.374619765972768,
      "learning_rate": 1.99863007830401e-05,
      "loss": 0.8591,
      "step": 240
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4917492862796282,
      "learning_rate": 1.9985972746438815e-05,
      "loss": 0.9501,
      "step": 241
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4873602691428938,
      "learning_rate": 1.9985640831400778e-05,
      "loss": 0.952,
      "step": 242
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4810847976588872,
      "learning_rate": 1.998530503805491e-05,
      "loss": 1.0286,
      "step": 243
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.0022306082481642,
      "learning_rate": 1.9984965366531624e-05,
      "loss": 0.9845,
      "step": 244
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4144529780245845,
      "learning_rate": 1.9984621816962843e-05,
      "loss": 1.0053,
      "step": 245
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4906552768402488,
      "learning_rate": 1.9984274389482005e-05,
      "loss": 0.9667,
      "step": 246
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5008482049823513,
      "learning_rate": 1.9983923084224047e-05,
      "loss": 0.9122,
      "step": 247
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.334162044178132,
      "learning_rate": 1.9983567901325404e-05,
      "loss": 0.9364,
      "step": 248
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6807748183418783,
      "learning_rate": 1.9983208840924028e-05,
      "loss": 0.9922,
      "step": 249
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4829425321504572,
      "learning_rate": 1.998284590315937e-05,
      "loss": 0.8586,
      "step": 250
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6592661142993594,
      "learning_rate": 1.9982479088172403e-05,
      "loss": 1.0163,
      "step": 251
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6008672001618438,
      "learning_rate": 1.9982108396105584e-05,
      "loss": 0.9046,
      "step": 252
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.8056172640271806,
      "learning_rate": 1.9981733827102884e-05,
      "loss": 1.0242,
      "step": 253
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4503000285813077,
      "learning_rate": 1.998135538130979e-05,
      "loss": 0.8534,
      "step": 254
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.1540378888770986,
      "learning_rate": 1.998097305887328e-05,
      "loss": 0.8416,
      "step": 255
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6181760186367775,
      "learning_rate": 1.9980586859941846e-05,
      "loss": 0.9381,
      "step": 256
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4375198485336174,
      "learning_rate": 1.998019678466548e-05,
      "loss": 1.0409,
      "step": 257
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4577208819200076,
      "learning_rate": 1.997980283319568e-05,
      "loss": 0.8643,
      "step": 258
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.3057694101952282,
      "learning_rate": 1.9979405005685466e-05,
      "loss": 0.9583,
      "step": 259
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.1930859259464994,
      "learning_rate": 1.9979003302289336e-05,
      "loss": 0.8697,
      "step": 260
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.225162965805753,
      "learning_rate": 1.997859772316331e-05,
      "loss": 0.9607,
      "step": 261
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.180602075197453,
      "learning_rate": 1.9978188268464912e-05,
      "loss": 0.9862,
      "step": 262
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6080781366415409,
      "learning_rate": 1.997777493835317e-05,
      "loss": 0.9723,
      "step": 263
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2083778947767607,
      "learning_rate": 1.9977357732988616e-05,
      "loss": 0.9373,
      "step": 264
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.3230540409265745,
      "learning_rate": 1.9976936652533288e-05,
      "loss": 0.8451,
      "step": 265
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2668832380799606,
      "learning_rate": 1.997651169715073e-05,
      "loss": 0.9827,
      "step": 266
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6067408217440924,
      "learning_rate": 1.9976082867005985e-05,
      "loss": 1.0218,
      "step": 267
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5148806206464114,
      "learning_rate": 1.997565016226561e-05,
      "loss": 0.9566,
      "step": 268
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2805652669530492,
      "learning_rate": 1.997521358309766e-05,
      "loss": 0.9317,
      "step": 269
    },
    {
      "epoch": 0.05,
      "grad_norm": 2.0487739121253052,
      "learning_rate": 1.99747731296717e-05,
      "loss": 1.0368,
      "step": 270
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.2811351775918025,
      "learning_rate": 1.9974328802158798e-05,
      "loss": 0.8499,
      "step": 271
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.204037580507294,
      "learning_rate": 1.997388060073152e-05,
      "loss": 0.8298,
      "step": 272
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5733508105698173,
      "learning_rate": 1.9973428525563948e-05,
      "loss": 1.0649,
      "step": 273
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.3221700709877289,
      "learning_rate": 1.9972972576831656e-05,
      "loss": 0.9528,
      "step": 274
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4485970237351573,
      "learning_rate": 1.9972512754711738e-05,
      "loss": 0.8519,
      "step": 275
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4403522781003235,
      "learning_rate": 1.997204905938278e-05,
      "loss": 0.9228,
      "step": 276
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.3697296489717246,
      "learning_rate": 1.9971581491024873e-05,
      "loss": 0.8935,
      "step": 277
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.18025337551274,
      "learning_rate": 1.997111004981962e-05,
      "loss": 0.9014,
      "step": 278
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6262928417397289,
      "learning_rate": 1.9970634735950117e-05,
      "loss": 0.9796,
      "step": 279
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6094482119351792,
      "learning_rate": 1.9970155549600978e-05,
      "loss": 0.7856,
      "step": 280
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5116138218534065,
      "learning_rate": 1.9969672490958304e-05,
      "loss": 0.8784,
      "step": 281
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4701565753433876,
      "learning_rate": 1.996918556020972e-05,
      "loss": 0.9973,
      "step": 282
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.6745390025119842,
      "learning_rate": 1.996869475754434e-05,
      "loss": 0.8723,
      "step": 283
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.243335064845993,
      "learning_rate": 1.9968200083152784e-05,
      "loss": 0.9176,
      "step": 284
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.266327614375521,
      "learning_rate": 1.9967701537227175e-05,
      "loss": 1.0171,
      "step": 285
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4279326214510402,
      "learning_rate": 1.996719911996115e-05,
      "loss": 1.0419,
      "step": 286
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0612954179510385,
      "learning_rate": 1.996669283154984e-05,
      "loss": 0.8263,
      "step": 287
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.0938961514929773,
      "learning_rate": 1.996618267218988e-05,
      "loss": 0.9723,
      "step": 288
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3186312709458854,
      "learning_rate": 1.996566864207941e-05,
      "loss": 0.9566,
      "step": 289
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.602139309486597,
      "learning_rate": 1.9965150741418072e-05,
      "loss": 1.027,
      "step": 290
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1689548619516845,
      "learning_rate": 1.9964628970407018e-05,
      "loss": 0.8225,
      "step": 291
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.732690068691143,
      "learning_rate": 1.9964103329248892e-05,
      "loss": 1.032,
      "step": 292
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.693203044943807,
      "learning_rate": 1.996357381814785e-05,
      "loss": 0.9992,
      "step": 293
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.2186422988180485,
      "learning_rate": 1.996304043730955e-05,
      "loss": 0.9682,
      "step": 294
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3195119028539208,
      "learning_rate": 1.9962503186941143e-05,
      "loss": 0.943,
      "step": 295
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.67848357702017,
      "learning_rate": 1.9961962067251298e-05,
      "loss": 0.9276,
      "step": 296
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7870658533081163,
      "learning_rate": 1.9961417078450177e-05,
      "loss": 0.986,
      "step": 297
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1999691427288008,
      "learning_rate": 1.996086822074945e-05,
      "loss": 0.8803,
      "step": 298
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3777162763760402,
      "learning_rate": 1.9960315494362286e-05,
      "loss": 0.9899,
      "step": 299
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4056712029013234,
      "learning_rate": 1.9959758899503355e-05,
      "loss": 1.0089,
      "step": 300
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3085446241751317,
      "learning_rate": 1.995919843638883e-05,
      "loss": 0.8701,
      "step": 301
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3739051381571608,
      "learning_rate": 1.9958634105236395e-05,
      "loss": 0.9862,
      "step": 302
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.224490038214899,
      "learning_rate": 1.9958065906265228e-05,
      "loss": 1.0443,
      "step": 303
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0609976590267916,
      "learning_rate": 1.9957493839696013e-05,
      "loss": 0.8202,
      "step": 304
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.466228719842048,
      "learning_rate": 1.9956917905750926e-05,
      "loss": 0.991,
      "step": 305
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.8774751022747744,
      "learning_rate": 1.995633810465366e-05,
      "loss": 0.9249,
      "step": 306
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5750487960648445,
      "learning_rate": 1.99557544366294e-05,
      "loss": 1.0066,
      "step": 307
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5335315088442272,
      "learning_rate": 1.9955166901904838e-05,
      "loss": 0.9489,
      "step": 308
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1111303989084456,
      "learning_rate": 1.9954575500708164e-05,
      "loss": 0.8681,
      "step": 309
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.292703058857446,
      "learning_rate": 1.995398023326907e-05,
      "loss": 0.8788,
      "step": 310
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6508198134895735,
      "learning_rate": 1.9953381099818756e-05,
      "loss": 1.0075,
      "step": 311
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.2011573639435114,
      "learning_rate": 1.9952778100589912e-05,
      "loss": 0.8747,
      "step": 312
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6042560071548861,
      "learning_rate": 1.9952171235816747e-05,
      "loss": 0.9346,
      "step": 313
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0489529454601296,
      "learning_rate": 1.9951560505734948e-05,
      "loss": 0.8155,
      "step": 314
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6885662490782845,
      "learning_rate": 1.9950945910581718e-05,
      "loss": 0.8774,
      "step": 315
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5652054726060178,
      "learning_rate": 1.9950327450595766e-05,
      "loss": 1.0099,
      "step": 316
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.2496837163671388,
      "learning_rate": 1.9949705126017286e-05,
      "loss": 0.9548,
      "step": 317
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3135463158971474,
      "learning_rate": 1.9949078937087988e-05,
      "loss": 0.9255,
      "step": 318
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7123791307192688,
      "learning_rate": 1.994844888405107e-05,
      "loss": 0.9785,
      "step": 319
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1056050567872828,
      "learning_rate": 1.9947814967151246e-05,
      "loss": 0.9739,
      "step": 320
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3799424347546951,
      "learning_rate": 1.9947177186634716e-05,
      "loss": 0.9472,
      "step": 321
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5957454333772285,
      "learning_rate": 1.9946535542749187e-05,
      "loss": 0.9937,
      "step": 322
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.2740075778544226,
      "learning_rate": 1.9945890035743866e-05,
      "loss": 1.0284,
      "step": 323
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3177977575466795,
      "learning_rate": 1.9945240665869465e-05,
      "loss": 0.8947,
      "step": 324
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1290849462565657,
      "learning_rate": 1.9944587433378187e-05,
      "loss": 0.7481,
      "step": 325
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.097104538661587,
      "learning_rate": 1.994393033852374e-05,
      "loss": 0.8315,
      "step": 326
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.5111556932872448,
      "learning_rate": 1.9943269381561334e-05,
      "loss": 0.9365,
      "step": 327
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3213709585941358,
      "learning_rate": 1.994260456274768e-05,
      "loss": 0.9411,
      "step": 328
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.871540509008911,
      "learning_rate": 1.9941935882340976e-05,
      "loss": 0.8952,
      "step": 329
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.910126762416066,
      "learning_rate": 1.994126334060094e-05,
      "loss": 1.0357,
      "step": 330
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.042164013021033,
      "learning_rate": 1.994058693778878e-05,
      "loss": 0.7325,
      "step": 331
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.6241002910502698,
      "learning_rate": 1.9939906674167192e-05,
      "loss": 0.9138,
      "step": 332
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4689416535231379,
      "learning_rate": 1.993922255000039e-05,
      "loss": 0.9248,
      "step": 333
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.4638169949956337,
      "learning_rate": 1.993853456555408e-05,
      "loss": 1.0395,
      "step": 334
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.454412546041785,
      "learning_rate": 1.9937842721095468e-05,
      "loss": 0.9112,
      "step": 335
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3047912386522693,
      "learning_rate": 1.9937147016893257e-05,
      "loss": 0.7278,
      "step": 336
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1608236591494205,
      "learning_rate": 1.9936447453217646e-05,
      "loss": 0.8123,
      "step": 337
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7148338775958853,
      "learning_rate": 1.9935744030340347e-05,
      "loss": 0.9114,
      "step": 338
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.240099240622963,
      "learning_rate": 1.9935036748534555e-05,
      "loss": 0.9579,
      "step": 339
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.049891666535118,
      "learning_rate": 1.993432560807497e-05,
      "loss": 0.8941,
      "step": 340
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5383622239239372,
      "learning_rate": 1.993361060923779e-05,
      "loss": 1.0037,
      "step": 341
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5479886361327517,
      "learning_rate": 1.9932891752300717e-05,
      "loss": 1.0606,
      "step": 342
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6471502630723158,
      "learning_rate": 1.9932169037542947e-05,
      "loss": 0.999,
      "step": 343
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.258201162934217,
      "learning_rate": 1.9931442465245164e-05,
      "loss": 0.8696,
      "step": 344
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3460106297632275,
      "learning_rate": 1.9930712035689576e-05,
      "loss": 0.9241,
      "step": 345
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.364751928040619,
      "learning_rate": 1.992997774915986e-05,
      "loss": 0.9475,
      "step": 346
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.214427449662636,
      "learning_rate": 1.992923960594121e-05,
      "loss": 0.9982,
      "step": 347
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5932131563174907,
      "learning_rate": 1.9928497606320308e-05,
      "loss": 0.9427,
      "step": 348
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6157254553061917,
      "learning_rate": 1.992775175058535e-05,
      "loss": 0.9568,
      "step": 349
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3184710850894439,
      "learning_rate": 1.9927002039026002e-05,
      "loss": 0.9028,
      "step": 350
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6537654444221308,
      "learning_rate": 1.9926248471933453e-05,
      "loss": 1.0343,
      "step": 351
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6017579729884597,
      "learning_rate": 1.9925491049600382e-05,
      "loss": 0.9118,
      "step": 352
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3885374201966387,
      "learning_rate": 1.9924729772320953e-05,
      "loss": 0.9256,
      "step": 353
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1903979217611158,
      "learning_rate": 1.9923964640390846e-05,
      "loss": 0.9287,
      "step": 354
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3121460614068337,
      "learning_rate": 1.9923195654107227e-05,
      "loss": 0.9986,
      "step": 355
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.0554422471800136,
      "learning_rate": 1.992242281376876e-05,
      "loss": 0.9967,
      "step": 356
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.37260213824925,
      "learning_rate": 1.9921646119675606e-05,
      "loss": 0.9635,
      "step": 357
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.2684567907792619,
      "learning_rate": 1.9920865572129426e-05,
      "loss": 0.8977,
      "step": 358
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3669449611517488,
      "learning_rate": 1.9920081171433377e-05,
      "loss": 0.9295,
      "step": 359
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.2600918881478107,
      "learning_rate": 1.991929291789211e-05,
      "loss": 0.9996,
      "step": 360
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.564666652216284,
      "learning_rate": 1.9918500811811778e-05,
      "loss": 0.9572,
      "step": 361
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1880873034420938,
      "learning_rate": 1.991770485350002e-05,
      "loss": 0.9073,
      "step": 362
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6147427692961636,
      "learning_rate": 1.991690504326597e-05,
      "loss": 0.9294,
      "step": 363
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5854874334026787,
      "learning_rate": 1.9916101381420285e-05,
      "loss": 0.9799,
      "step": 364
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6460420338441626,
      "learning_rate": 1.9915293868275083e-05,
      "loss": 0.9834,
      "step": 365
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.165786429504144,
      "learning_rate": 1.9914482504143996e-05,
      "loss": 0.9024,
      "step": 366
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5147109381559534,
      "learning_rate": 1.9913667289342147e-05,
      "loss": 0.9961,
      "step": 367
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6866461169988645,
      "learning_rate": 1.991284822418616e-05,
      "loss": 1.0772,
      "step": 368
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.7083297925472394,
      "learning_rate": 1.9912025308994146e-05,
      "loss": 1.0759,
      "step": 369
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3186524245612359,
      "learning_rate": 1.9911198544085723e-05,
      "loss": 0.8543,
      "step": 370
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4085156921200719,
      "learning_rate": 1.991036792978199e-05,
      "loss": 0.9512,
      "step": 371
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6703994826461162,
      "learning_rate": 1.990953346640555e-05,
      "loss": 0.9989,
      "step": 372
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3092185717229863,
      "learning_rate": 1.9908695154280496e-05,
      "loss": 0.9829,
      "step": 373
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.125215335411907,
      "learning_rate": 1.9907852993732425e-05,
      "loss": 1.06,
      "step": 374
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.533232560791899,
      "learning_rate": 1.990700698508842e-05,
      "loss": 1.0689,
      "step": 375
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.537051939890966,
      "learning_rate": 1.990615712867706e-05,
      "loss": 0.9859,
      "step": 376
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1930972387347314,
      "learning_rate": 1.9905303424828418e-05,
      "loss": 0.9264,
      "step": 377
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0941431797018872,
      "learning_rate": 1.9904445873874068e-05,
      "loss": 0.8763,
      "step": 378
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6195491357686116,
      "learning_rate": 1.9903584476147066e-05,
      "loss": 0.8081,
      "step": 379
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0914586416348542,
      "learning_rate": 1.9902719231981975e-05,
      "loss": 0.8806,
      "step": 380
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5485074019676837,
      "learning_rate": 1.9901850141714843e-05,
      "loss": 0.8881,
      "step": 381
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.3104955614138103,
      "learning_rate": 1.9900977205683213e-05,
      "loss": 0.925,
      "step": 382
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5801240834176224,
      "learning_rate": 1.9900100424226124e-05,
      "loss": 1.0368,
      "step": 383
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.104534452761271,
      "learning_rate": 1.9899219797684113e-05,
      "loss": 0.9672,
      "step": 384
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.0332810444700926,
      "learning_rate": 1.98983353263992e-05,
      "loss": 0.8681,
      "step": 385
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.441361585076241,
      "learning_rate": 1.9897447010714905e-05,
      "loss": 0.7881,
      "step": 386
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.6090822422309667,
      "learning_rate": 1.989655485097624e-05,
      "loss": 0.9875,
      "step": 387
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1851316593752264,
      "learning_rate": 1.989565884752971e-05,
      "loss": 0.9191,
      "step": 388
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.5675316775565629,
      "learning_rate": 1.9894759000723308e-05,
      "loss": 0.9985,
      "step": 389
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5150147354215702,
      "learning_rate": 1.9893855310906526e-05,
      "loss": 0.8699,
      "step": 390
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.1573691885814306,
      "learning_rate": 1.9892947778430352e-05,
      "loss": 0.7918,
      "step": 391
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.7213694608860628,
      "learning_rate": 1.9892036403647256e-05,
      "loss": 1.0162,
      "step": 392
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0937744903164233,
      "learning_rate": 1.9891121186911207e-05,
      "loss": 0.92,
      "step": 393
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.482093817456445,
      "learning_rate": 1.9890202128577664e-05,
      "loss": 0.8452,
      "step": 394
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2820664499786671,
      "learning_rate": 1.988927922900358e-05,
      "loss": 0.9702,
      "step": 395
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4787684248742676,
      "learning_rate": 1.9888352488547397e-05,
      "loss": 0.9665,
      "step": 396
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5498731071642668,
      "learning_rate": 1.988742190756905e-05,
      "loss": 0.8601,
      "step": 397
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3154365285201344,
      "learning_rate": 1.9886487486429966e-05,
      "loss": 0.8621,
      "step": 398
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.7987660382808697,
      "learning_rate": 1.9885549225493064e-05,
      "loss": 0.9651,
      "step": 399
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2820950885229174,
      "learning_rate": 1.9884607125122753e-05,
      "loss": 0.9646,
      "step": 400
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3930930781226227,
      "learning_rate": 1.988366118568494e-05,
      "loss": 0.9767,
      "step": 401
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.299228997876852,
      "learning_rate": 1.988271140754701e-05,
      "loss": 0.8637,
      "step": 402
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2542442229496256,
      "learning_rate": 1.9881757791077848e-05,
      "loss": 0.9906,
      "step": 403
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.241933839842853,
      "learning_rate": 1.9880800336647825e-05,
      "loss": 0.6513,
      "step": 404
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4557391374197641,
      "learning_rate": 1.987983904462881e-05,
      "loss": 0.9553,
      "step": 405
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2054056465603795,
      "learning_rate": 1.9878873915394154e-05,
      "loss": 0.9586,
      "step": 406
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3675002993656578,
      "learning_rate": 1.9877904949318704e-05,
      "loss": 0.8588,
      "step": 407
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4373165711996183,
      "learning_rate": 1.9876932146778796e-05,
      "loss": 1.0021,
      "step": 408
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5907812901154885,
      "learning_rate": 1.9875955508152254e-05,
      "loss": 0.9827,
      "step": 409
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.001056659564212,
      "learning_rate": 1.987497503381839e-05,
      "loss": 0.7584,
      "step": 410
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3175095056463137,
      "learning_rate": 1.9873990724158014e-05,
      "loss": 0.9784,
      "step": 411
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.310821154690749,
      "learning_rate": 1.987300257955342e-05,
      "loss": 0.9588,
      "step": 412
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.982371857909454,
      "learning_rate": 1.987201060038839e-05,
      "loss": 0.9429,
      "step": 413
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0896735913056623,
      "learning_rate": 1.9871014787048197e-05,
      "loss": 0.8463,
      "step": 414
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5100901160607043,
      "learning_rate": 1.9870015139919606e-05,
      "loss": 0.8082,
      "step": 415
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.5849758656939283,
      "learning_rate": 1.9869011659390866e-05,
      "loss": 0.9882,
      "step": 416
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3551563602415797,
      "learning_rate": 1.9868004345851716e-05,
      "loss": 0.9763,
      "step": 417
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3786485075849626,
      "learning_rate": 1.9866993199693393e-05,
      "loss": 0.9811,
      "step": 418
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4357370652828871,
      "learning_rate": 1.98659782213086e-05,
      "loss": 0.6823,
      "step": 419
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4823924948805265,
      "learning_rate": 1.986495941109156e-05,
      "loss": 0.9741,
      "step": 420
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3156743922951741,
      "learning_rate": 1.9863936769437956e-05,
      "loss": 0.9345,
      "step": 421
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.305676112122953,
      "learning_rate": 1.986291029674497e-05,
      "loss": 0.9361,
      "step": 422
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0440699067626618,
      "learning_rate": 1.986187999341128e-05,
      "loss": 0.9296,
      "step": 423
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0968722890211768,
      "learning_rate": 1.9860845859837034e-05,
      "loss": 1.0248,
      "step": 424
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.8172084339326795,
      "learning_rate": 1.985980789642388e-05,
      "loss": 0.945,
      "step": 425
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2026021037074415,
      "learning_rate": 1.985876610357496e-05,
      "loss": 0.8617,
      "step": 426
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2522783162078808,
      "learning_rate": 1.9857720481694887e-05,
      "loss": 0.9066,
      "step": 427
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4881311795273802,
      "learning_rate": 1.9856671031189765e-05,
      "loss": 0.9112,
      "step": 428
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.9599884471657617,
      "learning_rate": 1.98556177524672e-05,
      "loss": 0.769,
      "step": 429
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2670277760395485,
      "learning_rate": 1.9854560645936262e-05,
      "loss": 0.9338,
      "step": 430
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.1516274834608244,
      "learning_rate": 1.9853499712007523e-05,
      "loss": 1.0159,
      "step": 431
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.4678511922574786,
      "learning_rate": 1.9852434951093035e-05,
      "loss": 0.938,
      "step": 432
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.7539671736503235,
      "learning_rate": 1.985136636360635e-05,
      "loss": 1.0246,
      "step": 433
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.403608910995641,
      "learning_rate": 1.985029394996248e-05,
      "loss": 0.9635,
      "step": 434
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3342995016579298,
      "learning_rate": 1.9849217710577945e-05,
      "loss": 0.8509,
      "step": 435
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.8154729296257524,
      "learning_rate": 1.9848137645870745e-05,
      "loss": 0.9596,
      "step": 436
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0051541484584792,
      "learning_rate": 1.9847053756260363e-05,
      "loss": 0.8264,
      "step": 437
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.512970217850121,
      "learning_rate": 1.984596604216777e-05,
      "loss": 0.8973,
      "step": 438
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.8225401322018908,
      "learning_rate": 1.984487450401542e-05,
      "loss": 1.0129,
      "step": 439
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2271685520993463,
      "learning_rate": 1.9843779142227258e-05,
      "loss": 0.9145,
      "step": 440
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.3748447522930243,
      "learning_rate": 1.9842679957228706e-05,
      "loss": 0.8848,
      "step": 441
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5151455147795547,
      "learning_rate": 1.9841576949446675e-05,
      "loss": 0.9086,
      "step": 442
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3748420486096633,
      "learning_rate": 1.984047011930956e-05,
      "loss": 0.8515,
      "step": 443
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6172514879195625,
      "learning_rate": 1.9839359467247243e-05,
      "loss": 1.0544,
      "step": 444
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5735904259647067,
      "learning_rate": 1.983824499369109e-05,
      "loss": 1.0037,
      "step": 445
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.2397836902592374,
      "learning_rate": 1.9837126699073948e-05,
      "loss": 0.9453,
      "step": 446
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.1031711555542798,
      "learning_rate": 1.9836004583830146e-05,
      "loss": 0.7767,
      "step": 447
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5114526674664823,
      "learning_rate": 1.9834878648395507e-05,
      "loss": 1.0498,
      "step": 448
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.2337929852700928,
      "learning_rate": 1.9833748893207326e-05,
      "loss": 0.9254,
      "step": 449
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.1153015585803832,
      "learning_rate": 1.9832615318704388e-05,
      "loss": 0.8557,
      "step": 450
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.359615201596736,
      "learning_rate": 1.9831477925326962e-05,
      "loss": 0.8175,
      "step": 451
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0531021039444866,
      "learning_rate": 1.98303367135168e-05,
      "loss": 0.9019,
      "step": 452
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.232798785476646,
      "learning_rate": 1.9829191683717133e-05,
      "loss": 0.902,
      "step": 453
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.2047165253960983,
      "learning_rate": 1.9828042836372677e-05,
      "loss": 0.9676,
      "step": 454
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.2625332305684753,
      "learning_rate": 1.9826890171929634e-05,
      "loss": 0.933,
      "step": 455
    },
    {
      "epoch": 0.09,
      "grad_norm": 2.2100799796508506,
      "learning_rate": 1.982573369083568e-05,
      "loss": 0.9853,
      "step": 456
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3575418839474587,
      "learning_rate": 1.9824573393539984e-05,
      "loss": 1.0302,
      "step": 457
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.0363750392595106,
      "learning_rate": 1.982340928049319e-05,
      "loss": 0.663,
      "step": 458
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.596452382149596,
      "learning_rate": 1.9822241352147426e-05,
      "loss": 0.9545,
      "step": 459
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5333770478668358,
      "learning_rate": 1.9821069608956307e-05,
      "loss": 0.993,
      "step": 460
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.18857477455449,
      "learning_rate": 1.9819894051374917e-05,
      "loss": 0.9002,
      "step": 461
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.693813364314661,
      "learning_rate": 1.981871467985983e-05,
      "loss": 0.9989,
      "step": 462
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.1305359973460616,
      "learning_rate": 1.9817531494869105e-05,
      "loss": 0.9239,
      "step": 463
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4628371393181858,
      "learning_rate": 1.9816344496862272e-05,
      "loss": 0.841,
      "step": 464
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.336792075092981,
      "learning_rate": 1.9815153686300352e-05,
      "loss": 0.9062,
      "step": 465
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.573078896485759,
      "learning_rate": 1.981395906364584e-05,
      "loss": 0.8484,
      "step": 466
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4740514299700014,
      "learning_rate": 1.9812760629362714e-05,
      "loss": 0.9664,
      "step": 467
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5714694346951121,
      "learning_rate": 1.981155838391643e-05,
      "loss": 0.9051,
      "step": 468
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4138908423642278,
      "learning_rate": 1.9810352327773935e-05,
      "loss": 1.0425,
      "step": 469
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.334951910352568,
      "learning_rate": 1.9809142461403635e-05,
      "loss": 0.889,
      "step": 470
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.7169029921283114,
      "learning_rate": 1.9807928785275433e-05,
      "loss": 0.886,
      "step": 471
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.40638370275674,
      "learning_rate": 1.980671129986071e-05,
      "loss": 1.0636,
      "step": 472
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.2316060672204434,
      "learning_rate": 1.9805490005632323e-05,
      "loss": 0.8638,
      "step": 473
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.554553823498886,
      "learning_rate": 1.98042649030646e-05,
      "loss": 0.981,
      "step": 474
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.5374057422264291,
      "learning_rate": 1.9803035992633366e-05,
      "loss": 0.9727,
      "step": 475
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.9000912265812906,
      "learning_rate": 1.9801803274815915e-05,
      "loss": 0.9453,
      "step": 476
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.369621245044898,
      "learning_rate": 1.9800566750091018e-05,
      "loss": 1.0482,
      "step": 477
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.295356406079163,
      "learning_rate": 1.9799326418938924e-05,
      "loss": 0.9524,
      "step": 478
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6041155127449735,
      "learning_rate": 1.979808228184137e-05,
      "loss": 0.9186,
      "step": 479
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4240052468866304,
      "learning_rate": 1.9796834339281557e-05,
      "loss": 0.9098,
      "step": 480
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.011793599158398,
      "learning_rate": 1.979558259174418e-05,
      "loss": 1.0333,
      "step": 481
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3036101916673275,
      "learning_rate": 1.9794327039715395e-05,
      "loss": 0.8834,
      "step": 482
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.2807273245675144,
      "learning_rate": 1.979306768368285e-05,
      "loss": 0.9069,
      "step": 483
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3075314134694227,
      "learning_rate": 1.9791804524135663e-05,
      "loss": 0.9918,
      "step": 484
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.4095367779217398,
      "learning_rate": 1.979053756156443e-05,
      "loss": 0.9816,
      "step": 485
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3584926841286655,
      "learning_rate": 1.9789266796461222e-05,
      "loss": 1.0001,
      "step": 486
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.046447587701579,
      "learning_rate": 1.9787992229319594e-05,
      "loss": 0.7703,
      "step": 487
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6862857095528243,
      "learning_rate": 1.978671386063457e-05,
      "loss": 0.9421,
      "step": 488
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.3991618311789042,
      "learning_rate": 1.978543169090265e-05,
      "loss": 0.9703,
      "step": 489
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.639056298480107,
      "learning_rate": 1.9784145720621827e-05,
      "loss": 0.9022,
      "step": 490
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.6791590937894976,
      "learning_rate": 1.9782855950291542e-05,
      "loss": 1.0086,
      "step": 491
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.1816759711094231,
      "learning_rate": 1.978156238041274e-05,
      "loss": 0.8019,
      "step": 492
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.623131518847988,
      "learning_rate": 1.9780265011487822e-05,
      "loss": 0.9753,
      "step": 493
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5006235454602723,
      "learning_rate": 1.9778963844020668e-05,
      "loss": 1.0084,
      "step": 494
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6587306886321775,
      "learning_rate": 1.977765887851664e-05,
      "loss": 0.9786,
      "step": 495
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.1982503073058897,
      "learning_rate": 1.977635011548257e-05,
      "loss": 0.8304,
      "step": 496
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.114601358532729,
      "learning_rate": 1.9775037555426772e-05,
      "loss": 0.8961,
      "step": 497
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3520539594718304,
      "learning_rate": 1.9773721198859024e-05,
      "loss": 0.8488,
      "step": 498
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.2626433785918612,
      "learning_rate": 1.9772401046290584e-05,
      "loss": 0.8881,
      "step": 499
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.066780822770024,
      "learning_rate": 1.9771077098234187e-05,
      "loss": 0.9809,
      "step": 500
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.1794992124534955,
      "learning_rate": 1.9769749355204034e-05,
      "loss": 1.0074,
      "step": 501
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6640338262809802,
      "learning_rate": 1.976841781771581e-05,
      "loss": 1.0404,
      "step": 502
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.0212824854263194,
      "learning_rate": 1.9767082486286667e-05,
      "loss": 0.9476,
      "step": 503
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5400936707253052,
      "learning_rate": 1.9765743361435234e-05,
      "loss": 0.9247,
      "step": 504
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.1064178965489164,
      "learning_rate": 1.9764400443681607e-05,
      "loss": 0.9223,
      "step": 505
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3679657696419694,
      "learning_rate": 1.9763053733547367e-05,
      "loss": 0.7554,
      "step": 506
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.754886813469658,
      "learning_rate": 1.976170323155555e-05,
      "loss": 0.9577,
      "step": 507
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.9870937647526807,
      "learning_rate": 1.976034893823069e-05,
      "loss": 0.8777,
      "step": 508
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.6413706149550242,
      "learning_rate": 1.975899085409876e-05,
      "loss": 0.8709,
      "step": 509
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3585543923492975,
      "learning_rate": 1.9757628979687247e-05,
      "loss": 0.8338,
      "step": 510
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.2519351997743688,
      "learning_rate": 1.975626331552507e-05,
      "loss": 0.9453,
      "step": 511
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4101010566699064,
      "learning_rate": 1.9754893862142643e-05,
      "loss": 0.7128,
      "step": 512
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3515031367768244,
      "learning_rate": 1.9753520620071846e-05,
      "loss": 0.8758,
      "step": 513
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5421228806408516,
      "learning_rate": 1.9752143589846027e-05,
      "loss": 0.9801,
      "step": 514
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.673438158088576,
      "learning_rate": 1.9750762772000014e-05,
      "loss": 0.8353,
      "step": 515
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.2574392432772836,
      "learning_rate": 1.9749378167070097e-05,
      "loss": 0.9397,
      "step": 516
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.8525580999434843,
      "learning_rate": 1.9747989775594044e-05,
      "loss": 0.9335,
      "step": 517
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3070771235945233,
      "learning_rate": 1.974659759811109e-05,
      "loss": 0.9985,
      "step": 518
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3419100250055924,
      "learning_rate": 1.9745201635161938e-05,
      "loss": 0.9757,
      "step": 519
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.736190907406156,
      "learning_rate": 1.9743801887288762e-05,
      "loss": 0.9871,
      "step": 520
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5132075889779957,
      "learning_rate": 1.9742398355035212e-05,
      "loss": 0.9756,
      "step": 521
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4178956237240654,
      "learning_rate": 1.9740991038946404e-05,
      "loss": 0.9277,
      "step": 522
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.0985435814790203,
      "learning_rate": 1.973957993956892e-05,
      "loss": 0.8894,
      "step": 523
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4867804161188265,
      "learning_rate": 1.9738165057450817e-05,
      "loss": 0.9886,
      "step": 524
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.1396373543531364,
      "learning_rate": 1.9736746393141617e-05,
      "loss": 0.9452,
      "step": 525
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4304938983295226,
      "learning_rate": 1.9735323947192317e-05,
      "loss": 0.9089,
      "step": 526
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.399116682005851,
      "learning_rate": 1.9733897720155377e-05,
      "loss": 0.7979,
      "step": 527
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.463121150122272,
      "learning_rate": 1.9732467712584723e-05,
      "loss": 0.9611,
      "step": 528
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.1665459877174493,
      "learning_rate": 1.973103392503576e-05,
      "loss": 0.9363,
      "step": 529
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3881720899010652,
      "learning_rate": 1.9729596358065347e-05,
      "loss": 0.8258,
      "step": 530
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4960337367234648,
      "learning_rate": 1.9728155012231825e-05,
      "loss": 0.8851,
      "step": 531
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5391590401583892,
      "learning_rate": 1.9726709888094994e-05,
      "loss": 0.9344,
      "step": 532
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.1693016622899903,
      "learning_rate": 1.972526098621612e-05,
      "loss": 0.9784,
      "step": 533
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.556775845538139,
      "learning_rate": 1.972380830715795e-05,
      "loss": 0.9976,
      "step": 534
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4913931662203914,
      "learning_rate": 1.9722351851484677e-05,
      "loss": 1.0143,
      "step": 535
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.276114544603871,
      "learning_rate": 1.9720891619761974e-05,
      "loss": 0.9041,
      "step": 536
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.781885555512705,
      "learning_rate": 1.9719427612556982e-05,
      "loss": 1.0236,
      "step": 537
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.1926572612319997,
      "learning_rate": 1.9717959830438302e-05,
      "loss": 0.9154,
      "step": 538
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3848462599183142,
      "learning_rate": 1.9716488273976006e-05,
      "loss": 0.8578,
      "step": 539
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5423905395310877,
      "learning_rate": 1.971501294374162e-05,
      "loss": 0.9665,
      "step": 540
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3378491903418406,
      "learning_rate": 1.971353384030816e-05,
      "loss": 1.0076,
      "step": 541
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.4380471042654737,
      "learning_rate": 1.9712050964250083e-05,
      "loss": 0.805,
      "step": 542
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.2308469879764357,
      "learning_rate": 1.9710564316143323e-05,
      "loss": 0.8818,
      "step": 543
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.0574423948459384,
      "learning_rate": 1.9709073896565276e-05,
      "loss": 0.8923,
      "step": 544
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.2995235442147177,
      "learning_rate": 1.9707579706094807e-05,
      "loss": 0.8917,
      "step": 545
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.675753272263188,
      "learning_rate": 1.970608174531224e-05,
      "loss": 0.9583,
      "step": 546
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3751548698837937,
      "learning_rate": 1.970458001479937e-05,
      "loss": 0.9395,
      "step": 547
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1271333940755046,
      "learning_rate": 1.9703074515139445e-05,
      "loss": 1.0252,
      "step": 548
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5154001954708602,
      "learning_rate": 1.9701565246917184e-05,
      "loss": 0.8563,
      "step": 549
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1856221139025112,
      "learning_rate": 1.9700052210718775e-05,
      "loss": 0.9425,
      "step": 550
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9868835596719149,
      "learning_rate": 1.969853540713186e-05,
      "loss": 0.8831,
      "step": 551
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3333145773736936,
      "learning_rate": 1.9697014836745552e-05,
      "loss": 1.0412,
      "step": 552
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2035105709798122,
      "learning_rate": 1.9695490500150418e-05,
      "loss": 0.8705,
      "step": 553
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2864026032513352,
      "learning_rate": 1.9693962397938495e-05,
      "loss": 0.939,
      "step": 554
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4481062841409893,
      "learning_rate": 1.9692430530703282e-05,
      "loss": 0.9705,
      "step": 555
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5452630037754762,
      "learning_rate": 1.9690894899039735e-05,
      "loss": 1.0247,
      "step": 556
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4442558735482707,
      "learning_rate": 1.9689355503544277e-05,
      "loss": 1.0207,
      "step": 557
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.5157503532193153,
      "learning_rate": 1.968781234481479e-05,
      "loss": 0.9997,
      "step": 558
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4148331830345238,
      "learning_rate": 1.9686265423450624e-05,
      "loss": 0.9133,
      "step": 559
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2697885586335067,
      "learning_rate": 1.9684714740052584e-05,
      "loss": 0.8383,
      "step": 560
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.184477485807607,
      "learning_rate": 1.9683160295222934e-05,
      "loss": 0.8814,
      "step": 561
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.8435793216696094,
      "learning_rate": 1.9681602089565403e-05,
      "loss": 0.7461,
      "step": 562
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.8129413207219,
      "learning_rate": 1.968004012368518e-05,
      "loss": 0.9207,
      "step": 563
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.503225699089399,
      "learning_rate": 1.967847439818892e-05,
      "loss": 1.0665,
      "step": 564
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7489091589828587,
      "learning_rate": 1.9676904913684725e-05,
      "loss": 0.9495,
      "step": 565
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6408800179532896,
      "learning_rate": 1.967533167078217e-05,
      "loss": 0.9327,
      "step": 566
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.151189834906384,
      "learning_rate": 1.9673754670092283e-05,
      "loss": 0.8421,
      "step": 567
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.27990951610646,
      "learning_rate": 1.9672173912227556e-05,
      "loss": 0.9707,
      "step": 568
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.0609237836919267,
      "learning_rate": 1.967058939780193e-05,
      "loss": 1.0518,
      "step": 569
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.498007111413308,
      "learning_rate": 1.966900112743082e-05,
      "loss": 0.9439,
      "step": 570
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3894681176874668,
      "learning_rate": 1.966740910173108e-05,
      "loss": 0.9045,
      "step": 571
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.456855180857412,
      "learning_rate": 1.9665813321321054e-05,
      "loss": 0.9762,
      "step": 572
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3903357323481198,
      "learning_rate": 1.9664213786820502e-05,
      "loss": 0.8332,
      "step": 573
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.416962424135904,
      "learning_rate": 1.9662610498850684e-05,
      "loss": 0.9777,
      "step": 574
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.0905113683456,
      "learning_rate": 1.9661003458034288e-05,
      "loss": 0.8843,
      "step": 575
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1432065208750306,
      "learning_rate": 1.965939266499547e-05,
      "loss": 0.9088,
      "step": 576
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5360444864111817,
      "learning_rate": 1.9657778120359848e-05,
      "loss": 0.9042,
      "step": 577
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.5875760134209436,
      "learning_rate": 1.965615982475449e-05,
      "loss": 1.0275,
      "step": 578
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.224923294958436,
      "learning_rate": 1.9654537778807924e-05,
      "loss": 0.8989,
      "step": 579
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4620179608921218,
      "learning_rate": 1.9652911983150135e-05,
      "loss": 0.9381,
      "step": 580
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.500093809189553,
      "learning_rate": 1.965128243841256e-05,
      "loss": 1.0099,
      "step": 581
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3935850623976636,
      "learning_rate": 1.96496491452281e-05,
      "loss": 0.9786,
      "step": 582
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3320882339678115,
      "learning_rate": 1.9648012104231106e-05,
      "loss": 0.9462,
      "step": 583
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7880596526676056,
      "learning_rate": 1.964637131605738e-05,
      "loss": 0.9487,
      "step": 584
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.233738973034672,
      "learning_rate": 1.9644726781344197e-05,
      "loss": 0.811,
      "step": 585
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1553327762039725,
      "learning_rate": 1.964307850073026e-05,
      "loss": 0.8245,
      "step": 586
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4091469624764874,
      "learning_rate": 1.964142647485576e-05,
      "loss": 0.8685,
      "step": 587
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.4953488551028353,
      "learning_rate": 1.9639770704362305e-05,
      "loss": 1.0081,
      "step": 588
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.182692403905672,
      "learning_rate": 1.9638111189892994e-05,
      "loss": 0.6793,
      "step": 589
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3311059582268303,
      "learning_rate": 1.9636447932092354e-05,
      "loss": 0.9915,
      "step": 590
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.7001838834335703,
      "learning_rate": 1.963478093160638e-05,
      "loss": 0.9966,
      "step": 591
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.6605776400667376,
      "learning_rate": 1.9633110189082515e-05,
      "loss": 0.897,
      "step": 592
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.436778726915325,
      "learning_rate": 1.963143570516965e-05,
      "loss": 0.9235,
      "step": 593
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1915264252728779,
      "learning_rate": 1.9629757480518144e-05,
      "loss": 0.8925,
      "step": 594
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.3655107156076276,
      "learning_rate": 1.9628075515779796e-05,
      "loss": 0.9484,
      "step": 595
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2963833196419445,
      "learning_rate": 1.962638981160786e-05,
      "loss": 0.8601,
      "step": 596
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1766724476380852,
      "learning_rate": 1.9624700368657045e-05,
      "loss": 0.8969,
      "step": 597
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.015558102816231,
      "learning_rate": 1.9623007187583518e-05,
      "loss": 0.8858,
      "step": 598
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3979603696665523,
      "learning_rate": 1.962131026904488e-05,
      "loss": 0.9042,
      "step": 599
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.289120505935204,
      "learning_rate": 1.96196096137002e-05,
      "loss": 0.9099,
      "step": 600
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.2446813433897386,
      "learning_rate": 1.9617905222209998e-05,
      "loss": 1.003,
      "step": 601
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4587108854908721,
      "learning_rate": 1.961619709523623e-05,
      "loss": 0.9132,
      "step": 602
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.0298998254716023,
      "learning_rate": 1.9614485233442316e-05,
      "loss": 0.8606,
      "step": 603
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.175604864447573,
      "learning_rate": 1.961276963749313e-05,
      "loss": 0.9409,
      "step": 604
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6447173288546164,
      "learning_rate": 1.9611050308054982e-05,
      "loss": 0.9593,
      "step": 605
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.070746273874793,
      "learning_rate": 1.9609327245795642e-05,
      "loss": 0.9064,
      "step": 606
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.2383340965691036,
      "learning_rate": 1.9607600451384327e-05,
      "loss": 1.0047,
      "step": 607
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.54642388992033,
      "learning_rate": 1.960586992549171e-05,
      "loss": 1.0364,
      "step": 608
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.259826883938074,
      "learning_rate": 1.9604135668789897e-05,
      "loss": 0.9157,
      "step": 609
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.2656043424068395,
      "learning_rate": 1.9602397681952462e-05,
      "loss": 0.8946,
      "step": 610
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.7141763022555636,
      "learning_rate": 1.9600655965654413e-05,
      "loss": 0.952,
      "step": 611
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3676972688854812,
      "learning_rate": 1.959891052057222e-05,
      "loss": 1.0002,
      "step": 612
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3494620834540307,
      "learning_rate": 1.9597161347383783e-05,
      "loss": 0.9136,
      "step": 613
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.6758594805901625,
      "learning_rate": 1.959540844676847e-05,
      "loss": 0.9868,
      "step": 614
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.32699488354306,
      "learning_rate": 1.9593651819407084e-05,
      "loss": 0.9287,
      "step": 615
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1985284312614453,
      "learning_rate": 1.959189146598188e-05,
      "loss": 0.9145,
      "step": 616
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4329044694982005,
      "learning_rate": 1.9590127387176556e-05,
      "loss": 0.9401,
      "step": 617
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.0296221136455972,
      "learning_rate": 1.9588359583676263e-05,
      "loss": 0.7646,
      "step": 618
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.312455172461522,
      "learning_rate": 1.9586588056167595e-05,
      "loss": 0.9573,
      "step": 619
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3721363301193275,
      "learning_rate": 1.958481280533859e-05,
      "loss": 0.9186,
      "step": 620
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3789065672722796,
      "learning_rate": 1.958303383187874e-05,
      "loss": 0.8832,
      "step": 621
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.321879976893924,
      "learning_rate": 1.9581251136478974e-05,
      "loss": 0.9058,
      "step": 622
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3797265944363846,
      "learning_rate": 1.9579464719831668e-05,
      "loss": 1.0093,
      "step": 623
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.8579355874745975,
      "learning_rate": 1.9577674582630653e-05,
      "loss": 0.8896,
      "step": 624
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1788640663548442,
      "learning_rate": 1.957588072557119e-05,
      "loss": 0.8934,
      "step": 625
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5485336338225058,
      "learning_rate": 1.957408314935e-05,
      "loss": 1.0393,
      "step": 626
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.4726207732675531,
      "learning_rate": 1.9572281854665233e-05,
      "loss": 1.0097,
      "step": 627
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.9994182510355301,
      "learning_rate": 1.95704768422165e-05,
      "loss": 0.7473,
      "step": 628
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.139275633693655,
      "learning_rate": 1.956866811270484e-05,
      "loss": 0.8632,
      "step": 629
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1332008588131135,
      "learning_rate": 1.9566855666832743e-05,
      "loss": 0.8967,
      "step": 630
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.720105046155469,
      "learning_rate": 1.9565039505304145e-05,
      "loss": 0.9376,
      "step": 631
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.9970630337831998,
      "learning_rate": 1.956321962882442e-05,
      "loss": 0.9444,
      "step": 632
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1550732182755552,
      "learning_rate": 1.956139603810039e-05,
      "loss": 0.7756,
      "step": 633
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5065876670623788,
      "learning_rate": 1.9559568733840317e-05,
      "loss": 0.9859,
      "step": 634
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.2219801397238506,
      "learning_rate": 1.9557737716753898e-05,
      "loss": 0.9523,
      "step": 635
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3105417928725054,
      "learning_rate": 1.9555902987552283e-05,
      "loss": 0.899,
      "step": 636
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3577496273592824,
      "learning_rate": 1.9554064546948064e-05,
      "loss": 0.8376,
      "step": 637
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.163591501617462,
      "learning_rate": 1.9552222395655262e-05,
      "loss": 0.9814,
      "step": 638
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.950752715412725,
      "learning_rate": 1.9550376534389355e-05,
      "loss": 0.8262,
      "step": 639
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.100458828728895,
      "learning_rate": 1.9548526963867253e-05,
      "loss": 0.8893,
      "step": 640
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1237927576286946,
      "learning_rate": 1.9546673684807303e-05,
      "loss": 1.0074,
      "step": 641
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.5566812932339134,
      "learning_rate": 1.95448166979293e-05,
      "loss": 1.0059,
      "step": 642
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1648239934871762,
      "learning_rate": 1.9542956003954477e-05,
      "loss": 0.9945,
      "step": 643
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3664534495338712,
      "learning_rate": 1.9541091603605508e-05,
      "loss": 0.8165,
      "step": 644
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3583320465016584,
      "learning_rate": 1.95392234976065e-05,
      "loss": 0.8603,
      "step": 645
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.3132933978171908,
      "learning_rate": 1.9537351686683003e-05,
      "loss": 0.8585,
      "step": 646
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.2423066698347658,
      "learning_rate": 1.9535476171562014e-05,
      "loss": 1.0064,
      "step": 647
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.1854242319524617,
      "learning_rate": 1.9533596952971955e-05,
      "loss": 0.9449,
      "step": 648
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.2507585628517184,
      "learning_rate": 1.9531714031642698e-05,
      "loss": 0.9154,
      "step": 649
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4152670006040895,
      "learning_rate": 1.9529827408305542e-05,
      "loss": 0.9847,
      "step": 650
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2047911681787198,
      "learning_rate": 1.9527937083693233e-05,
      "loss": 0.9334,
      "step": 651
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.1992660526334116,
      "learning_rate": 1.952604305853995e-05,
      "loss": 0.8695,
      "step": 652
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.229260981736984,
      "learning_rate": 1.9524145333581315e-05,
      "loss": 0.8956,
      "step": 653
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4393841935297735,
      "learning_rate": 1.9522243909554375e-05,
      "loss": 0.8712,
      "step": 654
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.1275549980489885,
      "learning_rate": 1.952033878719763e-05,
      "loss": 0.8928,
      "step": 655
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.1264563726760628,
      "learning_rate": 1.9518429967251e-05,
      "loss": 0.8798,
      "step": 656
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.331132108139813,
      "learning_rate": 1.9516517450455853e-05,
      "loss": 0.8978,
      "step": 657
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3752345615231456,
      "learning_rate": 1.951460123755499e-05,
      "loss": 0.9325,
      "step": 658
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4111860519318584,
      "learning_rate": 1.9512681329292635e-05,
      "loss": 0.9408,
      "step": 659
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.7134179678590185,
      "learning_rate": 1.951075772641447e-05,
      "loss": 0.9036,
      "step": 660
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4050023905732267,
      "learning_rate": 1.95088304296676e-05,
      "loss": 0.9036,
      "step": 661
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4788723509606756,
      "learning_rate": 1.950689943980056e-05,
      "loss": 0.9834,
      "step": 662
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6297974692709327,
      "learning_rate": 1.9504964757563322e-05,
      "loss": 0.8858,
      "step": 663
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4062527361816701,
      "learning_rate": 1.95030263837073e-05,
      "loss": 0.8832,
      "step": 664
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.1626531442716848,
      "learning_rate": 1.9501084318985335e-05,
      "loss": 0.8585,
      "step": 665
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5263989055361962,
      "learning_rate": 1.94991385641517e-05,
      "loss": 1.0013,
      "step": 666
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2572495569820055,
      "learning_rate": 1.9497189119962105e-05,
      "loss": 0.933,
      "step": 667
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5244091615469801,
      "learning_rate": 1.9495235987173693e-05,
      "loss": 0.7992,
      "step": 668
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.691108545815599,
      "learning_rate": 1.949327916654504e-05,
      "loss": 0.9621,
      "step": 669
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3609368635645844,
      "learning_rate": 1.949131865883614e-05,
      "loss": 0.8753,
      "step": 670
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.345210167103027,
      "learning_rate": 1.948935446480845e-05,
      "loss": 0.9182,
      "step": 671
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.7882192247945023,
      "learning_rate": 1.948738658522483e-05,
      "loss": 0.8936,
      "step": 672
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.0635033224047605,
      "learning_rate": 1.9485415020849583e-05,
      "loss": 0.8809,
      "step": 673
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.8245870128642256,
      "learning_rate": 1.9483439772448444e-05,
      "loss": 0.9386,
      "step": 674
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5939424856670577,
      "learning_rate": 1.9481460840788573e-05,
      "loss": 1.0012,
      "step": 675
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.1470435322802348,
      "learning_rate": 1.9479478226638565e-05,
      "loss": 0.9477,
      "step": 676
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2145896339965336,
      "learning_rate": 1.947749193076845e-05,
      "loss": 0.8751,
      "step": 677
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3892203343099963,
      "learning_rate": 1.9475501953949674e-05,
      "loss": 0.9383,
      "step": 678
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.169518300056749,
      "learning_rate": 1.9473508296955126e-05,
      "loss": 0.8543,
      "step": 679
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.0283509636610102,
      "learning_rate": 1.9471510960559122e-05,
      "loss": 0.9298,
      "step": 680
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.19053820662275,
      "learning_rate": 1.9469509945537395e-05,
      "loss": 0.8711,
      "step": 681
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.726270798276296,
      "learning_rate": 1.9467505252667126e-05,
      "loss": 0.9316,
      "step": 682
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3420639587822865,
      "learning_rate": 1.9465496882726913e-05,
      "loss": 0.9018,
      "step": 683
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5653438660601857,
      "learning_rate": 1.946348483649678e-05,
      "loss": 0.9506,
      "step": 684
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.3725749933897644,
      "learning_rate": 1.9461469114758184e-05,
      "loss": 1.0038,
      "step": 685
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.6081763451760032,
      "learning_rate": 1.9459449718294008e-05,
      "loss": 0.9248,
      "step": 686
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.1628797085652962,
      "learning_rate": 1.945742664788856e-05,
      "loss": 0.9547,
      "step": 687
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.1861409595171395,
      "learning_rate": 1.9455399904327585e-05,
      "loss": 0.9759,
      "step": 688
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.433055753186728,
      "learning_rate": 1.945336948839824e-05,
      "loss": 0.857,
      "step": 689
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2015867354227026,
      "learning_rate": 1.9451335400889114e-05,
      "loss": 0.9277,
      "step": 690
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5022202057112128,
      "learning_rate": 1.944929764259023e-05,
      "loss": 0.9317,
      "step": 691
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.7058184590640029,
      "learning_rate": 1.9447256214293026e-05,
      "loss": 0.9646,
      "step": 692
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.7479818177504103,
      "learning_rate": 1.9445211116790365e-05,
      "loss": 0.9124,
      "step": 693
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.010126478981957,
      "learning_rate": 1.9443162350876544e-05,
      "loss": 0.9486,
      "step": 694
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.5738956549361798,
      "learning_rate": 1.944110991734728e-05,
      "loss": 0.9539,
      "step": 695
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2103259724790676,
      "learning_rate": 1.9439053816999717e-05,
      "loss": 0.8433,
      "step": 696
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.4731769457049342,
      "learning_rate": 1.9436994050632415e-05,
      "loss": 0.9629,
      "step": 697
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2027861498058423,
      "learning_rate": 1.9434930619045367e-05,
      "loss": 0.9475,
      "step": 698
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.2570694744961624,
      "learning_rate": 1.9432863523039986e-05,
      "loss": 0.9113,
      "step": 699
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.0955329969486431,
      "learning_rate": 1.9430792763419105e-05,
      "loss": 0.7762,
      "step": 700
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.081673197515863,
      "learning_rate": 1.942871834098699e-05,
      "loss": 0.8672,
      "step": 701
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.428133818969062,
      "learning_rate": 1.9426640256549313e-05,
      "loss": 0.9546,
      "step": 702
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2855725764470216,
      "learning_rate": 1.9424558510913186e-05,
      "loss": 0.9525,
      "step": 703
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4569536142401094,
      "learning_rate": 1.9422473104887133e-05,
      "loss": 0.9067,
      "step": 704
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.1076509183763288,
      "learning_rate": 1.9420384039281103e-05,
      "loss": 0.9385,
      "step": 705
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.069425008931109,
      "learning_rate": 1.941829131490646e-05,
      "loss": 0.9792,
      "step": 706
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4561567302742935,
      "learning_rate": 1.9416194932576e-05,
      "loss": 0.9834,
      "step": 707
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4657667331001596,
      "learning_rate": 1.941409489310393e-05,
      "loss": 0.9565,
      "step": 708
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3890899466151234,
      "learning_rate": 1.9411991197305878e-05,
      "loss": 0.922,
      "step": 709
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2209705988624862,
      "learning_rate": 1.9409883845998905e-05,
      "loss": 0.944,
      "step": 710
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.859011994818197,
      "learning_rate": 1.9407772840001473e-05,
      "loss": 1.0024,
      "step": 711
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.666607569352093,
      "learning_rate": 1.9405658180133477e-05,
      "loss": 0.975,
      "step": 712
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6031052927475298,
      "learning_rate": 1.9403539867216226e-05,
      "loss": 1.0278,
      "step": 713
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3796865535616194,
      "learning_rate": 1.9401417902072447e-05,
      "loss": 0.786,
      "step": 714
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.1035991803750191,
      "learning_rate": 1.9399292285526286e-05,
      "loss": 0.9,
      "step": 715
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.1757918810641037,
      "learning_rate": 1.939716301840331e-05,
      "loss": 0.9741,
      "step": 716
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0233791144475457,
      "learning_rate": 1.9395030101530504e-05,
      "loss": 0.8424,
      "step": 717
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.349931630485626,
      "learning_rate": 1.939289353573626e-05,
      "loss": 0.8501,
      "step": 718
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.404696326651067,
      "learning_rate": 1.9390753321850404e-05,
      "loss": 0.9465,
      "step": 719
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0622489755162394,
      "learning_rate": 1.938860946070417e-05,
      "loss": 0.8189,
      "step": 720
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2953068051770948,
      "learning_rate": 1.93864619531302e-05,
      "loss": 0.9578,
      "step": 721
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.323923288638301,
      "learning_rate": 1.9384310799962575e-05,
      "loss": 0.9322,
      "step": 722
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6445693631184277,
      "learning_rate": 1.9382156002036764e-05,
      "loss": 0.9662,
      "step": 723
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.262264401849382,
      "learning_rate": 1.9379997560189677e-05,
      "loss": 0.9786,
      "step": 724
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.580862194381134,
      "learning_rate": 1.937783547525962e-05,
      "loss": 1.0183,
      "step": 725
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.350040659123869,
      "learning_rate": 1.9375669748086326e-05,
      "loss": 0.9599,
      "step": 726
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4032452867875802,
      "learning_rate": 1.937350037951094e-05,
      "loss": 1.0462,
      "step": 727
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.7557932790339243,
      "learning_rate": 1.9371327370376018e-05,
      "loss": 0.9797,
      "step": 728
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2153815801151757,
      "learning_rate": 1.936915072152553e-05,
      "loss": 0.8858,
      "step": 729
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4810775887935832,
      "learning_rate": 1.936697043380486e-05,
      "loss": 0.9727,
      "step": 730
    },
    {
      "epoch": 0.14,
      "grad_norm": 2.333643272246072,
      "learning_rate": 1.936478650806081e-05,
      "loss": 0.9983,
      "step": 731
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3641425666382356,
      "learning_rate": 1.936259894514159e-05,
      "loss": 0.8332,
      "step": 732
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4315050065440493,
      "learning_rate": 1.9360407745896828e-05,
      "loss": 1.0214,
      "step": 733
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3340446924896272,
      "learning_rate": 1.9358212911177556e-05,
      "loss": 0.8659,
      "step": 734
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6164581406539393,
      "learning_rate": 1.935601444183622e-05,
      "loss": 0.9731,
      "step": 735
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3274101523126502,
      "learning_rate": 1.935381233872669e-05,
      "loss": 0.9004,
      "step": 736
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.670571582290184,
      "learning_rate": 1.935160660270423e-05,
      "loss": 0.9969,
      "step": 737
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0541564549319336,
      "learning_rate": 1.934939723462552e-05,
      "loss": 0.8864,
      "step": 738
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.1672193425851012,
      "learning_rate": 1.9347184235348663e-05,
      "loss": 0.9738,
      "step": 739
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2987082296977674,
      "learning_rate": 1.9344967605733154e-05,
      "loss": 0.8511,
      "step": 740
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.665420591992307,
      "learning_rate": 1.934274734663991e-05,
      "loss": 1.022,
      "step": 741
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4462486239864532,
      "learning_rate": 1.934052345893125e-05,
      "loss": 0.9273,
      "step": 742
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4160763891928563,
      "learning_rate": 1.9338295943470915e-05,
      "loss": 0.9457,
      "step": 743
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.1808456110932932,
      "learning_rate": 1.9336064801124034e-05,
      "loss": 0.9019,
      "step": 744
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.3803833865470818,
      "learning_rate": 1.933383003275717e-05,
      "loss": 0.9319,
      "step": 745
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.324175580412575,
      "learning_rate": 1.933159163923827e-05,
      "loss": 1.0149,
      "step": 746
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.4246057347940726,
      "learning_rate": 1.9329349621436708e-05,
      "loss": 0.912,
      "step": 747
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6227372949570367,
      "learning_rate": 1.9327103980223255e-05,
      "loss": 0.9959,
      "step": 748
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.33788805790815,
      "learning_rate": 1.932485471647009e-05,
      "loss": 1.0102,
      "step": 749
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.6362321239475588,
      "learning_rate": 1.9322601831050804e-05,
      "loss": 1.0157,
      "step": 750
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2109839914995433,
      "learning_rate": 1.9320345324840396e-05,
      "loss": 0.9872,
      "step": 751
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2828812634621498,
      "learning_rate": 1.9318085198715257e-05,
      "loss": 0.8794,
      "step": 752
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.2469158125444713,
      "learning_rate": 1.93158214535532e-05,
      "loss": 0.9484,
      "step": 753
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4585728428777103,
      "learning_rate": 1.9313554090233436e-05,
      "loss": 0.918,
      "step": 754
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4192715294133385,
      "learning_rate": 1.9311283109636586e-05,
      "loss": 0.9405,
      "step": 755
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.711139680617654,
      "learning_rate": 1.9309008512644668e-05,
      "loss": 1.0238,
      "step": 756
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1730868895931001,
      "learning_rate": 1.930673030014111e-05,
      "loss": 0.9463,
      "step": 757
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2221230017786882,
      "learning_rate": 1.930444847301075e-05,
      "loss": 0.9765,
      "step": 758
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.240012480567581,
      "learning_rate": 1.9302163032139813e-05,
      "loss": 0.8679,
      "step": 759
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4437178545991818,
      "learning_rate": 1.9299873978415947e-05,
      "loss": 0.9161,
      "step": 760
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.734301860873817,
      "learning_rate": 1.9297581312728187e-05,
      "loss": 0.9468,
      "step": 761
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1762992076051815,
      "learning_rate": 1.929528503596698e-05,
      "loss": 0.8246,
      "step": 762
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2047982949765483,
      "learning_rate": 1.929298514902418e-05,
      "loss": 0.8866,
      "step": 763
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.8401514877214955,
      "learning_rate": 1.929068165279303e-05,
      "loss": 0.9313,
      "step": 764
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.8032578501816399,
      "learning_rate": 1.928837454816818e-05,
      "loss": 0.8453,
      "step": 765
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.532908269143837,
      "learning_rate": 1.9286063836045687e-05,
      "loss": 0.9651,
      "step": 766
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3156607790561934,
      "learning_rate": 1.9283749517323e-05,
      "loss": 0.9297,
      "step": 767
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.157869591701762,
      "learning_rate": 1.928143159289898e-05,
      "loss": 0.9614,
      "step": 768
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2032946596257865,
      "learning_rate": 1.927911006367388e-05,
      "loss": 0.987,
      "step": 769
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2282917113544687,
      "learning_rate": 1.927678493054935e-05,
      "loss": 0.825,
      "step": 770
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2553185786180088,
      "learning_rate": 1.9274456194428454e-05,
      "loss": 0.8837,
      "step": 771
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.5374301045025638,
      "learning_rate": 1.9272123856215643e-05,
      "loss": 0.9397,
      "step": 772
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4992313396159822,
      "learning_rate": 1.9269787916816764e-05,
      "loss": 0.9831,
      "step": 773
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1101288838490007,
      "learning_rate": 1.9267448377139074e-05,
      "loss": 0.9445,
      "step": 774
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4943996099025507,
      "learning_rate": 1.9265105238091227e-05,
      "loss": 0.9139,
      "step": 775
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.6600589078526682,
      "learning_rate": 1.9262758500583265e-05,
      "loss": 0.9546,
      "step": 776
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.9599455470272997,
      "learning_rate": 1.9260408165526638e-05,
      "loss": 1.0137,
      "step": 777
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4291829736123232,
      "learning_rate": 1.9258054233834184e-05,
      "loss": 0.9261,
      "step": 778
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2866496493737458,
      "learning_rate": 1.9255696706420147e-05,
      "loss": 0.9985,
      "step": 779
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4096403069684116,
      "learning_rate": 1.9253335584200165e-05,
      "loss": 0.8855,
      "step": 780
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1944439103079667,
      "learning_rate": 1.9250970868091268e-05,
      "loss": 0.8026,
      "step": 781
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3895998971092247,
      "learning_rate": 1.924860255901188e-05,
      "loss": 0.9927,
      "step": 782
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1863636030852842,
      "learning_rate": 1.9246230657881834e-05,
      "loss": 0.8023,
      "step": 783
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3998916217751272,
      "learning_rate": 1.9243855165622345e-05,
      "loss": 0.9314,
      "step": 784
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4857971858778067,
      "learning_rate": 1.9241476083156026e-05,
      "loss": 0.9347,
      "step": 785
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.174361985842771,
      "learning_rate": 1.9239093411406885e-05,
      "loss": 0.8547,
      "step": 786
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.62285654441628,
      "learning_rate": 1.9236707151300326e-05,
      "loss": 1.0925,
      "step": 787
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2336586883779408,
      "learning_rate": 1.9234317303763145e-05,
      "loss": 0.9405,
      "step": 788
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.650718040267127,
      "learning_rate": 1.9231923869723528e-05,
      "loss": 0.9117,
      "step": 789
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4183964022024331,
      "learning_rate": 1.922952685011106e-05,
      "loss": 0.9675,
      "step": 790
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3888698495778469,
      "learning_rate": 1.9227126245856716e-05,
      "loss": 0.8833,
      "step": 791
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3655526734268344,
      "learning_rate": 1.922472205789286e-05,
      "loss": 0.8899,
      "step": 792
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9388122893401227,
      "learning_rate": 1.9222314287153255e-05,
      "loss": 0.8759,
      "step": 793
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.6558910970108294,
      "learning_rate": 1.9219902934573048e-05,
      "loss": 0.8828,
      "step": 794
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3565271131816283,
      "learning_rate": 1.9217488001088784e-05,
      "loss": 0.8804,
      "step": 795
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.0943984808505127,
      "learning_rate": 1.9215069487638396e-05,
      "loss": 0.9427,
      "step": 796
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.297461281313686,
      "learning_rate": 1.92126473951612e-05,
      "loss": 0.7605,
      "step": 797
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4243079992117471,
      "learning_rate": 1.921022172459791e-05,
      "loss": 0.9242,
      "step": 798
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.3159406568025769,
      "learning_rate": 1.920779247689064e-05,
      "loss": 0.8904,
      "step": 799
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2989709866980876,
      "learning_rate": 1.9205359652982868e-05,
      "loss": 0.9838,
      "step": 800
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.4074187528049926,
      "learning_rate": 1.9202923253819482e-05,
      "loss": 0.9487,
      "step": 801
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1573988295348732,
      "learning_rate": 1.920048328034675e-05,
      "loss": 0.9095,
      "step": 802
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.0883403493572914,
      "learning_rate": 1.9198039733512326e-05,
      "loss": 0.9554,
      "step": 803
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1158426935995136,
      "learning_rate": 1.9195592614265262e-05,
      "loss": 0.8223,
      "step": 804
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2406251288030783,
      "learning_rate": 1.9193141923555984e-05,
      "loss": 0.801,
      "step": 805
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2065817810494408,
      "learning_rate": 1.919068766233632e-05,
      "loss": 0.9411,
      "step": 806
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2284462940290188,
      "learning_rate": 1.9188229831559468e-05,
      "loss": 0.8754,
      "step": 807
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1130939577064394,
      "learning_rate": 1.9185768432180026e-05,
      "loss": 0.9288,
      "step": 808
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1010997828457296,
      "learning_rate": 1.9183303465153972e-05,
      "loss": 0.8019,
      "step": 809
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1379917900426149,
      "learning_rate": 1.9180834931438673e-05,
      "loss": 0.9015,
      "step": 810
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2381357252638752,
      "learning_rate": 1.917836283199288e-05,
      "loss": 0.8968,
      "step": 811
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.577150646302652,
      "learning_rate": 1.917588716777672e-05,
      "loss": 0.939,
      "step": 812
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3232144908892114,
      "learning_rate": 1.917340793975172e-05,
      "loss": 0.9306,
      "step": 813
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5329228108490007,
      "learning_rate": 1.917092514888078e-05,
      "loss": 0.9757,
      "step": 814
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1680700178882264,
      "learning_rate": 1.9168438796128193e-05,
      "loss": 0.8329,
      "step": 815
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3929610220876076,
      "learning_rate": 1.9165948882459623e-05,
      "loss": 0.9457,
      "step": 816
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5197645131836417,
      "learning_rate": 1.9163455408842123e-05,
      "loss": 0.9116,
      "step": 817
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.209785623449786,
      "learning_rate": 1.9160958376244138e-05,
      "loss": 0.9389,
      "step": 818
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.498565593968459,
      "learning_rate": 1.9158457785635478e-05,
      "loss": 0.9535,
      "step": 819
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1881962061924565,
      "learning_rate": 1.915595363798735e-05,
      "loss": 0.8093,
      "step": 820
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.452877676076836,
      "learning_rate": 1.915344593427233e-05,
      "loss": 0.9341,
      "step": 821
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3055046172496854,
      "learning_rate": 1.9150934675464384e-05,
      "loss": 0.9798,
      "step": 822
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2299273098175723,
      "learning_rate": 1.9148419862538858e-05,
      "loss": 0.8843,
      "step": 823
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2829699914171528,
      "learning_rate": 1.9145901496472474e-05,
      "loss": 0.8366,
      "step": 824
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.9124136117155491,
      "learning_rate": 1.9143379578243335e-05,
      "loss": 0.9496,
      "step": 825
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.220170815754658,
      "learning_rate": 1.914085410883093e-05,
      "loss": 0.8276,
      "step": 826
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2213570872484059,
      "learning_rate": 1.9138325089216118e-05,
      "loss": 0.8313,
      "step": 827
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0959927933334013,
      "learning_rate": 1.913579252038114e-05,
      "loss": 0.8537,
      "step": 828
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.418360850344694,
      "learning_rate": 1.9133256403309627e-05,
      "loss": 0.9955,
      "step": 829
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.8840337849440993,
      "learning_rate": 1.913071673898656e-05,
      "loss": 0.9198,
      "step": 830
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2361434948191872,
      "learning_rate": 1.912817352839833e-05,
      "loss": 0.8669,
      "step": 831
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.146688173699949,
      "learning_rate": 1.9125626772532683e-05,
      "loss": 0.8843,
      "step": 832
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5333201898238482,
      "learning_rate": 1.9123076472378753e-05,
      "loss": 0.9342,
      "step": 833
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2126461899397791,
      "learning_rate": 1.9120522628927047e-05,
      "loss": 0.9034,
      "step": 834
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1738150593114571,
      "learning_rate": 1.9117965243169444e-05,
      "loss": 0.7314,
      "step": 835
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3498747467424623,
      "learning_rate": 1.9115404316099212e-05,
      "loss": 0.8884,
      "step": 836
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3296047236828379,
      "learning_rate": 1.9112839848710978e-05,
      "loss": 0.9378,
      "step": 837
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0908643974883052,
      "learning_rate": 1.9110271842000755e-05,
      "loss": 0.8537,
      "step": 838
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1337610211712033,
      "learning_rate": 1.9107700296965926e-05,
      "loss": 0.9603,
      "step": 839
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3243030085946812,
      "learning_rate": 1.910512521460525e-05,
      "loss": 0.9122,
      "step": 840
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1156794316372594,
      "learning_rate": 1.9102546595918857e-05,
      "loss": 0.9434,
      "step": 841
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.9985245956712268,
      "learning_rate": 1.9099964441908258e-05,
      "loss": 1.0386,
      "step": 842
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.336078458768381,
      "learning_rate": 1.9097378753576327e-05,
      "loss": 0.9187,
      "step": 843
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2648615344577947,
      "learning_rate": 1.9094789531927315e-05,
      "loss": 1.0047,
      "step": 844
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3421831819036851,
      "learning_rate": 1.909219677796685e-05,
      "loss": 1.0199,
      "step": 845
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5020963003139916,
      "learning_rate": 1.9089600492701926e-05,
      "loss": 0.935,
      "step": 846
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.3629798709740826,
      "learning_rate": 1.908700067714091e-05,
      "loss": 0.8225,
      "step": 847
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.5559881624643606,
      "learning_rate": 1.9084397332293537e-05,
      "loss": 0.9745,
      "step": 848
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.7337794113578129,
      "learning_rate": 1.9081790459170926e-05,
      "loss": 0.9236,
      "step": 849
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.4125636607963854,
      "learning_rate": 1.9079180058785547e-05,
      "loss": 1.0016,
      "step": 850
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.362873675021483,
      "learning_rate": 1.9076566132151255e-05,
      "loss": 0.9983,
      "step": 851
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.209866958444457,
      "learning_rate": 1.907394868028326e-05,
      "loss": 0.9743,
      "step": 852
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2504955289303712,
      "learning_rate": 1.9071327704198163e-05,
      "loss": 0.9195,
      "step": 853
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1794925419654825,
      "learning_rate": 1.906870320491391e-05,
      "loss": 0.7708,
      "step": 854
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2984510519741246,
      "learning_rate": 1.9066075183449835e-05,
      "loss": 0.7879,
      "step": 855
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.6652018162673883,
      "learning_rate": 1.9063443640826624e-05,
      "loss": 0.9781,
      "step": 856
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.442420354624465,
      "learning_rate": 1.906080857806634e-05,
      "loss": 0.9478,
      "step": 857
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1928856117233255,
      "learning_rate": 1.905816999619242e-05,
      "loss": 0.8443,
      "step": 858
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.5997433932315577,
      "learning_rate": 1.9055527896229642e-05,
      "loss": 1.0049,
      "step": 859
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2960615177641983,
      "learning_rate": 1.905288227920418e-05,
      "loss": 0.9498,
      "step": 860
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2353761178618157,
      "learning_rate": 1.9050233146143554e-05,
      "loss": 0.8795,
      "step": 861
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1517448250871356,
      "learning_rate": 1.9047580498076663e-05,
      "loss": 0.8908,
      "step": 862
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1958822146313268,
      "learning_rate": 1.904492433603376e-05,
      "loss": 0.8533,
      "step": 863
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2828241288280076,
      "learning_rate": 1.904226466104647e-05,
      "loss": 0.9881,
      "step": 864
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2338958427792301,
      "learning_rate": 1.903960147414778e-05,
      "loss": 0.9818,
      "step": 865
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.296473648888471,
      "learning_rate": 1.903693477637204e-05,
      "loss": 0.9979,
      "step": 866
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1485844906497424,
      "learning_rate": 1.9034264568754967e-05,
      "loss": 0.8745,
      "step": 867
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2185394498016346,
      "learning_rate": 1.9031590852333637e-05,
      "loss": 0.8919,
      "step": 868
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.8531146645860825,
      "learning_rate": 1.9028913628146487e-05,
      "loss": 1.0661,
      "step": 869
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2332616852542717,
      "learning_rate": 1.902623289723333e-05,
      "loss": 0.8504,
      "step": 870
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1292604539171245,
      "learning_rate": 1.902354866063532e-05,
      "loss": 0.9582,
      "step": 871
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6662506522463905,
      "learning_rate": 1.9020860919394992e-05,
      "loss": 0.8634,
      "step": 872
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1768204884042595,
      "learning_rate": 1.9018169674556228e-05,
      "loss": 0.9025,
      "step": 873
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4834569878038457,
      "learning_rate": 1.901547492716428e-05,
      "loss": 0.9652,
      "step": 874
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.3769854110625595,
      "learning_rate": 1.9012776678265756e-05,
      "loss": 0.8992,
      "step": 875
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.0170535303862667,
      "learning_rate": 1.9010074928908624e-05,
      "loss": 0.9887,
      "step": 876
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.386812773727238,
      "learning_rate": 1.900736968014221e-05,
      "loss": 0.9011,
      "step": 877
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1305647331957576,
      "learning_rate": 1.9004660933017208e-05,
      "loss": 0.9532,
      "step": 878
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.33519474565418,
      "learning_rate": 1.900194868858566e-05,
      "loss": 1.0232,
      "step": 879
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2142670892214136,
      "learning_rate": 1.8999232947900968e-05,
      "loss": 0.8895,
      "step": 880
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.3008974255412793,
      "learning_rate": 1.89965137120179e-05,
      "loss": 1.0443,
      "step": 881
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.0902204618758733,
      "learning_rate": 1.899379098199257e-05,
      "loss": 0.939,
      "step": 882
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2060622373336904,
      "learning_rate": 1.899106475888246e-05,
      "loss": 0.9909,
      "step": 883
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6298420794124342,
      "learning_rate": 1.89883350437464e-05,
      "loss": 1.0228,
      "step": 884
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.6562077487648634,
      "learning_rate": 1.8985601837644586e-05,
      "loss": 0.9344,
      "step": 885
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.565404132627293,
      "learning_rate": 1.8982865141638557e-05,
      "loss": 1.0025,
      "step": 886
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.8785682102009433,
      "learning_rate": 1.8980124956791216e-05,
      "loss": 0.9779,
      "step": 887
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.8634845044980655,
      "learning_rate": 1.8977381284166818e-05,
      "loss": 0.9397,
      "step": 888
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4245202427370611,
      "learning_rate": 1.897463412483098e-05,
      "loss": 0.9585,
      "step": 889
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2700580199135614,
      "learning_rate": 1.897188347985066e-05,
      "loss": 0.9237,
      "step": 890
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.388085583901082,
      "learning_rate": 1.896912935029418e-05,
      "loss": 0.8263,
      "step": 891
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1097226447122828,
      "learning_rate": 1.896637173723121e-05,
      "loss": 0.8333,
      "step": 892
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.3527524373553006,
      "learning_rate": 1.8963610641732777e-05,
      "loss": 0.8361,
      "step": 893
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.3023945059093611,
      "learning_rate": 1.8960846064871257e-05,
      "loss": 0.9166,
      "step": 894
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.7087172021470416,
      "learning_rate": 1.8958078007720387e-05,
      "loss": 0.8883,
      "step": 895
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.38883750131698,
      "learning_rate": 1.895530647135524e-05,
      "loss": 0.9168,
      "step": 896
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1057329873018864,
      "learning_rate": 1.8952531456852248e-05,
      "loss": 0.8588,
      "step": 897
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.081320008648356,
      "learning_rate": 1.8949752965289197e-05,
      "loss": 1.0856,
      "step": 898
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4494618908488517,
      "learning_rate": 1.894697099774523e-05,
      "loss": 0.91,
      "step": 899
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.265871753892252,
      "learning_rate": 1.894418555530082e-05,
      "loss": 0.824,
      "step": 900
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.8449360323146091,
      "learning_rate": 1.89413966390378e-05,
      "loss": 0.9891,
      "step": 901
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.3596950488581259,
      "learning_rate": 1.8938604250039362e-05,
      "loss": 0.8799,
      "step": 902
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1748224639181866,
      "learning_rate": 1.8935808389390032e-05,
      "loss": 0.8002,
      "step": 903
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.2059979809622985,
      "learning_rate": 1.893300905817569e-05,
      "loss": 0.9662,
      "step": 904
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4119259337890393,
      "learning_rate": 1.8930206257483566e-05,
      "loss": 0.7988,
      "step": 905
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.1117703499885734,
      "learning_rate": 1.8927399988402233e-05,
      "loss": 0.8702,
      "step": 906
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.327326077101663,
      "learning_rate": 1.8924590252021614e-05,
      "loss": 0.8232,
      "step": 907
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4340911757138988,
      "learning_rate": 1.8921777049432985e-05,
      "loss": 0.9424,
      "step": 908
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4247340837833966,
      "learning_rate": 1.8918960381728947e-05,
      "loss": 0.916,
      "step": 909
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1583015261786709,
      "learning_rate": 1.8916140250003475e-05,
      "loss": 0.8644,
      "step": 910
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8855727851517875,
      "learning_rate": 1.891331665535187e-05,
      "loss": 0.7932,
      "step": 911
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.363589655660307,
      "learning_rate": 1.8910489598870784e-05,
      "loss": 0.8374,
      "step": 912
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8779979439001887,
      "learning_rate": 1.8907659081658214e-05,
      "loss": 0.7821,
      "step": 913
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1822170489026271,
      "learning_rate": 1.8904825104813497e-05,
      "loss": 0.8432,
      "step": 914
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2105614424337072,
      "learning_rate": 1.8901987669437322e-05,
      "loss": 0.7547,
      "step": 915
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3863592363474397,
      "learning_rate": 1.889914677663171e-05,
      "loss": 0.8215,
      "step": 916
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3365397765323046,
      "learning_rate": 1.8896302427500042e-05,
      "loss": 0.9704,
      "step": 917
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3252632412546477,
      "learning_rate": 1.8893454623147017e-05,
      "loss": 0.8767,
      "step": 918
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.553402256228187,
      "learning_rate": 1.88906033646787e-05,
      "loss": 1.069,
      "step": 919
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0786995816535263,
      "learning_rate": 1.8887748653202478e-05,
      "loss": 0.7707,
      "step": 920
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0584981158561266,
      "learning_rate": 1.8884890489827097e-05,
      "loss": 0.8817,
      "step": 921
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1330449248162122,
      "learning_rate": 1.8882028875662627e-05,
      "loss": 0.836,
      "step": 922
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2258363616089425,
      "learning_rate": 1.8879163811820493e-05,
      "loss": 0.8751,
      "step": 923
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0233101265028253,
      "learning_rate": 1.8876295299413445e-05,
      "loss": 0.8954,
      "step": 924
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2109870427518188,
      "learning_rate": 1.8873423339555584e-05,
      "loss": 0.9674,
      "step": 925
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2493019125378055,
      "learning_rate": 1.8870547933362352e-05,
      "loss": 0.9735,
      "step": 926
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.1442616554685725,
      "learning_rate": 1.886766908195051e-05,
      "loss": 0.9408,
      "step": 927
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1894289869292765,
      "learning_rate": 1.8864786786438187e-05,
      "loss": 0.8445,
      "step": 928
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1131546690989924,
      "learning_rate": 1.886190104794482e-05,
      "loss": 0.7027,
      "step": 929
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0406574026343725,
      "learning_rate": 1.8859011867591203e-05,
      "loss": 0.9932,
      "step": 930
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5189776073925627,
      "learning_rate": 1.885611924649946e-05,
      "loss": 1.0116,
      "step": 931
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.233593493968014,
      "learning_rate": 1.885322318579305e-05,
      "loss": 0.9731,
      "step": 932
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.024073353876267,
      "learning_rate": 1.8850323686596766e-05,
      "loss": 0.7926,
      "step": 933
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4476890678103302,
      "learning_rate": 1.8847420750036748e-05,
      "loss": 0.9791,
      "step": 934
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3308302787419455,
      "learning_rate": 1.884451437724046e-05,
      "loss": 0.861,
      "step": 935
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5821720178401553,
      "learning_rate": 1.8841604569336702e-05,
      "loss": 0.9773,
      "step": 936
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4326413606971857,
      "learning_rate": 1.883869132745561e-05,
      "loss": 0.9581,
      "step": 937
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.263443749736323,
      "learning_rate": 1.883577465272866e-05,
      "loss": 0.8996,
      "step": 938
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1720543652596827,
      "learning_rate": 1.8832854546288642e-05,
      "loss": 0.9458,
      "step": 939
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.343343086094004,
      "learning_rate": 1.8829931009269707e-05,
      "loss": 0.9217,
      "step": 940
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.27222362905193,
      "learning_rate": 1.882700404280731e-05,
      "loss": 0.9578,
      "step": 941
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2879025218079765,
      "learning_rate": 1.8824073648038258e-05,
      "loss": 0.8019,
      "step": 942
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.491557928096203,
      "learning_rate": 1.882113982610068e-05,
      "loss": 1.0028,
      "step": 943
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.434259158253126,
      "learning_rate": 1.881820257813404e-05,
      "loss": 0.8899,
      "step": 944
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.714922459453542,
      "learning_rate": 1.8815261905279133e-05,
      "loss": 0.9631,
      "step": 945
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.3985390709507308,
      "learning_rate": 1.8812317808678075e-05,
      "loss": 0.9039,
      "step": 946
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2732638281963762,
      "learning_rate": 1.8809370289474327e-05,
      "loss": 0.8626,
      "step": 947
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2802891602994702,
      "learning_rate": 1.8806419348812673e-05,
      "loss": 0.9565,
      "step": 948
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2666916289472339,
      "learning_rate": 1.8803464987839217e-05,
      "loss": 0.9458,
      "step": 949
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.6871222596450448,
      "learning_rate": 1.88005072077014e-05,
      "loss": 0.8933,
      "step": 950
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.5168205819719804,
      "learning_rate": 1.8797546009547996e-05,
      "loss": 0.8699,
      "step": 951
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2999764088263361,
      "learning_rate": 1.879458139452909e-05,
      "loss": 0.8901,
      "step": 952
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.507966113727551,
      "learning_rate": 1.8791613363796118e-05,
      "loss": 0.9953,
      "step": 953
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.7314693515956996,
      "learning_rate": 1.8788641918501817e-05,
      "loss": 0.9351,
      "step": 954
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4092151818461323,
      "learning_rate": 1.8785667059800264e-05,
      "loss": 0.8498,
      "step": 955
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0076605313519644,
      "learning_rate": 1.8782688788846865e-05,
      "loss": 0.7582,
      "step": 956
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.4410977521275388,
      "learning_rate": 1.877970710679834e-05,
      "loss": 0.8446,
      "step": 957
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.1725813060380335,
      "learning_rate": 1.877672201481275e-05,
      "loss": 1.0116,
      "step": 958
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0266370912963803,
      "learning_rate": 1.877373351404946e-05,
      "loss": 0.8534,
      "step": 959
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.8492303251404616,
      "learning_rate": 1.8770741605669173e-05,
      "loss": 1.0136,
      "step": 960
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.2901937451925225,
      "learning_rate": 1.876774629083391e-05,
      "loss": 0.8672,
      "step": 961
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2126399823992338,
      "learning_rate": 1.8764747570707017e-05,
      "loss": 0.7724,
      "step": 962
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.045199245445018,
      "learning_rate": 1.8761745446453167e-05,
      "loss": 0.9449,
      "step": 963
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3675643575210155,
      "learning_rate": 1.875873991923835e-05,
      "loss": 0.9241,
      "step": 964
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.034734141910208,
      "learning_rate": 1.875573099022987e-05,
      "loss": 0.8951,
      "step": 965
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.8733687616484804,
      "learning_rate": 1.8752718660596367e-05,
      "loss": 1.0476,
      "step": 966
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0572527506749227,
      "learning_rate": 1.8749702931507797e-05,
      "loss": 0.8594,
      "step": 967
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4612408631575913,
      "learning_rate": 1.874668380413543e-05,
      "loss": 0.9638,
      "step": 968
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1877352601490714,
      "learning_rate": 1.8743661279651856e-05,
      "loss": 0.9414,
      "step": 969
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1516375313277305,
      "learning_rate": 1.8740635359231e-05,
      "loss": 0.8044,
      "step": 970
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.124412098230684,
      "learning_rate": 1.8737606044048086e-05,
      "loss": 0.9134,
      "step": 971
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2063209585318868,
      "learning_rate": 1.873457333527967e-05,
      "loss": 0.847,
      "step": 972
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4244251248960416,
      "learning_rate": 1.873153723410362e-05,
      "loss": 0.9789,
      "step": 973
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1261577302265746,
      "learning_rate": 1.8728497741699115e-05,
      "loss": 0.91,
      "step": 974
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.318086328311398,
      "learning_rate": 1.872545485924667e-05,
      "loss": 0.7703,
      "step": 975
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0221863940965354,
      "learning_rate": 1.8722408587928104e-05,
      "loss": 0.8741,
      "step": 976
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3508794661069663,
      "learning_rate": 1.8719358928926546e-05,
      "loss": 0.8031,
      "step": 977
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2938737799107385,
      "learning_rate": 1.8716305883426456e-05,
      "loss": 0.8816,
      "step": 978
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.5683657272608422,
      "learning_rate": 1.87132494526136e-05,
      "loss": 1.0462,
      "step": 979
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5233371799400952,
      "learning_rate": 1.8710189637675055e-05,
      "loss": 1.0047,
      "step": 980
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0668282296204434,
      "learning_rate": 1.8707126439799225e-05,
      "loss": 0.6874,
      "step": 981
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1402235022605083,
      "learning_rate": 1.870405986017582e-05,
      "loss": 0.8308,
      "step": 982
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.6654958920513334,
      "learning_rate": 1.8700989899995857e-05,
      "loss": 1.0487,
      "step": 983
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.250101785315486,
      "learning_rate": 1.8697916560451682e-05,
      "loss": 0.9493,
      "step": 984
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2952906849692796,
      "learning_rate": 1.869483984273694e-05,
      "loss": 0.944,
      "step": 985
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2621681144661971,
      "learning_rate": 1.8691759748046594e-05,
      "loss": 0.9092,
      "step": 986
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2617442832273518,
      "learning_rate": 1.8688676277576916e-05,
      "loss": 0.9668,
      "step": 987
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2841524052350841,
      "learning_rate": 1.868558943252549e-05,
      "loss": 0.8726,
      "step": 988
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0033336448507646,
      "learning_rate": 1.868249921409122e-05,
      "loss": 0.7708,
      "step": 989
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1732257985233623,
      "learning_rate": 1.8679405623474294e-05,
      "loss": 0.8201,
      "step": 990
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1985684174589608,
      "learning_rate": 1.8676308661876242e-05,
      "loss": 0.7646,
      "step": 991
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3016043681334886,
      "learning_rate": 1.8673208330499884e-05,
      "loss": 1.0183,
      "step": 992
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.007921796054563,
      "learning_rate": 1.8670104630549348e-05,
      "loss": 0.9013,
      "step": 993
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3452741756958895,
      "learning_rate": 1.866699756323008e-05,
      "loss": 1.0004,
      "step": 994
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.104617655792389,
      "learning_rate": 1.866388712974883e-05,
      "loss": 0.9236,
      "step": 995
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2104790983170741,
      "learning_rate": 1.866077333131365e-05,
      "loss": 0.8132,
      "step": 996
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2756449875125457,
      "learning_rate": 1.8657656169133908e-05,
      "loss": 0.8432,
      "step": 997
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4769994566015854,
      "learning_rate": 1.8654535644420276e-05,
      "loss": 0.89,
      "step": 998
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1916987782099033,
      "learning_rate": 1.8651411758384718e-05,
      "loss": 0.9482,
      "step": 999
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.3433638256206701,
      "learning_rate": 1.8648284512240527e-05,
      "loss": 0.8191,
      "step": 1000
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1181163363287,
      "learning_rate": 1.8645153907202285e-05,
      "loss": 0.9241,
      "step": 1001
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.487421230639307,
      "learning_rate": 1.8642019944485884e-05,
      "loss": 0.9481,
      "step": 1002
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.252360147215953,
      "learning_rate": 1.863888262530852e-05,
      "loss": 0.8859,
      "step": 1003
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.4049972384695493,
      "learning_rate": 1.863574195088869e-05,
      "loss": 1.0329,
      "step": 1004
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1523695965066583,
      "learning_rate": 1.8632597922446195e-05,
      "loss": 0.9146,
      "step": 1005
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5543789488513524,
      "learning_rate": 1.8629450541202142e-05,
      "loss": 0.9506,
      "step": 1006
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.5241426663739723,
      "learning_rate": 1.8626299808378933e-05,
      "loss": 0.8741,
      "step": 1007
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2401463789022553,
      "learning_rate": 1.862314572520028e-05,
      "loss": 0.8704,
      "step": 1008
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.471110857655424,
      "learning_rate": 1.861998829289119e-05,
      "loss": 1.0716,
      "step": 1009
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.590488133369049,
      "learning_rate": 1.861682751267798e-05,
      "loss": 0.9309,
      "step": 1010
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9226130718543744,
      "learning_rate": 1.861366338578825e-05,
      "loss": 0.8174,
      "step": 1011
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.2384545394134707,
      "learning_rate": 1.8610495913450922e-05,
      "loss": 0.9654,
      "step": 1012
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1503159157921976,
      "learning_rate": 1.8607325096896197e-05,
      "loss": 0.8517,
      "step": 1013
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.788685226848793,
      "learning_rate": 1.8604150937355588e-05,
      "loss": 0.902,
      "step": 1014
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.621092776935929,
      "learning_rate": 1.86009734360619e-05,
      "loss": 0.9322,
      "step": 1015
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0647733302981315,
      "learning_rate": 1.8597792594249237e-05,
      "loss": 0.8863,
      "step": 1016
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1893952413154962,
      "learning_rate": 1.8594608413153e-05,
      "loss": 0.8359,
      "step": 1017
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5253262964182344,
      "learning_rate": 1.8591420894009897e-05,
      "loss": 0.9701,
      "step": 1018
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1988118530584877,
      "learning_rate": 1.8588230038057913e-05,
      "loss": 0.9425,
      "step": 1019
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1927027757295146,
      "learning_rate": 1.8585035846536347e-05,
      "loss": 0.8079,
      "step": 1020
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.615465523579773,
      "learning_rate": 1.8581838320685782e-05,
      "loss": 0.9895,
      "step": 1021
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.164071123840083,
      "learning_rate": 1.8578637461748105e-05,
      "loss": 0.8777,
      "step": 1022
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5605279434354395,
      "learning_rate": 1.857543327096649e-05,
      "loss": 0.962,
      "step": 1023
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3578376157383523,
      "learning_rate": 1.85722257495854e-05,
      "loss": 0.9369,
      "step": 1024
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3826388826593237,
      "learning_rate": 1.856901489885061e-05,
      "loss": 0.7491,
      "step": 1025
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.257920748113203,
      "learning_rate": 1.856580072000918e-05,
      "loss": 0.8712,
      "step": 1026
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4362200521012387,
      "learning_rate": 1.8562583214309447e-05,
      "loss": 0.9241,
      "step": 1027
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0874589345189989,
      "learning_rate": 1.855936238300106e-05,
      "loss": 0.8825,
      "step": 1028
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4972425512282062,
      "learning_rate": 1.8556138227334957e-05,
      "loss": 0.9212,
      "step": 1029
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0298395257816746,
      "learning_rate": 1.855291074856336e-05,
      "loss": 0.8499,
      "step": 1030
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3361896725146074,
      "learning_rate": 1.8549679947939778e-05,
      "loss": 0.7869,
      "step": 1031
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.0559659613874386,
      "learning_rate": 1.8546445826719023e-05,
      "loss": 0.8054,
      "step": 1032
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1780112903364137,
      "learning_rate": 1.8543208386157195e-05,
      "loss": 0.9084,
      "step": 1033
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1114289972503284,
      "learning_rate": 1.853996762751167e-05,
      "loss": 0.9548,
      "step": 1034
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.6002047002105626,
      "learning_rate": 1.8536723552041124e-05,
      "loss": 0.9066,
      "step": 1035
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0981524020032103,
      "learning_rate": 1.853347616100552e-05,
      "loss": 0.904,
      "step": 1036
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5723527807163833,
      "learning_rate": 1.8530225455666103e-05,
      "loss": 0.9374,
      "step": 1037
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0925583798251062,
      "learning_rate": 1.8526971437285416e-05,
      "loss": 0.7859,
      "step": 1038
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.2282030651043259,
      "learning_rate": 1.8523714107127278e-05,
      "loss": 0.8408,
      "step": 1039
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.2056528099479824,
      "learning_rate": 1.8520453466456797e-05,
      "loss": 1.0043,
      "step": 1040
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0910155429833226,
      "learning_rate": 1.8517189516540376e-05,
      "loss": 0.904,
      "step": 1041
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.28241072426781,
      "learning_rate": 1.8513922258645687e-05,
      "loss": 0.931,
      "step": 1042
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1090073771827287,
      "learning_rate": 1.8510651694041702e-05,
      "loss": 0.9318,
      "step": 1043
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1990778945931777,
      "learning_rate": 1.8507377823998664e-05,
      "loss": 0.9137,
      "step": 1044
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.2150436701439653,
      "learning_rate": 1.850410064978811e-05,
      "loss": 0.8571,
      "step": 1045
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.2479652768385607,
      "learning_rate": 1.8500820172682858e-05,
      "loss": 0.9554,
      "step": 1046
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.2466915170693094,
      "learning_rate": 1.8497536393957005e-05,
      "loss": 0.989,
      "step": 1047
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3876396986161443,
      "learning_rate": 1.8494249314885932e-05,
      "loss": 0.9602,
      "step": 1048
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.2819119566463548,
      "learning_rate": 1.8490958936746304e-05,
      "loss": 0.9269,
      "step": 1049
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.150961759641346,
      "learning_rate": 1.848766526081607e-05,
      "loss": 0.9186,
      "step": 1050
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.3583087829852212,
      "learning_rate": 1.8484368288374452e-05,
      "loss": 0.781,
      "step": 1051
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.5325567018676454,
      "learning_rate": 1.8481068020701954e-05,
      "loss": 0.9115,
      "step": 1052
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4635277701984601,
      "learning_rate": 1.8477764459080364e-05,
      "loss": 0.9783,
      "step": 1053
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.517359441971758,
      "learning_rate": 1.8474457604792746e-05,
      "loss": 0.929,
      "step": 1054
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.1877200015399678,
      "learning_rate": 1.8471147459123447e-05,
      "loss": 0.9103,
      "step": 1055
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.142221204526869,
      "learning_rate": 1.8467834023358088e-05,
      "loss": 0.9226,
      "step": 1056
    },
    {
      "epoch": 0.2,
      "grad_norm": 2.113634129393237,
      "learning_rate": 1.846451729878357e-05,
      "loss": 0.9808,
      "step": 1057
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.6051289959995112,
      "learning_rate": 1.846119728668807e-05,
      "loss": 0.9473,
      "step": 1058
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4443806031357571,
      "learning_rate": 1.845787398836104e-05,
      "loss": 0.8373,
      "step": 1059
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9947917731852584,
      "learning_rate": 1.8454547405093212e-05,
      "loss": 0.8063,
      "step": 1060
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4986696248210865,
      "learning_rate": 1.8451217538176597e-05,
      "loss": 0.9332,
      "step": 1061
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.384753269549346,
      "learning_rate": 1.844788438890447e-05,
      "loss": 0.9361,
      "step": 1062
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.6820999857239316,
      "learning_rate": 1.8444547958571396e-05,
      "loss": 1.0097,
      "step": 1063
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4185964643851792,
      "learning_rate": 1.84412082484732e-05,
      "loss": 0.9997,
      "step": 1064
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0904902421562224,
      "learning_rate": 1.8437865259906987e-05,
      "loss": 0.9548,
      "step": 1065
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9913236492886286,
      "learning_rate": 1.8434518994171136e-05,
      "loss": 0.831,
      "step": 1066
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0851600920854283,
      "learning_rate": 1.84311694525653e-05,
      "loss": 0.6952,
      "step": 1067
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0662849384778996,
      "learning_rate": 1.84278166363904e-05,
      "loss": 0.8617,
      "step": 1068
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2760320159894256,
      "learning_rate": 1.8424460546948632e-05,
      "loss": 0.9517,
      "step": 1069
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6280667256467172,
      "learning_rate": 1.8421101185543463e-05,
      "loss": 0.8922,
      "step": 1070
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3576633921177552,
      "learning_rate": 1.841773855347963e-05,
      "loss": 0.8156,
      "step": 1071
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1506665276203374,
      "learning_rate": 1.841437265206314e-05,
      "loss": 0.8908,
      "step": 1072
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4084836300846812,
      "learning_rate": 1.841100348260127e-05,
      "loss": 0.9481,
      "step": 1073
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.7749431597543592,
      "learning_rate": 1.840763104640257e-05,
      "loss": 1.0538,
      "step": 1074
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.120845447350587,
      "learning_rate": 1.8404255344776853e-05,
      "loss": 0.7659,
      "step": 1075
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9790514015273153,
      "learning_rate": 1.84008763790352e-05,
      "loss": 0.6615,
      "step": 1076
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3556993359479426,
      "learning_rate": 1.8397494150489963e-05,
      "loss": 0.9981,
      "step": 1077
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1305871143274973,
      "learning_rate": 1.8394108660454766e-05,
      "loss": 0.9287,
      "step": 1078
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2152663795943324,
      "learning_rate": 1.8390719910244487e-05,
      "loss": 0.9619,
      "step": 1079
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4389268923836425,
      "learning_rate": 1.8387327901175286e-05,
      "loss": 0.8329,
      "step": 1080
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0269405154726972,
      "learning_rate": 1.838393263456457e-05,
      "loss": 0.7916,
      "step": 1081
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0779904557150988,
      "learning_rate": 1.838053411173103e-05,
      "loss": 0.877,
      "step": 1082
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.244054564144908,
      "learning_rate": 1.8377132333994606e-05,
      "loss": 0.7238,
      "step": 1083
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3024935535506597,
      "learning_rate": 1.837372730267652e-05,
      "loss": 0.9017,
      "step": 1084
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2847256555078213,
      "learning_rate": 1.8370319019099236e-05,
      "loss": 0.9537,
      "step": 1085
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.233503466511548,
      "learning_rate": 1.8366907484586497e-05,
      "loss": 0.9189,
      "step": 1086
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1501500673790908,
      "learning_rate": 1.83634927004633e-05,
      "loss": 0.9292,
      "step": 1087
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0797249115570773,
      "learning_rate": 1.8360074668055915e-05,
      "loss": 0.8767,
      "step": 1088
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.6832090126836732,
      "learning_rate": 1.8356653388691857e-05,
      "loss": 0.8953,
      "step": 1089
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0717313292798942,
      "learning_rate": 1.8353228863699922e-05,
      "loss": 0.8771,
      "step": 1090
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2171322389503745,
      "learning_rate": 1.8349801094410148e-05,
      "loss": 0.93,
      "step": 1091
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1929788979930604,
      "learning_rate": 1.8346370082153843e-05,
      "loss": 0.935,
      "step": 1092
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2023164879981294,
      "learning_rate": 1.8342935828263574e-05,
      "loss": 0.8852,
      "step": 1093
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3724396388435784,
      "learning_rate": 1.8339498334073166e-05,
      "loss": 0.9608,
      "step": 1094
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2498015009584145,
      "learning_rate": 1.83360576009177e-05,
      "loss": 0.9297,
      "step": 1095
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.5183046901778234,
      "learning_rate": 1.833261363013352e-05,
      "loss": 0.9008,
      "step": 1096
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3451989195447116,
      "learning_rate": 1.832916642305822e-05,
      "loss": 0.9057,
      "step": 1097
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9763422531672549,
      "learning_rate": 1.832571598103066e-05,
      "loss": 0.891,
      "step": 1098
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2134228677288623,
      "learning_rate": 1.8322262305390948e-05,
      "loss": 0.9275,
      "step": 1099
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4441668425639294,
      "learning_rate": 1.8318805397480455e-05,
      "loss": 0.9225,
      "step": 1100
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1129532401919997,
      "learning_rate": 1.8315345258641802e-05,
      "loss": 0.9751,
      "step": 1101
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1918390422095584,
      "learning_rate": 1.8311881890218873e-05,
      "loss": 0.93,
      "step": 1102
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0256364382426228,
      "learning_rate": 1.830841529355679e-05,
      "loss": 0.9441,
      "step": 1103
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2633725698839542,
      "learning_rate": 1.8304945470001948e-05,
      "loss": 0.8457,
      "step": 1104
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0911547857530313,
      "learning_rate": 1.8301472420901985e-05,
      "loss": 0.9427,
      "step": 1105
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0004382854050653,
      "learning_rate": 1.8297996147605787e-05,
      "loss": 0.9037,
      "step": 1106
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.252243491108134,
      "learning_rate": 1.829451665146351e-05,
      "loss": 0.9593,
      "step": 1107
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.4113772319192286,
      "learning_rate": 1.8291033933826535e-05,
      "loss": 0.8773,
      "step": 1108
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3824938380672525,
      "learning_rate": 1.8287547996047523e-05,
      "loss": 0.9407,
      "step": 1109
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1369658609981779,
      "learning_rate": 1.8284058839480363e-05,
      "loss": 1.0091,
      "step": 1110
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3069528248077582,
      "learning_rate": 1.8280566465480206e-05,
      "loss": 0.8855,
      "step": 1111
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1196505069936462,
      "learning_rate": 1.8277070875403455e-05,
      "loss": 0.9506,
      "step": 1112
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.1915826756753654,
      "learning_rate": 1.8273572070607756e-05,
      "loss": 0.8544,
      "step": 1113
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.241726435109155,
      "learning_rate": 1.8270070052451995e-05,
      "loss": 0.8873,
      "step": 1114
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.315301128468805,
      "learning_rate": 1.8266564822296323e-05,
      "loss": 0.9572,
      "step": 1115
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.2329330665046068,
      "learning_rate": 1.826305638150213e-05,
      "loss": 0.93,
      "step": 1116
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.3338766574654717,
      "learning_rate": 1.825954473143205e-05,
      "loss": 0.9542,
      "step": 1117
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.034574174747744,
      "learning_rate": 1.8256029873449976e-05,
      "loss": 0.8362,
      "step": 1118
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1990018640324411,
      "learning_rate": 1.825251180892103e-05,
      "loss": 0.9478,
      "step": 1119
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.7115929868811373,
      "learning_rate": 1.8248990539211596e-05,
      "loss": 1.0395,
      "step": 1120
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1818716465711048,
      "learning_rate": 1.8245466065689282e-05,
      "loss": 0.8655,
      "step": 1121
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1750673208994795,
      "learning_rate": 1.824193838972297e-05,
      "loss": 0.941,
      "step": 1122
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2963554461168139,
      "learning_rate": 1.823840751268275e-05,
      "loss": 0.8775,
      "step": 1123
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0278361903715818,
      "learning_rate": 1.8234873435939987e-05,
      "loss": 0.9413,
      "step": 1124
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0845175561622946,
      "learning_rate": 1.8231336160867275e-05,
      "loss": 0.9537,
      "step": 1125
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1815265027021358,
      "learning_rate": 1.8227795688838446e-05,
      "loss": 0.8772,
      "step": 1126
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1406854980286232,
      "learning_rate": 1.822425202122858e-05,
      "loss": 0.8686,
      "step": 1127
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3054767002009735,
      "learning_rate": 1.8220705159413996e-05,
      "loss": 0.9168,
      "step": 1128
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4885278970485494,
      "learning_rate": 1.8217155104772256e-05,
      "loss": 0.8966,
      "step": 1129
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.5301154839622406,
      "learning_rate": 1.8213601858682158e-05,
      "loss": 1.0036,
      "step": 1130
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2385225671968738,
      "learning_rate": 1.8210045422523744e-05,
      "loss": 1.0091,
      "step": 1131
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9611159334404095,
      "learning_rate": 1.8206485797678294e-05,
      "loss": 0.7702,
      "step": 1132
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0826657731569445,
      "learning_rate": 1.820292298552832e-05,
      "loss": 0.9188,
      "step": 1133
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.105017951771233,
      "learning_rate": 1.819935698745759e-05,
      "loss": 0.9079,
      "step": 1134
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2913161528896262,
      "learning_rate": 1.8195787804851076e-05,
      "loss": 0.9542,
      "step": 1135
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.6039371958523727,
      "learning_rate": 1.8192215439095025e-05,
      "loss": 0.8779,
      "step": 1136
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2364436525188123,
      "learning_rate": 1.8188639891576893e-05,
      "loss": 0.868,
      "step": 1137
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.317368391189932,
      "learning_rate": 1.8185061163685386e-05,
      "loss": 0.9594,
      "step": 1138
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4549782001824094,
      "learning_rate": 1.818147925681044e-05,
      "loss": 0.9556,
      "step": 1139
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.471501606682606,
      "learning_rate": 1.8177894172343227e-05,
      "loss": 0.9627,
      "step": 1140
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1884403266335224,
      "learning_rate": 1.817430591167615e-05,
      "loss": 0.8831,
      "step": 1141
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2935624412679774,
      "learning_rate": 1.8170714476202848e-05,
      "loss": 0.9021,
      "step": 1142
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2862008724148433,
      "learning_rate": 1.8167119867318197e-05,
      "loss": 0.8132,
      "step": 1143
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.130202704960752,
      "learning_rate": 1.81635220864183e-05,
      "loss": 0.8765,
      "step": 1144
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1289505677615492,
      "learning_rate": 1.8159921134900486e-05,
      "loss": 0.9217,
      "step": 1145
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.257415501882656,
      "learning_rate": 1.8156317014163337e-05,
      "loss": 0.8464,
      "step": 1146
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3337163565165577,
      "learning_rate": 1.8152709725606642e-05,
      "loss": 0.8376,
      "step": 1147
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0819105374055384,
      "learning_rate": 1.8149099270631434e-05,
      "loss": 0.8944,
      "step": 1148
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4988126404628264,
      "learning_rate": 1.8145485650639973e-05,
      "loss": 0.9857,
      "step": 1149
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4266141614198058,
      "learning_rate": 1.8141868867035745e-05,
      "loss": 0.954,
      "step": 1150
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.6468477232862004,
      "learning_rate": 1.8138248921223465e-05,
      "loss": 0.9304,
      "step": 1151
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.339528967480977,
      "learning_rate": 1.8134625814609084e-05,
      "loss": 0.8597,
      "step": 1152
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4695183354577872,
      "learning_rate": 1.8130999548599767e-05,
      "loss": 0.9676,
      "step": 1153
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1905332706830511,
      "learning_rate": 1.8127370124603927e-05,
      "loss": 0.9709,
      "step": 1154
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2925350914809721,
      "learning_rate": 1.8123737544031178e-05,
      "loss": 0.9567,
      "step": 1155
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0852451008130788,
      "learning_rate": 1.8120101808292373e-05,
      "loss": 0.8538,
      "step": 1156
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.1478577867050013,
      "learning_rate": 1.81164629187996e-05,
      "loss": 0.9214,
      "step": 1157
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3037531710152497,
      "learning_rate": 1.811282087696615e-05,
      "loss": 1.0044,
      "step": 1158
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3811768324706002,
      "learning_rate": 1.8109175684206558e-05,
      "loss": 0.806,
      "step": 1159
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0771367041293753,
      "learning_rate": 1.8105527341936574e-05,
      "loss": 0.8657,
      "step": 1160
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.8644701375690642,
      "learning_rate": 1.810187585157317e-05,
      "loss": 0.9155,
      "step": 1161
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.117381311449624,
      "learning_rate": 1.8098221214534543e-05,
      "loss": 0.8581,
      "step": 1162
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4017134275262,
      "learning_rate": 1.8094563432240107e-05,
      "loss": 0.9372,
      "step": 1163
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2049204346040294,
      "learning_rate": 1.8090902506110513e-05,
      "loss": 0.8426,
      "step": 1164
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.0492846425122866,
      "learning_rate": 1.8087238437567614e-05,
      "loss": 0.7989,
      "step": 1165
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4454336296048198,
      "learning_rate": 1.8083571228034498e-05,
      "loss": 0.8673,
      "step": 1166
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2884363539399428,
      "learning_rate": 1.807990087893546e-05,
      "loss": 0.8561,
      "step": 1167
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.4992870206244668,
      "learning_rate": 1.807622739169603e-05,
      "loss": 0.9911,
      "step": 1168
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.3850378551085738,
      "learning_rate": 1.807255076774294e-05,
      "loss": 0.9722,
      "step": 1169
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.1447476786169533,
      "learning_rate": 1.8068871008504153e-05,
      "loss": 0.9075,
      "step": 1170
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2894611089136254,
      "learning_rate": 1.8065188115408844e-05,
      "loss": 0.8112,
      "step": 1171
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.077136067114494,
      "learning_rate": 1.8061502089887406e-05,
      "loss": 0.985,
      "step": 1172
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.490748975304663,
      "learning_rate": 1.805781293337145e-05,
      "loss": 0.9421,
      "step": 1173
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9926387983564227,
      "learning_rate": 1.8054120647293798e-05,
      "loss": 0.9116,
      "step": 1174
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.188288187098271,
      "learning_rate": 1.8050425233088496e-05,
      "loss": 0.9389,
      "step": 1175
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3451901111648445,
      "learning_rate": 1.80467266921908e-05,
      "loss": 0.8134,
      "step": 1176
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0824952463730553,
      "learning_rate": 1.8043025026037178e-05,
      "loss": 0.9023,
      "step": 1177
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.23620977257092,
      "learning_rate": 1.8039320236065314e-05,
      "loss": 0.966,
      "step": 1178
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2767438486008758,
      "learning_rate": 1.803561232371411e-05,
      "loss": 0.8112,
      "step": 1179
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3666942203835102,
      "learning_rate": 1.803190129042367e-05,
      "loss": 0.839,
      "step": 1180
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2037339372494085,
      "learning_rate": 1.8028187137635325e-05,
      "loss": 0.9048,
      "step": 1181
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2674705326723383,
      "learning_rate": 1.8024469866791602e-05,
      "loss": 0.8195,
      "step": 1182
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0006776917105675,
      "learning_rate": 1.802074947933625e-05,
      "loss": 0.8785,
      "step": 1183
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.1995319600467784,
      "learning_rate": 1.801702597671422e-05,
      "loss": 0.8152,
      "step": 1184
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4716024571552413,
      "learning_rate": 1.8013299360371685e-05,
      "loss": 0.817,
      "step": 1185
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.260642554884205,
      "learning_rate": 1.8009569631756013e-05,
      "loss": 0.8963,
      "step": 1186
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4020845969364721,
      "learning_rate": 1.8005836792315793e-05,
      "loss": 0.8255,
      "step": 1187
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5054514455493628,
      "learning_rate": 1.800210084350081e-05,
      "loss": 0.9193,
      "step": 1188
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.431590954685253,
      "learning_rate": 1.799836178676207e-05,
      "loss": 0.8604,
      "step": 1189
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4208020524961806,
      "learning_rate": 1.799461962355178e-05,
      "loss": 0.9096,
      "step": 1190
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.507255707726299,
      "learning_rate": 1.7990874355323345e-05,
      "loss": 0.9412,
      "step": 1191
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0288155780214794,
      "learning_rate": 1.7987125983531393e-05,
      "loss": 0.9162,
      "step": 1192
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.0741971000432327,
      "learning_rate": 1.7983374509631742e-05,
      "loss": 1.0054,
      "step": 1193
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2091668311747905,
      "learning_rate": 1.7979619935081424e-05,
      "loss": 0.7722,
      "step": 1194
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.353596052584847,
      "learning_rate": 1.797586226133867e-05,
      "loss": 0.9407,
      "step": 1195
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5186078792099784,
      "learning_rate": 1.7972101489862924e-05,
      "loss": 0.8819,
      "step": 1196
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.5139335667602147,
      "learning_rate": 1.7968337622114824e-05,
      "loss": 0.9308,
      "step": 1197
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2565076611584176,
      "learning_rate": 1.7964570659556206e-05,
      "loss": 0.8079,
      "step": 1198
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.586340778383028,
      "learning_rate": 1.796080060365012e-05,
      "loss": 0.9217,
      "step": 1199
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9981886581969269,
      "learning_rate": 1.7957027455860815e-05,
      "loss": 0.8782,
      "step": 1200
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.7390901108800834,
      "learning_rate": 1.795325121765373e-05,
      "loss": 0.9449,
      "step": 1201
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3819743232043629,
      "learning_rate": 1.794947189049552e-05,
      "loss": 0.9718,
      "step": 1202
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.8782054462595439,
      "learning_rate": 1.7945689475854033e-05,
      "loss": 0.8981,
      "step": 1203
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.1444967597510225,
      "learning_rate": 1.7941903975198305e-05,
      "loss": 0.9372,
      "step": 1204
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0503863196073728,
      "learning_rate": 1.7938115389998595e-05,
      "loss": 0.8469,
      "step": 1205
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.3493666687680486,
      "learning_rate": 1.7934323721726334e-05,
      "loss": 0.97,
      "step": 1206
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.256236283799158,
      "learning_rate": 1.7930528971854166e-05,
      "loss": 0.9544,
      "step": 1207
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.9760958317095109,
      "learning_rate": 1.792673114185593e-05,
      "loss": 0.8004,
      "step": 1208
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.9763017433415195,
      "learning_rate": 1.7922930233206656e-05,
      "loss": 0.9672,
      "step": 1209
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.2747165269847966,
      "learning_rate": 1.7919126247382576e-05,
      "loss": 0.7935,
      "step": 1210
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.7192689003962902,
      "learning_rate": 1.791531918586112e-05,
      "loss": 0.956,
      "step": 1211
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.1038604729198895,
      "learning_rate": 1.7911509050120892e-05,
      "loss": 0.9333,
      "step": 1212
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4471591435384787,
      "learning_rate": 1.7907695841641716e-05,
      "loss": 0.8648,
      "step": 1213
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.4712221178507572,
      "learning_rate": 1.7903879561904597e-05,
      "loss": 0.946,
      "step": 1214
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0963970027630523,
      "learning_rate": 1.790006021239173e-05,
      "loss": 0.9099,
      "step": 1215
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.8873723938458968,
      "learning_rate": 1.789623779458651e-05,
      "loss": 0.9676,
      "step": 1216
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0953846352130965,
      "learning_rate": 1.789241230997352e-05,
      "loss": 0.9341,
      "step": 1217
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.194492655365124,
      "learning_rate": 1.7888583760038534e-05,
      "loss": 0.8801,
      "step": 1218
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.236410136011246,
      "learning_rate": 1.7884752146268513e-05,
      "loss": 0.9042,
      "step": 1219
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.7836174572335284,
      "learning_rate": 1.7880917470151614e-05,
      "loss": 1.0126,
      "step": 1220
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.528655172110457,
      "learning_rate": 1.7877079733177185e-05,
      "loss": 0.8552,
      "step": 1221
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2065263188941193,
      "learning_rate": 1.7873238936835754e-05,
      "loss": 0.9255,
      "step": 1222
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.305935408500864,
      "learning_rate": 1.786939508261904e-05,
      "loss": 0.8238,
      "step": 1223
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2532522231640293,
      "learning_rate": 1.786554817201996e-05,
      "loss": 0.9278,
      "step": 1224
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9071236358006525,
      "learning_rate": 1.78616982065326e-05,
      "loss": 0.8859,
      "step": 1225
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4020064231810068,
      "learning_rate": 1.785784518765225e-05,
      "loss": 0.9373,
      "step": 1226
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3336891270662938,
      "learning_rate": 1.7853989116875373e-05,
      "loss": 0.8941,
      "step": 1227
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.0798456401398568,
      "learning_rate": 1.7850129995699626e-05,
      "loss": 0.9343,
      "step": 1228
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.624018671988757,
      "learning_rate": 1.7846267825623843e-05,
      "loss": 0.9879,
      "step": 1229
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2847308071373371,
      "learning_rate": 1.7842402608148053e-05,
      "loss": 0.7394,
      "step": 1230
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4253288480484052,
      "learning_rate": 1.7838534344773453e-05,
      "loss": 1.0093,
      "step": 1231
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4046852810877162,
      "learning_rate": 1.7834663037002444e-05,
      "loss": 0.9571,
      "step": 1232
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.237377778041928,
      "learning_rate": 1.7830788686338586e-05,
      "loss": 0.972,
      "step": 1233
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.1505250724713594,
      "learning_rate": 1.7826911294286636e-05,
      "loss": 0.7299,
      "step": 1234
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.787198337571098,
      "learning_rate": 1.782303086235253e-05,
      "loss": 1.0052,
      "step": 1235
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.31371059956163,
      "learning_rate": 1.781914739204338e-05,
      "loss": 0.9055,
      "step": 1236
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3556876016185428,
      "learning_rate": 1.7815260884867486e-05,
      "loss": 0.9233,
      "step": 1237
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.1259286201143035,
      "learning_rate": 1.781137134233432e-05,
      "loss": 0.8422,
      "step": 1238
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.086607184106369,
      "learning_rate": 1.7807478765954532e-05,
      "loss": 0.9498,
      "step": 1239
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.366821694482619,
      "learning_rate": 1.7803583157239958e-05,
      "loss": 0.8523,
      "step": 1240
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.1472735066227573,
      "learning_rate": 1.7799684517703605e-05,
      "loss": 0.9202,
      "step": 1241
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2255732235496017,
      "learning_rate": 1.779578284885966e-05,
      "loss": 0.8909,
      "step": 1242
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3597642417331928,
      "learning_rate": 1.779187815222349e-05,
      "loss": 0.745,
      "step": 1243
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.0690549071838764,
      "learning_rate": 1.778797042931163e-05,
      "loss": 0.8795,
      "step": 1244
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9784097472651763,
      "learning_rate": 1.7784059681641798e-05,
      "loss": 0.9131,
      "step": 1245
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3572152894779246,
      "learning_rate": 1.778014591073288e-05,
      "loss": 0.9315,
      "step": 1246
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3414034710945846,
      "learning_rate": 1.777622911810494e-05,
      "loss": 0.8372,
      "step": 1247
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2997159789686923,
      "learning_rate": 1.777230930527922e-05,
      "loss": 0.9321,
      "step": 1248
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2815679629562204,
      "learning_rate": 1.7768386473778124e-05,
      "loss": 0.8784,
      "step": 1249
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.477522814019033,
      "learning_rate": 1.7764460625125236e-05,
      "loss": 0.8871,
      "step": 1250
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5217301221667996,
      "learning_rate": 1.776053176084531e-05,
      "loss": 0.9589,
      "step": 1251
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.214548493656373,
      "learning_rate": 1.7756599882464274e-05,
      "loss": 0.921,
      "step": 1252
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.1362534788299306,
      "learning_rate": 1.7752664991509224e-05,
      "loss": 0.9336,
      "step": 1253
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3643929753149333,
      "learning_rate": 1.7748727089508423e-05,
      "loss": 0.9498,
      "step": 1254
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.1669137744815736,
      "learning_rate": 1.7744786177991307e-05,
      "loss": 0.8274,
      "step": 1255
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.891324566131366,
      "learning_rate": 1.774084225848849e-05,
      "loss": 0.7647,
      "step": 1256
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9379020578806871,
      "learning_rate": 1.773689533253173e-05,
      "loss": 0.828,
      "step": 1257
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.407877257058573,
      "learning_rate": 1.7732945401653978e-05,
      "loss": 0.9403,
      "step": 1258
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5513039477945851,
      "learning_rate": 1.7728992467389342e-05,
      "loss": 0.7468,
      "step": 1259
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3896996265172985,
      "learning_rate": 1.7725036531273087e-05,
      "loss": 0.9361,
      "step": 1260
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4327248296883044,
      "learning_rate": 1.7721077594841663e-05,
      "loss": 0.832,
      "step": 1261
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.8394395787750262,
      "learning_rate": 1.771711565963267e-05,
      "loss": 1.0018,
      "step": 1262
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.1971019209791693,
      "learning_rate": 1.7713150727184878e-05,
      "loss": 0.8209,
      "step": 1263
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.6282389029057984,
      "learning_rate": 1.770918279903822e-05,
      "loss": 1.0238,
      "step": 1264
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8924716011000854,
      "learning_rate": 1.77052118767338e-05,
      "loss": 0.6952,
      "step": 1265
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3583096157052434,
      "learning_rate": 1.7701237961813874e-05,
      "loss": 0.9139,
      "step": 1266
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.024488983651087,
      "learning_rate": 1.7697261055821864e-05,
      "loss": 0.8992,
      "step": 1267
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.3566316434753491,
      "learning_rate": 1.7693281160302354e-05,
      "loss": 0.9349,
      "step": 1268
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.1270587516699837,
      "learning_rate": 1.7689298276801095e-05,
      "loss": 0.9674,
      "step": 1269
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.5241463986435602,
      "learning_rate": 1.7685312406864986e-05,
      "loss": 0.9568,
      "step": 1270
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.174980394996901,
      "learning_rate": 1.7681323552042094e-05,
      "loss": 0.9727,
      "step": 1271
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.2789765956226258,
      "learning_rate": 1.767733171388165e-05,
      "loss": 0.8616,
      "step": 1272
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.4599681908290154,
      "learning_rate": 1.7673336893934033e-05,
      "loss": 0.8773,
      "step": 1273
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9566731101529538,
      "learning_rate": 1.7669339093750786e-05,
      "loss": 0.8665,
      "step": 1274
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.276645992229369,
      "learning_rate": 1.766533831488461e-05,
      "loss": 0.9625,
      "step": 1275
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1887852319645602,
      "learning_rate": 1.7661334558889357e-05,
      "loss": 0.9449,
      "step": 1276
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1432262137437526,
      "learning_rate": 1.7657327827320046e-05,
      "loss": 0.7852,
      "step": 1277
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2143079555129621,
      "learning_rate": 1.765331812173284e-05,
      "loss": 0.9031,
      "step": 1278
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2590841582977168,
      "learning_rate": 1.7649305443685068e-05,
      "loss": 0.9545,
      "step": 1279
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9718096854599674,
      "learning_rate": 1.76452897947352e-05,
      "loss": 0.8872,
      "step": 1280
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1214064862187383,
      "learning_rate": 1.7641271176442876e-05,
      "loss": 0.8702,
      "step": 1281
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1902638246275083,
      "learning_rate": 1.7637249590368878e-05,
      "loss": 0.9283,
      "step": 1282
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9835000223623549,
      "learning_rate": 1.763322503807514e-05,
      "loss": 0.7807,
      "step": 1283
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.709144093815596,
      "learning_rate": 1.7629197521124758e-05,
      "loss": 1.0095,
      "step": 1284
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9762089463625357,
      "learning_rate": 1.7625167041081967e-05,
      "loss": 0.8165,
      "step": 1285
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0928031855122964,
      "learning_rate": 1.7621133599512163e-05,
      "loss": 0.8674,
      "step": 1286
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.538555151803996,
      "learning_rate": 1.761709719798189e-05,
      "loss": 0.9082,
      "step": 1287
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3891413749404034,
      "learning_rate": 1.761305783805883e-05,
      "loss": 0.8804,
      "step": 1288
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2664392614753954,
      "learning_rate": 1.7609015521311836e-05,
      "loss": 0.8354,
      "step": 1289
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2418842384090023,
      "learning_rate": 1.7604970249310893e-05,
      "loss": 0.9305,
      "step": 1290
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0892974054925806,
      "learning_rate": 1.7600922023627137e-05,
      "loss": 0.8886,
      "step": 1291
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2159087019698893,
      "learning_rate": 1.759687084583285e-05,
      "loss": 0.8551,
      "step": 1292
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.986179323468029,
      "learning_rate": 1.759281671750147e-05,
      "loss": 0.8093,
      "step": 1293
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5544999748741404,
      "learning_rate": 1.7588759640207564e-05,
      "loss": 0.8937,
      "step": 1294
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3909639860521106,
      "learning_rate": 1.7584699615526857e-05,
      "loss": 0.882,
      "step": 1295
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.916792670762646,
      "learning_rate": 1.7580636645036224e-05,
      "loss": 0.7697,
      "step": 1296
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3149319580055985,
      "learning_rate": 1.757657073031367e-05,
      "loss": 0.9522,
      "step": 1297
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9511359782514639,
      "learning_rate": 1.7572501872938343e-05,
      "loss": 0.7323,
      "step": 1298
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1646036160077737,
      "learning_rate": 1.756843007449055e-05,
      "loss": 0.8776,
      "step": 1299
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4751526952688983,
      "learning_rate": 1.7564355336551727e-05,
      "loss": 0.8922,
      "step": 1300
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5081071998009716,
      "learning_rate": 1.7560277660704455e-05,
      "loss": 0.8746,
      "step": 1301
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2624896655376756,
      "learning_rate": 1.755619704853246e-05,
      "loss": 0.8635,
      "step": 1302
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0045274590667925,
      "learning_rate": 1.7552113501620595e-05,
      "loss": 0.7938,
      "step": 1303
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5574473886406903,
      "learning_rate": 1.7548027021554874e-05,
      "loss": 0.8847,
      "step": 1304
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5732637499522084,
      "learning_rate": 1.754393760992243e-05,
      "loss": 0.982,
      "step": 1305
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.248864140243299,
      "learning_rate": 1.7539845268311548e-05,
      "loss": 0.8703,
      "step": 1306
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3945993398824938,
      "learning_rate": 1.7535749998311645e-05,
      "loss": 0.857,
      "step": 1307
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0660380277502213,
      "learning_rate": 1.753165180151328e-05,
      "loss": 0.9328,
      "step": 1308
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1790882172871144,
      "learning_rate": 1.752755067950814e-05,
      "loss": 0.8738,
      "step": 1309
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2258071401532062,
      "learning_rate": 1.752344663388906e-05,
      "loss": 0.9304,
      "step": 1310
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.6364324935053325,
      "learning_rate": 1.7519339666249997e-05,
      "loss": 0.8152,
      "step": 1311
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0905693368674074,
      "learning_rate": 1.7515229778186052e-05,
      "loss": 0.8627,
      "step": 1312
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0498245143127038,
      "learning_rate": 1.7511116971293463e-05,
      "loss": 0.7846,
      "step": 1313
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.000958626865569,
      "learning_rate": 1.7507001247169587e-05,
      "loss": 0.8505,
      "step": 1314
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5683613950246056,
      "learning_rate": 1.7502882607412933e-05,
      "loss": 0.9232,
      "step": 1315
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.480112395263575,
      "learning_rate": 1.749876105362313e-05,
      "loss": 0.9321,
      "step": 1316
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.9417203650216228,
      "learning_rate": 1.7494636587400942e-05,
      "loss": 0.8668,
      "step": 1317
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4839696258475703,
      "learning_rate": 1.749050921034826e-05,
      "loss": 0.9081,
      "step": 1318
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.5554640291732469,
      "learning_rate": 1.7486378924068123e-05,
      "loss": 0.9742,
      "step": 1319
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.4409855166198429,
      "learning_rate": 1.748224573016467e-05,
      "loss": 0.8479,
      "step": 1320
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.1102170147648174,
      "learning_rate": 1.7478109630243195e-05,
      "loss": 0.8381,
      "step": 1321
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3080005272595054,
      "learning_rate": 1.747397062591011e-05,
      "loss": 0.941,
      "step": 1322
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2230572648431008,
      "learning_rate": 1.746982871877296e-05,
      "loss": 1.0085,
      "step": 1323
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.0585744627729865,
      "learning_rate": 1.7465683910440405e-05,
      "loss": 0.7699,
      "step": 1324
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3025929447137081,
      "learning_rate": 1.7461536202522248e-05,
      "loss": 0.9381,
      "step": 1325
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.453335257157185,
      "learning_rate": 1.745738559662941e-05,
      "loss": 0.9166,
      "step": 1326
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5356133720135672,
      "learning_rate": 1.7453232094373936e-05,
      "loss": 0.9592,
      "step": 1327
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.280521251720472,
      "learning_rate": 1.7449075697369005e-05,
      "loss": 0.9078,
      "step": 1328
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1734900170090756,
      "learning_rate": 1.7444916407228904e-05,
      "loss": 0.947,
      "step": 1329
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1103633609067722,
      "learning_rate": 1.744075422556906e-05,
      "loss": 0.7879,
      "step": 1330
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4664485485421948,
      "learning_rate": 1.7436589154006014e-05,
      "loss": 0.9033,
      "step": 1331
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.6321655861617606,
      "learning_rate": 1.743242119415743e-05,
      "loss": 1.0017,
      "step": 1332
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.057286207860524,
      "learning_rate": 1.7428250347642102e-05,
      "loss": 0.7933,
      "step": 1333
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1449203698383617,
      "learning_rate": 1.7424076616079933e-05,
      "loss": 0.8737,
      "step": 1334
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0951998939633307,
      "learning_rate": 1.7419900001091953e-05,
      "loss": 0.8943,
      "step": 1335
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0661219394280197,
      "learning_rate": 1.7415720504300314e-05,
      "loss": 0.9304,
      "step": 1336
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1548680507594518,
      "learning_rate": 1.741153812732828e-05,
      "loss": 0.8373,
      "step": 1337
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.2717889275997616,
      "learning_rate": 1.7407352871800246e-05,
      "loss": 0.878,
      "step": 1338
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.214467915818828,
      "learning_rate": 1.7403164739341708e-05,
      "loss": 0.8754,
      "step": 1339
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0034077451236147,
      "learning_rate": 1.739897373157929e-05,
      "loss": 0.6942,
      "step": 1340
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0708472693632853,
      "learning_rate": 1.7394779850140736e-05,
      "loss": 0.9106,
      "step": 1341
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.086336738923662,
      "learning_rate": 1.7390583096654895e-05,
      "loss": 0.8464,
      "step": 1342
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1271881754217195,
      "learning_rate": 1.7386383472751745e-05,
      "loss": 0.8421,
      "step": 1343
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1705621080426418,
      "learning_rate": 1.7382180980062365e-05,
      "loss": 0.8488,
      "step": 1344
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.422416640667931,
      "learning_rate": 1.7377975620218954e-05,
      "loss": 0.934,
      "step": 1345
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3460176966005433,
      "learning_rate": 1.7373767394854836e-05,
      "loss": 0.9288,
      "step": 1346
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1186476215744088,
      "learning_rate": 1.7369556305604422e-05,
      "loss": 0.8335,
      "step": 1347
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.2900558617860318,
      "learning_rate": 1.736534235410326e-05,
      "loss": 0.9517,
      "step": 1348
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5599128040134616,
      "learning_rate": 1.7361125541988e-05,
      "loss": 0.8222,
      "step": 1349
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.472104571607985,
      "learning_rate": 1.7356905870896407e-05,
      "loss": 1.0145,
      "step": 1350
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1662769293405515,
      "learning_rate": 1.735268334246734e-05,
      "loss": 0.8067,
      "step": 1351
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.230376203402087,
      "learning_rate": 1.7348457958340792e-05,
      "loss": 0.8851,
      "step": 1352
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0911338083737712,
      "learning_rate": 1.7344229720157846e-05,
      "loss": 0.8748,
      "step": 1353
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3402470829279767,
      "learning_rate": 1.7339998629560705e-05,
      "loss": 0.8565,
      "step": 1354
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5934591559720719,
      "learning_rate": 1.7335764688192676e-05,
      "loss": 0.7824,
      "step": 1355
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4747542373289104,
      "learning_rate": 1.733152789769817e-05,
      "loss": 0.8516,
      "step": 1356
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.2068612064176965,
      "learning_rate": 1.7327288259722714e-05,
      "loss": 0.8308,
      "step": 1357
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.24443199939232,
      "learning_rate": 1.7323045775912927e-05,
      "loss": 0.9007,
      "step": 1358
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.2501725670042052,
      "learning_rate": 1.7318800447916543e-05,
      "loss": 0.9769,
      "step": 1359
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3514026756825959,
      "learning_rate": 1.7314552277382403e-05,
      "loss": 0.9646,
      "step": 1360
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4817511295374255,
      "learning_rate": 1.7310301265960446e-05,
      "loss": 0.9041,
      "step": 1361
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4748398224968986,
      "learning_rate": 1.7306047415301706e-05,
      "loss": 0.92,
      "step": 1362
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.042221088883308,
      "learning_rate": 1.7301790727058344e-05,
      "loss": 0.8021,
      "step": 1363
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0528406320020147,
      "learning_rate": 1.7297531202883598e-05,
      "loss": 0.9153,
      "step": 1364
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.3392739639696314,
      "learning_rate": 1.7293268844431826e-05,
      "loss": 0.8943,
      "step": 1365
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.317025505910556,
      "learning_rate": 1.7289003653358472e-05,
      "loss": 0.8877,
      "step": 1366
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.319562128458385,
      "learning_rate": 1.7284735631320093e-05,
      "loss": 0.8519,
      "step": 1367
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.4996157752613672,
      "learning_rate": 1.7280464779974335e-05,
      "loss": 0.9543,
      "step": 1368
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5648208324741544,
      "learning_rate": 1.7276191100979952e-05,
      "loss": 0.8689,
      "step": 1369
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.5655951513630662,
      "learning_rate": 1.7271914595996784e-05,
      "loss": 0.9329,
      "step": 1370
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1676003870368425,
      "learning_rate": 1.7267635266685782e-05,
      "loss": 0.827,
      "step": 1371
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.2876210537876052,
      "learning_rate": 1.7263353114708993e-05,
      "loss": 0.9325,
      "step": 1372
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.2960674794410658,
      "learning_rate": 1.7259068141729542e-05,
      "loss": 0.9244,
      "step": 1373
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.247749642873867,
      "learning_rate": 1.7254780349411677e-05,
      "loss": 0.9253,
      "step": 1374
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1148756099649846,
      "learning_rate": 1.7250489739420718e-05,
      "loss": 0.8828,
      "step": 1375
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1468735021115612,
      "learning_rate": 1.7246196313423095e-05,
      "loss": 0.9275,
      "step": 1376
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.9260100205762845,
      "learning_rate": 1.7241900073086318e-05,
      "loss": 0.6872,
      "step": 1377
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4156053451858874,
      "learning_rate": 1.7237601020079003e-05,
      "loss": 0.858,
      "step": 1378
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.488200051553174,
      "learning_rate": 1.7233299156070852e-05,
      "loss": 0.9459,
      "step": 1379
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0537984324916214,
      "learning_rate": 1.7228994482732653e-05,
      "loss": 0.9316,
      "step": 1380
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.230695635828442,
      "learning_rate": 1.72246870017363e-05,
      "loss": 0.8254,
      "step": 1381
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.054290736812335,
      "learning_rate": 1.7220376714754766e-05,
      "loss": 0.8454,
      "step": 1382
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4696015913163367,
      "learning_rate": 1.7216063623462112e-05,
      "loss": 0.9227,
      "step": 1383
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.089897558527238,
      "learning_rate": 1.7211747729533504e-05,
      "loss": 0.9403,
      "step": 1384
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.094437489766872,
      "learning_rate": 1.7207429034645176e-05,
      "loss": 0.8559,
      "step": 1385
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5275249596268978,
      "learning_rate": 1.720310754047446e-05,
      "loss": 0.9536,
      "step": 1386
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9692158797339366,
      "learning_rate": 1.719878324869978e-05,
      "loss": 0.911,
      "step": 1387
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.335176346567915,
      "learning_rate": 1.7194456161000634e-05,
      "loss": 0.9089,
      "step": 1388
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3929221348977776,
      "learning_rate": 1.719012627905762e-05,
      "loss": 0.9499,
      "step": 1389
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.252076012494993,
      "learning_rate": 1.718579360455241e-05,
      "loss": 0.9457,
      "step": 1390
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0390392562813726,
      "learning_rate": 1.7181458139167767e-05,
      "loss": 0.8149,
      "step": 1391
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4089985008631531,
      "learning_rate": 1.7177119884587536e-05,
      "loss": 0.8208,
      "step": 1392
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2823159077030544,
      "learning_rate": 1.717277884249664e-05,
      "loss": 0.9241,
      "step": 1393
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.4182710501036777,
      "learning_rate": 1.716843501458109e-05,
      "loss": 0.9411,
      "step": 1394
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3312354509094213,
      "learning_rate": 1.716408840252799e-05,
      "loss": 0.8308,
      "step": 1395
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0551297536552688,
      "learning_rate": 1.7159739008025503e-05,
      "loss": 0.9069,
      "step": 1396
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2041153226346175,
      "learning_rate": 1.7155386832762892e-05,
      "loss": 0.8112,
      "step": 1397
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3329609558757158,
      "learning_rate": 1.715103187843048e-05,
      "loss": 0.9731,
      "step": 1398
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2846153753078213,
      "learning_rate": 1.7146674146719688e-05,
      "loss": 0.9074,
      "step": 1399
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2971065557606376,
      "learning_rate": 1.7142313639323012e-05,
      "loss": 0.801,
      "step": 1400
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.6242142769906533,
      "learning_rate": 1.7137950357934017e-05,
      "loss": 0.9382,
      "step": 1401
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2449914936125523,
      "learning_rate": 1.7133584304247354e-05,
      "loss": 0.9001,
      "step": 1402
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2065175924870646,
      "learning_rate": 1.7129215479958747e-05,
      "loss": 0.9483,
      "step": 1403
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2237636061664274,
      "learning_rate": 1.7124843886765e-05,
      "loss": 0.8758,
      "step": 1404
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2625593243484363,
      "learning_rate": 1.712046952636398e-05,
      "loss": 0.9488,
      "step": 1405
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0616478833876724,
      "learning_rate": 1.7116092400454655e-05,
      "loss": 0.8552,
      "step": 1406
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7866250653469067,
      "learning_rate": 1.7111712510737035e-05,
      "loss": 1.0015,
      "step": 1407
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.1418081260665813,
      "learning_rate": 1.7107329858912226e-05,
      "loss": 0.8633,
      "step": 1408
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2341846546783075,
      "learning_rate": 1.7102944446682393e-05,
      "loss": 0.7358,
      "step": 1409
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2538775837375546,
      "learning_rate": 1.709855627575079e-05,
      "loss": 0.9406,
      "step": 1410
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.524176904777529,
      "learning_rate": 1.7094165347821724e-05,
      "loss": 0.9741,
      "step": 1411
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.6744116299668386,
      "learning_rate": 1.7089771664600584e-05,
      "loss": 1.0039,
      "step": 1412
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2890494994389368,
      "learning_rate": 1.708537522779382e-05,
      "loss": 0.8977,
      "step": 1413
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.5035852724471779,
      "learning_rate": 1.7080976039108964e-05,
      "loss": 0.9324,
      "step": 1414
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.7943034961795195,
      "learning_rate": 1.7076574100254614e-05,
      "loss": 0.8533,
      "step": 1415
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.1708215924118137,
      "learning_rate": 1.707216941294042e-05,
      "loss": 0.9307,
      "step": 1416
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0736219438887877,
      "learning_rate": 1.706776197887712e-05,
      "loss": 0.8128,
      "step": 1417
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.3889934479989832,
      "learning_rate": 1.7063351799776514e-05,
      "loss": 0.9433,
      "step": 1418
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0464109294705415,
      "learning_rate": 1.7058938877351456e-05,
      "loss": 0.8062,
      "step": 1419
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.1898378425740792,
      "learning_rate": 1.705452321331588e-05,
      "loss": 0.8937,
      "step": 1420
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.2069730143332946,
      "learning_rate": 1.7050104809384774e-05,
      "loss": 0.8434,
      "step": 1421
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2514860798466165,
      "learning_rate": 1.70456836672742e-05,
      "loss": 0.9437,
      "step": 1422
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.236117143655235,
      "learning_rate": 1.704125978870128e-05,
      "loss": 0.8907,
      "step": 1423
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2148675195631662,
      "learning_rate": 1.7036833175384192e-05,
      "loss": 0.8537,
      "step": 1424
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2043973030884907,
      "learning_rate": 1.7032403829042182e-05,
      "loss": 0.7541,
      "step": 1425
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2894066423475774,
      "learning_rate": 1.7027971751395563e-05,
      "loss": 0.8834,
      "step": 1426
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.483101729415105,
      "learning_rate": 1.7023536944165697e-05,
      "loss": 0.8909,
      "step": 1427
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0638880662583385,
      "learning_rate": 1.7019099409075014e-05,
      "loss": 0.8915,
      "step": 1428
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.1433127389186688,
      "learning_rate": 1.7014659147847005e-05,
      "loss": 0.9073,
      "step": 1429
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.51204329248704,
      "learning_rate": 1.701021616220621e-05,
      "loss": 0.9853,
      "step": 1430
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.0615210537502051,
      "learning_rate": 1.7005770453878234e-05,
      "loss": 0.8383,
      "step": 1431
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8952629187138378,
      "learning_rate": 1.7001322024589742e-05,
      "loss": 0.8998,
      "step": 1432
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.456061836841718,
      "learning_rate": 1.6996870876068455e-05,
      "loss": 0.9391,
      "step": 1433
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.104988655653363,
      "learning_rate": 1.6992417010043144e-05,
      "loss": 0.7712,
      "step": 1434
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.991543984483729,
      "learning_rate": 1.6987960428243637e-05,
      "loss": 0.9069,
      "step": 1435
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4001860701960591,
      "learning_rate": 1.6983501132400825e-05,
      "loss": 0.8624,
      "step": 1436
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2391886550914457,
      "learning_rate": 1.6979039124246643e-05,
      "loss": 0.9071,
      "step": 1437
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2724458634280704,
      "learning_rate": 1.6974574405514083e-05,
      "loss": 0.8904,
      "step": 1438
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2960904653954808,
      "learning_rate": 1.6970106977937192e-05,
      "loss": 0.9186,
      "step": 1439
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2143627380503237,
      "learning_rate": 1.696563684325107e-05,
      "loss": 0.846,
      "step": 1440
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1707667236121875,
      "learning_rate": 1.6961164003191862e-05,
      "loss": 0.8761,
      "step": 1441
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.240883438849966,
      "learning_rate": 1.6956688459496767e-05,
      "loss": 0.8899,
      "step": 1442
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.373373380946074,
      "learning_rate": 1.695221021390404e-05,
      "loss": 0.8963,
      "step": 1443
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1149293543794152,
      "learning_rate": 1.6947729268152972e-05,
      "loss": 0.8604,
      "step": 1444
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1504659490423004,
      "learning_rate": 1.6943245623983918e-05,
      "loss": 0.9981,
      "step": 1445
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9686280883327419,
      "learning_rate": 1.6938759283138268e-05,
      "loss": 0.9138,
      "step": 1446
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.3893409229251004,
      "learning_rate": 1.693427024735847e-05,
      "loss": 0.8379,
      "step": 1447
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.028612548831848,
      "learning_rate": 1.692977851838801e-05,
      "loss": 0.7925,
      "step": 1448
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2463629967592191,
      "learning_rate": 1.6925284097971427e-05,
      "loss": 0.9106,
      "step": 1449
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4372140205375614,
      "learning_rate": 1.6920786987854296e-05,
      "loss": 0.8452,
      "step": 1450
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2231222318188888,
      "learning_rate": 1.691628718978325e-05,
      "loss": 0.9445,
      "step": 1451
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1323913753345916,
      "learning_rate": 1.691178470550596e-05,
      "loss": 0.8605,
      "step": 1452
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6347956899615153,
      "learning_rate": 1.6907279536771127e-05,
      "loss": 1.0245,
      "step": 1453
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.9887770254534005,
      "learning_rate": 1.6902771685328524e-05,
      "loss": 0.7895,
      "step": 1454
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.065900804986085,
      "learning_rate": 1.6898261152928933e-05,
      "loss": 0.8071,
      "step": 1455
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5009564756390843,
      "learning_rate": 1.6893747941324197e-05,
      "loss": 0.9782,
      "step": 1456
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.6803897287986325,
      "learning_rate": 1.6889232052267203e-05,
      "loss": 0.8517,
      "step": 1457
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.0973941782418886,
      "learning_rate": 1.688471348751186e-05,
      "loss": 0.8841,
      "step": 1458
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.224442080808338,
      "learning_rate": 1.688019224881313e-05,
      "loss": 0.8977,
      "step": 1459
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1419669285357728,
      "learning_rate": 1.6875668337927014e-05,
      "loss": 0.7875,
      "step": 1460
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.3812640787813362,
      "learning_rate": 1.6871141756610544e-05,
      "loss": 0.9317,
      "step": 1461
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1548727877314207,
      "learning_rate": 1.6866612506621788e-05,
      "loss": 0.9075,
      "step": 1462
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.0604647381556154,
      "learning_rate": 1.6862080589719863e-05,
      "loss": 0.8418,
      "step": 1463
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1234427874791193,
      "learning_rate": 1.6857546007664908e-05,
      "loss": 0.851,
      "step": 1464
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5938799354585296,
      "learning_rate": 1.6853008762218103e-05,
      "loss": 0.9404,
      "step": 1465
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8768065041672967,
      "learning_rate": 1.684846885514166e-05,
      "loss": 0.6943,
      "step": 1466
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5333028539185973,
      "learning_rate": 1.6843926288198828e-05,
      "loss": 0.9794,
      "step": 1467
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1047552081860526,
      "learning_rate": 1.683938106315389e-05,
      "loss": 0.9339,
      "step": 1468
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.1337638777433667,
      "learning_rate": 1.683483318177216e-05,
      "loss": 0.8789,
      "step": 1469
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2699216407469407,
      "learning_rate": 1.6830282645819974e-05,
      "loss": 0.8628,
      "step": 1470
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.370908732171107,
      "learning_rate": 1.6825729457064718e-05,
      "loss": 0.8745,
      "step": 1471
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.5210131165116734,
      "learning_rate": 1.6821173617274793e-05,
      "loss": 0.939,
      "step": 1472
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.3847721179398338,
      "learning_rate": 1.6816615128219635e-05,
      "loss": 0.9392,
      "step": 1473
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.7858235705198449,
      "learning_rate": 1.681205399166971e-05,
      "loss": 0.9409,
      "step": 1474
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.0490049540777577,
      "learning_rate": 1.6807490209396506e-05,
      "loss": 0.8169,
      "step": 1475
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.154601007823954,
      "learning_rate": 1.6802923783172553e-05,
      "loss": 0.9129,
      "step": 1476
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2203613745094468,
      "learning_rate": 1.679835471477139e-05,
      "loss": 0.9671,
      "step": 1477
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2855915718964135,
      "learning_rate": 1.6793783005967593e-05,
      "loss": 0.9208,
      "step": 1478
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.695715198284932,
      "learning_rate": 1.678920865853676e-05,
      "loss": 0.9273,
      "step": 1479
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.2759014553569508,
      "learning_rate": 1.678463167425552e-05,
      "loss": 0.9325,
      "step": 1480
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.4675867297595755,
      "learning_rate": 1.6780052054901512e-05,
      "loss": 0.8758,
      "step": 1481
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1112044159547023,
      "learning_rate": 1.6775469802253416e-05,
      "loss": 0.8334,
      "step": 1482
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9334084070451135,
      "learning_rate": 1.6770884918090923e-05,
      "loss": 0.8247,
      "step": 1483
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3246046892194066,
      "learning_rate": 1.6766297404194745e-05,
      "loss": 0.8252,
      "step": 1484
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.643516995682879,
      "learning_rate": 1.6761707262346624e-05,
      "loss": 1.0214,
      "step": 1485
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.2554488196954163,
      "learning_rate": 1.675711449432932e-05,
      "loss": 0.921,
      "step": 1486
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.0229610407781022,
      "learning_rate": 1.6752519101926606e-05,
      "loss": 0.9761,
      "step": 1487
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.883017657902839,
      "learning_rate": 1.6747921086923284e-05,
      "loss": 0.9941,
      "step": 1488
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.211556965291603,
      "learning_rate": 1.674332045110517e-05,
      "loss": 0.8807,
      "step": 1489
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.0291593386682836,
      "learning_rate": 1.6738717196259092e-05,
      "loss": 0.9576,
      "step": 1490
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.0275523872251129,
      "learning_rate": 1.673411132417291e-05,
      "loss": 0.881,
      "step": 1491
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1230171554198944,
      "learning_rate": 1.672950283663548e-05,
      "loss": 0.7842,
      "step": 1492
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3977518648537652,
      "learning_rate": 1.6724891735436697e-05,
      "loss": 0.9191,
      "step": 1493
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.6447600935442204,
      "learning_rate": 1.6720278022367453e-05,
      "loss": 0.9285,
      "step": 1494
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.302419872224618,
      "learning_rate": 1.6715661699219664e-05,
      "loss": 0.8722,
      "step": 1495
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9982368822363573,
      "learning_rate": 1.6711042767786257e-05,
      "loss": 0.9154,
      "step": 1496
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.199641671339113,
      "learning_rate": 1.6706421229861168e-05,
      "loss": 0.8737,
      "step": 1497
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4710879142283864,
      "learning_rate": 1.6701797087239354e-05,
      "loss": 0.8747,
      "step": 1498
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.826617450209794,
      "learning_rate": 1.6697170341716772e-05,
      "loss": 1.0729,
      "step": 1499
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.288076249969008,
      "learning_rate": 1.6692540995090403e-05,
      "loss": 0.9347,
      "step": 1500
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.624323490028528,
      "learning_rate": 1.668790904915823e-05,
      "loss": 0.8034,
      "step": 1501
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1709735876469913,
      "learning_rate": 1.6683274505719248e-05,
      "loss": 0.9276,
      "step": 1502
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3715515404935008,
      "learning_rate": 1.6678637366573455e-05,
      "loss": 0.9107,
      "step": 1503
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9599008114477482,
      "learning_rate": 1.667399763352187e-05,
      "loss": 0.7427,
      "step": 1504
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.8399221784231756,
      "learning_rate": 1.666935530836651e-05,
      "loss": 0.9144,
      "step": 1505
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3212195277331649,
      "learning_rate": 1.6664710392910396e-05,
      "loss": 0.9234,
      "step": 1506
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.732629381351265,
      "learning_rate": 1.6660062888957564e-05,
      "loss": 0.9932,
      "step": 1507
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9332889300924411,
      "learning_rate": 1.665541279831305e-05,
      "loss": 0.8095,
      "step": 1508
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4862718458711692,
      "learning_rate": 1.6650760122782898e-05,
      "loss": 0.8238,
      "step": 1509
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.2827291233733096,
      "learning_rate": 1.6646104864174147e-05,
      "loss": 0.8792,
      "step": 1510
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.0067413713017574,
      "learning_rate": 1.664144702429485e-05,
      "loss": 0.8555,
      "step": 1511
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.975456231413704,
      "learning_rate": 1.663678660495406e-05,
      "loss": 0.9599,
      "step": 1512
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.308074188285598,
      "learning_rate": 1.663212360796183e-05,
      "loss": 0.8002,
      "step": 1513
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.097327775441052,
      "learning_rate": 1.662745803512921e-05,
      "loss": 0.8972,
      "step": 1514
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.9335264741327968,
      "learning_rate": 1.662278988826826e-05,
      "loss": 0.887,
      "step": 1515
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.2672846554330919,
      "learning_rate": 1.6618119169192027e-05,
      "loss": 0.9115,
      "step": 1516
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.099559273349125,
      "learning_rate": 1.661344587971457e-05,
      "loss": 0.8141,
      "step": 1517
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1826573005979792,
      "learning_rate": 1.6608770021650945e-05,
      "loss": 0.9726,
      "step": 1518
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.6622502475147727,
      "learning_rate": 1.6604091596817193e-05,
      "loss": 0.9424,
      "step": 1519
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.0085712264136684,
      "learning_rate": 1.6599410607030363e-05,
      "loss": 0.7899,
      "step": 1520
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.6467811762687055,
      "learning_rate": 1.6594727054108498e-05,
      "loss": 0.9391,
      "step": 1521
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.083501437901627,
      "learning_rate": 1.659004093987064e-05,
      "loss": 0.9346,
      "step": 1522
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.9085996134387253,
      "learning_rate": 1.6585352266136814e-05,
      "loss": 0.903,
      "step": 1523
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1570087358630143,
      "learning_rate": 1.6580661034728055e-05,
      "loss": 0.8795,
      "step": 1524
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1676257701981527,
      "learning_rate": 1.6575967247466376e-05,
      "loss": 0.9071,
      "step": 1525
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1504905617606085,
      "learning_rate": 1.657127090617479e-05,
      "loss": 0.7499,
      "step": 1526
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.2671595352132217,
      "learning_rate": 1.656657201267731e-05,
      "loss": 0.9762,
      "step": 1527
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.182844001832087,
      "learning_rate": 1.6561870568798927e-05,
      "loss": 0.9372,
      "step": 1528
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.255660007130264,
      "learning_rate": 1.655716657636562e-05,
      "loss": 0.908,
      "step": 1529
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.4992093303368597,
      "learning_rate": 1.6552460037204382e-05,
      "loss": 0.9524,
      "step": 1530
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3777117671766448,
      "learning_rate": 1.6547750953143168e-05,
      "loss": 0.9359,
      "step": 1531
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1827418256139821,
      "learning_rate": 1.654303932601093e-05,
      "loss": 0.8605,
      "step": 1532
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.1008942992055424,
      "learning_rate": 1.6538325157637614e-05,
      "loss": 0.8998,
      "step": 1533
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3035668404200045,
      "learning_rate": 1.653360844985415e-05,
      "loss": 0.925,
      "step": 1534
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0902162519022935,
      "learning_rate": 1.652888920449245e-05,
      "loss": 0.7513,
      "step": 1535
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.6440207378197513,
      "learning_rate": 1.6524167423385414e-05,
      "loss": 0.8641,
      "step": 1536
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.352917941766491,
      "learning_rate": 1.651944310836693e-05,
      "loss": 0.9398,
      "step": 1537
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9733733986143546,
      "learning_rate": 1.6514716261271866e-05,
      "loss": 0.8493,
      "step": 1538
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.5914859427094703,
      "learning_rate": 1.6509986883936073e-05,
      "loss": 0.9336,
      "step": 1539
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.1748396104561785,
      "learning_rate": 1.650525497819639e-05,
      "loss": 0.9457,
      "step": 1540
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0321892910483654,
      "learning_rate": 1.6500520545890634e-05,
      "loss": 0.8781,
      "step": 1541
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0643625815843645,
      "learning_rate": 1.6495783588857605e-05,
      "loss": 0.7943,
      "step": 1542
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.2978539194153107,
      "learning_rate": 1.649104410893708e-05,
      "loss": 0.9747,
      "step": 1543
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8808570629711217,
      "learning_rate": 1.648630210796982e-05,
      "loss": 0.6503,
      "step": 1544
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3925411830057612,
      "learning_rate": 1.6481557587797562e-05,
      "loss": 0.8469,
      "step": 1545
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.447832263672283,
      "learning_rate": 1.6476810550263023e-05,
      "loss": 0.9653,
      "step": 1546
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3255592718192213,
      "learning_rate": 1.6472060997209898e-05,
      "loss": 0.9374,
      "step": 1547
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.086827078437902,
      "learning_rate": 1.6467308930482863e-05,
      "loss": 0.7193,
      "step": 1548
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.243090595942321,
      "learning_rate": 1.6462554351927558e-05,
      "loss": 0.8294,
      "step": 1549
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.1726197474004838,
      "learning_rate": 1.6457797263390613e-05,
      "loss": 0.9224,
      "step": 1550
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.462453145846725,
      "learning_rate": 1.6453037666719624e-05,
      "loss": 0.892,
      "step": 1551
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.7202776638344546,
      "learning_rate": 1.6448275563763162e-05,
      "loss": 0.8708,
      "step": 1552
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.349965940486086,
      "learning_rate": 1.644351095637078e-05,
      "loss": 0.8127,
      "step": 1553
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.394910752057948,
      "learning_rate": 1.6438743846392987e-05,
      "loss": 0.9175,
      "step": 1554
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.351638120330096,
      "learning_rate": 1.6433974235681274e-05,
      "loss": 0.936,
      "step": 1555
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4463988876758078,
      "learning_rate": 1.6429202126088112e-05,
      "loss": 1.0264,
      "step": 1556
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.1143807486301869,
      "learning_rate": 1.6424427519466925e-05,
      "loss": 0.8885,
      "step": 1557
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.1371714536048931,
      "learning_rate": 1.641965041767212e-05,
      "loss": 0.9155,
      "step": 1558
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.533614641896008,
      "learning_rate": 1.6414870822559064e-05,
      "loss": 0.9482,
      "step": 1559
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9850792014559875,
      "learning_rate": 1.6410088735984103e-05,
      "loss": 0.8309,
      "step": 1560
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.372169522605007,
      "learning_rate": 1.6405304159804534e-05,
      "loss": 0.8039,
      "step": 1561
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3797033463877078,
      "learning_rate": 1.6400517095878644e-05,
      "loss": 0.8453,
      "step": 1562
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3488095459126623,
      "learning_rate": 1.6395727546065665e-05,
      "loss": 0.9271,
      "step": 1563
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9558603283523119,
      "learning_rate": 1.6390935512225806e-05,
      "loss": 0.8525,
      "step": 1564
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.250456672560918,
      "learning_rate": 1.6386140996220232e-05,
      "loss": 0.9481,
      "step": 1565
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0331240438491063,
      "learning_rate": 1.6381343999911088e-05,
      "loss": 0.8668,
      "step": 1566
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.1140332819048475,
      "learning_rate": 1.6376544525161463e-05,
      "loss": 0.8101,
      "step": 1567
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.5165833305078502,
      "learning_rate": 1.6371742573835426e-05,
      "loss": 0.9074,
      "step": 1568
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0035887280536298,
      "learning_rate": 1.636693814779799e-05,
      "loss": 0.8294,
      "step": 1569
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3511721851577911,
      "learning_rate": 1.6362131248915145e-05,
      "loss": 0.8965,
      "step": 1570
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3834604985072756,
      "learning_rate": 1.6357321879053833e-05,
      "loss": 0.8341,
      "step": 1571
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3000531260101482,
      "learning_rate": 1.6352510040081962e-05,
      "loss": 0.8883,
      "step": 1572
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.1639421542014363,
      "learning_rate": 1.634769573386839e-05,
      "loss": 0.9834,
      "step": 1573
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.4357894335723291,
      "learning_rate": 1.634287896228294e-05,
      "loss": 0.852,
      "step": 1574
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.7178557448324632,
      "learning_rate": 1.6338059727196386e-05,
      "loss": 0.9267,
      "step": 1575
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9182687330114995,
      "learning_rate": 1.6333238030480473e-05,
      "loss": 0.8627,
      "step": 1576
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.2969771428989598,
      "learning_rate": 1.6328413874007884e-05,
      "loss": 0.9198,
      "step": 1577
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0670740725030032,
      "learning_rate": 1.6323587259652267e-05,
      "loss": 0.8909,
      "step": 1578
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9096042287715035,
      "learning_rate": 1.6318758189288227e-05,
      "loss": 0.8056,
      "step": 1579
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.1191987522701372,
      "learning_rate": 1.6313926664791316e-05,
      "loss": 0.9364,
      "step": 1580
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.040283417315619,
      "learning_rate": 1.6309092688038047e-05,
      "loss": 0.8842,
      "step": 1581
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.2117246009791773,
      "learning_rate": 1.6304256260905872e-05,
      "loss": 0.8395,
      "step": 1582
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.3687124701829698,
      "learning_rate": 1.6299417385273216e-05,
      "loss": 0.9746,
      "step": 1583
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.515925584683157,
      "learning_rate": 1.629457606301943e-05,
      "loss": 0.8833,
      "step": 1584
    },
    {
      "epoch": 0.3,
      "grad_norm": 1.0546840318870039,
      "learning_rate": 1.6289732296024837e-05,
      "loss": 0.7351,
      "step": 1585
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.1163080257500757,
      "learning_rate": 1.6284886086170697e-05,
      "loss": 0.8496,
      "step": 1586
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0419354278081656,
      "learning_rate": 1.628003743533922e-05,
      "loss": 0.8704,
      "step": 1587
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4577313603091406,
      "learning_rate": 1.6275186345413566e-05,
      "loss": 0.8545,
      "step": 1588
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4071396371333111,
      "learning_rate": 1.627033281827785e-05,
      "loss": 0.9636,
      "step": 1589
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0925818050276175,
      "learning_rate": 1.6265476855817116e-05,
      "loss": 0.8239,
      "step": 1590
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0173630793791213,
      "learning_rate": 1.6260618459917366e-05,
      "loss": 0.8893,
      "step": 1591
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.1863201771797434,
      "learning_rate": 1.6255757632465553e-05,
      "loss": 0.8095,
      "step": 1592
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2724356826287304,
      "learning_rate": 1.625089437534956e-05,
      "loss": 0.8814,
      "step": 1593
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0447202334191776,
      "learning_rate": 1.624602869045822e-05,
      "loss": 0.9041,
      "step": 1594
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.074462888458051,
      "learning_rate": 1.624116057968131e-05,
      "loss": 0.8176,
      "step": 1595
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4935465304756925,
      "learning_rate": 1.6236290044909543e-05,
      "loss": 0.9166,
      "step": 1596
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2287892050639488,
      "learning_rate": 1.6231417088034585e-05,
      "loss": 0.86,
      "step": 1597
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.33915679666669,
      "learning_rate": 1.622654171094904e-05,
      "loss": 0.9628,
      "step": 1598
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.1866711944446429,
      "learning_rate": 1.6221663915546437e-05,
      "loss": 0.9147,
      "step": 1599
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2432573924724601,
      "learning_rate": 1.6216783703721265e-05,
      "loss": 0.8626,
      "step": 1600
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6740247912474329,
      "learning_rate": 1.6211901077368937e-05,
      "loss": 0.8687,
      "step": 1601
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6008318461375952,
      "learning_rate": 1.620701603838581e-05,
      "loss": 0.944,
      "step": 1602
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4643179579277774,
      "learning_rate": 1.6202128588669177e-05,
      "loss": 0.8764,
      "step": 1603
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3256965692773823,
      "learning_rate": 1.619723873011727e-05,
      "loss": 0.909,
      "step": 1604
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0611850323923666,
      "learning_rate": 1.6192346464629247e-05,
      "loss": 0.7825,
      "step": 1605
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.4902774047138827,
      "learning_rate": 1.6187451794105212e-05,
      "loss": 0.8625,
      "step": 1606
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2965319403077378,
      "learning_rate": 1.61825547204462e-05,
      "loss": 0.9553,
      "step": 1607
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.102783715748578,
      "learning_rate": 1.6177655245554177e-05,
      "loss": 0.8126,
      "step": 1608
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6261542449415176,
      "learning_rate": 1.617275337133204e-05,
      "loss": 0.9131,
      "step": 1609
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.230098962849594,
      "learning_rate": 1.6167849099683623e-05,
      "loss": 0.8848,
      "step": 1610
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.027221994382198,
      "learning_rate": 1.6162942432513687e-05,
      "loss": 0.8153,
      "step": 1611
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.501976646715373,
      "learning_rate": 1.6158033371727924e-05,
      "loss": 0.9949,
      "step": 1612
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2266258594297117,
      "learning_rate": 1.6153121919232962e-05,
      "loss": 0.9131,
      "step": 1613
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5727197257884111,
      "learning_rate": 1.614820807693635e-05,
      "loss": 1.0068,
      "step": 1614
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0941064926306594,
      "learning_rate": 1.6143291846746563e-05,
      "loss": 0.7738,
      "step": 1615
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.6621358148778178,
      "learning_rate": 1.613837323057301e-05,
      "loss": 0.9252,
      "step": 1616
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2372839180001776,
      "learning_rate": 1.6133452230326035e-05,
      "loss": 0.8899,
      "step": 1617
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.205843167926704,
      "learning_rate": 1.6128528847916883e-05,
      "loss": 0.8869,
      "step": 1618
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3123294848702198,
      "learning_rate": 1.6123603085257746e-05,
      "loss": 0.9356,
      "step": 1619
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.1135332980854782,
      "learning_rate": 1.6118674944261732e-05,
      "loss": 0.8736,
      "step": 1620
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9352978053021574,
      "learning_rate": 1.6113744426842882e-05,
      "loss": 0.8573,
      "step": 1621
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.274484007658869,
      "learning_rate": 1.6108811534916137e-05,
      "loss": 0.8764,
      "step": 1622
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2254533409109636,
      "learning_rate": 1.6103876270397387e-05,
      "loss": 0.8698,
      "step": 1623
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2738235397148137,
      "learning_rate": 1.609893863520343e-05,
      "loss": 0.9387,
      "step": 1624
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2933037102863119,
      "learning_rate": 1.609399863125198e-05,
      "loss": 0.8418,
      "step": 1625
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2883503847038102,
      "learning_rate": 1.6089056260461687e-05,
      "loss": 0.9258,
      "step": 1626
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3649916076585018,
      "learning_rate": 1.6084111524752107e-05,
      "loss": 0.9008,
      "step": 1627
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.5184595944537957,
      "learning_rate": 1.607916442604372e-05,
      "loss": 0.9387,
      "step": 1628
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.3727698675797468,
      "learning_rate": 1.6074214966257914e-05,
      "loss": 0.9766,
      "step": 1629
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.1218479434568736,
      "learning_rate": 1.6069263147317015e-05,
      "loss": 0.9413,
      "step": 1630
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0399848890299284,
      "learning_rate": 1.6064308971144236e-05,
      "loss": 0.8239,
      "step": 1631
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2848782224135076,
      "learning_rate": 1.605935243966374e-05,
      "loss": 0.8589,
      "step": 1632
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.0064662843070493,
      "learning_rate": 1.6054393554800574e-05,
      "loss": 0.839,
      "step": 1633
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.2623733956880816,
      "learning_rate": 1.604943231848072e-05,
      "loss": 0.9611,
      "step": 1634
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.1014424201095878,
      "learning_rate": 1.604446873263106e-05,
      "loss": 0.8978,
      "step": 1635
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.9964159818302355,
      "learning_rate": 1.6039502799179394e-05,
      "loss": 0.8072,
      "step": 1636
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.078209563364893,
      "learning_rate": 1.6034534520054435e-05,
      "loss": 0.929,
      "step": 1637
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0645327576545474,
      "learning_rate": 1.60295638971858e-05,
      "loss": 0.8908,
      "step": 1638
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3201916673912846,
      "learning_rate": 1.602459093250403e-05,
      "loss": 0.8883,
      "step": 1639
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.1672063315805263,
      "learning_rate": 1.601961562794056e-05,
      "loss": 0.8925,
      "step": 1640
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.434713530484006,
      "learning_rate": 1.601463798542775e-05,
      "loss": 0.9883,
      "step": 1641
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2475659310485312,
      "learning_rate": 1.6009658006898848e-05,
      "loss": 0.7569,
      "step": 1642
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0587953475838787,
      "learning_rate": 1.600467569428803e-05,
      "loss": 0.8971,
      "step": 1643
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3453289821270822,
      "learning_rate": 1.599969104953036e-05,
      "loss": 0.9447,
      "step": 1644
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3416075822831486,
      "learning_rate": 1.599470407456182e-05,
      "loss": 0.928,
      "step": 1645
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.1688255772181362,
      "learning_rate": 1.5989714771319297e-05,
      "loss": 0.9627,
      "step": 1646
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.1456379846968243,
      "learning_rate": 1.5984723141740578e-05,
      "loss": 0.8668,
      "step": 1647
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4455656136078194,
      "learning_rate": 1.597972918776435e-05,
      "loss": 0.7355,
      "step": 1648
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9582675766126822,
      "learning_rate": 1.5974732911330208e-05,
      "loss": 0.8574,
      "step": 1649
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2821322533163335,
      "learning_rate": 1.5969734314378654e-05,
      "loss": 0.968,
      "step": 1650
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.050486288807295,
      "learning_rate": 1.5964733398851078e-05,
      "loss": 0.7755,
      "step": 1651
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4654498794920643,
      "learning_rate": 1.5959730166689783e-05,
      "loss": 0.9967,
      "step": 1652
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0560193452059077,
      "learning_rate": 1.5954724619837966e-05,
      "loss": 0.7456,
      "step": 1653
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2513087947817967,
      "learning_rate": 1.5949716760239722e-05,
      "loss": 0.8196,
      "step": 1654
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4593302922770304,
      "learning_rate": 1.5944706589840046e-05,
      "loss": 1.0253,
      "step": 1655
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.56322325179964,
      "learning_rate": 1.5939694110584833e-05,
      "loss": 0.9498,
      "step": 1656
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0756252791839984,
      "learning_rate": 1.593467932442087e-05,
      "loss": 0.9193,
      "step": 1657
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2720384831519256,
      "learning_rate": 1.5929662233295846e-05,
      "loss": 0.8328,
      "step": 1658
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2396868942898491,
      "learning_rate": 1.5924642839158334e-05,
      "loss": 0.8553,
      "step": 1659
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3118366306347287,
      "learning_rate": 1.591962114395781e-05,
      "loss": 0.8063,
      "step": 1660
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3515888453407578,
      "learning_rate": 1.5914597149644654e-05,
      "loss": 1.0156,
      "step": 1661
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.6727961527148396,
      "learning_rate": 1.5909570858170115e-05,
      "loss": 0.893,
      "step": 1662
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.6343572640915451,
      "learning_rate": 1.5904542271486346e-05,
      "loss": 0.959,
      "step": 1663
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0198735826163714,
      "learning_rate": 1.5899511391546403e-05,
      "loss": 0.7977,
      "step": 1664
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.7108020010294247,
      "learning_rate": 1.5894478220304215e-05,
      "loss": 0.8923,
      "step": 1665
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3976003362731046,
      "learning_rate": 1.5889442759714603e-05,
      "loss": 0.8865,
      "step": 1666
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3677544126885683,
      "learning_rate": 1.5884405011733294e-05,
      "loss": 0.8267,
      "step": 1667
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0844075330669112,
      "learning_rate": 1.587936497831688e-05,
      "loss": 0.9256,
      "step": 1668
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.431962505288832,
      "learning_rate": 1.5874322661422856e-05,
      "loss": 0.9774,
      "step": 1669
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.505662721875042,
      "learning_rate": 1.5869278063009602e-05,
      "loss": 0.7749,
      "step": 1670
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.9138444262954613,
      "learning_rate": 1.586423118503638e-05,
      "loss": 0.8842,
      "step": 1671
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2065965253860724,
      "learning_rate": 1.585918202946334e-05,
      "loss": 0.8329,
      "step": 1672
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.908269612380739,
      "learning_rate": 1.5854130598251514e-05,
      "loss": 0.8685,
      "step": 1673
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.264253240497796,
      "learning_rate": 1.5849076893362822e-05,
      "loss": 0.9431,
      "step": 1674
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.1782768986369574,
      "learning_rate": 1.584402091676006e-05,
      "loss": 0.9255,
      "step": 1675
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8991242709703968,
      "learning_rate": 1.5838962670406918e-05,
      "loss": 0.8031,
      "step": 1676
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0743181285622423,
      "learning_rate": 1.5833902156267956e-05,
      "loss": 0.8855,
      "step": 1677
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9777819239385384,
      "learning_rate": 1.582883937630862e-05,
      "loss": 0.7307,
      "step": 1678
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.280994967411964,
      "learning_rate": 1.5823774332495236e-05,
      "loss": 0.9185,
      "step": 1679
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.1182550568182725,
      "learning_rate": 1.581870702679501e-05,
      "loss": 0.9082,
      "step": 1680
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.2328930900827797,
      "learning_rate": 1.581363746117602e-05,
      "loss": 0.913,
      "step": 1681
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.1574127138082955,
      "learning_rate": 1.580856563760724e-05,
      "loss": 0.7771,
      "step": 1682
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4247932561085064,
      "learning_rate": 1.5803491558058486e-05,
      "loss": 0.9686,
      "step": 1683
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3063319380456841,
      "learning_rate": 1.579841522450049e-05,
      "loss": 0.9217,
      "step": 1684
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3249238213309396,
      "learning_rate": 1.5793336638904838e-05,
      "loss": 0.8536,
      "step": 1685
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.583499488215259,
      "learning_rate": 1.578825580324399e-05,
      "loss": 0.9099,
      "step": 1686
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.3502381418957283,
      "learning_rate": 1.5783172719491288e-05,
      "loss": 0.9288,
      "step": 1687
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.4266703462651322,
      "learning_rate": 1.577808738962094e-05,
      "loss": 0.909,
      "step": 1688
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0637343026920996,
      "learning_rate": 1.577299981560803e-05,
      "loss": 0.8025,
      "step": 1689
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.5982353168345929,
      "learning_rate": 1.5767909999428513e-05,
      "loss": 0.8819,
      "step": 1690
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4253419813437167,
      "learning_rate": 1.576281794305922e-05,
      "loss": 0.838,
      "step": 1691
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2807305667068545,
      "learning_rate": 1.575772364847784e-05,
      "loss": 0.8726,
      "step": 1692
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.289618236325907,
      "learning_rate": 1.575262711766294e-05,
      "loss": 0.8229,
      "step": 1693
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.246459463506257,
      "learning_rate": 1.5747528352593956e-05,
      "loss": 0.8689,
      "step": 1694
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1693159699268345,
      "learning_rate": 1.574242735525119e-05,
      "loss": 0.8347,
      "step": 1695
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2122784926551506,
      "learning_rate": 1.5737324127615808e-05,
      "loss": 0.8224,
      "step": 1696
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1113884880955918,
      "learning_rate": 1.5732218671669847e-05,
      "loss": 0.9041,
      "step": 1697
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1993473776912271,
      "learning_rate": 1.5727110989396205e-05,
      "loss": 0.7499,
      "step": 1698
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.0887863232859707,
      "learning_rate": 1.5722001082778645e-05,
      "loss": 0.9513,
      "step": 1699
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2011176688283496,
      "learning_rate": 1.5716888953801805e-05,
      "loss": 0.9086,
      "step": 1700
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1446485953585879,
      "learning_rate": 1.5711774604451168e-05,
      "loss": 0.8824,
      "step": 1701
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1424840800796194,
      "learning_rate": 1.5706658036713093e-05,
      "loss": 0.7767,
      "step": 1702
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4247301927378613,
      "learning_rate": 1.5701539252574795e-05,
      "loss": 0.9475,
      "step": 1703
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.27143742325228,
      "learning_rate": 1.5696418254024344e-05,
      "loss": 0.7631,
      "step": 1704
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1302834412966094,
      "learning_rate": 1.569129504305069e-05,
      "loss": 0.8841,
      "step": 1705
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3753154115850836,
      "learning_rate": 1.568616962164362e-05,
      "loss": 0.9392,
      "step": 1706
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.108649221483129,
      "learning_rate": 1.5681041991793788e-05,
      "loss": 0.9025,
      "step": 1707
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2882584296553945,
      "learning_rate": 1.567591215549271e-05,
      "loss": 0.9307,
      "step": 1708
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.508553494269948,
      "learning_rate": 1.567078011473276e-05,
      "loss": 0.9496,
      "step": 1709
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4627809801762155,
      "learning_rate": 1.5665645871507152e-05,
      "loss": 0.907,
      "step": 1710
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1565640850953003,
      "learning_rate": 1.5660509427809973e-05,
      "loss": 0.9276,
      "step": 1711
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4700732224692792,
      "learning_rate": 1.565537078563616e-05,
      "loss": 0.7419,
      "step": 1712
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1576176429208291,
      "learning_rate": 1.56502299469815e-05,
      "loss": 0.9436,
      "step": 1713
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2755823307120702,
      "learning_rate": 1.564508691384264e-05,
      "loss": 0.9246,
      "step": 1714
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3731200773876246,
      "learning_rate": 1.5639941688217063e-05,
      "loss": 0.8836,
      "step": 1715
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4034675047763538,
      "learning_rate": 1.5634794272103126e-05,
      "loss": 0.8364,
      "step": 1716
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.440391540345494,
      "learning_rate": 1.562964466750003e-05,
      "loss": 0.877,
      "step": 1717
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.0768531157136731,
      "learning_rate": 1.562449287640781e-05,
      "loss": 0.8478,
      "step": 1718
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.620107193721141,
      "learning_rate": 1.5619338900827368e-05,
      "loss": 0.8985,
      "step": 1719
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4494082100172672,
      "learning_rate": 1.5614182742760448e-05,
      "loss": 0.9225,
      "step": 1720
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.8581542808363305,
      "learning_rate": 1.5609024404209643e-05,
      "loss": 0.9841,
      "step": 1721
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2679192792216751,
      "learning_rate": 1.5603863887178393e-05,
      "loss": 0.8107,
      "step": 1722
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.117216272000302,
      "learning_rate": 1.5598701193670983e-05,
      "loss": 0.8124,
      "step": 1723
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1819293122701373,
      "learning_rate": 1.559353632569254e-05,
      "loss": 0.9595,
      "step": 1724
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9433186158957134,
      "learning_rate": 1.5588369285249048e-05,
      "loss": 0.7853,
      "step": 1725
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4924240736143162,
      "learning_rate": 1.5583200074347318e-05,
      "loss": 0.8996,
      "step": 1726
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2041697272074625,
      "learning_rate": 1.557802869499501e-05,
      "loss": 0.8994,
      "step": 1727
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.4184667613209527,
      "learning_rate": 1.5572855149200637e-05,
      "loss": 0.9462,
      "step": 1728
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.100936002155068,
      "learning_rate": 1.5567679438973543e-05,
      "loss": 0.934,
      "step": 1729
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.0225972307465407,
      "learning_rate": 1.5562501566323906e-05,
      "loss": 0.8597,
      "step": 1730
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.9817750066245632,
      "learning_rate": 1.555732153326276e-05,
      "loss": 0.8226,
      "step": 1731
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.2735173157971555,
      "learning_rate": 1.5552139341801965e-05,
      "loss": 0.7964,
      "step": 1732
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3500974608588465,
      "learning_rate": 1.554695499395423e-05,
      "loss": 0.8209,
      "step": 1733
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.381234575984892,
      "learning_rate": 1.5541768491733092e-05,
      "loss": 0.8925,
      "step": 1734
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.0505061498535262,
      "learning_rate": 1.5536579837152927e-05,
      "loss": 0.9283,
      "step": 1735
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.1140479269201442,
      "learning_rate": 1.5531389032228955e-05,
      "loss": 0.9106,
      "step": 1736
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.0694424974570582,
      "learning_rate": 1.552619607897722e-05,
      "loss": 0.9143,
      "step": 1737
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.182668671798511,
      "learning_rate": 1.55210009794146e-05,
      "loss": 0.8278,
      "step": 1738
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.3255187425631263,
      "learning_rate": 1.5515803735558827e-05,
      "loss": 0.9258,
      "step": 1739
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.6570702458280004,
      "learning_rate": 1.5510604349428438e-05,
      "loss": 0.8495,
      "step": 1740
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.147142331957315,
      "learning_rate": 1.550540282304282e-05,
      "loss": 0.9259,
      "step": 1741
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1700205355328606,
      "learning_rate": 1.550019915842218e-05,
      "loss": 0.9137,
      "step": 1742
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1301967636783758,
      "learning_rate": 1.549499335758757e-05,
      "loss": 0.8626,
      "step": 1743
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.177269663628181,
      "learning_rate": 1.548978542256086e-05,
      "loss": 0.8972,
      "step": 1744
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.0489173847626359,
      "learning_rate": 1.5484575355364744e-05,
      "loss": 0.8014,
      "step": 1745
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3033236867848692,
      "learning_rate": 1.5479363158022763e-05,
      "loss": 0.9173,
      "step": 1746
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.101742369173823,
      "learning_rate": 1.547414883255927e-05,
      "loss": 0.7915,
      "step": 1747
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1928122945511888,
      "learning_rate": 1.546893238099945e-05,
      "loss": 0.7451,
      "step": 1748
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.255855561223921,
      "learning_rate": 1.5463713805369312e-05,
      "loss": 0.9196,
      "step": 1749
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2654288251744068,
      "learning_rate": 1.5458493107695688e-05,
      "loss": 0.8681,
      "step": 1750
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.118280881085081,
      "learning_rate": 1.5453270290006237e-05,
      "loss": 0.8188,
      "step": 1751
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5636626870845267,
      "learning_rate": 1.544804535432945e-05,
      "loss": 0.7959,
      "step": 1752
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3023807254363904,
      "learning_rate": 1.544281830269462e-05,
      "loss": 0.7304,
      "step": 1753
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2317304224434846,
      "learning_rate": 1.5437589137131882e-05,
      "loss": 0.8591,
      "step": 1754
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4507966782320094,
      "learning_rate": 1.5432357859672177e-05,
      "loss": 0.8884,
      "step": 1755
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.0385117249726603,
      "learning_rate": 1.542712447234728e-05,
      "loss": 0.8741,
      "step": 1756
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4707927834840637,
      "learning_rate": 1.542188897718977e-05,
      "loss": 0.9232,
      "step": 1757
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2829733589158336,
      "learning_rate": 1.5416651376233062e-05,
      "loss": 0.9474,
      "step": 1758
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.138527141225645,
      "learning_rate": 1.5411411671511376e-05,
      "loss": 0.7283,
      "step": 1759
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4167635981067634,
      "learning_rate": 1.5406169865059747e-05,
      "loss": 0.8527,
      "step": 1760
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.392883410770764,
      "learning_rate": 1.5400925958914045e-05,
      "loss": 0.9701,
      "step": 1761
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.283617392423532,
      "learning_rate": 1.5395679955110927e-05,
      "loss": 0.814,
      "step": 1762
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.161429882146565,
      "learning_rate": 1.53904318556879e-05,
      "loss": 0.8893,
      "step": 1763
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1608609262393874,
      "learning_rate": 1.5385181662683244e-05,
      "loss": 0.8656,
      "step": 1764
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1717967449325561,
      "learning_rate": 1.5379929378136088e-05,
      "loss": 0.974,
      "step": 1765
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4262489338908653,
      "learning_rate": 1.5374675004086353e-05,
      "loss": 0.8182,
      "step": 1766
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4252519258586251,
      "learning_rate": 1.5369418542574782e-05,
      "loss": 0.8191,
      "step": 1767
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.345723058583377,
      "learning_rate": 1.536415999564292e-05,
      "loss": 0.9086,
      "step": 1768
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.574142114013902,
      "learning_rate": 1.5358899365333123e-05,
      "loss": 0.8978,
      "step": 1769
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8685125988510961,
      "learning_rate": 1.5353636653688563e-05,
      "loss": 0.7383,
      "step": 1770
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.6057192254343886,
      "learning_rate": 1.534837186275322e-05,
      "loss": 0.9117,
      "step": 1771
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1316806289224144,
      "learning_rate": 1.5343104994571877e-05,
      "loss": 0.929,
      "step": 1772
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4504896013046749,
      "learning_rate": 1.533783605119012e-05,
      "loss": 0.9909,
      "step": 1773
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4602807651530112,
      "learning_rate": 1.5332565034654344e-05,
      "loss": 0.8395,
      "step": 1774
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.197852307945603,
      "learning_rate": 1.5327291947011763e-05,
      "loss": 0.7465,
      "step": 1775
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.356411535942448,
      "learning_rate": 1.5322016790310373e-05,
      "loss": 0.9346,
      "step": 1776
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1018140844579245,
      "learning_rate": 1.5316739566598985e-05,
      "loss": 0.7658,
      "step": 1777
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.1119918779010325,
      "learning_rate": 1.531146027792722e-05,
      "loss": 0.8698,
      "step": 1778
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.395790767480294,
      "learning_rate": 1.530617892634548e-05,
      "loss": 0.9718,
      "step": 1779
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.041929922191981,
      "learning_rate": 1.5300895513904993e-05,
      "loss": 0.8064,
      "step": 1780
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2569202255523297,
      "learning_rate": 1.529561004265777e-05,
      "loss": 0.8657,
      "step": 1781
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.0687712517463757,
      "learning_rate": 1.5290322514656624e-05,
      "loss": 0.8209,
      "step": 1782
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2168499520177394,
      "learning_rate": 1.5285032931955177e-05,
      "loss": 0.8152,
      "step": 1783
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.195098716810056,
      "learning_rate": 1.527974129660784e-05,
      "loss": 0.9415,
      "step": 1784
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.3736500625877794,
      "learning_rate": 1.527444761066982e-05,
      "loss": 0.7722,
      "step": 1785
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.678177600152554,
      "learning_rate": 1.5269151876197127e-05,
      "loss": 0.9848,
      "step": 1786
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.914281217911737,
      "learning_rate": 1.5263854095246557e-05,
      "loss": 0.8549,
      "step": 1787
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.2820799562906215,
      "learning_rate": 1.5258554269875716e-05,
      "loss": 0.8577,
      "step": 1788
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.517089506725695,
      "learning_rate": 1.5253252402142989e-05,
      "loss": 0.9934,
      "step": 1789
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.4249910719020884,
      "learning_rate": 1.5247948494107566e-05,
      "loss": 0.8969,
      "step": 1790
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.5361130134751948,
      "learning_rate": 1.5242642547829416e-05,
      "loss": 0.8687,
      "step": 1791
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.378831128709597,
      "learning_rate": 1.523733456536931e-05,
      "loss": 0.868,
      "step": 1792
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.0563500550419085,
      "learning_rate": 1.5232024548788813e-05,
      "loss": 0.8131,
      "step": 1793
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3918376762454434,
      "learning_rate": 1.5226712500150267e-05,
      "loss": 0.9014,
      "step": 1794
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9609625093958275,
      "learning_rate": 1.5221398421516816e-05,
      "loss": 0.8402,
      "step": 1795
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3030775049385528,
      "learning_rate": 1.5216082314952383e-05,
      "loss": 0.8842,
      "step": 1796
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5284321390623223,
      "learning_rate": 1.521076418252168e-05,
      "loss": 1.0031,
      "step": 1797
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3335674861121825,
      "learning_rate": 1.5205444026290218e-05,
      "loss": 0.9379,
      "step": 1798
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.5169712873015884,
      "learning_rate": 1.5200121848324276e-05,
      "loss": 0.955,
      "step": 1799
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.555543870647116,
      "learning_rate": 1.5194797650690926e-05,
      "loss": 0.9012,
      "step": 1800
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.1803498982091654,
      "learning_rate": 1.5189471435458032e-05,
      "loss": 0.8175,
      "step": 1801
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.1067505541280602,
      "learning_rate": 1.5184143204694231e-05,
      "loss": 0.917,
      "step": 1802
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.2678322796248895,
      "learning_rate": 1.5178812960468945e-05,
      "loss": 0.8954,
      "step": 1803
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.500927860720786,
      "learning_rate": 1.5173480704852379e-05,
      "loss": 0.8553,
      "step": 1804
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9688191586273251,
      "learning_rate": 1.5168146439915525e-05,
      "loss": 0.6342,
      "step": 1805
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.7697357802681986,
      "learning_rate": 1.5162810167730144e-05,
      "loss": 1.0233,
      "step": 1806
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.055316993049981,
      "learning_rate": 1.5157471890368785e-05,
      "loss": 0.8677,
      "step": 1807
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0583166599094491,
      "learning_rate": 1.5152131609904773e-05,
      "loss": 0.8148,
      "step": 1808
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3382396214964782,
      "learning_rate": 1.5146789328412213e-05,
      "loss": 0.9262,
      "step": 1809
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.2859402420424917,
      "learning_rate": 1.5141445047965984e-05,
      "loss": 0.8822,
      "step": 1810
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4452926012550953,
      "learning_rate": 1.5136098770641741e-05,
      "loss": 0.9731,
      "step": 1811
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0314312404437602,
      "learning_rate": 1.513075049851592e-05,
      "loss": 0.9325,
      "step": 1812
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3394185563143661,
      "learning_rate": 1.5125400233665728e-05,
      "loss": 0.7533,
      "step": 1813
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.1969680528154634,
      "learning_rate": 1.5120047978169146e-05,
      "loss": 0.915,
      "step": 1814
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6075386576218318,
      "learning_rate": 1.5114693734104926e-05,
      "loss": 0.9129,
      "step": 1815
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.271435557950353,
      "learning_rate": 1.5109337503552594e-05,
      "loss": 0.9665,
      "step": 1816
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.7246322052504022,
      "learning_rate": 1.5103979288592454e-05,
      "loss": 0.897,
      "step": 1817
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3499823267484095,
      "learning_rate": 1.5098619091305571e-05,
      "loss": 0.8543,
      "step": 1818
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.666174639808524,
      "learning_rate": 1.5093256913773786e-05,
      "loss": 0.8624,
      "step": 1819
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3885460104418885,
      "learning_rate": 1.50878927580797e-05,
      "loss": 0.9026,
      "step": 1820
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.1925179040225047,
      "learning_rate": 1.5082526626306698e-05,
      "loss": 0.8632,
      "step": 1821
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.1355481154156535,
      "learning_rate": 1.5077158520538921e-05,
      "loss": 0.786,
      "step": 1822
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3095060449372302,
      "learning_rate": 1.5071788442861277e-05,
      "loss": 0.9003,
      "step": 1823
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.6067991971333797,
      "learning_rate": 1.5066416395359444e-05,
      "loss": 0.8115,
      "step": 1824
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.662054302197457,
      "learning_rate": 1.5061042380119864e-05,
      "loss": 0.9463,
      "step": 1825
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.4145808787858898,
      "learning_rate": 1.5055666399229743e-05,
      "loss": 0.949,
      "step": 1826
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.2137889457062725,
      "learning_rate": 1.5050288454777047e-05,
      "loss": 0.9146,
      "step": 1827
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.2534178888746652,
      "learning_rate": 1.504490854885051e-05,
      "loss": 0.9019,
      "step": 1828
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.099127610575787,
      "learning_rate": 1.5039526683539627e-05,
      "loss": 0.8506,
      "step": 1829
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0831389984087774,
      "learning_rate": 1.5034142860934649e-05,
      "loss": 0.9073,
      "step": 1830
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.424496042218023,
      "learning_rate": 1.5028757083126594e-05,
      "loss": 0.8731,
      "step": 1831
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.2631730535220071,
      "learning_rate": 1.5023369352207229e-05,
      "loss": 0.9146,
      "step": 1832
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.321476133655195,
      "learning_rate": 1.5017979670269096e-05,
      "loss": 0.9609,
      "step": 1833
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0730036710433337,
      "learning_rate": 1.501258803940548e-05,
      "loss": 0.8154,
      "step": 1834
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9780940501127511,
      "learning_rate": 1.500719446171043e-05,
      "loss": 0.8271,
      "step": 1835
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.086795999904571,
      "learning_rate": 1.500179893927875e-05,
      "loss": 0.9376,
      "step": 1836
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9859999208585922,
      "learning_rate": 1.4996401474205997e-05,
      "loss": 0.6551,
      "step": 1837
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.0751927651427995,
      "learning_rate": 1.4991002068588484e-05,
      "loss": 0.8334,
      "step": 1838
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.1390317050606709,
      "learning_rate": 1.4985600724523282e-05,
      "loss": 0.8371,
      "step": 1839
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.912871346017114,
      "learning_rate": 1.4980197444108205e-05,
      "loss": 0.8433,
      "step": 1840
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.929484368744875,
      "learning_rate": 1.4974792229441826e-05,
      "loss": 0.9745,
      "step": 1841
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.346244778438145,
      "learning_rate": 1.4969385082623473e-05,
      "loss": 0.89,
      "step": 1842
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3093934263262064,
      "learning_rate": 1.4963976005753216e-05,
      "loss": 0.8595,
      "step": 1843
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.2129786308966701,
      "learning_rate": 1.4958565000931877e-05,
      "loss": 0.8186,
      "step": 1844
    },
    {
      "epoch": 0.35,
      "grad_norm": 1.3360896138960427,
      "learning_rate": 1.4953152070261027e-05,
      "loss": 0.8563,
      "step": 1845
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3535356267260366,
      "learning_rate": 1.494773721584299e-05,
      "loss": 0.8469,
      "step": 1846
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1356205243673028,
      "learning_rate": 1.4942320439780833e-05,
      "loss": 0.8378,
      "step": 1847
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1003198390824007,
      "learning_rate": 1.4936901744178367e-05,
      "loss": 0.8928,
      "step": 1848
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1147384875134543,
      "learning_rate": 1.4931481131140149e-05,
      "loss": 0.8988,
      "step": 1849
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.301461879048177,
      "learning_rate": 1.4926058602771484e-05,
      "loss": 0.8605,
      "step": 1850
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.8852233394873052,
      "learning_rate": 1.4920634161178424e-05,
      "loss": 0.8812,
      "step": 1851
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1775745327660063,
      "learning_rate": 1.4915207808467756e-05,
      "loss": 0.7259,
      "step": 1852
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.9357619556002246,
      "learning_rate": 1.4909779546747011e-05,
      "loss": 0.752,
      "step": 1853
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.9125392547134649,
      "learning_rate": 1.4904349378124467e-05,
      "loss": 0.7811,
      "step": 1854
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4305999108405925,
      "learning_rate": 1.489891730470914e-05,
      "loss": 0.866,
      "step": 1855
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2103892442680229,
      "learning_rate": 1.4893483328610778e-05,
      "loss": 0.8003,
      "step": 1856
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5404050560852909,
      "learning_rate": 1.488804745193988e-05,
      "loss": 0.9061,
      "step": 1857
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4106636112093998,
      "learning_rate": 1.4882609676807675e-05,
      "loss": 0.8094,
      "step": 1858
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3794179456968512,
      "learning_rate": 1.4877170005326136e-05,
      "loss": 0.8429,
      "step": 1859
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.2982757847945496,
      "learning_rate": 1.4871728439607967e-05,
      "loss": 0.9472,
      "step": 1860
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.6031103850487647,
      "learning_rate": 1.4866284981766607e-05,
      "loss": 0.8971,
      "step": 1861
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.8496112974533516,
      "learning_rate": 1.4860839633916236e-05,
      "loss": 0.961,
      "step": 1862
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.6141660517685814,
      "learning_rate": 1.4855392398171762e-05,
      "loss": 0.8185,
      "step": 1863
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.8063253529713275,
      "learning_rate": 1.484994327664883e-05,
      "loss": 0.914,
      "step": 1864
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1033987510871934,
      "learning_rate": 1.4844492271463814e-05,
      "loss": 0.8257,
      "step": 1865
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2193681737862931,
      "learning_rate": 1.4839039384733821e-05,
      "loss": 0.8298,
      "step": 1866
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2879377938600574,
      "learning_rate": 1.4833584618576695e-05,
      "loss": 0.9132,
      "step": 1867
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1843175795350962,
      "learning_rate": 1.4828127975111e-05,
      "loss": 0.8987,
      "step": 1868
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.147741047170389,
      "learning_rate": 1.4822669456456031e-05,
      "loss": 0.8797,
      "step": 1869
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7591238494855357,
      "learning_rate": 1.4817209064731819e-05,
      "loss": 0.9297,
      "step": 1870
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.152796584728898,
      "learning_rate": 1.4811746802059115e-05,
      "loss": 0.9779,
      "step": 1871
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.863673230383218,
      "learning_rate": 1.48062826705594e-05,
      "loss": 0.7412,
      "step": 1872
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0498347539810113,
      "learning_rate": 1.4800816672354876e-05,
      "loss": 0.8499,
      "step": 1873
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1467797447807386,
      "learning_rate": 1.4795348809568477e-05,
      "loss": 0.9988,
      "step": 1874
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.484432702762472,
      "learning_rate": 1.4789879084323858e-05,
      "loss": 0.7561,
      "step": 1875
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.5807926556962948,
      "learning_rate": 1.4784407498745394e-05,
      "loss": 1.0381,
      "step": 1876
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2048426089611,
      "learning_rate": 1.477893405495819e-05,
      "loss": 0.8454,
      "step": 1877
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1367705470996279,
      "learning_rate": 1.4773458755088068e-05,
      "loss": 0.8395,
      "step": 1878
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.7692161878518244,
      "learning_rate": 1.4767981601261567e-05,
      "loss": 0.8568,
      "step": 1879
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1966039994300637,
      "learning_rate": 1.4762502595605957e-05,
      "loss": 0.8347,
      "step": 1880
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2425386023359422,
      "learning_rate": 1.4757021740249213e-05,
      "loss": 0.971,
      "step": 1881
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3094491923942118,
      "learning_rate": 1.4751539037320044e-05,
      "loss": 0.9452,
      "step": 1882
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1653208935306942,
      "learning_rate": 1.4746054488947863e-05,
      "loss": 0.724,
      "step": 1883
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.0325282939277898,
      "learning_rate": 1.4740568097262811e-05,
      "loss": 0.9785,
      "step": 1884
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2061447337740328,
      "learning_rate": 1.473507986439573e-05,
      "loss": 0.8921,
      "step": 1885
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.341380540593629,
      "learning_rate": 1.4729589792478193e-05,
      "loss": 0.9222,
      "step": 1886
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.183559341489186,
      "learning_rate": 1.4724097883642482e-05,
      "loss": 0.8361,
      "step": 1887
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4752994713084748,
      "learning_rate": 1.4718604140021588e-05,
      "loss": 0.9128,
      "step": 1888
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0233660484853617,
      "learning_rate": 1.471310856374922e-05,
      "loss": 0.8246,
      "step": 1889
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3910338297763813,
      "learning_rate": 1.470761115695979e-05,
      "loss": 0.9306,
      "step": 1890
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.1747516495646542,
      "learning_rate": 1.4702111921788437e-05,
      "loss": 0.9179,
      "step": 1891
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.4445582130779835,
      "learning_rate": 1.4696610860370997e-05,
      "loss": 0.7834,
      "step": 1892
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.3201392147519602,
      "learning_rate": 1.4691107974844015e-05,
      "loss": 0.7798,
      "step": 1893
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.0799305144116684,
      "learning_rate": 1.468560326734475e-05,
      "loss": 0.926,
      "step": 1894
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2947183167803122,
      "learning_rate": 1.4680096740011172e-05,
      "loss": 0.8196,
      "step": 1895
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.101556042177128,
      "learning_rate": 1.4674588394981948e-05,
      "loss": 0.8752,
      "step": 1896
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2447986011947088,
      "learning_rate": 1.4669078234396454e-05,
      "loss": 0.6893,
      "step": 1897
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4152124104899872,
      "learning_rate": 1.4663566260394775e-05,
      "loss": 0.9202,
      "step": 1898
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.1064106175285016,
      "learning_rate": 1.4658052475117704e-05,
      "loss": 0.854,
      "step": 1899
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.681853129476566,
      "learning_rate": 1.4652536880706723e-05,
      "loss": 0.9948,
      "step": 1900
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0986131662095644,
      "learning_rate": 1.4647019479304028e-05,
      "loss": 0.9014,
      "step": 1901
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.2009359081445368,
      "learning_rate": 1.4641500273052516e-05,
      "loss": 0.9028,
      "step": 1902
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9852290970583273,
      "learning_rate": 1.463597926409578e-05,
      "loss": 0.7046,
      "step": 1903
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4665470088251942,
      "learning_rate": 1.4630456454578122e-05,
      "loss": 0.8702,
      "step": 1904
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0554352443076096,
      "learning_rate": 1.462493184664453e-05,
      "loss": 0.8247,
      "step": 1905
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.2174157446717508,
      "learning_rate": 1.4619405442440702e-05,
      "loss": 0.8499,
      "step": 1906
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.6791742401450438,
      "learning_rate": 1.4613877244113033e-05,
      "loss": 0.8654,
      "step": 1907
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.6781351712076684,
      "learning_rate": 1.4608347253808605e-05,
      "loss": 0.8576,
      "step": 1908
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.013090280808875,
      "learning_rate": 1.460281547367521e-05,
      "loss": 0.7926,
      "step": 1909
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.616649103266415,
      "learning_rate": 1.4597281905861318e-05,
      "loss": 0.8452,
      "step": 1910
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.115862025064346,
      "learning_rate": 1.4591746552516109e-05,
      "loss": 0.8204,
      "step": 1911
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4289933368495586,
      "learning_rate": 1.4586209415789452e-05,
      "loss": 0.9566,
      "step": 1912
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.5413149741158616,
      "learning_rate": 1.4580670497831904e-05,
      "loss": 0.9023,
      "step": 1913
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.501226293330409,
      "learning_rate": 1.4575129800794718e-05,
      "loss": 0.6179,
      "step": 1914
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4928925019660213,
      "learning_rate": 1.4569587326829834e-05,
      "loss": 0.9213,
      "step": 1915
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.7292433306037152,
      "learning_rate": 1.4564043078089891e-05,
      "loss": 0.9402,
      "step": 1916
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3618397356799967,
      "learning_rate": 1.4558497056728205e-05,
      "loss": 0.918,
      "step": 1917
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.1465991740938901,
      "learning_rate": 1.4552949264898795e-05,
      "loss": 0.826,
      "step": 1918
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.9394514971262389,
      "learning_rate": 1.4547399704756348e-05,
      "loss": 0.9722,
      "step": 1919
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.348072205323221,
      "learning_rate": 1.4541848378456255e-05,
      "loss": 0.9593,
      "step": 1920
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9643458699098745,
      "learning_rate": 1.4536295288154594e-05,
      "loss": 0.7562,
      "step": 1921
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.1287766558764698,
      "learning_rate": 1.4530740436008111e-05,
      "loss": 0.7972,
      "step": 1922
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.119330935395479,
      "learning_rate": 1.452518382417425e-05,
      "loss": 0.848,
      "step": 1923
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9600167471688718,
      "learning_rate": 1.4519625454811135e-05,
      "loss": 0.8784,
      "step": 1924
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0002973322171251,
      "learning_rate": 1.4514065330077575e-05,
      "loss": 0.7723,
      "step": 1925
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9287242181472188,
      "learning_rate": 1.4508503452133053e-05,
      "loss": 0.8869,
      "step": 1926
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0044963049799587,
      "learning_rate": 1.4502939823137744e-05,
      "loss": 0.8737,
      "step": 1927
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.1575696677991707,
      "learning_rate": 1.4497374445252496e-05,
      "loss": 0.8619,
      "step": 1928
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.119819733818709,
      "learning_rate": 1.4491807320638835e-05,
      "loss": 0.8983,
      "step": 1929
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.1501918689435264,
      "learning_rate": 1.4486238451458972e-05,
      "loss": 0.9242,
      "step": 1930
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0776581565477237,
      "learning_rate": 1.4480667839875786e-05,
      "loss": 0.8856,
      "step": 1931
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4220830659015469,
      "learning_rate": 1.4475095488052843e-05,
      "loss": 0.814,
      "step": 1932
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4578429650785831,
      "learning_rate": 1.4469521398154381e-05,
      "loss": 0.8792,
      "step": 1933
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.4276430848364137,
      "learning_rate": 1.4463945572345308e-05,
      "loss": 0.8716,
      "step": 1934
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3163530796375182,
      "learning_rate": 1.4458368012791213e-05,
      "loss": 0.8334,
      "step": 1935
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9013853909492487,
      "learning_rate": 1.4452788721658355e-05,
      "loss": 0.7491,
      "step": 1936
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3424377522922435,
      "learning_rate": 1.4447207701113669e-05,
      "loss": 0.8947,
      "step": 1937
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.2493249679840996,
      "learning_rate": 1.4441624953324755e-05,
      "loss": 0.841,
      "step": 1938
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.191447067734082,
      "learning_rate": 1.4436040480459891e-05,
      "loss": 0.8673,
      "step": 1939
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.1708451251761756,
      "learning_rate": 1.443045428468802e-05,
      "loss": 0.8731,
      "step": 1940
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.209274755911194,
      "learning_rate": 1.4424866368178761e-05,
      "loss": 0.9577,
      "step": 1941
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.1355895245681644,
      "learning_rate": 1.441927673310239e-05,
      "loss": 0.8726,
      "step": 1942
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.0288588498130644,
      "learning_rate": 1.4413685381629855e-05,
      "loss": 0.8869,
      "step": 1943
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0254345237326818,
      "learning_rate": 1.440809231593278e-05,
      "loss": 0.8574,
      "step": 1944
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9657876647545789,
      "learning_rate": 1.4402497538183444e-05,
      "loss": 0.8403,
      "step": 1945
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.9841391109536063,
      "learning_rate": 1.4396901050554794e-05,
      "loss": 0.9168,
      "step": 1946
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.7022964508388538,
      "learning_rate": 1.4391302855220442e-05,
      "loss": 1.0015,
      "step": 1947
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0644817013798162,
      "learning_rate": 1.4385702954354662e-05,
      "loss": 0.9017,
      "step": 1948
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.3653081787336325,
      "learning_rate": 1.438010135013239e-05,
      "loss": 0.95,
      "step": 1949
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.1958851249080948,
      "learning_rate": 1.4374498044729225e-05,
      "loss": 0.7894,
      "step": 1950
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.1254684472353402,
      "learning_rate": 1.4368893040321428e-05,
      "loss": 0.9144,
      "step": 1951
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6167997932661198,
      "learning_rate": 1.4363286339085915e-05,
      "loss": 0.9928,
      "step": 1952
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.9945549354519653,
      "learning_rate": 1.435767794320027e-05,
      "loss": 0.8068,
      "step": 1953
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5982263301121902,
      "learning_rate": 1.4352067854842724e-05,
      "loss": 0.9001,
      "step": 1954
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.1494020179435092,
      "learning_rate": 1.434645607619217e-05,
      "loss": 0.7381,
      "step": 1955
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0690324753364508,
      "learning_rate": 1.434084260942816e-05,
      "loss": 0.7886,
      "step": 1956
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4183416956564285,
      "learning_rate": 1.4335227456730902e-05,
      "loss": 0.9658,
      "step": 1957
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.5259666005684236,
      "learning_rate": 1.4329610620281253e-05,
      "loss": 0.983,
      "step": 1958
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4756295685594405,
      "learning_rate": 1.4323992102260733e-05,
      "loss": 0.6863,
      "step": 1959
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.1584923386723958,
      "learning_rate": 1.4318371904851502e-05,
      "loss": 0.8862,
      "step": 1960
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0436910733632316,
      "learning_rate": 1.4312750030236382e-05,
      "loss": 0.9196,
      "step": 1961
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2637018333949153,
      "learning_rate": 1.4307126480598852e-05,
      "loss": 0.8467,
      "step": 1962
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.153064461591462,
      "learning_rate": 1.4301501258123024e-05,
      "loss": 0.8492,
      "step": 1963
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.7155140829841404,
      "learning_rate": 1.4295874364993672e-05,
      "loss": 0.8856,
      "step": 1964
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0198171880785263,
      "learning_rate": 1.4290245803396221e-05,
      "loss": 0.927,
      "step": 1965
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4127886537873733,
      "learning_rate": 1.4284615575516737e-05,
      "loss": 0.8667,
      "step": 1966
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4466944000306647,
      "learning_rate": 1.4278983683541934e-05,
      "loss": 0.8755,
      "step": 1967
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3929323081059795,
      "learning_rate": 1.4273350129659173e-05,
      "loss": 0.897,
      "step": 1968
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.164115526524502,
      "learning_rate": 1.4267714916056465e-05,
      "loss": 0.8937,
      "step": 1969
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.201137830670487,
      "learning_rate": 1.426207804492246e-05,
      "loss": 0.9245,
      "step": 1970
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6090783099190331,
      "learning_rate": 1.4256439518446456e-05,
      "loss": 0.9546,
      "step": 1971
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3930054235765488,
      "learning_rate": 1.4250799338818388e-05,
      "loss": 0.9253,
      "step": 1972
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2248892958526312,
      "learning_rate": 1.424515750822884e-05,
      "loss": 0.9233,
      "step": 1973
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.184032774225148,
      "learning_rate": 1.4239514028869032e-05,
      "loss": 0.8579,
      "step": 1974
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3992239333114804,
      "learning_rate": 1.4233868902930827e-05,
      "loss": 0.8904,
      "step": 1975
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.8776923400097343,
      "learning_rate": 1.4228222132606729e-05,
      "loss": 0.9542,
      "step": 1976
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4060825503180185,
      "learning_rate": 1.4222573720089874e-05,
      "loss": 0.8717,
      "step": 1977
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.373666261056635,
      "learning_rate": 1.4216923667574042e-05,
      "loss": 0.8609,
      "step": 1978
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.346876271832523,
      "learning_rate": 1.4211271977253653e-05,
      "loss": 0.9062,
      "step": 1979
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0617708261825693,
      "learning_rate": 1.4205618651323753e-05,
      "loss": 0.95,
      "step": 1980
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2725248273178635,
      "learning_rate": 1.4199963691980027e-05,
      "loss": 0.8052,
      "step": 1981
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6089502191819538,
      "learning_rate": 1.4194307101418805e-05,
      "loss": 0.888,
      "step": 1982
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3954574697342064,
      "learning_rate": 1.4188648881837033e-05,
      "loss": 0.9562,
      "step": 1983
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3830050102758227,
      "learning_rate": 1.4182989035432299e-05,
      "loss": 0.8947,
      "step": 1984
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2209513324165617,
      "learning_rate": 1.4177327564402825e-05,
      "loss": 0.9026,
      "step": 1985
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2781501770454442,
      "learning_rate": 1.4171664470947464e-05,
      "loss": 0.9327,
      "step": 1986
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.1675234874041411,
      "learning_rate": 1.416599975726569e-05,
      "loss": 0.9298,
      "step": 1987
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6847342872977644,
      "learning_rate": 1.4160333425557616e-05,
      "loss": 0.8903,
      "step": 1988
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3343824866643754,
      "learning_rate": 1.4154665478023977e-05,
      "loss": 0.919,
      "step": 1989
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.657905308676535,
      "learning_rate": 1.4148995916866139e-05,
      "loss": 0.8768,
      "step": 1990
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0750989567598663,
      "learning_rate": 1.41433247442861e-05,
      "loss": 0.7503,
      "step": 1991
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.6495782506202927,
      "learning_rate": 1.4137651962486472e-05,
      "loss": 0.8761,
      "step": 1992
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2845781542106707,
      "learning_rate": 1.4131977573670499e-05,
      "loss": 0.8436,
      "step": 1993
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3885685825964582,
      "learning_rate": 1.412630158004205e-05,
      "loss": 1.0202,
      "step": 1994
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.3870304571654721,
      "learning_rate": 1.4120623983805617e-05,
      "loss": 0.902,
      "step": 1995
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.50173770534119,
      "learning_rate": 1.4114944787166307e-05,
      "loss": 0.9148,
      "step": 1996
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4545387593314307,
      "learning_rate": 1.4109263992329858e-05,
      "loss": 0.9529,
      "step": 1997
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.359169070222512,
      "learning_rate": 1.4103581601502629e-05,
      "loss": 0.7529,
      "step": 1998
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.0106592916044228,
      "learning_rate": 1.409789761689159e-05,
      "loss": 0.9141,
      "step": 1999
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4852244895235664,
      "learning_rate": 1.4092212040704336e-05,
      "loss": 0.8843,
      "step": 2000
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.2541614997584134,
      "learning_rate": 1.408652487514908e-05,
      "loss": 0.8419,
      "step": 2001
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3922718655640263,
      "learning_rate": 1.408083612243465e-05,
      "loss": 0.8691,
      "step": 2002
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.698108239509747,
      "learning_rate": 1.4075145784770496e-05,
      "loss": 0.8132,
      "step": 2003
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0131458843061778,
      "learning_rate": 1.4069453864366678e-05,
      "loss": 0.8645,
      "step": 2004
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1785283575422791,
      "learning_rate": 1.4063760363433867e-05,
      "loss": 0.7955,
      "step": 2005
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2738110498674804,
      "learning_rate": 1.405806528418336e-05,
      "loss": 0.8027,
      "step": 2006
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0606206511290748,
      "learning_rate": 1.4052368628827057e-05,
      "loss": 0.9238,
      "step": 2007
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3310087736394465,
      "learning_rate": 1.4046670399577478e-05,
      "loss": 0.7678,
      "step": 2008
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0358026231875932,
      "learning_rate": 1.4040970598647742e-05,
      "loss": 0.9185,
      "step": 2009
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3490661198463856,
      "learning_rate": 1.4035269228251589e-05,
      "loss": 0.9821,
      "step": 2010
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2713487691245728,
      "learning_rate": 1.4029566290603368e-05,
      "loss": 0.8611,
      "step": 2011
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2826789412394857,
      "learning_rate": 1.4023861787918031e-05,
      "loss": 0.9609,
      "step": 2012
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1682388306770182,
      "learning_rate": 1.4018155722411144e-05,
      "loss": 0.9468,
      "step": 2013
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0314995992391942,
      "learning_rate": 1.4012448096298874e-05,
      "loss": 0.8271,
      "step": 2014
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1995522826628982,
      "learning_rate": 1.4006738911798001e-05,
      "loss": 0.84,
      "step": 2015
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.425430572182078,
      "learning_rate": 1.40010281711259e-05,
      "loss": 0.9135,
      "step": 2016
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0674581274281145,
      "learning_rate": 1.3995315876500565e-05,
      "loss": 0.8944,
      "step": 2017
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3765609074387446,
      "learning_rate": 1.3989602030140581e-05,
      "loss": 0.9101,
      "step": 2018
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5198425762232377,
      "learning_rate": 1.398388663426514e-05,
      "loss": 0.8377,
      "step": 2019
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0408262753588742,
      "learning_rate": 1.3978169691094037e-05,
      "loss": 0.7967,
      "step": 2020
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9802803960723442,
      "learning_rate": 1.3972451202847665e-05,
      "loss": 0.7523,
      "step": 2021
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.4329170889573954,
      "learning_rate": 1.3966731171747024e-05,
      "loss": 0.8642,
      "step": 2022
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2285107427160409,
      "learning_rate": 1.3961009600013702e-05,
      "loss": 0.8379,
      "step": 2023
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2206595876559152,
      "learning_rate": 1.3955286489869894e-05,
      "loss": 0.8667,
      "step": 2024
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3106628260434556,
      "learning_rate": 1.394956184353839e-05,
      "loss": 0.9273,
      "step": 2025
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.7248687411403694,
      "learning_rate": 1.3943835663242577e-05,
      "loss": 0.8912,
      "step": 2026
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2813334884860414,
      "learning_rate": 1.3938107951206438e-05,
      "loss": 0.8962,
      "step": 2027
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5586520571904579,
      "learning_rate": 1.3932378709654548e-05,
      "loss": 0.9221,
      "step": 2028
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2487913313851642,
      "learning_rate": 1.3926647940812081e-05,
      "loss": 0.9536,
      "step": 2029
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.232057150935579,
      "learning_rate": 1.39209156469048e-05,
      "loss": 0.9402,
      "step": 2030
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2638757407108714,
      "learning_rate": 1.3915181830159061e-05,
      "loss": 0.8025,
      "step": 2031
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5027400006143585,
      "learning_rate": 1.3909446492801819e-05,
      "loss": 0.9499,
      "step": 2032
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.363165917477678,
      "learning_rate": 1.3903709637060605e-05,
      "loss": 0.9012,
      "step": 2033
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2231778610470125,
      "learning_rate": 1.3897971265163546e-05,
      "loss": 0.7648,
      "step": 2034
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.599188824158387,
      "learning_rate": 1.3892231379339369e-05,
      "loss": 0.9417,
      "step": 2035
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3579162037182202,
      "learning_rate": 1.3886489981817375e-05,
      "loss": 1.0036,
      "step": 2036
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2437122919875672,
      "learning_rate": 1.3880747074827454e-05,
      "loss": 0.858,
      "step": 2037
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9496292115471457,
      "learning_rate": 1.3875002660600085e-05,
      "loss": 0.7537,
      "step": 2038
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.305934035694149,
      "learning_rate": 1.386925674136634e-05,
      "loss": 0.9172,
      "step": 2039
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3723506842965956,
      "learning_rate": 1.3863509319357857e-05,
      "loss": 0.8694,
      "step": 2040
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1930603655193597,
      "learning_rate": 1.3857760396806876e-05,
      "loss": 0.8507,
      "step": 2041
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.9187246035036667,
      "learning_rate": 1.3852009975946209e-05,
      "loss": 0.8612,
      "step": 2042
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.0098396330409687,
      "learning_rate": 1.3846258059009252e-05,
      "loss": 0.87,
      "step": 2043
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.3444231511038336,
      "learning_rate": 1.384050464822999e-05,
      "loss": 0.9017,
      "step": 2044
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.151678971711292,
      "learning_rate": 1.383474974584297e-05,
      "loss": 0.8074,
      "step": 2045
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.7025346481976704,
      "learning_rate": 1.3828993354083342e-05,
      "loss": 0.9841,
      "step": 2046
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2910870434560777,
      "learning_rate": 1.3823235475186816e-05,
      "loss": 0.9544,
      "step": 2047
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.1633019050637166,
      "learning_rate": 1.3817476111389685e-05,
      "loss": 0.84,
      "step": 2048
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.616404622622409,
      "learning_rate": 1.3811715264928824e-05,
      "loss": 0.9197,
      "step": 2049
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2462799409999732,
      "learning_rate": 1.3805952938041674e-05,
      "loss": 0.8114,
      "step": 2050
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.5184361528088177,
      "learning_rate": 1.3800189132966257e-05,
      "loss": 1.0364,
      "step": 2051
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.2587561277515726,
      "learning_rate": 1.3794423851941174e-05,
      "loss": 0.9053,
      "step": 2052
    },
    {
      "epoch": 0.39,
      "grad_norm": 1.153307082918343,
      "learning_rate": 1.378865709720559e-05,
      "loss": 0.9261,
      "step": 2053
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.399383016828912,
      "learning_rate": 1.3782888870999245e-05,
      "loss": 0.9281,
      "step": 2054
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1071996310254806,
      "learning_rate": 1.377711917556245e-05,
      "loss": 0.8953,
      "step": 2055
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.09136062195091,
      "learning_rate": 1.3771348013136096e-05,
      "loss": 0.83,
      "step": 2056
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.9272873470305747,
      "learning_rate": 1.3765575385961627e-05,
      "loss": 0.8678,
      "step": 2057
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7809600322179566,
      "learning_rate": 1.3759801296281072e-05,
      "loss": 0.8888,
      "step": 2058
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.3796174873503673,
      "learning_rate": 1.3754025746337014e-05,
      "loss": 0.8868,
      "step": 2059
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.8643160326835448,
      "learning_rate": 1.3748248738372616e-05,
      "loss": 0.9097,
      "step": 2060
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.210971502626543,
      "learning_rate": 1.3742470274631599e-05,
      "loss": 0.8696,
      "step": 2061
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0460843309280403,
      "learning_rate": 1.3736690357358253e-05,
      "loss": 0.8222,
      "step": 2062
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.489563183353648,
      "learning_rate": 1.3730908988797427e-05,
      "loss": 0.8961,
      "step": 2063
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.4271070002779742,
      "learning_rate": 1.3725126171194543e-05,
      "loss": 0.801,
      "step": 2064
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0467026921442233,
      "learning_rate": 1.371934190679558e-05,
      "loss": 0.8233,
      "step": 2065
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.154019759005439,
      "learning_rate": 1.3713556197847076e-05,
      "loss": 0.8708,
      "step": 2066
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.989728503939338,
      "learning_rate": 1.3707769046596136e-05,
      "loss": 0.8356,
      "step": 2067
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.485799205323323,
      "learning_rate": 1.3701980455290425e-05,
      "loss": 0.9569,
      "step": 2068
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0640322971101188,
      "learning_rate": 1.3696190426178162e-05,
      "loss": 0.7752,
      "step": 2069
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1077406586722314,
      "learning_rate": 1.3690398961508128e-05,
      "loss": 0.9299,
      "step": 2070
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2514393439580576,
      "learning_rate": 1.3684606063529662e-05,
      "loss": 0.8501,
      "step": 2071
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5213497794632849,
      "learning_rate": 1.3678811734492659e-05,
      "loss": 0.9872,
      "step": 2072
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1690126250700026,
      "learning_rate": 1.367301597664757e-05,
      "loss": 0.8613,
      "step": 2073
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0647054255119706,
      "learning_rate": 1.36672187922454e-05,
      "loss": 0.7813,
      "step": 2074
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.5171882674510422,
      "learning_rate": 1.3661420183537705e-05,
      "loss": 0.9534,
      "step": 2075
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1995091261475046,
      "learning_rate": 1.3655620152776605e-05,
      "loss": 0.6701,
      "step": 2076
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0473558487884083,
      "learning_rate": 1.364981870221476e-05,
      "loss": 0.8415,
      "step": 2077
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.265530369305565,
      "learning_rate": 1.364401583410539e-05,
      "loss": 0.8379,
      "step": 2078
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1662525512571196,
      "learning_rate": 1.3638211550702256e-05,
      "loss": 0.9149,
      "step": 2079
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1320215211720737,
      "learning_rate": 1.363240585425968e-05,
      "loss": 0.8767,
      "step": 2080
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.250474631642029,
      "learning_rate": 1.362659874703253e-05,
      "loss": 0.8687,
      "step": 2081
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0109771669604226,
      "learning_rate": 1.3620790231276213e-05,
      "loss": 0.8186,
      "step": 2082
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1130640024984797,
      "learning_rate": 1.3614980309246692e-05,
      "loss": 0.9162,
      "step": 2083
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1017735006308955,
      "learning_rate": 1.3609168983200474e-05,
      "loss": 0.934,
      "step": 2084
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.3001122381300476,
      "learning_rate": 1.3603356255394613e-05,
      "loss": 0.8181,
      "step": 2085
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.7744152502623862,
      "learning_rate": 1.3597542128086702e-05,
      "loss": 0.8835,
      "step": 2086
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6562190120425246,
      "learning_rate": 1.3591726603534885e-05,
      "loss": 0.9335,
      "step": 2087
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2203502934760246,
      "learning_rate": 1.3585909683997842e-05,
      "loss": 0.9716,
      "step": 2088
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1756211226043585,
      "learning_rate": 1.3580091371734798e-05,
      "loss": 0.8005,
      "step": 2089
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2416546150173762,
      "learning_rate": 1.357427166900552e-05,
      "loss": 0.9095,
      "step": 2090
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0403084482183989,
      "learning_rate": 1.3568450578070309e-05,
      "loss": 0.898,
      "step": 2091
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.613964498402952,
      "learning_rate": 1.3562628101190015e-05,
      "loss": 0.878,
      "step": 2092
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2133534877808787,
      "learning_rate": 1.3556804240626019e-05,
      "loss": 0.8335,
      "step": 2093
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6920182808981297,
      "learning_rate": 1.3550978998640241e-05,
      "loss": 0.8686,
      "step": 2094
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2484893283183576,
      "learning_rate": 1.3545152377495136e-05,
      "loss": 0.7846,
      "step": 2095
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1828099652015003,
      "learning_rate": 1.3539324379453698e-05,
      "loss": 0.8373,
      "step": 2096
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0966982699796024,
      "learning_rate": 1.3533495006779455e-05,
      "loss": 0.7993,
      "step": 2097
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.3180651645508996,
      "learning_rate": 1.3527664261736471e-05,
      "loss": 0.7618,
      "step": 2098
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.6910810950936346,
      "learning_rate": 1.3521832146589335e-05,
      "loss": 0.8227,
      "step": 2099
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1529082503725756,
      "learning_rate": 1.3515998663603174e-05,
      "loss": 0.8924,
      "step": 2100
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.2122418331558324,
      "learning_rate": 1.3510163815043647e-05,
      "loss": 0.8947,
      "step": 2101
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0115042338451494,
      "learning_rate": 1.3504327603176943e-05,
      "loss": 0.7924,
      "step": 2102
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1730796880353291,
      "learning_rate": 1.3498490030269782e-05,
      "loss": 0.8479,
      "step": 2103
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1923149794108205,
      "learning_rate": 1.3492651098589398e-05,
      "loss": 0.8478,
      "step": 2104
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.0691069894418552,
      "learning_rate": 1.3486810810403578e-05,
      "loss": 0.8913,
      "step": 2105
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.055268680749594,
      "learning_rate": 1.348096916798062e-05,
      "loss": 0.8476,
      "step": 2106
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3480909299574253,
      "learning_rate": 1.3475126173589343e-05,
      "loss": 0.9598,
      "step": 2107
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2982487533596132,
      "learning_rate": 1.3469281829499107e-05,
      "loss": 0.9179,
      "step": 2108
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3801607890007486,
      "learning_rate": 1.3463436137979786e-05,
      "loss": 0.8654,
      "step": 2109
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4569503428377732,
      "learning_rate": 1.3457589101301776e-05,
      "loss": 0.9806,
      "step": 2110
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1103591880939094,
      "learning_rate": 1.3451740721736005e-05,
      "loss": 0.8656,
      "step": 2111
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0725891492899333,
      "learning_rate": 1.3445891001553905e-05,
      "loss": 0.8391,
      "step": 2112
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9518277931729895,
      "learning_rate": 1.3440039943027452e-05,
      "loss": 0.7996,
      "step": 2113
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0952105445539335,
      "learning_rate": 1.3434187548429126e-05,
      "loss": 0.8436,
      "step": 2114
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.107286982419497,
      "learning_rate": 1.3428333820031922e-05,
      "loss": 0.8393,
      "step": 2115
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4933353416899773,
      "learning_rate": 1.3422478760109371e-05,
      "loss": 0.8044,
      "step": 2116
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0855327105190018,
      "learning_rate": 1.3416622370935507e-05,
      "loss": 0.8028,
      "step": 2117
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3496402993640966,
      "learning_rate": 1.3410764654784885e-05,
      "loss": 0.8707,
      "step": 2118
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2685978788874124,
      "learning_rate": 1.3404905613932573e-05,
      "loss": 0.8505,
      "step": 2119
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0562454721357988,
      "learning_rate": 1.3399045250654152e-05,
      "loss": 0.6866,
      "step": 2120
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.5063805704833282,
      "learning_rate": 1.3393183567225724e-05,
      "loss": 0.8201,
      "step": 2121
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0893408296867615,
      "learning_rate": 1.3387320565923901e-05,
      "loss": 0.8976,
      "step": 2122
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2002341781729773,
      "learning_rate": 1.33814562490258e-05,
      "loss": 0.8095,
      "step": 2123
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1600889630344162,
      "learning_rate": 1.3375590618809056e-05,
      "loss": 0.785,
      "step": 2124
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.302933361749925,
      "learning_rate": 1.3369723677551813e-05,
      "loss": 0.776,
      "step": 2125
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.193737458679968,
      "learning_rate": 1.3363855427532724e-05,
      "loss": 0.8292,
      "step": 2126
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.902959619149853,
      "learning_rate": 1.3357985871030948e-05,
      "loss": 0.9652,
      "step": 2127
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1360655600592149,
      "learning_rate": 1.3352115010326155e-05,
      "loss": 0.9202,
      "step": 2128
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2380835588934538,
      "learning_rate": 1.3346242847698516e-05,
      "loss": 0.8701,
      "step": 2129
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4594119098563014,
      "learning_rate": 1.3340369385428713e-05,
      "loss": 0.8793,
      "step": 2130
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4865436814332733,
      "learning_rate": 1.3334494625797936e-05,
      "loss": 0.9372,
      "step": 2131
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0323105637368346,
      "learning_rate": 1.3328618571087867e-05,
      "loss": 0.9289,
      "step": 2132
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.086557105196094,
      "learning_rate": 1.33227412235807e-05,
      "loss": 0.6562,
      "step": 2133
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3721756219328072,
      "learning_rate": 1.3316862585559132e-05,
      "loss": 0.9542,
      "step": 2134
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2955579195320708,
      "learning_rate": 1.3310982659306352e-05,
      "loss": 0.8325,
      "step": 2135
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.491166605349759,
      "learning_rate": 1.3305101447106064e-05,
      "loss": 0.899,
      "step": 2136
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.250530331957333,
      "learning_rate": 1.3299218951242456e-05,
      "loss": 0.8861,
      "step": 2137
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0279787896642048,
      "learning_rate": 1.3293335174000226e-05,
      "loss": 0.8651,
      "step": 2138
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.2318591795803726,
      "learning_rate": 1.328745011766456e-05,
      "loss": 0.8249,
      "step": 2139
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1795463066994623,
      "learning_rate": 1.3281563784521154e-05,
      "loss": 0.883,
      "step": 2140
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0432305429359154,
      "learning_rate": 1.3275676176856185e-05,
      "loss": 0.8543,
      "step": 2141
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1790805808306752,
      "learning_rate": 1.3269787296956333e-05,
      "loss": 0.8414,
      "step": 2142
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3013498526613343,
      "learning_rate": 1.3263897147108778e-05,
      "loss": 0.978,
      "step": 2143
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.4880948982564788,
      "learning_rate": 1.3258005729601178e-05,
      "loss": 0.9003,
      "step": 2144
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.218402806981996,
      "learning_rate": 1.3252113046721692e-05,
      "loss": 0.9404,
      "step": 2145
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0585015470566828,
      "learning_rate": 1.3246219100758974e-05,
      "loss": 0.7779,
      "step": 2146
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.9647071996642904,
      "learning_rate": 1.3240323894002166e-05,
      "loss": 0.8627,
      "step": 2147
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0365568445215718,
      "learning_rate": 1.3234427428740895e-05,
      "loss": 0.8633,
      "step": 2148
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3779257132880458,
      "learning_rate": 1.3228529707265279e-05,
      "loss": 0.98,
      "step": 2149
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.3314387963017875,
      "learning_rate": 1.322263073186593e-05,
      "loss": 0.9197,
      "step": 2150
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0921547534335265,
      "learning_rate": 1.3216730504833938e-05,
      "loss": 0.7428,
      "step": 2151
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.120717595293851,
      "learning_rate": 1.3210829028460883e-05,
      "loss": 0.9655,
      "step": 2152
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.410339735832333,
      "learning_rate": 1.3204926305038832e-05,
      "loss": 0.9564,
      "step": 2153
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.0288386919863,
      "learning_rate": 1.3199022336860335e-05,
      "loss": 0.8532,
      "step": 2154
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.203052995047382,
      "learning_rate": 1.3193117126218425e-05,
      "loss": 0.841,
      "step": 2155
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.9547023528839307,
      "learning_rate": 1.3187210675406617e-05,
      "loss": 0.7763,
      "step": 2156
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.1614821620725586,
      "learning_rate": 1.318130298671891e-05,
      "loss": 0.8636,
      "step": 2157
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1433800564802483,
      "learning_rate": 1.3175394062449777e-05,
      "loss": 0.8938,
      "step": 2158
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1243534473674892,
      "learning_rate": 1.3169483904894185e-05,
      "loss": 0.8701,
      "step": 2159
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1406408571747915,
      "learning_rate": 1.3163572516347565e-05,
      "loss": 0.7628,
      "step": 2160
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.5982545342190486,
      "learning_rate": 1.3157659899105835e-05,
      "loss": 0.9008,
      "step": 2161
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0749160164996001,
      "learning_rate": 1.315174605546538e-05,
      "loss": 0.7865,
      "step": 2162
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2748885948406978,
      "learning_rate": 1.3145830987723081e-05,
      "loss": 0.9441,
      "step": 2163
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0651236233492496,
      "learning_rate": 1.3139914698176273e-05,
      "loss": 0.8222,
      "step": 2164
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0985763884996045,
      "learning_rate": 1.3133997189122777e-05,
      "loss": 0.9088,
      "step": 2165
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.9257995709056528,
      "learning_rate": 1.3128078462860887e-05,
      "loss": 0.8257,
      "step": 2166
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.178791653746283,
      "learning_rate": 1.3122158521689367e-05,
      "loss": 0.7656,
      "step": 2167
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9062282112858641,
      "learning_rate": 1.3116237367907454e-05,
      "loss": 0.8193,
      "step": 2168
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2934115744955845,
      "learning_rate": 1.3110315003814855e-05,
      "loss": 0.9602,
      "step": 2169
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9273912407606275,
      "learning_rate": 1.3104391431711748e-05,
      "loss": 0.7902,
      "step": 2170
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.331603871719823,
      "learning_rate": 1.309846665389878e-05,
      "loss": 0.9368,
      "step": 2171
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3852974740600428,
      "learning_rate": 1.309254067267707e-05,
      "loss": 0.9078,
      "step": 2172
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1921485601261552,
      "learning_rate": 1.3086613490348198e-05,
      "loss": 0.9869,
      "step": 2173
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.088068611097455,
      "learning_rate": 1.3080685109214208e-05,
      "loss": 0.9114,
      "step": 2174
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2349423386595413,
      "learning_rate": 1.3074755531577628e-05,
      "loss": 0.7764,
      "step": 2175
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2374543074699942,
      "learning_rate": 1.3068824759741428e-05,
      "loss": 0.9358,
      "step": 2176
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2006431869868661,
      "learning_rate": 1.306289279600905e-05,
      "loss": 0.8106,
      "step": 2177
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.196052659868764,
      "learning_rate": 1.3056959642684404e-05,
      "loss": 0.8908,
      "step": 2178
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1278533579443086,
      "learning_rate": 1.305102530207186e-05,
      "loss": 0.8423,
      "step": 2179
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.358931630825135,
      "learning_rate": 1.3045089776476246e-05,
      "loss": 0.8995,
      "step": 2180
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3863413858061622,
      "learning_rate": 1.3039153068202853e-05,
      "loss": 0.9226,
      "step": 2181
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1150661657316523,
      "learning_rate": 1.3033215179557424e-05,
      "loss": 0.8684,
      "step": 2182
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0098161170572797,
      "learning_rate": 1.3027276112846172e-05,
      "loss": 0.8176,
      "step": 2183
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1632264724580583,
      "learning_rate": 1.3021335870375763e-05,
      "loss": 0.8964,
      "step": 2184
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.445312860205322,
      "learning_rate": 1.3015394454453316e-05,
      "loss": 0.9041,
      "step": 2185
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4688644966938993,
      "learning_rate": 1.3009451867386411e-05,
      "loss": 0.8318,
      "step": 2186
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2120310754177754,
      "learning_rate": 1.3003508111483077e-05,
      "loss": 0.8934,
      "step": 2187
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2869618096802808,
      "learning_rate": 1.29975631890518e-05,
      "loss": 0.9252,
      "step": 2188
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1433267417101223,
      "learning_rate": 1.2991617102401524e-05,
      "loss": 0.824,
      "step": 2189
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4172034819194943,
      "learning_rate": 1.2985669853841635e-05,
      "loss": 0.7663,
      "step": 2190
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1217190920726563,
      "learning_rate": 1.297972144568198e-05,
      "loss": 0.8563,
      "step": 2191
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2802721877568457,
      "learning_rate": 1.2973771880232853e-05,
      "loss": 0.912,
      "step": 2192
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.2024247559245291,
      "learning_rate": 1.2967821159804994e-05,
      "loss": 0.9639,
      "step": 2193
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4154097990857704,
      "learning_rate": 1.2961869286709594e-05,
      "loss": 0.9501,
      "step": 2194
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9654531826150446,
      "learning_rate": 1.295591626325829e-05,
      "loss": 0.8438,
      "step": 2195
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.092150888175552,
      "learning_rate": 1.2949962091763174e-05,
      "loss": 0.7839,
      "step": 2196
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.4549446833630484,
      "learning_rate": 1.2944006774536773e-05,
      "loss": 0.9996,
      "step": 2197
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0718541185170367,
      "learning_rate": 1.2938050313892062e-05,
      "loss": 0.8895,
      "step": 2198
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3451636320221307,
      "learning_rate": 1.2932092712142468e-05,
      "loss": 0.8104,
      "step": 2199
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.879915186554231,
      "learning_rate": 1.292613397160185e-05,
      "loss": 0.7273,
      "step": 2200
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3048132108469297,
      "learning_rate": 1.2920174094584514e-05,
      "loss": 0.9985,
      "step": 2201
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.6469278603734878,
      "learning_rate": 1.2914213083405211e-05,
      "loss": 0.9301,
      "step": 2202
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.9009527054722343,
      "learning_rate": 1.2908250940379124e-05,
      "loss": 0.8222,
      "step": 2203
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.348416116280813,
      "learning_rate": 1.2902287667821885e-05,
      "loss": 0.8932,
      "step": 2204
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.3001601684603181,
      "learning_rate": 1.289632326804956e-05,
      "loss": 0.8155,
      "step": 2205
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1444938746328934,
      "learning_rate": 1.2890357743378649e-05,
      "loss": 0.9227,
      "step": 2206
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.969122469682781,
      "learning_rate": 1.2884391096126098e-05,
      "loss": 0.812,
      "step": 2207
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.0166514280916785,
      "learning_rate": 1.2878423328609281e-05,
      "loss": 0.8348,
      "step": 2208
    },
    {
      "epoch": 0.42,
      "grad_norm": 1.1949765258745089,
      "learning_rate": 1.2872454443146015e-05,
      "loss": 0.8727,
      "step": 2209
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1635415236297402,
      "learning_rate": 1.286648444205454e-05,
      "loss": 0.9074,
      "step": 2210
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.994206028145042,
      "learning_rate": 1.2860513327653537e-05,
      "loss": 0.9616,
      "step": 2211
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.176918153602506,
      "learning_rate": 1.2854541102262119e-05,
      "loss": 0.809,
      "step": 2212
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9515479304481586,
      "learning_rate": 1.284856776819983e-05,
      "loss": 0.6866,
      "step": 2213
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.205802173473436,
      "learning_rate": 1.2842593327786649e-05,
      "loss": 0.898,
      "step": 2214
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2484311391312712,
      "learning_rate": 1.2836617783342968e-05,
      "loss": 0.8706,
      "step": 2215
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.363755360081379,
      "learning_rate": 1.2830641137189628e-05,
      "loss": 0.9589,
      "step": 2216
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0364899837650952,
      "learning_rate": 1.282466339164789e-05,
      "loss": 0.7471,
      "step": 2217
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0995957509665457,
      "learning_rate": 1.2818684549039437e-05,
      "loss": 0.7353,
      "step": 2218
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1642346938835564,
      "learning_rate": 1.2812704611686386e-05,
      "loss": 0.9217,
      "step": 2219
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2294918731434534,
      "learning_rate": 1.2806723581911274e-05,
      "loss": 0.9137,
      "step": 2220
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3253228829642072,
      "learning_rate": 1.2800741462037065e-05,
      "loss": 0.8928,
      "step": 2221
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1980604260850218,
      "learning_rate": 1.2794758254387147e-05,
      "loss": 0.8411,
      "step": 2222
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.9491138597257929,
      "learning_rate": 1.2788773961285323e-05,
      "loss": 0.942,
      "step": 2223
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1042092051011867,
      "learning_rate": 1.2782788585055829e-05,
      "loss": 0.8074,
      "step": 2224
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1844692536980683,
      "learning_rate": 1.2776802128023317e-05,
      "loss": 0.7986,
      "step": 2225
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4073588731313613,
      "learning_rate": 1.2770814592512853e-05,
      "loss": 0.8296,
      "step": 2226
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1474476641029296,
      "learning_rate": 1.2764825980849931e-05,
      "loss": 0.8838,
      "step": 2227
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2634735736731963,
      "learning_rate": 1.2758836295360455e-05,
      "loss": 0.8308,
      "step": 2228
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.089913444508142,
      "learning_rate": 1.2752845538370752e-05,
      "loss": 0.941,
      "step": 2229
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5799935127256026,
      "learning_rate": 1.2746853712207567e-05,
      "loss": 0.7754,
      "step": 2230
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0560742070239209,
      "learning_rate": 1.274086081919805e-05,
      "loss": 0.8102,
      "step": 2231
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1663122406881514,
      "learning_rate": 1.273486686166977e-05,
      "loss": 0.8515,
      "step": 2232
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.097209351365682,
      "learning_rate": 1.2728871841950719e-05,
      "loss": 0.754,
      "step": 2233
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.143579082693019,
      "learning_rate": 1.2722875762369288e-05,
      "loss": 0.8819,
      "step": 2234
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.6150538301525084,
      "learning_rate": 1.2716878625254287e-05,
      "loss": 0.9112,
      "step": 2235
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2015096489958372,
      "learning_rate": 1.2710880432934934e-05,
      "loss": 0.9215,
      "step": 2236
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.219830921235001,
      "learning_rate": 1.270488118774086e-05,
      "loss": 0.9195,
      "step": 2237
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.77283293495844,
      "learning_rate": 1.26988808920021e-05,
      "loss": 0.9218,
      "step": 2238
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4311121681506527,
      "learning_rate": 1.26928795480491e-05,
      "loss": 0.9359,
      "step": 2239
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1316277203006782,
      "learning_rate": 1.2686877158212715e-05,
      "loss": 0.8767,
      "step": 2240
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4463251233032395,
      "learning_rate": 1.26808737248242e-05,
      "loss": 0.8751,
      "step": 2241
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4107395029894063,
      "learning_rate": 1.2674869250215225e-05,
      "loss": 0.9425,
      "step": 2242
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.404124078876511,
      "learning_rate": 1.2668863736717855e-05,
      "loss": 0.9462,
      "step": 2243
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2774762068908092,
      "learning_rate": 1.2662857186664558e-05,
      "loss": 0.9231,
      "step": 2244
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9916022726180017,
      "learning_rate": 1.2656849602388222e-05,
      "loss": 0.8572,
      "step": 2245
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.3977398034325585,
      "learning_rate": 1.2650840986222111e-05,
      "loss": 0.9483,
      "step": 2246
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2204409138394205,
      "learning_rate": 1.2644831340499906e-05,
      "loss": 0.8079,
      "step": 2247
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0161944067785582,
      "learning_rate": 1.2638820667555685e-05,
      "loss": 0.8314,
      "step": 2248
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9644955571949928,
      "learning_rate": 1.2632808969723927e-05,
      "loss": 0.9275,
      "step": 2249
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0549732046451925,
      "learning_rate": 1.26267962493395e-05,
      "loss": 0.7315,
      "step": 2250
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.454773091659715,
      "learning_rate": 1.2620782508737678e-05,
      "loss": 0.9415,
      "step": 2251
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.5356386909313158,
      "learning_rate": 1.2614767750254129e-05,
      "loss": 0.9709,
      "step": 2252
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0932865753346712,
      "learning_rate": 1.2608751976224916e-05,
      "loss": 0.8988,
      "step": 2253
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.9414893263055999,
      "learning_rate": 1.2602735188986498e-05,
      "loss": 0.7759,
      "step": 2254
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2139750909913665,
      "learning_rate": 1.2596717390875721e-05,
      "loss": 0.894,
      "step": 2255
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.242756794835005,
      "learning_rate": 1.2590698584229834e-05,
      "loss": 0.7868,
      "step": 2256
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.1170498268789417,
      "learning_rate": 1.2584678771386467e-05,
      "loss": 0.8632,
      "step": 2257
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.330298852530733,
      "learning_rate": 1.2578657954683651e-05,
      "loss": 0.9301,
      "step": 2258
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.4226792950573115,
      "learning_rate": 1.2572636136459799e-05,
      "loss": 0.8616,
      "step": 2259
    },
    {
      "epoch": 0.43,
      "grad_norm": 2.007306286530603,
      "learning_rate": 1.2566613319053713e-05,
      "loss": 0.9793,
      "step": 2260
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.2868086862705244,
      "learning_rate": 1.2560589504804592e-05,
      "loss": 0.9685,
      "step": 2261
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5585041133899686,
      "learning_rate": 1.2554564696052011e-05,
      "loss": 0.8865,
      "step": 2262
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1475921985950843,
      "learning_rate": 1.2548538895135942e-05,
      "loss": 0.8638,
      "step": 2263
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.305610541514263,
      "learning_rate": 1.254251210439673e-05,
      "loss": 0.7918,
      "step": 2264
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1885893371694938,
      "learning_rate": 1.2536484326175114e-05,
      "loss": 0.8786,
      "step": 2265
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4907223648061008,
      "learning_rate": 1.2530455562812214e-05,
      "loss": 0.9334,
      "step": 2266
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.5088341629052884,
      "learning_rate": 1.252442581664953e-05,
      "loss": 0.9506,
      "step": 2267
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3457009875359467,
      "learning_rate": 1.2518395090028952e-05,
      "loss": 0.995,
      "step": 2268
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1432427893922572,
      "learning_rate": 1.2512363385292739e-05,
      "loss": 0.8226,
      "step": 2269
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.129389582275551,
      "learning_rate": 1.2506330704783533e-05,
      "loss": 0.8496,
      "step": 2270
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1676582582362813,
      "learning_rate": 1.2500297050844367e-05,
      "loss": 0.8283,
      "step": 2271
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8941231506222503,
      "learning_rate": 1.2494262425818637e-05,
      "loss": 0.7653,
      "step": 2272
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.8687497432014973,
      "learning_rate": 1.2488226832050116e-05,
      "loss": 0.6854,
      "step": 2273
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0127945281640112,
      "learning_rate": 1.2482190271882973e-05,
      "loss": 0.7054,
      "step": 2274
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3737714667916552,
      "learning_rate": 1.2476152747661727e-05,
      "loss": 0.8451,
      "step": 2275
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3837581151868186,
      "learning_rate": 1.2470114261731288e-05,
      "loss": 0.8952,
      "step": 2276
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3231565004314598,
      "learning_rate": 1.246407481643693e-05,
      "loss": 0.941,
      "step": 2277
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.4614539763448438,
      "learning_rate": 1.245803441412431e-05,
      "loss": 0.9116,
      "step": 2278
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0975719314309211,
      "learning_rate": 1.2451993057139445e-05,
      "loss": 0.8559,
      "step": 2279
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0930141404613145,
      "learning_rate": 1.2445950747828732e-05,
      "loss": 0.7533,
      "step": 2280
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1979213402015976,
      "learning_rate": 1.2439907488538934e-05,
      "loss": 0.8248,
      "step": 2281
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3465415995826742,
      "learning_rate": 1.243386328161718e-05,
      "loss": 0.81,
      "step": 2282
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9815268105503479,
      "learning_rate": 1.2427818129410975e-05,
      "loss": 0.8774,
      "step": 2283
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.072762122706608,
      "learning_rate": 1.2421772034268187e-05,
      "loss": 0.7535,
      "step": 2284
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2263570303252533,
      "learning_rate": 1.2415724998537042e-05,
      "loss": 0.9019,
      "step": 2285
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1194529268235442,
      "learning_rate": 1.2409677024566145e-05,
      "loss": 0.9008,
      "step": 2286
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1756459390763871,
      "learning_rate": 1.240362811470446e-05,
      "loss": 0.8573,
      "step": 2287
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2577452823051753,
      "learning_rate": 1.2397578271301312e-05,
      "loss": 0.913,
      "step": 2288
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.7943477864412456,
      "learning_rate": 1.2391527496706389e-05,
      "loss": 0.7853,
      "step": 2289
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2315319903904316,
      "learning_rate": 1.2385475793269744e-05,
      "loss": 0.8123,
      "step": 2290
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2970076338393925,
      "learning_rate": 1.2379423163341791e-05,
      "loss": 0.9296,
      "step": 2291
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.371628269415684,
      "learning_rate": 1.2373369609273299e-05,
      "loss": 0.9736,
      "step": 2292
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0434065290233485,
      "learning_rate": 1.2367315133415396e-05,
      "loss": 0.7997,
      "step": 2293
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2283393124220774,
      "learning_rate": 1.2361259738119575e-05,
      "loss": 0.8911,
      "step": 2294
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.8315325166937444,
      "learning_rate": 1.2355203425737683e-05,
      "loss": 0.9211,
      "step": 2295
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.0761834077338288,
      "learning_rate": 1.2349146198621917e-05,
      "loss": 0.8712,
      "step": 2296
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.985318718789115,
      "learning_rate": 1.2343088059124839e-05,
      "loss": 0.7977,
      "step": 2297
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.3140120661453607,
      "learning_rate": 1.2337029009599357e-05,
      "loss": 0.8378,
      "step": 2298
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1138960851291666,
      "learning_rate": 1.2330969052398735e-05,
      "loss": 0.8491,
      "step": 2299
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1370199509453462,
      "learning_rate": 1.2324908189876597e-05,
      "loss": 0.8645,
      "step": 2300
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1043908203805424,
      "learning_rate": 1.2318846424386907e-05,
      "loss": 0.9397,
      "step": 2301
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.090260781378732,
      "learning_rate": 1.2312783758283981e-05,
      "loss": 0.779,
      "step": 2302
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.9957207561082776,
      "learning_rate": 1.23067201939225e-05,
      "loss": 0.8655,
      "step": 2303
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2403063150627354,
      "learning_rate": 1.2300655733657475e-05,
      "loss": 0.7831,
      "step": 2304
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.3370634332351337,
      "learning_rate": 1.2294590379844268e-05,
      "loss": 0.9252,
      "step": 2305
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2762976487384363,
      "learning_rate": 1.2288524134838602e-05,
      "loss": 0.9352,
      "step": 2306
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.499057583621911,
      "learning_rate": 1.2282457000996533e-05,
      "loss": 0.9696,
      "step": 2307
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2583212108826156,
      "learning_rate": 1.2276388980674465e-05,
      "loss": 0.8956,
      "step": 2308
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.2890831974564267,
      "learning_rate": 1.227032007622915e-05,
      "loss": 0.849,
      "step": 2309
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.209510928515987,
      "learning_rate": 1.2264250290017675e-05,
      "loss": 0.9344,
      "step": 2310
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.152068555429155,
      "learning_rate": 1.2258179624397477e-05,
      "loss": 0.7908,
      "step": 2311
    },
    {
      "epoch": 0.44,
      "grad_norm": 1.1590208978847873,
      "learning_rate": 1.2252108081726337e-05,
      "loss": 0.8459,
      "step": 2312
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1740597716119048,
      "learning_rate": 1.224603566436237e-05,
      "loss": 0.898,
      "step": 2313
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4813328403559607,
      "learning_rate": 1.2239962374664029e-05,
      "loss": 0.7982,
      "step": 2314
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8998838641152305,
      "learning_rate": 1.2233888214990113e-05,
      "loss": 0.8625,
      "step": 2315
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2845597549614796,
      "learning_rate": 1.2227813187699757e-05,
      "loss": 0.9127,
      "step": 2316
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1461294634578234,
      "learning_rate": 1.222173729515243e-05,
      "loss": 0.8066,
      "step": 2317
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1376120659656217,
      "learning_rate": 1.2215660539707936e-05,
      "loss": 0.8612,
      "step": 2318
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.973194798520961,
      "learning_rate": 1.2209582923726424e-05,
      "loss": 0.9345,
      "step": 2319
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9977387108363959,
      "learning_rate": 1.2203504449568361e-05,
      "loss": 0.8592,
      "step": 2320
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2172931672026601,
      "learning_rate": 1.2197425119594563e-05,
      "loss": 0.9116,
      "step": 2321
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.029068770232778,
      "learning_rate": 1.219134493616617e-05,
      "loss": 0.882,
      "step": 2322
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2714277780772274,
      "learning_rate": 1.2185263901644653e-05,
      "loss": 0.8054,
      "step": 2323
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1001955988562095,
      "learning_rate": 1.217918201839182e-05,
      "loss": 0.8285,
      "step": 2324
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3170717867608157,
      "learning_rate": 1.2173099288769799e-05,
      "loss": 0.8131,
      "step": 2325
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8448322863927226,
      "learning_rate": 1.2167015715141057e-05,
      "loss": 0.7216,
      "step": 2326
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2913007457430916,
      "learning_rate": 1.216093129986838e-05,
      "loss": 0.7795,
      "step": 2327
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.417860977258409,
      "learning_rate": 1.2154846045314885e-05,
      "loss": 0.8411,
      "step": 2328
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1924250321486098,
      "learning_rate": 1.214875995384402e-05,
      "loss": 0.8911,
      "step": 2329
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3149803372231956,
      "learning_rate": 1.214267302781955e-05,
      "loss": 0.8563,
      "step": 2330
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0922191166769761,
      "learning_rate": 1.2136585269605558e-05,
      "loss": 0.8711,
      "step": 2331
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3115960175278032,
      "learning_rate": 1.2130496681566475e-05,
      "loss": 0.9184,
      "step": 2332
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.388379246224086,
      "learning_rate": 1.212440726606703e-05,
      "loss": 0.8233,
      "step": 2333
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2424818168608236,
      "learning_rate": 1.211831702547228e-05,
      "loss": 0.8137,
      "step": 2334
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0091706075549634,
      "learning_rate": 1.2112225962147605e-05,
      "loss": 0.9138,
      "step": 2335
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.24366446999493,
      "learning_rate": 1.210613407845871e-05,
      "loss": 0.8994,
      "step": 2336
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.086683472064865,
      "learning_rate": 1.2100041376771605e-05,
      "loss": 0.7489,
      "step": 2337
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4077310089826551,
      "learning_rate": 1.209394785945263e-05,
      "loss": 0.9567,
      "step": 2338
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0118357538259106,
      "learning_rate": 1.2087853528868432e-05,
      "loss": 0.6689,
      "step": 2339
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3735155490000583,
      "learning_rate": 1.2081758387385982e-05,
      "loss": 0.834,
      "step": 2340
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.223434469081028,
      "learning_rate": 1.2075662437372567e-05,
      "loss": 0.8125,
      "step": 2341
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2957488227320837,
      "learning_rate": 1.2069565681195776e-05,
      "loss": 0.9218,
      "step": 2342
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1593477361132623,
      "learning_rate": 1.206346812122352e-05,
      "loss": 0.8405,
      "step": 2343
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.656059283958631,
      "learning_rate": 1.2057369759824025e-05,
      "loss": 0.9225,
      "step": 2344
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2653902065631806,
      "learning_rate": 1.2051270599365825e-05,
      "loss": 0.8691,
      "step": 2345
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.299637573456245,
      "learning_rate": 1.2045170642217756e-05,
      "loss": 0.824,
      "step": 2346
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1815007609751682,
      "learning_rate": 1.2039069890748978e-05,
      "loss": 0.909,
      "step": 2347
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1883969088264525,
      "learning_rate": 1.2032968347328952e-05,
      "loss": 0.8053,
      "step": 2348
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.250127890869155,
      "learning_rate": 1.2026866014327446e-05,
      "loss": 0.9496,
      "step": 2349
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0834566184782632,
      "learning_rate": 1.2020762894114535e-05,
      "loss": 0.7327,
      "step": 2350
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2595351555428564,
      "learning_rate": 1.20146589890606e-05,
      "loss": 0.8483,
      "step": 2351
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.652233835942925,
      "learning_rate": 1.2008554301536328e-05,
      "loss": 0.9356,
      "step": 2352
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2763335417623036,
      "learning_rate": 1.2002448833912712e-05,
      "loss": 0.8082,
      "step": 2353
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.119796521408255,
      "learning_rate": 1.1996342588561042e-05,
      "loss": 0.9094,
      "step": 2354
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3931903697045864,
      "learning_rate": 1.1990235567852917e-05,
      "loss": 0.8941,
      "step": 2355
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.425672642934709,
      "learning_rate": 1.1984127774160226e-05,
      "loss": 0.9417,
      "step": 2356
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.3413338924392613,
      "learning_rate": 1.1978019209855174e-05,
      "loss": 0.7949,
      "step": 2357
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.550661444540351,
      "learning_rate": 1.1971909877310253e-05,
      "loss": 0.8105,
      "step": 2358
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.4952983515965967,
      "learning_rate": 1.1965799778898258e-05,
      "loss": 0.8242,
      "step": 2359
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2564848588821467,
      "learning_rate": 1.1959688916992279e-05,
      "loss": 0.8609,
      "step": 2360
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8835255735902969,
      "learning_rate": 1.1953577293965707e-05,
      "loss": 0.6894,
      "step": 2361
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.219668510680384,
      "learning_rate": 1.1947464912192228e-05,
      "loss": 0.8683,
      "step": 2362
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.1686975372685067,
      "learning_rate": 1.1941351774045815e-05,
      "loss": 0.8086,
      "step": 2363
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.0326571589337268,
      "learning_rate": 1.1935237881900743e-05,
      "loss": 0.8258,
      "step": 2364
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1717256562120626,
      "learning_rate": 1.1929123238131579e-05,
      "loss": 0.8274,
      "step": 2365
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1241983321958864,
      "learning_rate": 1.1923007845113178e-05,
      "loss": 0.9469,
      "step": 2366
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2675294760227758,
      "learning_rate": 1.1916891705220689e-05,
      "loss": 0.8811,
      "step": 2367
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2229913619451158,
      "learning_rate": 1.191077482082955e-05,
      "loss": 0.8348,
      "step": 2368
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4199931929949958,
      "learning_rate": 1.1904657194315486e-05,
      "loss": 0.8995,
      "step": 2369
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4809439916693825,
      "learning_rate": 1.1898538828054517e-05,
      "loss": 0.8785,
      "step": 2370
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2065405658434007,
      "learning_rate": 1.1892419724422946e-05,
      "loss": 0.8467,
      "step": 2371
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8335092003121485,
      "learning_rate": 1.1886299885797357e-05,
      "loss": 0.9443,
      "step": 2372
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.368644685754436,
      "learning_rate": 1.1880179314554629e-05,
      "loss": 0.858,
      "step": 2373
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1960099005492082,
      "learning_rate": 1.1874058013071923e-05,
      "loss": 0.88,
      "step": 2374
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5834775036083184,
      "learning_rate": 1.1867935983726676e-05,
      "loss": 0.9475,
      "step": 2375
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0386901534295259,
      "learning_rate": 1.186181322889662e-05,
      "loss": 0.6943,
      "step": 2376
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.6653398449074184,
      "learning_rate": 1.1855689750959759e-05,
      "loss": 0.989,
      "step": 2377
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1692244874361533,
      "learning_rate": 1.1849565552294379e-05,
      "loss": 0.8579,
      "step": 2378
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2205064243147596,
      "learning_rate": 1.1843440635279056e-05,
      "loss": 0.7456,
      "step": 2379
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1163972753730649,
      "learning_rate": 1.1837315002292629e-05,
      "loss": 0.8291,
      "step": 2380
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1738238987156322,
      "learning_rate": 1.1831188655714225e-05,
      "loss": 0.8725,
      "step": 2381
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.378236488762648,
      "learning_rate": 1.182506159792325e-05,
      "loss": 0.6669,
      "step": 2382
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1368622197722051,
      "learning_rate": 1.1818933831299381e-05,
      "loss": 0.849,
      "step": 2383
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0178376075647946,
      "learning_rate": 1.1812805358222571e-05,
      "loss": 0.8842,
      "step": 2384
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2902991781987134,
      "learning_rate": 1.180667618107305e-05,
      "loss": 0.8669,
      "step": 2385
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3946999182731608,
      "learning_rate": 1.1800546302231317e-05,
      "loss": 0.8788,
      "step": 2386
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2592029054020943,
      "learning_rate": 1.1794415724078147e-05,
      "loss": 0.6678,
      "step": 2387
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.093677421273453,
      "learning_rate": 1.1788284448994588e-05,
      "loss": 0.8879,
      "step": 2388
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2366052576090532,
      "learning_rate": 1.1782152479361956e-05,
      "loss": 0.9668,
      "step": 2389
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.7317570611697708,
      "learning_rate": 1.1776019817561834e-05,
      "loss": 0.9356,
      "step": 2390
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2950266014301948,
      "learning_rate": 1.1769886465976086e-05,
      "loss": 0.8985,
      "step": 2391
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2716221251339928,
      "learning_rate": 1.1763752426986823e-05,
      "loss": 0.7679,
      "step": 2392
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.092335017528082,
      "learning_rate": 1.1757617702976443e-05,
      "loss": 0.9228,
      "step": 2393
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.0686743141742292,
      "learning_rate": 1.17514822963276e-05,
      "loss": 0.872,
      "step": 2394
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4109376191564786,
      "learning_rate": 1.1745346209423216e-05,
      "loss": 0.8954,
      "step": 2395
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.6368944937507277,
      "learning_rate": 1.1739209444646479e-05,
      "loss": 0.9288,
      "step": 2396
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2901290462220418,
      "learning_rate": 1.1733072004380827e-05,
      "loss": 0.9032,
      "step": 2397
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4452881533917645,
      "learning_rate": 1.1726933891009985e-05,
      "loss": 0.894,
      "step": 2398
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4268717495114303,
      "learning_rate": 1.1720795106917917e-05,
      "loss": 0.8447,
      "step": 2399
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1609123211526595,
      "learning_rate": 1.171465565448886e-05,
      "loss": 0.7775,
      "step": 2400
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.4970958823243141,
      "learning_rate": 1.1708515536107299e-05,
      "loss": 0.9232,
      "step": 2401
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1924986597516343,
      "learning_rate": 1.1702374754157998e-05,
      "loss": 0.9411,
      "step": 2402
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3811915077796229,
      "learning_rate": 1.1696233311025957e-05,
      "loss": 0.9032,
      "step": 2403
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.054182938577693,
      "learning_rate": 1.1690091209096441e-05,
      "loss": 0.7589,
      "step": 2404
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.582704370256522,
      "learning_rate": 1.1683948450754976e-05,
      "loss": 0.8588,
      "step": 2405
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.2114428227251155,
      "learning_rate": 1.1677805038387337e-05,
      "loss": 0.7989,
      "step": 2406
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.6384395882580283,
      "learning_rate": 1.1671660974379554e-05,
      "loss": 0.8308,
      "step": 2407
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.066767010389486,
      "learning_rate": 1.1665516261117914e-05,
      "loss": 0.8168,
      "step": 2408
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.120952137657625,
      "learning_rate": 1.1659370900988946e-05,
      "loss": 0.8444,
      "step": 2409
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.9783928526687246,
      "learning_rate": 1.165322489637944e-05,
      "loss": 0.7715,
      "step": 2410
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3963878618248085,
      "learning_rate": 1.164707824967644e-05,
      "loss": 0.8526,
      "step": 2411
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.974228804711565,
      "learning_rate": 1.1640930963267226e-05,
      "loss": 0.7004,
      "step": 2412
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5322644579731286,
      "learning_rate": 1.1634783039539328e-05,
      "loss": 0.9614,
      "step": 2413
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.3523619081318303,
      "learning_rate": 1.162863448088054e-05,
      "loss": 0.7876,
      "step": 2414
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.1677321486216743,
      "learning_rate": 1.1622485289678886e-05,
      "loss": 0.8345,
      "step": 2415
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.5731498174941445,
      "learning_rate": 1.1616335468322641e-05,
      "loss": 0.9305,
      "step": 2416
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0705760780057518,
      "learning_rate": 1.1610185019200324e-05,
      "loss": 0.7834,
      "step": 2417
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0168782487723507,
      "learning_rate": 1.1604033944700701e-05,
      "loss": 0.7475,
      "step": 2418
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1152174511191564,
      "learning_rate": 1.1597882247212776e-05,
      "loss": 0.9106,
      "step": 2419
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0881459310676431,
      "learning_rate": 1.15917299291258e-05,
      "loss": 0.8682,
      "step": 2420
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9673007054453572,
      "learning_rate": 1.1585576992829261e-05,
      "loss": 0.7983,
      "step": 2421
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4132634580629921,
      "learning_rate": 1.1579423440712887e-05,
      "loss": 0.8476,
      "step": 2422
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.309663152355178,
      "learning_rate": 1.1573269275166652e-05,
      "loss": 0.8083,
      "step": 2423
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3996626883647336,
      "learning_rate": 1.1567114498580758e-05,
      "loss": 0.8272,
      "step": 2424
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.400284484973526,
      "learning_rate": 1.1560959113345649e-05,
      "loss": 0.9033,
      "step": 2425
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.079259123885783,
      "learning_rate": 1.1554803121852005e-05,
      "loss": 0.8482,
      "step": 2426
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3515481248680972,
      "learning_rate": 1.1548646526490749e-05,
      "loss": 0.8679,
      "step": 2427
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9852125081070798,
      "learning_rate": 1.1542489329653024e-05,
      "loss": 0.7659,
      "step": 2428
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2055617348204621,
      "learning_rate": 1.153633153373022e-05,
      "loss": 0.8448,
      "step": 2429
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.398400507669428,
      "learning_rate": 1.1530173141113947e-05,
      "loss": 0.8622,
      "step": 2430
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.259121578651439,
      "learning_rate": 1.1524014154196063e-05,
      "loss": 0.8966,
      "step": 2431
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.610189799442109,
      "learning_rate": 1.1517854575368644e-05,
      "loss": 0.8809,
      "step": 2432
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.185601059588226,
      "learning_rate": 1.1511694407023994e-05,
      "loss": 0.8002,
      "step": 2433
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.330014157962688,
      "learning_rate": 1.1505533651554654e-05,
      "loss": 0.8855,
      "step": 2434
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.6332785304083461,
      "learning_rate": 1.1499372311353398e-05,
      "loss": 1.0059,
      "step": 2435
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7905905727751812,
      "learning_rate": 1.149321038881321e-05,
      "loss": 0.8176,
      "step": 2436
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1117353405589112,
      "learning_rate": 1.1487047886327314e-05,
      "loss": 0.7516,
      "step": 2437
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0619602631567056,
      "learning_rate": 1.1480884806289151e-05,
      "loss": 0.9272,
      "step": 2438
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.23701677796421,
      "learning_rate": 1.1474721151092397e-05,
      "loss": 0.8395,
      "step": 2439
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1196274975727467,
      "learning_rate": 1.1468556923130943e-05,
      "loss": 0.904,
      "step": 2440
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7497086322319557,
      "learning_rate": 1.14623921247989e-05,
      "loss": 0.8161,
      "step": 2441
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5603264516019615,
      "learning_rate": 1.1456226758490603e-05,
      "loss": 0.9612,
      "step": 2442
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3340028521373783,
      "learning_rate": 1.1450060826600618e-05,
      "loss": 0.9758,
      "step": 2443
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2775057859771486,
      "learning_rate": 1.1443894331523718e-05,
      "loss": 0.8953,
      "step": 2444
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.7133926476389296,
      "learning_rate": 1.1437727275654893e-05,
      "loss": 0.909,
      "step": 2445
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.088135766479737,
      "learning_rate": 1.1431559661389362e-05,
      "loss": 0.7625,
      "step": 2446
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.008823866857716,
      "learning_rate": 1.1425391491122557e-05,
      "loss": 0.8494,
      "step": 2447
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3114932799546843,
      "learning_rate": 1.141922276725012e-05,
      "loss": 0.84,
      "step": 2448
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.267212377808485,
      "learning_rate": 1.1413053492167915e-05,
      "loss": 0.7301,
      "step": 2449
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.240561263866833,
      "learning_rate": 1.1406883668272015e-05,
      "loss": 0.8544,
      "step": 2450
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2149991849451485,
      "learning_rate": 1.140071329795871e-05,
      "loss": 0.838,
      "step": 2451
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0465121387644778,
      "learning_rate": 1.13945423836245e-05,
      "loss": 0.9174,
      "step": 2452
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0728240873519133,
      "learning_rate": 1.1388370927666102e-05,
      "loss": 0.9065,
      "step": 2453
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1852539995351696,
      "learning_rate": 1.1382198932480429e-05,
      "loss": 0.8235,
      "step": 2454
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.468695341523703,
      "learning_rate": 1.1376026400464616e-05,
      "loss": 0.9147,
      "step": 2455
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2339467531067991,
      "learning_rate": 1.136985333401601e-05,
      "loss": 0.9255,
      "step": 2456
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2221806110607587,
      "learning_rate": 1.1363679735532151e-05,
      "loss": 0.9133,
      "step": 2457
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.213137795729911,
      "learning_rate": 1.1357505607410797e-05,
      "loss": 0.8256,
      "step": 2458
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.9094830582039323,
      "learning_rate": 1.1351330952049908e-05,
      "loss": 0.8096,
      "step": 2459
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.0987484542595896,
      "learning_rate": 1.1345155771847646e-05,
      "loss": 0.7627,
      "step": 2460
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1704195597712093,
      "learning_rate": 1.1338980069202388e-05,
      "loss": 0.7657,
      "step": 2461
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5334724129040727,
      "learning_rate": 1.1332803846512697e-05,
      "loss": 0.8764,
      "step": 2462
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.5687628891427734,
      "learning_rate": 1.1326627106177348e-05,
      "loss": 0.9119,
      "step": 2463
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2996078004618246,
      "learning_rate": 1.132044985059532e-05,
      "loss": 0.9537,
      "step": 2464
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.1560801078371974,
      "learning_rate": 1.1314272082165785e-05,
      "loss": 0.9423,
      "step": 2465
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.2291541888592357,
      "learning_rate": 1.1308093803288119e-05,
      "loss": 0.8249,
      "step": 2466
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4328273100331956,
      "learning_rate": 1.130191501636189e-05,
      "loss": 0.7851,
      "step": 2467
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.536729157887225,
      "learning_rate": 1.1295735723786872e-05,
      "loss": 0.8424,
      "step": 2468
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.132179808486208,
      "learning_rate": 1.1289555927963032e-05,
      "loss": 0.8354,
      "step": 2469
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2596540874813833,
      "learning_rate": 1.1283375631290528e-05,
      "loss": 0.9352,
      "step": 2470
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4570229871428653,
      "learning_rate": 1.1277194836169714e-05,
      "loss": 0.8192,
      "step": 2471
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1727072887476853,
      "learning_rate": 1.1271013545001144e-05,
      "loss": 0.9389,
      "step": 2472
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1957160334387251,
      "learning_rate": 1.1264831760185562e-05,
      "loss": 0.8394,
      "step": 2473
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.068007205055072,
      "learning_rate": 1.1258649484123895e-05,
      "loss": 0.8088,
      "step": 2474
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.448462494590265,
      "learning_rate": 1.1252466719217274e-05,
      "loss": 0.8741,
      "step": 2475
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1941020462463556,
      "learning_rate": 1.1246283467867012e-05,
      "loss": 0.8572,
      "step": 2476
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6078034130058372,
      "learning_rate": 1.1240099732474613e-05,
      "loss": 0.9512,
      "step": 2477
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0653301084523636,
      "learning_rate": 1.1233915515441765e-05,
      "loss": 0.8255,
      "step": 2478
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5967460885370957,
      "learning_rate": 1.1227730819170349e-05,
      "loss": 0.8539,
      "step": 2479
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0997309088242533,
      "learning_rate": 1.1221545646062431e-05,
      "loss": 0.852,
      "step": 2480
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3857420678706585,
      "learning_rate": 1.121535999852026e-05,
      "loss": 0.9274,
      "step": 2481
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2268453045346333,
      "learning_rate": 1.1209173878946271e-05,
      "loss": 0.8299,
      "step": 2482
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.504669265275115,
      "learning_rate": 1.1202987289743078e-05,
      "loss": 0.849,
      "step": 2483
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4018478609261977,
      "learning_rate": 1.1196800233313488e-05,
      "loss": 0.7679,
      "step": 2484
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6608407460702208,
      "learning_rate": 1.1190612712060475e-05,
      "loss": 0.9865,
      "step": 2485
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6910326921813814,
      "learning_rate": 1.1184424728387204e-05,
      "loss": 0.9238,
      "step": 2486
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4717114276791918,
      "learning_rate": 1.1178236284697017e-05,
      "loss": 0.8798,
      "step": 2487
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.5934362093825238,
      "learning_rate": 1.1172047383393434e-05,
      "loss": 0.9382,
      "step": 2488
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0557407537440642,
      "learning_rate": 1.1165858026880151e-05,
      "loss": 0.7965,
      "step": 2489
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.005473259778272,
      "learning_rate": 1.1159668217561048e-05,
      "loss": 0.8701,
      "step": 2490
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1241480166286808,
      "learning_rate": 1.115347795784017e-05,
      "loss": 0.7797,
      "step": 2491
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4331586447732954,
      "learning_rate": 1.1147287250121745e-05,
      "loss": 0.8525,
      "step": 2492
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.8057010639248093,
      "learning_rate": 1.1141096096810174e-05,
      "loss": 0.6866,
      "step": 2493
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0453134411382075,
      "learning_rate": 1.1134904500310029e-05,
      "loss": 0.8036,
      "step": 2494
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1879596714599587,
      "learning_rate": 1.1128712463026048e-05,
      "loss": 0.9003,
      "step": 2495
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1366748533015336,
      "learning_rate": 1.1122519987363156e-05,
      "loss": 0.9397,
      "step": 2496
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0076105891390816,
      "learning_rate": 1.1116327075726436e-05,
      "loss": 0.8433,
      "step": 2497
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9506335186517848,
      "learning_rate": 1.1110133730521142e-05,
      "loss": 0.6198,
      "step": 2498
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.265620615739646,
      "learning_rate": 1.11039399541527e-05,
      "loss": 0.8479,
      "step": 2499
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2364488933660698,
      "learning_rate": 1.10977457490267e-05,
      "loss": 0.8302,
      "step": 2500
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.1386073547735276,
      "learning_rate": 1.10915511175489e-05,
      "loss": 0.8749,
      "step": 2501
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.328047261697796,
      "learning_rate": 1.1085356062125225e-05,
      "loss": 0.9084,
      "step": 2502
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.071974691847955,
      "learning_rate": 1.1079160585161759e-05,
      "loss": 0.8175,
      "step": 2503
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2494703757813095,
      "learning_rate": 1.107296468906476e-05,
      "loss": 0.7139,
      "step": 2504
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.269799567991567,
      "learning_rate": 1.106676837624064e-05,
      "loss": 0.9056,
      "step": 2505
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.4178724046032818,
      "learning_rate": 1.1060571649095972e-05,
      "loss": 0.8922,
      "step": 2506
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.383268369408746,
      "learning_rate": 1.10543745100375e-05,
      "loss": 0.8506,
      "step": 2507
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0668565776106085,
      "learning_rate": 1.1048176961472114e-05,
      "loss": 0.9148,
      "step": 2508
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.7793759345193532,
      "learning_rate": 1.1041979005806876e-05,
      "loss": 0.9734,
      "step": 2509
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.3177081954730443,
      "learning_rate": 1.1035780645449001e-05,
      "loss": 0.9097,
      "step": 2510
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.9780929893825375,
      "learning_rate": 1.1029581882805857e-05,
      "loss": 0.8815,
      "step": 2511
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.317442883422018,
      "learning_rate": 1.1023382720284973e-05,
      "loss": 0.7915,
      "step": 2512
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.446683467029853,
      "learning_rate": 1.1017183160294033e-05,
      "loss": 0.8748,
      "step": 2513
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2632301883781718,
      "learning_rate": 1.1010983205240878e-05,
      "loss": 0.8883,
      "step": 2514
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2469616590945998,
      "learning_rate": 1.1004782857533488e-05,
      "loss": 0.8711,
      "step": 2515
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2053786189841014,
      "learning_rate": 1.099858211958002e-05,
      "loss": 0.8962,
      "step": 2516
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.485834455778073,
      "learning_rate": 1.0992380993788763e-05,
      "loss": 0.8858,
      "step": 2517
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0802186970177583,
      "learning_rate": 1.0986179482568162e-05,
      "loss": 0.8332,
      "step": 2518
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0450526427504259,
      "learning_rate": 1.0979977588326815e-05,
      "loss": 0.8635,
      "step": 2519
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.6307430597045696,
      "learning_rate": 1.0973775313473465e-05,
      "loss": 0.9766,
      "step": 2520
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2580357784330738,
      "learning_rate": 1.0967572660417001e-05,
      "loss": 0.8601,
      "step": 2521
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3847494992015335,
      "learning_rate": 1.0961369631566468e-05,
      "loss": 0.8654,
      "step": 2522
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2757969253996737,
      "learning_rate": 1.0955166229331048e-05,
      "loss": 0.8418,
      "step": 2523
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4017149942211895,
      "learning_rate": 1.0948962456120068e-05,
      "loss": 0.876,
      "step": 2524
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4492932002333696,
      "learning_rate": 1.0942758314343007e-05,
      "loss": 0.8637,
      "step": 2525
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1356891396648034,
      "learning_rate": 1.0936553806409482e-05,
      "loss": 0.8085,
      "step": 2526
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4400424446444968,
      "learning_rate": 1.0930348934729249e-05,
      "loss": 0.7407,
      "step": 2527
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1662235280332998,
      "learning_rate": 1.0924143701712211e-05,
      "loss": 0.919,
      "step": 2528
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2113441803436198,
      "learning_rate": 1.0917938109768404e-05,
      "loss": 0.9057,
      "step": 2529
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2219434566998202,
      "learning_rate": 1.0911732161308014e-05,
      "loss": 0.804,
      "step": 2530
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4152074447762932,
      "learning_rate": 1.0905525858741364e-05,
      "loss": 0.8247,
      "step": 2531
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3250884926303612,
      "learning_rate": 1.08993192044789e-05,
      "loss": 0.9059,
      "step": 2532
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.260896944347497,
      "learning_rate": 1.089311220093122e-05,
      "loss": 0.7907,
      "step": 2533
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0816713265573243,
      "learning_rate": 1.0886904850509052e-05,
      "loss": 0.8265,
      "step": 2534
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5054413163210034,
      "learning_rate": 1.0880697155623264e-05,
      "loss": 0.9179,
      "step": 2535
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0829922999173116,
      "learning_rate": 1.0874489118684846e-05,
      "loss": 0.7959,
      "step": 2536
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3560146883422681,
      "learning_rate": 1.086828074210493e-05,
      "loss": 0.8841,
      "step": 2537
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.291580309347612,
      "learning_rate": 1.0862072028294777e-05,
      "loss": 0.8996,
      "step": 2538
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0647482633459258,
      "learning_rate": 1.0855862979665788e-05,
      "loss": 0.8664,
      "step": 2539
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.221482082168994,
      "learning_rate": 1.0849653598629477e-05,
      "loss": 0.904,
      "step": 2540
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.7373103454759313,
      "learning_rate": 1.0843443887597495e-05,
      "loss": 0.9355,
      "step": 2541
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1696782533122556,
      "learning_rate": 1.0837233848981632e-05,
      "loss": 0.876,
      "step": 2542
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3217405726993954,
      "learning_rate": 1.0831023485193787e-05,
      "loss": 0.9343,
      "step": 2543
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.128854517345354,
      "learning_rate": 1.0824812798645997e-05,
      "loss": 0.7493,
      "step": 2544
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9938314794236099,
      "learning_rate": 1.0818601791750418e-05,
      "loss": 0.8156,
      "step": 2545
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.779980819056669,
      "learning_rate": 1.0812390466919337e-05,
      "loss": 0.9401,
      "step": 2546
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.800493638111928,
      "learning_rate": 1.0806178826565162e-05,
      "loss": 0.9717,
      "step": 2547
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2088488753608189,
      "learning_rate": 1.0799966873100419e-05,
      "loss": 0.8236,
      "step": 2548
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1090736128778202,
      "learning_rate": 1.0793754608937758e-05,
      "loss": 0.6755,
      "step": 2549
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2067609591605577,
      "learning_rate": 1.0787542036489955e-05,
      "loss": 0.9206,
      "step": 2550
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1782669066187306,
      "learning_rate": 1.0781329158169902e-05,
      "loss": 0.8311,
      "step": 2551
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3501684591066676,
      "learning_rate": 1.0775115976390607e-05,
      "loss": 0.8945,
      "step": 2552
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0750602179083024,
      "learning_rate": 1.0768902493565197e-05,
      "loss": 0.7986,
      "step": 2553
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2398669821329915,
      "learning_rate": 1.0762688712106918e-05,
      "loss": 0.8466,
      "step": 2554
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.6476987945074053,
      "learning_rate": 1.0756474634429133e-05,
      "loss": 0.8313,
      "step": 2555
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2588996518640871,
      "learning_rate": 1.0750260262945314e-05,
      "loss": 0.9572,
      "step": 2556
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2478201272879685,
      "learning_rate": 1.0744045600069055e-05,
      "loss": 0.8644,
      "step": 2557
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.9469438174597734,
      "learning_rate": 1.0737830648214063e-05,
      "loss": 0.8226,
      "step": 2558
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.326763909466427,
      "learning_rate": 1.0731615409794144e-05,
      "loss": 0.8882,
      "step": 2559
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.1433954720538335,
      "learning_rate": 1.0725399887223234e-05,
      "loss": 0.7347,
      "step": 2560
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2366689567006373,
      "learning_rate": 1.0719184082915364e-05,
      "loss": 0.8655,
      "step": 2561
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0036872055889474,
      "learning_rate": 1.0712967999284682e-05,
      "loss": 0.8584,
      "step": 2562
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.018788163965514,
      "learning_rate": 1.0706751638745448e-05,
      "loss": 0.7882,
      "step": 2563
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.0010031361657896,
      "learning_rate": 1.0700535003712023e-05,
      "loss": 0.7778,
      "step": 2564
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.5097894820910587,
      "learning_rate": 1.069431809659887e-05,
      "loss": 0.9251,
      "step": 2565
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4277901123272119,
      "learning_rate": 1.068810091982057e-05,
      "loss": 0.8784,
      "step": 2566
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3401018865781893,
      "learning_rate": 1.0681883475791803e-05,
      "loss": 0.9392,
      "step": 2567
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3372848911109916,
      "learning_rate": 1.067566576692735e-05,
      "loss": 0.9247,
      "step": 2568
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2197462107814443,
      "learning_rate": 1.0669447795642103e-05,
      "loss": 0.8501,
      "step": 2569
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2287223371750957,
      "learning_rate": 1.066322956435104e-05,
      "loss": 0.9041,
      "step": 2570
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.4891243659093931,
      "learning_rate": 1.065701107546926e-05,
      "loss": 0.8714,
      "step": 2571
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2487826696892885,
      "learning_rate": 1.065079233141195e-05,
      "loss": 0.7636,
      "step": 2572
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3106667780709464,
      "learning_rate": 1.0644573334594395e-05,
      "loss": 0.9001,
      "step": 2573
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1779264314037539,
      "learning_rate": 1.0638354087431986e-05,
      "loss": 0.7666,
      "step": 2574
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9291319468196882,
      "learning_rate": 1.0632134592340204e-05,
      "loss": 0.8019,
      "step": 2575
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2525233392518225,
      "learning_rate": 1.0625914851734632e-05,
      "loss": 0.8634,
      "step": 2576
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1991140493855055,
      "learning_rate": 1.0619694868030943e-05,
      "loss": 0.9031,
      "step": 2577
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4001362355396751,
      "learning_rate": 1.0613474643644907e-05,
      "loss": 0.9174,
      "step": 2578
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.087990801135224,
      "learning_rate": 1.0607254180992391e-05,
      "loss": 0.8497,
      "step": 2579
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.7818255367851508,
      "learning_rate": 1.0601033482489346e-05,
      "loss": 1.0094,
      "step": 2580
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3976333116655553,
      "learning_rate": 1.0594812550551826e-05,
      "loss": 0.9243,
      "step": 2581
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.212965336401334,
      "learning_rate": 1.058859138759596e-05,
      "loss": 0.9428,
      "step": 2582
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9903014461762462,
      "learning_rate": 1.0582369996037985e-05,
      "loss": 0.8094,
      "step": 2583
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0423848320468083,
      "learning_rate": 1.0576148378294213e-05,
      "loss": 0.8021,
      "step": 2584
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.8760826060017421,
      "learning_rate": 1.056992653678105e-05,
      "loss": 0.7594,
      "step": 2585
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3972325631571405,
      "learning_rate": 1.0563704473914986e-05,
      "loss": 0.9236,
      "step": 2586
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1756890088870875,
      "learning_rate": 1.0557482192112603e-05,
      "loss": 0.7402,
      "step": 2587
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3597124026303513,
      "learning_rate": 1.0551259693790556e-05,
      "loss": 0.9483,
      "step": 2588
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0684533465794077,
      "learning_rate": 1.0545036981365601e-05,
      "loss": 0.7487,
      "step": 2589
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.6925166066723554,
      "learning_rate": 1.053881405725456e-05,
      "loss": 0.9352,
      "step": 2590
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.138604954500102,
      "learning_rate": 1.0532590923874349e-05,
      "loss": 0.9191,
      "step": 2591
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.174105663383778,
      "learning_rate": 1.0526367583641958e-05,
      "loss": 0.8665,
      "step": 2592
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.310426205126614,
      "learning_rate": 1.0520144038974468e-05,
      "loss": 0.8761,
      "step": 2593
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.416196733928809,
      "learning_rate": 1.0513920292289021e-05,
      "loss": 0.8843,
      "step": 2594
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1710152442501278,
      "learning_rate": 1.0507696346002857e-05,
      "loss": 0.8165,
      "step": 2595
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.429324118888074,
      "learning_rate": 1.0501472202533285e-05,
      "loss": 0.9868,
      "step": 2596
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0814666749123332,
      "learning_rate": 1.0495247864297684e-05,
      "loss": 0.9131,
      "step": 2597
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.212202023331637,
      "learning_rate": 1.0489023333713522e-05,
      "loss": 0.8668,
      "step": 2598
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1777715770023787,
      "learning_rate": 1.0482798613198328e-05,
      "loss": 0.9486,
      "step": 2599
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1999747614516114,
      "learning_rate": 1.047657370516972e-05,
      "loss": 0.8295,
      "step": 2600
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0604586481134806,
      "learning_rate": 1.0470348612045376e-05,
      "loss": 0.7365,
      "step": 2601
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4114052618408208,
      "learning_rate": 1.0464123336243049e-05,
      "loss": 0.8555,
      "step": 2602
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0635442261236174,
      "learning_rate": 1.0457897880180566e-05,
      "loss": 0.8229,
      "step": 2603
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4234463359064413,
      "learning_rate": 1.0451672246275826e-05,
      "loss": 0.9405,
      "step": 2604
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2180654428802893,
      "learning_rate": 1.0445446436946788e-05,
      "loss": 0.9339,
      "step": 2605
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.5075105184972737,
      "learning_rate": 1.0439220454611486e-05,
      "loss": 0.8958,
      "step": 2606
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0960905088110304,
      "learning_rate": 1.0432994301688021e-05,
      "loss": 0.671,
      "step": 2607
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9636691265816959,
      "learning_rate": 1.0426767980594559e-05,
      "loss": 0.7762,
      "step": 2608
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0323482539138018,
      "learning_rate": 1.0420541493749332e-05,
      "loss": 0.8679,
      "step": 2609
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2967968509291887,
      "learning_rate": 1.0414314843570634e-05,
      "loss": 0.886,
      "step": 2610
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.0348433318505184,
      "learning_rate": 1.0408088032476822e-05,
      "loss": 0.8444,
      "step": 2611
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1352828262091037,
      "learning_rate": 1.0401861062886324e-05,
      "loss": 0.8067,
      "step": 2612
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4102540675709256,
      "learning_rate": 1.0395633937217622e-05,
      "loss": 0.9134,
      "step": 2613
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1893366653292816,
      "learning_rate": 1.0389406657889254e-05,
      "loss": 0.92,
      "step": 2614
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.303237668762409,
      "learning_rate": 1.0383179227319826e-05,
      "loss": 0.8785,
      "step": 2615
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9878917169546033,
      "learning_rate": 1.0376951647928007e-05,
      "loss": 0.795,
      "step": 2616
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.4102525595616349,
      "learning_rate": 1.0370723922132506e-05,
      "loss": 0.9145,
      "step": 2617
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1136734166121274,
      "learning_rate": 1.036449605235211e-05,
      "loss": 0.832,
      "step": 2618
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1551040068085285,
      "learning_rate": 1.0358268041005644e-05,
      "loss": 0.8151,
      "step": 2619
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3600712916721702,
      "learning_rate": 1.0352039890511997e-05,
      "loss": 0.8943,
      "step": 2620
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.308160901007585,
      "learning_rate": 1.034581160329012e-05,
      "loss": 0.8998,
      "step": 2621
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.2261347651296697,
      "learning_rate": 1.0339583181758997e-05,
      "loss": 0.8768,
      "step": 2622
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.264494006842726,
      "learning_rate": 1.033335462833768e-05,
      "loss": 0.7269,
      "step": 2623
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.3687031859291585,
      "learning_rate": 1.0327125945445265e-05,
      "loss": 0.8351,
      "step": 2624
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.038535066363416,
      "learning_rate": 1.0320897135500904e-05,
      "loss": 0.8009,
      "step": 2625
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1526593648949361,
      "learning_rate": 1.0314668200923791e-05,
      "loss": 0.8359,
      "step": 2626
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2870524691243543,
      "learning_rate": 1.0308439144133177e-05,
      "loss": 0.9079,
      "step": 2627
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1757597576756087,
      "learning_rate": 1.0302209967548354e-05,
      "loss": 0.822,
      "step": 2628
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0296827200220038,
      "learning_rate": 1.029598067358866e-05,
      "loss": 0.8076,
      "step": 2629
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9680687872773582,
      "learning_rate": 1.0289751264673485e-05,
      "loss": 0.7637,
      "step": 2630
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.153568788550571,
      "learning_rate": 1.0283521743222256e-05,
      "loss": 0.7079,
      "step": 2631
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3102240596569552,
      "learning_rate": 1.0277292111654447e-05,
      "loss": 0.8518,
      "step": 2632
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1586752539568652,
      "learning_rate": 1.0271062372389582e-05,
      "loss": 0.7659,
      "step": 2633
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.135043783123239,
      "learning_rate": 1.0264832527847212e-05,
      "loss": 0.7634,
      "step": 2634
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2140030079058606,
      "learning_rate": 1.0258602580446941e-05,
      "loss": 0.8693,
      "step": 2635
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4134857018251594,
      "learning_rate": 1.0252372532608405e-05,
      "loss": 0.8415,
      "step": 2636
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.9253974042600135,
      "learning_rate": 1.024614238675129e-05,
      "loss": 0.8444,
      "step": 2637
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1065218784088857,
      "learning_rate": 1.0239912145295303e-05,
      "loss": 0.8678,
      "step": 2638
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1888269238698743,
      "learning_rate": 1.0233681810660207e-05,
      "loss": 0.8715,
      "step": 2639
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0864053096342658,
      "learning_rate": 1.0227451385265788e-05,
      "loss": 0.8966,
      "step": 2640
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.27016612830763,
      "learning_rate": 1.022122087153187e-05,
      "loss": 0.9049,
      "step": 2641
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0824620303022896,
      "learning_rate": 1.0214990271878319e-05,
      "loss": 0.866,
      "step": 2642
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4911268047514232,
      "learning_rate": 1.0208759588725016e-05,
      "loss": 0.8537,
      "step": 2643
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.470107313434398,
      "learning_rate": 1.0202528824491899e-05,
      "loss": 0.9372,
      "step": 2644
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2712831030251908,
      "learning_rate": 1.0196297981598921e-05,
      "loss": 0.7046,
      "step": 2645
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1236246165403185,
      "learning_rate": 1.019006706246607e-05,
      "loss": 0.8617,
      "step": 2646
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3491373758372454,
      "learning_rate": 1.018383606951336e-05,
      "loss": 0.8154,
      "step": 2647
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1606406088214307,
      "learning_rate": 1.0177605005160837e-05,
      "loss": 0.8507,
      "step": 2648
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2323389127438567,
      "learning_rate": 1.0171373871828578e-05,
      "loss": 0.8797,
      "step": 2649
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2360016751899139,
      "learning_rate": 1.0165142671936685e-05,
      "loss": 0.9002,
      "step": 2650
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0617116390148733,
      "learning_rate": 1.0158911407905279e-05,
      "loss": 0.8617,
      "step": 2651
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3942875482220862,
      "learning_rate": 1.0152680082154514e-05,
      "loss": 0.9574,
      "step": 2652
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9403951442718377,
      "learning_rate": 1.0146448697104561e-05,
      "loss": 0.7122,
      "step": 2653
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1822451268860312,
      "learning_rate": 1.0140217255175626e-05,
      "loss": 0.7398,
      "step": 2654
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2274950883738198,
      "learning_rate": 1.013398575878792e-05,
      "loss": 0.7821,
      "step": 2655
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1897008791312254,
      "learning_rate": 1.0127754210361694e-05,
      "loss": 0.8937,
      "step": 2656
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0744040231889258,
      "learning_rate": 1.0121522612317204e-05,
      "loss": 0.9067,
      "step": 2657
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.036529550112945,
      "learning_rate": 1.011529096707473e-05,
      "loss": 0.8903,
      "step": 2658
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.151594406902902,
      "learning_rate": 1.0109059277054574e-05,
      "loss": 0.8384,
      "step": 2659
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.304740357363321,
      "learning_rate": 1.010282754467705e-05,
      "loss": 0.9041,
      "step": 2660
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9260246743004078,
      "learning_rate": 1.0096595772362492e-05,
      "loss": 0.7895,
      "step": 2661
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.3763187577209859,
      "learning_rate": 1.0090363962531251e-05,
      "loss": 0.8668,
      "step": 2662
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0448927525446083,
      "learning_rate": 1.0084132117603689e-05,
      "loss": 0.863,
      "step": 2663
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.2613985970085535,
      "learning_rate": 1.0077900240000181e-05,
      "loss": 0.9312,
      "step": 2664
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.599073568322211,
      "learning_rate": 1.0071668332141115e-05,
      "loss": 0.9124,
      "step": 2665
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.6092757598361735,
      "learning_rate": 1.0065436396446899e-05,
      "loss": 0.9274,
      "step": 2666
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.092174286943197,
      "learning_rate": 1.0059204435337938e-05,
      "loss": 0.6894,
      "step": 2667
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4016250712005505,
      "learning_rate": 1.0052972451234656e-05,
      "loss": 0.8623,
      "step": 2668
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0844744356390703,
      "learning_rate": 1.0046740446557485e-05,
      "loss": 0.877,
      "step": 2669
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1622560496691294,
      "learning_rate": 1.0040508423726865e-05,
      "loss": 0.9056,
      "step": 2670
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.4516515513427148,
      "learning_rate": 1.0034276385163238e-05,
      "loss": 0.9442,
      "step": 2671
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.0007573041128193,
      "learning_rate": 1.0028044333287056e-05,
      "loss": 0.8068,
      "step": 2672
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.9525016628320326,
      "learning_rate": 1.002181227051878e-05,
      "loss": 0.7498,
      "step": 2673
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1938253660012876,
      "learning_rate": 1.0015580199278873e-05,
      "loss": 0.9249,
      "step": 2674
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1025959727497583,
      "learning_rate": 1.0009348121987795e-05,
      "loss": 0.8367,
      "step": 2675
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.1725402529252595,
      "learning_rate": 1.000311604106601e-05,
      "loss": 0.7825,
      "step": 2676
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6859797107628869,
      "learning_rate": 9.996883958933993e-06,
      "loss": 0.8831,
      "step": 2677
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4494009446446336,
      "learning_rate": 9.99065187801221e-06,
      "loss": 0.8837,
      "step": 2678
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2957152452396516,
      "learning_rate": 9.984419800721132e-06,
      "loss": 0.8562,
      "step": 2679
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6597639837770883,
      "learning_rate": 9.978187729481218e-06,
      "loss": 0.8386,
      "step": 2680
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.234135279473031,
      "learning_rate": 9.971955666712945e-06,
      "loss": 0.9348,
      "step": 2681
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5889807433689802,
      "learning_rate": 9.965723614836764e-06,
      "loss": 0.9946,
      "step": 2682
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.275547976849666,
      "learning_rate": 9.959491576273139e-06,
      "loss": 0.9422,
      "step": 2683
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2037031405179524,
      "learning_rate": 9.95325955344252e-06,
      "loss": 0.8986,
      "step": 2684
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1091933817437085,
      "learning_rate": 9.947027548765347e-06,
      "loss": 0.8209,
      "step": 2685
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.111224903398157,
      "learning_rate": 9.940795564662064e-06,
      "loss": 0.9217,
      "step": 2686
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8952783264030165,
      "learning_rate": 9.934563603553103e-06,
      "loss": 0.6814,
      "step": 2687
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0263337060438018,
      "learning_rate": 9.928331667858886e-06,
      "loss": 0.8392,
      "step": 2688
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6681000068263636,
      "learning_rate": 9.922099759999822e-06,
      "loss": 0.9022,
      "step": 2689
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1131705827251317,
      "learning_rate": 9.915867882396314e-06,
      "loss": 0.9227,
      "step": 2690
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0689734218943454,
      "learning_rate": 9.909636037468754e-06,
      "loss": 0.8661,
      "step": 2691
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3812452900653043,
      "learning_rate": 9.90340422763751e-06,
      "loss": 0.8344,
      "step": 2692
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2672882119578681,
      "learning_rate": 9.897172455322953e-06,
      "loss": 0.8489,
      "step": 2693
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2261909057514206,
      "learning_rate": 9.890940722945429e-06,
      "loss": 0.838,
      "step": 2694
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0025609621476037,
      "learning_rate": 9.884709032925274e-06,
      "loss": 0.8695,
      "step": 2695
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.4324271704053406,
      "learning_rate": 9.878477387682801e-06,
      "loss": 0.9059,
      "step": 2696
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6143520339842516,
      "learning_rate": 9.872245789638308e-06,
      "loss": 0.9838,
      "step": 2697
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1249012717496818,
      "learning_rate": 9.866014241212078e-06,
      "loss": 0.7642,
      "step": 2698
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.295251299344975,
      "learning_rate": 9.859782744824376e-06,
      "loss": 0.8425,
      "step": 2699
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9633411947739395,
      "learning_rate": 9.85355130289544e-06,
      "loss": 0.7578,
      "step": 2700
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3083170441683576,
      "learning_rate": 9.84731991784549e-06,
      "loss": 0.8677,
      "step": 2701
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.041999007321593,
      "learning_rate": 9.841088592094726e-06,
      "loss": 0.7379,
      "step": 2702
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0363572953407618,
      "learning_rate": 9.834857328063316e-06,
      "loss": 0.8691,
      "step": 2703
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5331515655838281,
      "learning_rate": 9.828626128171422e-06,
      "loss": 0.9183,
      "step": 2704
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.215187290388285,
      "learning_rate": 9.822394994839164e-06,
      "loss": 0.8318,
      "step": 2705
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1853586523535724,
      "learning_rate": 9.816163930486643e-06,
      "loss": 0.8694,
      "step": 2706
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.917271104072429,
      "learning_rate": 9.809932937533935e-06,
      "loss": 0.9554,
      "step": 2707
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2445831844152333,
      "learning_rate": 9.803702018401084e-06,
      "loss": 0.8177,
      "step": 2708
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9862047599843476,
      "learning_rate": 9.797471175508101e-06,
      "loss": 0.787,
      "step": 2709
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.5041566668136317,
      "learning_rate": 9.791240411274982e-06,
      "loss": 0.8613,
      "step": 2710
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0422095768708477,
      "learning_rate": 9.785009728121686e-06,
      "loss": 0.8258,
      "step": 2711
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1529465481746461,
      "learning_rate": 9.778779128468133e-06,
      "loss": 0.8206,
      "step": 2712
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3447060690809352,
      "learning_rate": 9.772548614734217e-06,
      "loss": 0.8576,
      "step": 2713
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3701176774220531,
      "learning_rate": 9.766318189339798e-06,
      "loss": 0.8692,
      "step": 2714
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.8430588472120913,
      "learning_rate": 9.760087854704697e-06,
      "loss": 0.6363,
      "step": 2715
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1444711527002478,
      "learning_rate": 9.753857613248714e-06,
      "loss": 0.8942,
      "step": 2716
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0856164654539444,
      "learning_rate": 9.747627467391596e-06,
      "loss": 0.8595,
      "step": 2717
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.6161232956233653,
      "learning_rate": 9.741397419553062e-06,
      "loss": 0.8536,
      "step": 2718
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9803526227075279,
      "learning_rate": 9.735167472152793e-06,
      "loss": 0.7723,
      "step": 2719
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.195602152049493,
      "learning_rate": 9.728937627610425e-06,
      "loss": 0.7798,
      "step": 2720
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.788652937976923,
      "learning_rate": 9.722707888345553e-06,
      "loss": 0.8386,
      "step": 2721
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1611908536413744,
      "learning_rate": 9.716478256777749e-06,
      "loss": 0.8138,
      "step": 2722
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.2234268178723164,
      "learning_rate": 9.710248735326519e-06,
      "loss": 0.9355,
      "step": 2723
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.226939404264243,
      "learning_rate": 9.704019326411344e-06,
      "loss": 0.7982,
      "step": 2724
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.0626840849412826,
      "learning_rate": 9.697790032451651e-06,
      "loss": 0.7839,
      "step": 2725
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3876264838290737,
      "learning_rate": 9.691560855866826e-06,
      "loss": 0.9163,
      "step": 2726
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.1696588195819284,
      "learning_rate": 9.685331799076208e-06,
      "loss": 0.7998,
      "step": 2727
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.3756414794649716,
      "learning_rate": 9.6791028644991e-06,
      "loss": 0.9058,
      "step": 2728
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4253377133096272,
      "learning_rate": 9.672874054554738e-06,
      "loss": 0.8795,
      "step": 2729
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.224091049216689,
      "learning_rate": 9.666645371662324e-06,
      "loss": 0.9101,
      "step": 2730
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1980861029360994,
      "learning_rate": 9.660416818241007e-06,
      "loss": 0.9048,
      "step": 2731
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5755813939038605,
      "learning_rate": 9.654188396709882e-06,
      "loss": 0.923,
      "step": 2732
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.484111849460258,
      "learning_rate": 9.647960109488003e-06,
      "loss": 0.977,
      "step": 2733
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9969636659724083,
      "learning_rate": 9.64173195899436e-06,
      "loss": 0.7754,
      "step": 2734
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4756106775988158,
      "learning_rate": 9.635503947647894e-06,
      "loss": 0.857,
      "step": 2735
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5080922582495218,
      "learning_rate": 9.629276077867497e-06,
      "loss": 0.9272,
      "step": 2736
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.473800407438952,
      "learning_rate": 9.623048352071998e-06,
      "loss": 0.8386,
      "step": 2737
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4815848123908588,
      "learning_rate": 9.616820772680174e-06,
      "loss": 0.8731,
      "step": 2738
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3244867011536106,
      "learning_rate": 9.610593342110746e-06,
      "loss": 0.8035,
      "step": 2739
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1854021523736713,
      "learning_rate": 9.604366062782381e-06,
      "loss": 0.8194,
      "step": 2740
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1003689056909907,
      "learning_rate": 9.598138937113677e-06,
      "loss": 0.9089,
      "step": 2741
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0712289123896648,
      "learning_rate": 9.59191196752318e-06,
      "loss": 0.776,
      "step": 2742
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5427888839342978,
      "learning_rate": 9.58568515642937e-06,
      "loss": 0.8287,
      "step": 2743
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1184503059814521,
      "learning_rate": 9.579458506250668e-06,
      "loss": 0.5952,
      "step": 2744
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1369909889594156,
      "learning_rate": 9.573232019405441e-06,
      "loss": 0.8178,
      "step": 2745
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2953663332213106,
      "learning_rate": 9.567005698311982e-06,
      "loss": 0.8013,
      "step": 2746
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5477636330355657,
      "learning_rate": 9.560779545388517e-06,
      "loss": 0.8564,
      "step": 2747
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9679903856381091,
      "learning_rate": 9.554553563053217e-06,
      "loss": 0.8522,
      "step": 2748
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2864823787766035,
      "learning_rate": 9.548327753724181e-06,
      "loss": 0.8707,
      "step": 2749
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1105083666876587,
      "learning_rate": 9.542102119819436e-06,
      "loss": 0.8653,
      "step": 2750
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1121787601957158,
      "learning_rate": 9.535876663756955e-06,
      "loss": 0.8918,
      "step": 2751
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9918302175266696,
      "learning_rate": 9.529651387954628e-06,
      "loss": 0.8006,
      "step": 2752
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2607353658661498,
      "learning_rate": 9.523426294830284e-06,
      "loss": 0.8036,
      "step": 2753
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2675269115444217,
      "learning_rate": 9.517201386801675e-06,
      "loss": 0.952,
      "step": 2754
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2714241565853535,
      "learning_rate": 9.510976666286484e-06,
      "loss": 0.8579,
      "step": 2755
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1475664216112926,
      "learning_rate": 9.504752135702318e-06,
      "loss": 0.8923,
      "step": 2756
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6077021963324942,
      "learning_rate": 9.498527797466718e-06,
      "loss": 0.8912,
      "step": 2757
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3656490201741676,
      "learning_rate": 9.492303653997146e-06,
      "loss": 0.9168,
      "step": 2758
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0517718298472953,
      "learning_rate": 9.48607970771098e-06,
      "loss": 0.8016,
      "step": 2759
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.380183010423827,
      "learning_rate": 9.479855961025538e-06,
      "loss": 0.8536,
      "step": 2760
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1686604333139985,
      "learning_rate": 9.473632416358045e-06,
      "loss": 0.7984,
      "step": 2761
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1899715305502152,
      "learning_rate": 9.467409076125653e-06,
      "loss": 0.8379,
      "step": 2762
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.6394974658649146,
      "learning_rate": 9.461185942745443e-06,
      "loss": 0.8279,
      "step": 2763
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.4558016076102176,
      "learning_rate": 9.454963018634402e-06,
      "loss": 0.9436,
      "step": 2764
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1061698923464318,
      "learning_rate": 9.448740306209447e-06,
      "loss": 0.6485,
      "step": 2765
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2275155178230794,
      "learning_rate": 9.442517807887402e-06,
      "loss": 0.9641,
      "step": 2766
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1090760243703173,
      "learning_rate": 9.436295526085016e-06,
      "loss": 0.8647,
      "step": 2767
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.9177063594849479,
      "learning_rate": 9.430073463218952e-06,
      "loss": 0.5922,
      "step": 2768
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3221556399073682,
      "learning_rate": 9.423851621705789e-06,
      "loss": 0.8935,
      "step": 2769
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.5597447570667802,
      "learning_rate": 9.41763000396202e-06,
      "loss": 0.8296,
      "step": 2770
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0621951280266944,
      "learning_rate": 9.411408612404043e-06,
      "loss": 0.7756,
      "step": 2771
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.109840285419189,
      "learning_rate": 9.40518744944818e-06,
      "loss": 0.8421,
      "step": 2772
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.375510130273028,
      "learning_rate": 9.398966517510654e-06,
      "loss": 0.9006,
      "step": 2773
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2114504800482786,
      "learning_rate": 9.39274581900761e-06,
      "loss": 0.8927,
      "step": 2774
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.2895984510850076,
      "learning_rate": 9.386525356355095e-06,
      "loss": 0.8224,
      "step": 2775
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3869569488234272,
      "learning_rate": 9.380305131969059e-06,
      "loss": 0.8415,
      "step": 2776
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.175998759705667,
      "learning_rate": 9.374085148265372e-06,
      "loss": 0.8077,
      "step": 2777
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3422790310727906,
      "learning_rate": 9.3678654076598e-06,
      "loss": 0.8648,
      "step": 2778
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1714174183920782,
      "learning_rate": 9.361645912568015e-06,
      "loss": 0.9228,
      "step": 2779
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.1716396337817705,
      "learning_rate": 9.355426665405607e-06,
      "loss": 0.8277,
      "step": 2780
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3775463875592446,
      "learning_rate": 9.349207668588053e-06,
      "loss": 0.88,
      "step": 2781
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2844603643349084,
      "learning_rate": 9.342988924530742e-06,
      "loss": 0.8555,
      "step": 2782
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1327511304230717,
      "learning_rate": 9.336770435648963e-06,
      "loss": 0.9427,
      "step": 2783
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.297302377108987,
      "learning_rate": 9.330552204357904e-06,
      "loss": 0.8159,
      "step": 2784
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1343900371670104,
      "learning_rate": 9.32433423307265e-06,
      "loss": 0.8641,
      "step": 2785
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9929196186782754,
      "learning_rate": 9.318116524208198e-06,
      "loss": 0.7597,
      "step": 2786
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1007376369969917,
      "learning_rate": 9.311899080179433e-06,
      "loss": 0.8169,
      "step": 2787
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1161114009187476,
      "learning_rate": 9.305681903401133e-06,
      "loss": 0.681,
      "step": 2788
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2015167746203654,
      "learning_rate": 9.299464996287984e-06,
      "loss": 0.9024,
      "step": 2789
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1230144077251862,
      "learning_rate": 9.293248361254557e-06,
      "loss": 0.8774,
      "step": 2790
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3818665925659372,
      "learning_rate": 9.287032000715318e-06,
      "loss": 0.8336,
      "step": 2791
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2192301723178487,
      "learning_rate": 9.28081591708464e-06,
      "loss": 0.8898,
      "step": 2792
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2216247531758542,
      "learning_rate": 9.27460011277677e-06,
      "loss": 0.8757,
      "step": 2793
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.256156915803003,
      "learning_rate": 9.268384590205858e-06,
      "loss": 0.8524,
      "step": 2794
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4250319017349729,
      "learning_rate": 9.262169351785944e-06,
      "loss": 0.905,
      "step": 2795
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1720604145869782,
      "learning_rate": 9.255954399930948e-06,
      "loss": 0.8927,
      "step": 2796
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1350888048116314,
      "learning_rate": 9.249739737054686e-06,
      "loss": 0.6932,
      "step": 2797
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3678478727169194,
      "learning_rate": 9.24352536557087e-06,
      "loss": 0.9262,
      "step": 2798
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0036111891590067,
      "learning_rate": 9.237311287893086e-06,
      "loss": 0.8841,
      "step": 2799
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3707796072134764,
      "learning_rate": 9.231097506434808e-06,
      "loss": 0.8805,
      "step": 2800
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3384046197207418,
      "learning_rate": 9.224884023609398e-06,
      "loss": 0.8643,
      "step": 2801
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3565422741624062,
      "learning_rate": 9.218670841830098e-06,
      "loss": 0.9055,
      "step": 2802
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2780104200324491,
      "learning_rate": 9.212457963510045e-06,
      "loss": 0.8574,
      "step": 2803
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.146107763693594,
      "learning_rate": 9.206245391062243e-06,
      "loss": 0.8727,
      "step": 2804
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.213141126763795,
      "learning_rate": 9.200033126899585e-06,
      "loss": 0.9532,
      "step": 2805
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3480366157977581,
      "learning_rate": 9.193821173434843e-06,
      "loss": 0.876,
      "step": 2806
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9886121443302132,
      "learning_rate": 9.187609533080668e-06,
      "loss": 0.8605,
      "step": 2807
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3865423681350788,
      "learning_rate": 9.181398208249583e-06,
      "loss": 0.8183,
      "step": 2808
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5653335044378407,
      "learning_rate": 9.175187201354005e-06,
      "loss": 0.9393,
      "step": 2809
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2439188720290708,
      "learning_rate": 9.168976514806216e-06,
      "loss": 0.8253,
      "step": 2810
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.049866456720754,
      "learning_rate": 9.162766151018372e-06,
      "loss": 0.8664,
      "step": 2811
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.2238556850327242,
      "learning_rate": 9.156556112402508e-06,
      "loss": 0.765,
      "step": 2812
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.278261460551618,
      "learning_rate": 9.150346401370528e-06,
      "loss": 0.8208,
      "step": 2813
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4453656541226014,
      "learning_rate": 9.144137020334214e-06,
      "loss": 0.8348,
      "step": 2814
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0450177335888546,
      "learning_rate": 9.137927971705223e-06,
      "loss": 0.7302,
      "step": 2815
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1266347355416195,
      "learning_rate": 9.131719257895074e-06,
      "loss": 0.846,
      "step": 2816
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9212359015383665,
      "learning_rate": 9.125510881315159e-06,
      "loss": 0.7524,
      "step": 2817
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.122750850514732,
      "learning_rate": 9.119302844376741e-06,
      "loss": 0.8492,
      "step": 2818
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9258639725212146,
      "learning_rate": 9.113095149490951e-06,
      "loss": 0.8665,
      "step": 2819
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.5410416698188825,
      "learning_rate": 9.106887799068782e-06,
      "loss": 0.9201,
      "step": 2820
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4766684518120288,
      "learning_rate": 9.100680795521104e-06,
      "loss": 0.919,
      "step": 2821
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1190910503132467,
      "learning_rate": 9.09447414125864e-06,
      "loss": 0.7945,
      "step": 2822
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.174050744395488,
      "learning_rate": 9.088267838691987e-06,
      "loss": 0.9264,
      "step": 2823
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.9012976818005716,
      "learning_rate": 9.0820618902316e-06,
      "loss": 0.7998,
      "step": 2824
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0350091538416428,
      "learning_rate": 9.075856298287796e-06,
      "loss": 0.8313,
      "step": 2825
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1901179618230682,
      "learning_rate": 9.069651065270753e-06,
      "loss": 0.8844,
      "step": 2826
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1109916742545178,
      "learning_rate": 9.06344619359052e-06,
      "loss": 0.8922,
      "step": 2827
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3452261583298961,
      "learning_rate": 9.057241685656995e-06,
      "loss": 0.9292,
      "step": 2828
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.3774750897096713,
      "learning_rate": 9.051037543879933e-06,
      "loss": 0.9175,
      "step": 2829
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.109611259407281,
      "learning_rate": 9.044833770668957e-06,
      "loss": 0.7402,
      "step": 2830
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4530841997274093,
      "learning_rate": 9.038630368433537e-06,
      "loss": 0.8528,
      "step": 2831
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8677349584264022,
      "learning_rate": 9.032427339583e-06,
      "loss": 0.6602,
      "step": 2832
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4494432329461149,
      "learning_rate": 9.026224686526539e-06,
      "loss": 0.6864,
      "step": 2833
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0865648973527386,
      "learning_rate": 9.020022411673186e-06,
      "loss": 0.8401,
      "step": 2834
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2884783376673112,
      "learning_rate": 9.013820517431841e-06,
      "loss": 0.8445,
      "step": 2835
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.7176823182523555,
      "learning_rate": 9.00761900621124e-06,
      "loss": 0.9099,
      "step": 2836
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0099736477629893,
      "learning_rate": 9.00141788041998e-06,
      "loss": 0.7806,
      "step": 2837
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.096449806241272,
      "learning_rate": 8.99521714246651e-06,
      "loss": 0.7733,
      "step": 2838
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4579152485387201,
      "learning_rate": 8.989016794759127e-06,
      "loss": 0.8203,
      "step": 2839
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1821026306745908,
      "learning_rate": 8.98281683970597e-06,
      "loss": 0.8059,
      "step": 2840
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8667122671998696,
      "learning_rate": 8.97661727971503e-06,
      "loss": 0.5897,
      "step": 2841
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.318736531915694,
      "learning_rate": 8.970418117194146e-06,
      "loss": 0.8454,
      "step": 2842
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2988769439614665,
      "learning_rate": 8.964219354550999e-06,
      "loss": 0.9197,
      "step": 2843
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.873362211348322,
      "learning_rate": 8.958020994193124e-06,
      "loss": 0.8819,
      "step": 2844
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0982962029090844,
      "learning_rate": 8.951823038527887e-06,
      "loss": 0.834,
      "step": 2845
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2670866582165257,
      "learning_rate": 8.945625489962503e-06,
      "loss": 0.7544,
      "step": 2846
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.304761360556183,
      "learning_rate": 8.93942835090403e-06,
      "loss": 0.8074,
      "step": 2847
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.665695774359958,
      "learning_rate": 8.933231623759365e-06,
      "loss": 0.8859,
      "step": 2848
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.5634367463881407,
      "learning_rate": 8.927035310935241e-06,
      "loss": 0.8717,
      "step": 2849
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2700376857646505,
      "learning_rate": 8.920839414838243e-06,
      "loss": 0.8843,
      "step": 2850
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2083917944626739,
      "learning_rate": 8.914643937874778e-06,
      "loss": 0.8631,
      "step": 2851
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.043366252188474,
      "learning_rate": 8.908448882451104e-06,
      "loss": 0.5603,
      "step": 2852
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9615827912204098,
      "learning_rate": 8.902254250973306e-06,
      "loss": 0.7825,
      "step": 2853
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2774195772523287,
      "learning_rate": 8.896060045847305e-06,
      "loss": 0.9017,
      "step": 2854
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8089576909390432,
      "learning_rate": 8.88986626947886e-06,
      "loss": 0.6903,
      "step": 2855
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.446014783327168,
      "learning_rate": 8.883672924273566e-06,
      "loss": 0.8163,
      "step": 2856
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.624634450880382,
      "learning_rate": 8.877480012636847e-06,
      "loss": 0.9476,
      "step": 2857
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6650326664373878,
      "learning_rate": 8.871287536973954e-06,
      "loss": 0.8078,
      "step": 2858
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4613938571872898,
      "learning_rate": 8.865095499689978e-06,
      "loss": 0.7721,
      "step": 2859
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0611691655806366,
      "learning_rate": 8.85890390318983e-06,
      "loss": 0.7231,
      "step": 2860
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.155073563367101,
      "learning_rate": 8.852712749878255e-06,
      "loss": 0.7643,
      "step": 2861
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3501897132075389,
      "learning_rate": 8.846522042159833e-06,
      "loss": 0.8811,
      "step": 2862
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2870206816798475,
      "learning_rate": 8.840331782438954e-06,
      "loss": 0.978,
      "step": 2863
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.6625604572139832,
      "learning_rate": 8.83414197311985e-06,
      "loss": 0.9019,
      "step": 2864
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2653602721335222,
      "learning_rate": 8.82795261660657e-06,
      "loss": 0.9088,
      "step": 2865
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2381239926200145,
      "learning_rate": 8.821763715302986e-06,
      "loss": 0.8072,
      "step": 2866
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2906086263198153,
      "learning_rate": 8.815575271612798e-06,
      "loss": 0.8305,
      "step": 2867
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3041641372738273,
      "learning_rate": 8.809387287939528e-06,
      "loss": 0.8871,
      "step": 2868
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.151369919502699,
      "learning_rate": 8.803199766686517e-06,
      "loss": 0.8167,
      "step": 2869
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.606618525781804,
      "learning_rate": 8.797012710256923e-06,
      "loss": 0.9039,
      "step": 2870
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2734224996531656,
      "learning_rate": 8.790826121053732e-06,
      "loss": 0.8703,
      "step": 2871
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1661608629891265,
      "learning_rate": 8.784640001479741e-06,
      "loss": 0.8994,
      "step": 2872
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.4032637930513632,
      "learning_rate": 8.77845435393757e-06,
      "loss": 0.8047,
      "step": 2873
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.381989060298938,
      "learning_rate": 8.772269180829653e-06,
      "loss": 0.8838,
      "step": 2874
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.9592357371544773,
      "learning_rate": 8.766084484558237e-06,
      "loss": 0.8456,
      "step": 2875
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2307274716721819,
      "learning_rate": 8.759900267525393e-06,
      "loss": 0.9159,
      "step": 2876
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1591206997964847,
      "learning_rate": 8.753716532132992e-06,
      "loss": 0.8286,
      "step": 2877
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0945477616128634,
      "learning_rate": 8.747533280782725e-06,
      "loss": 0.7625,
      "step": 2878
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.2775271381401372,
      "learning_rate": 8.741350515876103e-06,
      "loss": 0.8335,
      "step": 2879
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.33170876976256,
      "learning_rate": 8.73516823981444e-06,
      "loss": 0.8675,
      "step": 2880
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.1550905402522234,
      "learning_rate": 8.728986454998858e-06,
      "loss": 0.9552,
      "step": 2881
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.0404215773025929,
      "learning_rate": 8.72280516383029e-06,
      "loss": 0.7649,
      "step": 2882
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.3539052848928042,
      "learning_rate": 8.716624368709477e-06,
      "loss": 0.7545,
      "step": 2883
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.9470422175292288,
      "learning_rate": 8.71044407203697e-06,
      "loss": 0.8376,
      "step": 2884
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.168612864114281,
      "learning_rate": 8.70426427621313e-06,
      "loss": 0.8748,
      "step": 2885
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.017249231307478,
      "learning_rate": 8.698084983638111e-06,
      "loss": 0.7114,
      "step": 2886
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5135613757993431,
      "learning_rate": 8.691906196711884e-06,
      "loss": 0.8414,
      "step": 2887
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.316466019544179,
      "learning_rate": 8.685727917834218e-06,
      "loss": 0.9298,
      "step": 2888
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0885366365743925,
      "learning_rate": 8.679550149404685e-06,
      "loss": 0.7986,
      "step": 2889
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3452166275178745,
      "learning_rate": 8.673372893822653e-06,
      "loss": 0.8662,
      "step": 2890
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3063180827220842,
      "learning_rate": 8.667196153487308e-06,
      "loss": 0.7104,
      "step": 2891
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1680989854662585,
      "learning_rate": 8.661019930797615e-06,
      "loss": 0.9115,
      "step": 2892
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2939170053372708,
      "learning_rate": 8.654844228152355e-06,
      "loss": 0.8996,
      "step": 2893
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.123378023999188,
      "learning_rate": 8.648669047950097e-06,
      "loss": 0.8251,
      "step": 2894
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2489394949353179,
      "learning_rate": 8.642494392589206e-06,
      "loss": 0.835,
      "step": 2895
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3182220684180934,
      "learning_rate": 8.63632026446785e-06,
      "loss": 0.8237,
      "step": 2896
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3908039785518012,
      "learning_rate": 8.630146665983993e-06,
      "loss": 0.8821,
      "step": 2897
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1782626320340917,
      "learning_rate": 8.623973599535385e-06,
      "loss": 0.8524,
      "step": 2898
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.150439003524605,
      "learning_rate": 8.617801067519575e-06,
      "loss": 0.8083,
      "step": 2899
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1092259366082347,
      "learning_rate": 8.611629072333905e-06,
      "loss": 0.8106,
      "step": 2900
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5515292979488238,
      "learning_rate": 8.605457616375503e-06,
      "loss": 0.8177,
      "step": 2901
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3094088624118265,
      "learning_rate": 8.599286702041292e-06,
      "loss": 0.8347,
      "step": 2902
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9475686744997798,
      "learning_rate": 8.593116331727987e-06,
      "loss": 0.869,
      "step": 2903
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1848602873628302,
      "learning_rate": 8.586946507832088e-06,
      "loss": 0.8716,
      "step": 2904
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1750186565178615,
      "learning_rate": 8.580777232749883e-06,
      "loss": 0.8363,
      "step": 2905
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0624244589458254,
      "learning_rate": 8.574608508877448e-06,
      "loss": 0.7431,
      "step": 2906
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1334265927123086,
      "learning_rate": 8.568440338610638e-06,
      "loss": 0.8585,
      "step": 2907
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3791523354507,
      "learning_rate": 8.562272724345108e-06,
      "loss": 0.8904,
      "step": 2908
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2897749550331912,
      "learning_rate": 8.556105668476287e-06,
      "loss": 0.7676,
      "step": 2909
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1324183250988746,
      "learning_rate": 8.549939173399385e-06,
      "loss": 0.9095,
      "step": 2910
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3029958794580279,
      "learning_rate": 8.5437732415094e-06,
      "loss": 0.906,
      "step": 2911
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4101669424713617,
      "learning_rate": 8.537607875201106e-06,
      "loss": 0.8385,
      "step": 2912
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.186397931835493,
      "learning_rate": 8.531443076869058e-06,
      "loss": 0.8885,
      "step": 2913
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0420566479015478,
      "learning_rate": 8.525278848907603e-06,
      "loss": 0.7892,
      "step": 2914
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2022237757976388,
      "learning_rate": 8.51911519371085e-06,
      "loss": 0.8675,
      "step": 2915
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9473122339481715,
      "learning_rate": 8.512952113672689e-06,
      "loss": 0.7199,
      "step": 2916
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3358279369416761,
      "learning_rate": 8.506789611186794e-06,
      "loss": 0.8651,
      "step": 2917
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4030845496473674,
      "learning_rate": 8.500627688646607e-06,
      "loss": 0.7973,
      "step": 2918
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2087963771552526,
      "learning_rate": 8.494466348445345e-06,
      "loss": 0.8595,
      "step": 2919
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.083463102734946,
      "learning_rate": 8.48830559297601e-06,
      "loss": 0.9088,
      "step": 2920
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9424168123525734,
      "learning_rate": 8.48214542463136e-06,
      "loss": 0.7883,
      "step": 2921
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.575033435408687,
      "learning_rate": 8.475985845803938e-06,
      "loss": 0.9003,
      "step": 2922
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1334875097612809,
      "learning_rate": 8.469826858886054e-06,
      "loss": 0.8607,
      "step": 2923
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3722088854105956,
      "learning_rate": 8.463668466269785e-06,
      "loss": 0.8939,
      "step": 2924
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1412811335399113,
      "learning_rate": 8.457510670346976e-06,
      "loss": 0.7376,
      "step": 2925
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.833928417635896,
      "learning_rate": 8.451353473509254e-06,
      "loss": 0.918,
      "step": 2926
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.4979152615410825,
      "learning_rate": 8.445196878147997e-06,
      "loss": 0.9127,
      "step": 2927
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3325396286751277,
      "learning_rate": 8.439040886654354e-06,
      "loss": 0.8715,
      "step": 2928
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0328665276995566,
      "learning_rate": 8.432885501419248e-06,
      "loss": 0.7615,
      "step": 2929
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1629082278142135,
      "learning_rate": 8.426730724833354e-06,
      "loss": 0.7843,
      "step": 2930
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.252047888707306,
      "learning_rate": 8.420576559287112e-06,
      "loss": 0.8393,
      "step": 2931
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.119918677333053,
      "learning_rate": 8.414423007170742e-06,
      "loss": 0.8495,
      "step": 2932
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.5734146261636068,
      "learning_rate": 8.408270070874201e-06,
      "loss": 0.8456,
      "step": 2933
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.1903909836533415,
      "learning_rate": 8.402117752787225e-06,
      "loss": 0.8012,
      "step": 2934
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.7408282605061132,
      "learning_rate": 8.395966055299302e-06,
      "loss": 0.9134,
      "step": 2935
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.3056511814135414,
      "learning_rate": 8.389814980799679e-06,
      "loss": 0.9054,
      "step": 2936
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.109502911853973,
      "learning_rate": 8.38366453167736e-06,
      "loss": 0.8548,
      "step": 2937
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.1908204623122618,
      "learning_rate": 8.377514710321117e-06,
      "loss": 0.8646,
      "step": 2938
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3809806468323678,
      "learning_rate": 8.371365519119463e-06,
      "loss": 0.8635,
      "step": 2939
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.0922309217643642,
      "learning_rate": 8.365216960460675e-06,
      "loss": 0.8302,
      "step": 2940
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6888378538908615,
      "learning_rate": 8.359069036732781e-06,
      "loss": 1.0232,
      "step": 2941
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3540957481967035,
      "learning_rate": 8.352921750323562e-06,
      "loss": 0.795,
      "step": 2942
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2624621904445974,
      "learning_rate": 8.346775103620559e-06,
      "loss": 0.7596,
      "step": 2943
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.262519512934543,
      "learning_rate": 8.340629099011057e-06,
      "loss": 0.9067,
      "step": 2944
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.339886722695783,
      "learning_rate": 8.33448373888209e-06,
      "loss": 0.7563,
      "step": 2945
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.35817890155235,
      "learning_rate": 8.328339025620449e-06,
      "loss": 0.8117,
      "step": 2946
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.1634714649099014,
      "learning_rate": 8.322194961612668e-06,
      "loss": 0.821,
      "step": 2947
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.1918516733480355,
      "learning_rate": 8.316051549245026e-06,
      "loss": 0.9429,
      "step": 2948
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2812695036543422,
      "learning_rate": 8.309908790903562e-06,
      "loss": 0.8939,
      "step": 2949
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.457598290959229,
      "learning_rate": 8.303766688974047e-06,
      "loss": 0.7048,
      "step": 2950
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.144378255400866,
      "learning_rate": 8.297625245842006e-06,
      "loss": 0.6831,
      "step": 2951
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3792508487643922,
      "learning_rate": 8.291484463892703e-06,
      "loss": 0.8289,
      "step": 2952
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2293946783880978,
      "learning_rate": 8.285344345511147e-06,
      "loss": 0.7714,
      "step": 2953
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4223735133234214,
      "learning_rate": 8.279204893082083e-06,
      "loss": 0.8464,
      "step": 2954
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.314314422544702,
      "learning_rate": 8.273066108990017e-06,
      "loss": 0.9773,
      "step": 2955
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9460882907894204,
      "learning_rate": 8.266927995619175e-06,
      "loss": 0.7703,
      "step": 2956
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4841898294446958,
      "learning_rate": 8.260790555353526e-06,
      "loss": 0.7816,
      "step": 2957
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4170796418626215,
      "learning_rate": 8.254653790576787e-06,
      "loss": 0.9048,
      "step": 2958
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3574963784183245,
      "learning_rate": 8.248517703672405e-06,
      "loss": 0.8757,
      "step": 2959
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9151239131885995,
      "learning_rate": 8.242382297023558e-06,
      "loss": 0.7623,
      "step": 2960
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3981194840489948,
      "learning_rate": 8.23624757301318e-06,
      "loss": 0.8078,
      "step": 2961
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4439631142764386,
      "learning_rate": 8.230113534023917e-06,
      "loss": 0.8656,
      "step": 2962
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2966086698718915,
      "learning_rate": 8.223980182438167e-06,
      "loss": 0.8622,
      "step": 2963
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.011983217833596,
      "learning_rate": 8.217847520638049e-06,
      "loss": 0.85,
      "step": 2964
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2086397031747476,
      "learning_rate": 8.211715551005414e-06,
      "loss": 0.9157,
      "step": 2965
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.0167537469030412,
      "learning_rate": 8.205584275921854e-06,
      "loss": 0.8695,
      "step": 2966
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2335791655518453,
      "learning_rate": 8.199453697768686e-06,
      "loss": 0.8125,
      "step": 2967
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.258946642323549,
      "learning_rate": 8.193323818926955e-06,
      "loss": 0.8577,
      "step": 2968
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.080061909396939,
      "learning_rate": 8.187194641777432e-06,
      "loss": 0.7477,
      "step": 2969
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.161308647927342,
      "learning_rate": 8.181066168700622e-06,
      "loss": 0.8509,
      "step": 2970
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4869748825027114,
      "learning_rate": 8.174938402076754e-06,
      "loss": 0.8643,
      "step": 2971
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.0787453732441048,
      "learning_rate": 8.168811344285776e-06,
      "loss": 0.7661,
      "step": 2972
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3896059643319192,
      "learning_rate": 8.162684997707374e-06,
      "loss": 0.869,
      "step": 2973
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.1465258574576398,
      "learning_rate": 8.156559364720947e-06,
      "loss": 0.8208,
      "step": 2974
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2070173491137375,
      "learning_rate": 8.150434447705623e-06,
      "loss": 0.8449,
      "step": 2975
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9544365883023666,
      "learning_rate": 8.144310249040246e-06,
      "loss": 0.6565,
      "step": 2976
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.9941806363595901,
      "learning_rate": 8.138186771103382e-06,
      "loss": 0.8098,
      "step": 2977
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.1670168463045,
      "learning_rate": 8.132064016273325e-06,
      "loss": 0.7479,
      "step": 2978
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.209041028705927,
      "learning_rate": 8.12594198692808e-06,
      "loss": 0.9105,
      "step": 2979
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3247267545503592,
      "learning_rate": 8.119820685445373e-06,
      "loss": 0.7566,
      "step": 2980
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2570455520105515,
      "learning_rate": 8.113700114202647e-06,
      "loss": 0.869,
      "step": 2981
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.4940544786115246,
      "learning_rate": 8.107580275577059e-06,
      "loss": 0.8693,
      "step": 2982
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.6330805665685943,
      "learning_rate": 8.101461171945483e-06,
      "loss": 0.8644,
      "step": 2983
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3346912419266252,
      "learning_rate": 8.095342805684516e-06,
      "loss": 0.757,
      "step": 2984
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.121782700295128,
      "learning_rate": 8.089225179170454e-06,
      "loss": 0.8433,
      "step": 2985
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.2143154141515895,
      "learning_rate": 8.083108294779313e-06,
      "loss": 0.9095,
      "step": 2986
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.999051116511445,
      "learning_rate": 8.076992154886826e-06,
      "loss": 0.8354,
      "step": 2987
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.40917982100118,
      "learning_rate": 8.070876761868426e-06,
      "loss": 0.8908,
      "step": 2988
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3240771643444629,
      "learning_rate": 8.064762118099258e-06,
      "loss": 0.8264,
      "step": 2989
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0909534887879886,
      "learning_rate": 8.058648225954188e-06,
      "loss": 0.775,
      "step": 2990
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.1883983202328172,
      "learning_rate": 8.052535087807774e-06,
      "loss": 0.8469,
      "step": 2991
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.34250312789383,
      "learning_rate": 8.046422706034294e-06,
      "loss": 0.8736,
      "step": 2992
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.532512501506207,
      "learning_rate": 8.040311083007725e-06,
      "loss": 0.8645,
      "step": 2993
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.016770347697255,
      "learning_rate": 8.034200221101746e-06,
      "loss": 0.7948,
      "step": 2994
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.1630273040690633,
      "learning_rate": 8.028090122689747e-06,
      "loss": 0.7039,
      "step": 2995
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2858479328412429,
      "learning_rate": 8.021980790144828e-06,
      "loss": 0.8065,
      "step": 2996
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8427851029164797,
      "learning_rate": 8.015872225839776e-06,
      "loss": 0.8766,
      "step": 2997
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2733404350732858,
      "learning_rate": 8.009764432147086e-06,
      "loss": 0.6809,
      "step": 2998
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3360497154963302,
      "learning_rate": 8.003657411438961e-06,
      "loss": 0.8672,
      "step": 2999
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2026877688632498,
      "learning_rate": 7.997551166087293e-06,
      "loss": 0.8753,
      "step": 3000
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9642357281092785,
      "learning_rate": 7.991445698463672e-06,
      "loss": 0.8972,
      "step": 3001
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3174764449324126,
      "learning_rate": 7.985341010939402e-06,
      "loss": 0.8164,
      "step": 3002
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.1026601826218052,
      "learning_rate": 7.979237105885467e-06,
      "loss": 0.8121,
      "step": 3003
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.354618122693114,
      "learning_rate": 7.973133985672558e-06,
      "loss": 0.9355,
      "step": 3004
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4920748538918314,
      "learning_rate": 7.967031652671051e-06,
      "loss": 0.7946,
      "step": 3005
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5602819447034417,
      "learning_rate": 7.960930109251023e-06,
      "loss": 0.8285,
      "step": 3006
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.122878517509792,
      "learning_rate": 7.954829357782243e-06,
      "loss": 0.842,
      "step": 3007
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2087593495092803,
      "learning_rate": 7.948729400634178e-06,
      "loss": 0.8976,
      "step": 3008
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4425798525620421,
      "learning_rate": 7.942630240175977e-06,
      "loss": 0.8159,
      "step": 3009
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2342935475655226,
      "learning_rate": 7.936531878776484e-06,
      "loss": 0.7604,
      "step": 3010
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3218171043602145,
      "learning_rate": 7.930434318804229e-06,
      "loss": 0.8305,
      "step": 3011
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.683338947829467,
      "learning_rate": 7.924337562627435e-06,
      "loss": 0.913,
      "step": 3012
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.1093036753978789,
      "learning_rate": 7.918241612614016e-06,
      "loss": 0.8728,
      "step": 3013
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.132364037550968,
      "learning_rate": 7.91214647113157e-06,
      "loss": 0.846,
      "step": 3014
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.114764966149135,
      "learning_rate": 7.906052140547373e-06,
      "loss": 0.8353,
      "step": 3015
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0683964220768374,
      "learning_rate": 7.899958623228398e-06,
      "loss": 0.7819,
      "step": 3016
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.059375624635394,
      "learning_rate": 7.893865921541294e-06,
      "loss": 0.9115,
      "step": 3017
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4599403261879524,
      "learning_rate": 7.887774037852395e-06,
      "loss": 0.8041,
      "step": 3018
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3403195253771973,
      "learning_rate": 7.881682974527723e-06,
      "loss": 0.9172,
      "step": 3019
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0166600607431393,
      "learning_rate": 7.875592733932972e-06,
      "loss": 0.7546,
      "step": 3020
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.0003332892558086,
      "learning_rate": 7.869503318433529e-06,
      "loss": 0.7665,
      "step": 3021
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4012517635647432,
      "learning_rate": 7.863414730394444e-06,
      "loss": 0.8349,
      "step": 3022
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.1627933512929178,
      "learning_rate": 7.857326972180455e-06,
      "loss": 0.8154,
      "step": 3023
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.440474108641431,
      "learning_rate": 7.85124004615598e-06,
      "loss": 0.8824,
      "step": 3024
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3944725123091124,
      "learning_rate": 7.845153954685114e-06,
      "loss": 0.8725,
      "step": 3025
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2728406933394605,
      "learning_rate": 7.839068700131623e-06,
      "loss": 0.8528,
      "step": 3026
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2631440150928592,
      "learning_rate": 7.832984284858946e-06,
      "loss": 0.8927,
      "step": 3027
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.010021327678477,
      "learning_rate": 7.826900711230204e-06,
      "loss": 0.8442,
      "step": 3028
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2849271973817276,
      "learning_rate": 7.820817981608185e-06,
      "loss": 0.8811,
      "step": 3029
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.8196341802000302,
      "learning_rate": 7.814736098355348e-06,
      "loss": 0.8513,
      "step": 3030
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3209275243028034,
      "learning_rate": 7.808655063833832e-06,
      "loss": 0.7528,
      "step": 3031
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.274160472442327,
      "learning_rate": 7.802574880405438e-06,
      "loss": 0.8783,
      "step": 3032
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4832457748898742,
      "learning_rate": 7.79649555043164e-06,
      "loss": 0.8974,
      "step": 3033
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.4565988853455767,
      "learning_rate": 7.790417076273581e-06,
      "loss": 0.8566,
      "step": 3034
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.5281155592289377,
      "learning_rate": 7.784339460292065e-06,
      "loss": 0.9142,
      "step": 3035
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.3723391771761535,
      "learning_rate": 7.77826270484757e-06,
      "loss": 0.9005,
      "step": 3036
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.2971134620052531,
      "learning_rate": 7.772186812300244e-06,
      "loss": 0.8389,
      "step": 3037
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.408251264062815,
      "learning_rate": 7.766111785009888e-06,
      "loss": 0.888,
      "step": 3038
    },
    {
      "epoch": 0.58,
      "grad_norm": 1.558456594723278,
      "learning_rate": 7.760037625335973e-06,
      "loss": 0.9549,
      "step": 3039
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9711359194233294,
      "learning_rate": 7.753964335637634e-06,
      "loss": 0.8568,
      "step": 3040
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4194296215777331,
      "learning_rate": 7.747891918273668e-06,
      "loss": 0.9165,
      "step": 3041
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0751706688098337,
      "learning_rate": 7.741820375602524e-06,
      "loss": 0.9015,
      "step": 3042
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0637907631570218,
      "learning_rate": 7.735749709982329e-06,
      "loss": 0.8377,
      "step": 3043
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5226267940843843,
      "learning_rate": 7.729679923770855e-06,
      "loss": 0.8274,
      "step": 3044
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2474379936573188,
      "learning_rate": 7.723611019325538e-06,
      "loss": 0.8472,
      "step": 3045
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2029704038731506,
      "learning_rate": 7.71754299900347e-06,
      "loss": 0.6804,
      "step": 3046
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.29122900894645,
      "learning_rate": 7.7114758651614e-06,
      "loss": 0.877,
      "step": 3047
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1055323263191887,
      "learning_rate": 7.705409620155733e-06,
      "loss": 0.925,
      "step": 3048
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.21841236666129,
      "learning_rate": 7.699344266342529e-06,
      "loss": 0.7161,
      "step": 3049
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.442174470946992,
      "learning_rate": 7.693279806077504e-06,
      "loss": 0.888,
      "step": 3050
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0197597990608975,
      "learning_rate": 7.68721624171602e-06,
      "loss": 0.887,
      "step": 3051
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.9063707605594256,
      "learning_rate": 7.681153575613098e-06,
      "loss": 0.8061,
      "step": 3052
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1197896068275899,
      "learning_rate": 7.675091810123404e-06,
      "loss": 0.9079,
      "step": 3053
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1020321771549724,
      "learning_rate": 7.669030947601265e-06,
      "loss": 0.9022,
      "step": 3054
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9934196029715868,
      "learning_rate": 7.662970990400647e-06,
      "loss": 0.757,
      "step": 3055
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3227847343195398,
      "learning_rate": 7.656911940875163e-06,
      "loss": 0.8485,
      "step": 3056
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1034306875387658,
      "learning_rate": 7.650853801378084e-06,
      "loss": 0.8867,
      "step": 3057
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9955026105503834,
      "learning_rate": 7.644796574262322e-06,
      "loss": 0.8081,
      "step": 3058
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8777493143767006,
      "learning_rate": 7.638740261880423e-06,
      "loss": 0.9413,
      "step": 3059
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3720359428010764,
      "learning_rate": 7.632684866584606e-06,
      "loss": 0.8685,
      "step": 3060
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2525385698103073,
      "learning_rate": 7.626630390726704e-06,
      "loss": 0.8656,
      "step": 3061
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0859994930644086,
      "learning_rate": 7.620576836658212e-06,
      "loss": 0.7098,
      "step": 3062
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.9495130503865931,
      "learning_rate": 7.61452420673026e-06,
      "loss": 0.7072,
      "step": 3063
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.232222397722095,
      "learning_rate": 7.608472503293615e-06,
      "loss": 0.7965,
      "step": 3064
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0361319008462764,
      "learning_rate": 7.60242172869869e-06,
      "loss": 0.8249,
      "step": 3065
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1352508255701412,
      "learning_rate": 7.596371885295542e-06,
      "loss": 0.6858,
      "step": 3066
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1702512727539682,
      "learning_rate": 7.590322975433857e-06,
      "loss": 0.9115,
      "step": 3067
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4163216316140157,
      "learning_rate": 7.584275001462961e-06,
      "loss": 0.9242,
      "step": 3068
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.8957794187463517,
      "learning_rate": 7.578227965731819e-06,
      "loss": 0.9252,
      "step": 3069
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3276405744787743,
      "learning_rate": 7.572181870589028e-06,
      "loss": 0.9127,
      "step": 3070
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1155941728532186,
      "learning_rate": 7.566136718382821e-06,
      "loss": 0.8456,
      "step": 3071
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3784106038511987,
      "learning_rate": 7.560092511461069e-06,
      "loss": 0.8702,
      "step": 3072
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1873113833761189,
      "learning_rate": 7.55404925217127e-06,
      "loss": 0.865,
      "step": 3073
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3318516739213353,
      "learning_rate": 7.548006942860557e-06,
      "loss": 0.7858,
      "step": 3074
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3011162071722522,
      "learning_rate": 7.541965585875695e-06,
      "loss": 0.8116,
      "step": 3075
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.6516125015739564,
      "learning_rate": 7.535925183563073e-06,
      "loss": 1.0053,
      "step": 3076
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.143990385611188,
      "learning_rate": 7.529885738268714e-06,
      "loss": 0.897,
      "step": 3077
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2696733325532357,
      "learning_rate": 7.523847252338274e-06,
      "loss": 0.9226,
      "step": 3078
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5418016972573918,
      "learning_rate": 7.51780972811703e-06,
      "loss": 0.863,
      "step": 3079
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3917873292039422,
      "learning_rate": 7.511773167949885e-06,
      "loss": 0.7853,
      "step": 3080
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.1004854036192508,
      "learning_rate": 7.5057375741813685e-06,
      "loss": 0.9398,
      "step": 3081
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2272223479024962,
      "learning_rate": 7.499702949155634e-06,
      "loss": 0.8649,
      "step": 3082
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5744775533917632,
      "learning_rate": 7.493669295216467e-06,
      "loss": 0.8954,
      "step": 3083
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.4481857151177142,
      "learning_rate": 7.487636614707265e-06,
      "loss": 0.8257,
      "step": 3084
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2211710380219183,
      "learning_rate": 7.48160490997105e-06,
      "loss": 0.8128,
      "step": 3085
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2647628747131503,
      "learning_rate": 7.475574183350471e-06,
      "loss": 0.789,
      "step": 3086
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2464329850461953,
      "learning_rate": 7.46954443718779e-06,
      "loss": 0.8705,
      "step": 3087
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.2527884768358557,
      "learning_rate": 7.463515673824888e-06,
      "loss": 0.8445,
      "step": 3088
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.7046072081285417,
      "learning_rate": 7.457487895603273e-06,
      "loss": 0.831,
      "step": 3089
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5590019528079757,
      "learning_rate": 7.451461104864061e-06,
      "loss": 0.8742,
      "step": 3090
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3408897271494193,
      "learning_rate": 7.44543530394799e-06,
      "loss": 0.7582,
      "step": 3091
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.195172620166662,
      "learning_rate": 7.439410495195411e-06,
      "loss": 0.8481,
      "step": 3092
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0688348839520814,
      "learning_rate": 7.433386680946288e-06,
      "loss": 0.7222,
      "step": 3093
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2015244935551728,
      "learning_rate": 7.427363863540202e-06,
      "loss": 0.7134,
      "step": 3094
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0617851664616342,
      "learning_rate": 7.421342045316351e-06,
      "loss": 0.8306,
      "step": 3095
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.36047340417024,
      "learning_rate": 7.415321228613534e-06,
      "loss": 0.9061,
      "step": 3096
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.362829766892325,
      "learning_rate": 7.409301415770168e-06,
      "loss": 0.8743,
      "step": 3097
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4215137142556324,
      "learning_rate": 7.403282609124281e-06,
      "loss": 0.8505,
      "step": 3098
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.7534364955743538,
      "learning_rate": 7.397264811013507e-06,
      "loss": 0.8439,
      "step": 3099
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1581797143104404,
      "learning_rate": 7.391248023775084e-06,
      "loss": 0.872,
      "step": 3100
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0285433369335812,
      "learning_rate": 7.385232249745873e-06,
      "loss": 0.7195,
      "step": 3101
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4383657712865665,
      "learning_rate": 7.379217491262325e-06,
      "loss": 0.8095,
      "step": 3102
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4416343373140494,
      "learning_rate": 7.373203750660505e-06,
      "loss": 0.831,
      "step": 3103
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4314682558802383,
      "learning_rate": 7.36719103027608e-06,
      "loss": 0.8024,
      "step": 3104
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1640615265237335,
      "learning_rate": 7.361179332444318e-06,
      "loss": 0.6564,
      "step": 3105
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1180565909415399,
      "learning_rate": 7.355168659500094e-06,
      "loss": 0.8553,
      "step": 3106
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1502912400308216,
      "learning_rate": 7.3491590137778915e-06,
      "loss": 0.8737,
      "step": 3107
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3240079022666733,
      "learning_rate": 7.343150397611782e-06,
      "loss": 0.9283,
      "step": 3108
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.438893802159003,
      "learning_rate": 7.3371428133354435e-06,
      "loss": 0.7729,
      "step": 3109
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4270912273013463,
      "learning_rate": 7.33113626328215e-06,
      "loss": 0.8787,
      "step": 3110
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.9153485574993665,
      "learning_rate": 7.325130749784781e-06,
      "loss": 0.726,
      "step": 3111
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2283081469279877,
      "learning_rate": 7.3191262751758005e-06,
      "loss": 0.8311,
      "step": 3112
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2275738028387886,
      "learning_rate": 7.3131228417872905e-06,
      "loss": 0.8841,
      "step": 3113
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0414531800927362,
      "learning_rate": 7.307120451950902e-06,
      "loss": 0.7494,
      "step": 3114
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1260490433440355,
      "learning_rate": 7.301119107997905e-06,
      "loss": 0.8775,
      "step": 3115
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3370594467377555,
      "learning_rate": 7.295118812259145e-06,
      "loss": 0.8078,
      "step": 3116
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1550919865101263,
      "learning_rate": 7.289119567065068e-06,
      "loss": 0.8358,
      "step": 3117
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2507145880567552,
      "learning_rate": 7.2831213747457155e-06,
      "loss": 0.7618,
      "step": 3118
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.3556592571050818,
      "learning_rate": 7.2771242376307125e-06,
      "loss": 0.8663,
      "step": 3119
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.247964491013027,
      "learning_rate": 7.271128158049283e-06,
      "loss": 0.8599,
      "step": 3120
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1135507286750244,
      "learning_rate": 7.2651331383302326e-06,
      "loss": 0.8156,
      "step": 3121
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5478083148714779,
      "learning_rate": 7.2591391808019555e-06,
      "loss": 0.8362,
      "step": 3122
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.4749651776462491,
      "learning_rate": 7.253146287792434e-06,
      "loss": 0.8546,
      "step": 3123
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2875562409115182,
      "learning_rate": 7.247154461629248e-06,
      "loss": 0.7802,
      "step": 3124
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0452749607215932,
      "learning_rate": 7.241163704639547e-06,
      "loss": 0.7769,
      "step": 3125
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1952956364414467,
      "learning_rate": 7.235174019150071e-06,
      "loss": 0.8522,
      "step": 3126
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5533804522529877,
      "learning_rate": 7.229185407487149e-06,
      "loss": 0.9101,
      "step": 3127
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0849601799681567,
      "learning_rate": 7.2231978719766884e-06,
      "loss": 0.749,
      "step": 3128
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1797532945878653,
      "learning_rate": 7.217211414944171e-06,
      "loss": 0.8309,
      "step": 3129
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0937687150597224,
      "learning_rate": 7.2112260387146784e-06,
      "loss": 0.8199,
      "step": 3130
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1099028473299333,
      "learning_rate": 7.2052417456128565e-06,
      "loss": 0.7817,
      "step": 3131
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.5277966052977507,
      "learning_rate": 7.199258537962936e-06,
      "loss": 0.8274,
      "step": 3132
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0748316442577606,
      "learning_rate": 7.193276418088729e-06,
      "loss": 0.8607,
      "step": 3133
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.259029004509956,
      "learning_rate": 7.187295388313618e-06,
      "loss": 0.8549,
      "step": 3134
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1378493290723783,
      "learning_rate": 7.181315450960562e-06,
      "loss": 0.8111,
      "step": 3135
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1628855313204587,
      "learning_rate": 7.175336608352113e-06,
      "loss": 0.8081,
      "step": 3136
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.6200936185238777,
      "learning_rate": 7.169358862810374e-06,
      "loss": 0.9437,
      "step": 3137
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0765602329275956,
      "learning_rate": 7.163382216657033e-06,
      "loss": 0.8403,
      "step": 3138
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0697996864918597,
      "learning_rate": 7.1574066722133565e-06,
      "loss": 0.9024,
      "step": 3139
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.0339890663230056,
      "learning_rate": 7.151432231800173e-06,
      "loss": 0.7948,
      "step": 3140
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1334445421303403,
      "learning_rate": 7.145458897737882e-06,
      "loss": 0.7814,
      "step": 3141
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.1826831421624537,
      "learning_rate": 7.139486672346466e-06,
      "loss": 0.8809,
      "step": 3142
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.996094818675646,
      "learning_rate": 7.133515557945463e-06,
      "loss": 0.7577,
      "step": 3143
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.559172910209433,
      "learning_rate": 7.12754555685399e-06,
      "loss": 0.8914,
      "step": 3144
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0271283914837166,
      "learning_rate": 7.121576671390722e-06,
      "loss": 0.733,
      "step": 3145
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2601012729056178,
      "learning_rate": 7.115608903873905e-06,
      "loss": 0.8623,
      "step": 3146
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.027360404717227,
      "learning_rate": 7.109642256621353e-06,
      "loss": 0.8558,
      "step": 3147
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3832606228319035,
      "learning_rate": 7.103676731950443e-06,
      "loss": 0.8352,
      "step": 3148
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.527289052383841,
      "learning_rate": 7.0977123321781176e-06,
      "loss": 0.9451,
      "step": 3149
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0366474023392303,
      "learning_rate": 7.091749059620881e-06,
      "loss": 0.754,
      "step": 3150
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1393438535310612,
      "learning_rate": 7.0857869165947945e-06,
      "loss": 0.7633,
      "step": 3151
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.3459295347427322,
      "learning_rate": 7.079825905415491e-06,
      "loss": 0.841,
      "step": 3152
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9930885580688731,
      "learning_rate": 7.073866028398153e-06,
      "loss": 0.8079,
      "step": 3153
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0842418167339456,
      "learning_rate": 7.067907287857535e-06,
      "loss": 0.9199,
      "step": 3154
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5574409576502244,
      "learning_rate": 7.061949686107938e-06,
      "loss": 0.8849,
      "step": 3155
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1690531362633623,
      "learning_rate": 7.0559932254632315e-06,
      "loss": 0.9579,
      "step": 3156
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.254144902855004,
      "learning_rate": 7.0500379082368305e-06,
      "loss": 0.9111,
      "step": 3157
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7413469011171696,
      "learning_rate": 7.044083736741711e-06,
      "loss": 0.9307,
      "step": 3158
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0933993876005634,
      "learning_rate": 7.03813071329041e-06,
      "loss": 0.7996,
      "step": 3159
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0706627533279856,
      "learning_rate": 7.032178840195009e-06,
      "loss": 0.8086,
      "step": 3160
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2159491363512471,
      "learning_rate": 7.026228119767149e-06,
      "loss": 0.7925,
      "step": 3161
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4425082145756387,
      "learning_rate": 7.020278554318023e-06,
      "loss": 0.9446,
      "step": 3162
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0135245620394087,
      "learning_rate": 7.014330146158367e-06,
      "loss": 0.7369,
      "step": 3163
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1071387619511257,
      "learning_rate": 7.008382897598477e-06,
      "loss": 0.7713,
      "step": 3164
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1568871353420427,
      "learning_rate": 7.002436810948201e-06,
      "loss": 0.8277,
      "step": 3165
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9785070037033707,
      "learning_rate": 6.996491888516927e-06,
      "loss": 0.7925,
      "step": 3166
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2609664221168255,
      "learning_rate": 6.990548132613592e-06,
      "loss": 0.8675,
      "step": 3167
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5355407485703843,
      "learning_rate": 6.984605545546686e-06,
      "loss": 0.9055,
      "step": 3168
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1019878175095843,
      "learning_rate": 6.978664129624241e-06,
      "loss": 0.8284,
      "step": 3169
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.5199171749298201,
      "learning_rate": 6.972723887153828e-06,
      "loss": 0.9132,
      "step": 3170
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0406371680291477,
      "learning_rate": 6.9667848204425785e-06,
      "loss": 0.7151,
      "step": 3171
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2697376829818385,
      "learning_rate": 6.960846931797152e-06,
      "loss": 0.7691,
      "step": 3172
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6211964287469531,
      "learning_rate": 6.9549102235237565e-06,
      "loss": 0.8222,
      "step": 3173
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.6068981810649063,
      "learning_rate": 6.948974697928144e-06,
      "loss": 0.9399,
      "step": 3174
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4272968956607197,
      "learning_rate": 6.943040357315598e-06,
      "loss": 0.8513,
      "step": 3175
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.342705608908919,
      "learning_rate": 6.9371072039909515e-06,
      "loss": 0.9071,
      "step": 3176
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.7746574306342038,
      "learning_rate": 6.931175240258576e-06,
      "loss": 0.9124,
      "step": 3177
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2654204549156762,
      "learning_rate": 6.9252444684223765e-06,
      "loss": 0.915,
      "step": 3178
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.4231624031371335,
      "learning_rate": 6.919314890785793e-06,
      "loss": 0.8417,
      "step": 3179
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2224450869766068,
      "learning_rate": 6.913386509651807e-06,
      "loss": 0.7665,
      "step": 3180
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.0887229556623121,
      "learning_rate": 6.907459327322934e-06,
      "loss": 0.8796,
      "step": 3181
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9929894602830794,
      "learning_rate": 6.90153334610122e-06,
      "loss": 0.809,
      "step": 3182
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.459568262717718,
      "learning_rate": 6.895608568288255e-06,
      "loss": 0.8607,
      "step": 3183
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1262179245863866,
      "learning_rate": 6.889684996185148e-06,
      "loss": 0.8488,
      "step": 3184
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1152340501494193,
      "learning_rate": 6.88376263209255e-06,
      "loss": 0.8194,
      "step": 3185
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.179757781256232,
      "learning_rate": 6.877841478310639e-06,
      "loss": 0.8469,
      "step": 3186
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1831062157880854,
      "learning_rate": 6.871921537139117e-06,
      "loss": 0.8363,
      "step": 3187
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2270016354890578,
      "learning_rate": 6.866002810877224e-06,
      "loss": 0.9292,
      "step": 3188
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1926547957950853,
      "learning_rate": 6.860085301823729e-06,
      "loss": 0.8353,
      "step": 3189
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1099120714436743,
      "learning_rate": 6.854169012276923e-06,
      "loss": 0.7781,
      "step": 3190
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2261751092398416,
      "learning_rate": 6.848253944534622e-06,
      "loss": 0.8778,
      "step": 3191
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1140956524544754,
      "learning_rate": 6.84234010089417e-06,
      "loss": 0.7495,
      "step": 3192
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9982933131634887,
      "learning_rate": 6.836427483652436e-06,
      "loss": 0.8362,
      "step": 3193
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1921255121514471,
      "learning_rate": 6.830516095105817e-06,
      "loss": 0.8959,
      "step": 3194
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.20262086395518,
      "learning_rate": 6.824605937550224e-06,
      "loss": 0.7986,
      "step": 3195
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2319685189780782,
      "learning_rate": 6.818697013281093e-06,
      "loss": 0.879,
      "step": 3196
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.967809432262049,
      "learning_rate": 6.8127893245933864e-06,
      "loss": 0.8098,
      "step": 3197
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0716805453459552,
      "learning_rate": 6.806882873781579e-06,
      "loss": 0.7525,
      "step": 3198
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3647226034746245,
      "learning_rate": 6.800977663139666e-06,
      "loss": 0.9729,
      "step": 3199
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6318836387816895,
      "learning_rate": 6.795073694961171e-06,
      "loss": 0.9117,
      "step": 3200
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4162081362318208,
      "learning_rate": 6.789170971539119e-06,
      "loss": 0.9024,
      "step": 3201
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1042668191080378,
      "learning_rate": 6.783269495166066e-06,
      "loss": 0.7214,
      "step": 3202
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2224251007614828,
      "learning_rate": 6.777369268134076e-06,
      "loss": 0.8457,
      "step": 3203
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3534332308110664,
      "learning_rate": 6.771470292734723e-06,
      "loss": 0.9214,
      "step": 3204
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2187638675530408,
      "learning_rate": 6.7655725712591055e-06,
      "loss": 0.8264,
      "step": 3205
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.116567262168082,
      "learning_rate": 6.759676105997834e-06,
      "loss": 0.7802,
      "step": 3206
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0037977653084142,
      "learning_rate": 6.753780899241027e-06,
      "loss": 0.7928,
      "step": 3207
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0752217456710926,
      "learning_rate": 6.747886953278311e-06,
      "loss": 0.7364,
      "step": 3208
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1294744630689744,
      "learning_rate": 6.741994270398826e-06,
      "loss": 0.8808,
      "step": 3209
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4039208251207689,
      "learning_rate": 6.736102852891227e-06,
      "loss": 0.8427,
      "step": 3210
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5907807807740884,
      "learning_rate": 6.730212703043666e-06,
      "loss": 0.8157,
      "step": 3211
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.162196254888612,
      "learning_rate": 6.7243238231438176e-06,
      "loss": 0.8381,
      "step": 3212
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0257425623877472,
      "learning_rate": 6.718436215478849e-06,
      "loss": 0.7948,
      "step": 3213
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4548519006667147,
      "learning_rate": 6.712549882335442e-06,
      "loss": 0.8274,
      "step": 3214
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3489684150722867,
      "learning_rate": 6.70666482599978e-06,
      "loss": 0.7318,
      "step": 3215
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.610543165033783,
      "learning_rate": 6.7007810487575475e-06,
      "loss": 0.8801,
      "step": 3216
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.100765775036383,
      "learning_rate": 6.694898552893941e-06,
      "loss": 0.9008,
      "step": 3217
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0717169875005885,
      "learning_rate": 6.6890173406936485e-06,
      "loss": 0.8518,
      "step": 3218
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.055373431930571,
      "learning_rate": 6.683137414440872e-06,
      "loss": 0.8254,
      "step": 3219
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1708325674938247,
      "learning_rate": 6.677258776419304e-06,
      "loss": 0.7557,
      "step": 3220
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2079606750515308,
      "learning_rate": 6.671381428912138e-06,
      "loss": 0.8656,
      "step": 3221
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1856402178944234,
      "learning_rate": 6.66550537420207e-06,
      "loss": 0.8693,
      "step": 3222
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2521886157746527,
      "learning_rate": 6.659630614571287e-06,
      "loss": 0.9233,
      "step": 3223
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3079503077007284,
      "learning_rate": 6.653757152301488e-06,
      "loss": 0.8006,
      "step": 3224
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2560386235015568,
      "learning_rate": 6.647884989673849e-06,
      "loss": 0.8281,
      "step": 3225
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.6325712396485912,
      "learning_rate": 6.642014128969055e-06,
      "loss": 0.9032,
      "step": 3226
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.3931610146829714,
      "learning_rate": 6.63614457246728e-06,
      "loss": 0.7815,
      "step": 3227
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2891272571943997,
      "learning_rate": 6.630276322448188e-06,
      "loss": 0.7964,
      "step": 3228
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.1871180704444182,
      "learning_rate": 6.624409381190946e-06,
      "loss": 0.8725,
      "step": 3229
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.015326265040046,
      "learning_rate": 6.618543750974202e-06,
      "loss": 0.8149,
      "step": 3230
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.448425112610122,
      "learning_rate": 6.6126794340761025e-06,
      "loss": 0.8285,
      "step": 3231
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2202970466386278,
      "learning_rate": 6.606816432774279e-06,
      "loss": 0.7469,
      "step": 3232
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4841382895131658,
      "learning_rate": 6.600954749345851e-06,
      "loss": 0.9193,
      "step": 3233
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2688687323434102,
      "learning_rate": 6.595094386067428e-06,
      "loss": 0.925,
      "step": 3234
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.212591153682156,
      "learning_rate": 6.589235345215117e-06,
      "loss": 0.8446,
      "step": 3235
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.995400206026704,
      "learning_rate": 6.583377629064494e-06,
      "loss": 0.6901,
      "step": 3236
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.976812843302107,
      "learning_rate": 6.5775212398906295e-06,
      "loss": 0.8555,
      "step": 3237
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2379737436082383,
      "learning_rate": 6.571666179968079e-06,
      "loss": 0.834,
      "step": 3238
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.044515915471361,
      "learning_rate": 6.565812451570881e-06,
      "loss": 0.8584,
      "step": 3239
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2618977224888863,
      "learning_rate": 6.5599600569725495e-06,
      "loss": 0.897,
      "step": 3240
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.5058693013439233,
      "learning_rate": 6.554108998446096e-06,
      "loss": 0.8943,
      "step": 3241
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.7555769411021234,
      "learning_rate": 6.548259278263999e-06,
      "loss": 0.8725,
      "step": 3242
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2331004420823226,
      "learning_rate": 6.542410898698226e-06,
      "loss": 0.8891,
      "step": 3243
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.9384188860081061,
      "learning_rate": 6.536563862020218e-06,
      "loss": 0.7942,
      "step": 3244
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.2052669547226085,
      "learning_rate": 6.530718170500896e-06,
      "loss": 0.8232,
      "step": 3245
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.981691267499976,
      "learning_rate": 6.524873826410658e-06,
      "loss": 0.7659,
      "step": 3246
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4220774560148244,
      "learning_rate": 6.519030832019383e-06,
      "loss": 0.9325,
      "step": 3247
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4288653142341083,
      "learning_rate": 6.513189189596422e-06,
      "loss": 0.8764,
      "step": 3248
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3927812127257537,
      "learning_rate": 6.507348901410604e-06,
      "loss": 0.9486,
      "step": 3249
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.070961323091321,
      "learning_rate": 6.501509969730224e-06,
      "loss": 0.8788,
      "step": 3250
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0352922892249368,
      "learning_rate": 6.495672396823061e-06,
      "loss": 0.7729,
      "step": 3251
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2401892762732774,
      "learning_rate": 6.489836184956353e-06,
      "loss": 0.7369,
      "step": 3252
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.511343468615057,
      "learning_rate": 6.484001336396828e-06,
      "loss": 0.8788,
      "step": 3253
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2048742115606068,
      "learning_rate": 6.478167853410668e-06,
      "loss": 0.8371,
      "step": 3254
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3365570398680835,
      "learning_rate": 6.472335738263534e-06,
      "loss": 0.8554,
      "step": 3255
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1503760560753367,
      "learning_rate": 6.466504993220548e-06,
      "loss": 0.831,
      "step": 3256
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3589898360560144,
      "learning_rate": 6.460675620546305e-06,
      "loss": 0.7989,
      "step": 3257
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0089640109079931,
      "learning_rate": 6.454847622504867e-06,
      "loss": 0.8786,
      "step": 3258
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.197609543799446,
      "learning_rate": 6.4490210013597635e-06,
      "loss": 0.8021,
      "step": 3259
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.327071885367802,
      "learning_rate": 6.4431957593739845e-06,
      "loss": 0.9294,
      "step": 3260
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0455104639668928,
      "learning_rate": 6.4373718988099896e-06,
      "loss": 0.783,
      "step": 3261
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0766884895195075,
      "learning_rate": 6.431549421929694e-06,
      "loss": 0.7645,
      "step": 3262
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.206974057891939,
      "learning_rate": 6.4257283309944804e-06,
      "loss": 0.7684,
      "step": 3263
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2002904482181804,
      "learning_rate": 6.419908628265203e-06,
      "loss": 0.7736,
      "step": 3264
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3747900452357744,
      "learning_rate": 6.414090316002161e-06,
      "loss": 0.8653,
      "step": 3265
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.168589627497364,
      "learning_rate": 6.4082733964651166e-06,
      "loss": 0.9493,
      "step": 3266
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9675097007509255,
      "learning_rate": 6.4024578719133e-06,
      "loss": 0.775,
      "step": 3267
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.2404193448444953,
      "learning_rate": 6.396643744605391e-06,
      "loss": 0.8532,
      "step": 3268
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.216230906628417,
      "learning_rate": 6.390831016799527e-06,
      "loss": 0.8201,
      "step": 3269
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1050638857652597,
      "learning_rate": 6.385019690753311e-06,
      "loss": 0.8177,
      "step": 3270
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1138292641114471,
      "learning_rate": 6.379209768723791e-06,
      "loss": 0.8573,
      "step": 3271
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2815623124446187,
      "learning_rate": 6.373401252967475e-06,
      "loss": 0.8124,
      "step": 3272
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.430270270029322,
      "learning_rate": 6.367594145740324e-06,
      "loss": 0.8636,
      "step": 3273
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1879227806767458,
      "learning_rate": 6.361788449297748e-06,
      "loss": 0.7443,
      "step": 3274
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4075393481359229,
      "learning_rate": 6.355984165894613e-06,
      "loss": 0.914,
      "step": 3275
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.333400795547414,
      "learning_rate": 6.350181297785242e-06,
      "loss": 0.8288,
      "step": 3276
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.5475206493719185,
      "learning_rate": 6.344379847223398e-06,
      "loss": 0.7748,
      "step": 3277
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6523233648039206,
      "learning_rate": 6.338579816462298e-06,
      "loss": 0.8938,
      "step": 3278
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4251577660161812,
      "learning_rate": 6.332781207754605e-06,
      "loss": 0.9181,
      "step": 3279
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.508291882784779,
      "learning_rate": 6.326984023352435e-06,
      "loss": 0.9162,
      "step": 3280
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4330459400401256,
      "learning_rate": 6.321188265507342e-06,
      "loss": 0.9109,
      "step": 3281
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2856474509461395,
      "learning_rate": 6.31539393647034e-06,
      "loss": 0.89,
      "step": 3282
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1331913548850752,
      "learning_rate": 6.309601038491874e-06,
      "loss": 0.6517,
      "step": 3283
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.077016846831874,
      "learning_rate": 6.303809573821842e-06,
      "loss": 0.8233,
      "step": 3284
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.4187822737231646,
      "learning_rate": 6.298019544709579e-06,
      "loss": 0.8603,
      "step": 3285
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.365133669963259,
      "learning_rate": 6.292230953403866e-06,
      "loss": 0.8941,
      "step": 3286
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3981223012560184,
      "learning_rate": 6.286443802152926e-06,
      "loss": 0.9242,
      "step": 3287
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0943389622416542,
      "learning_rate": 6.280658093204422e-06,
      "loss": 0.7837,
      "step": 3288
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0794661225432787,
      "learning_rate": 6.274873828805459e-06,
      "loss": 0.7968,
      "step": 3289
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.1649369149461661,
      "learning_rate": 6.269091011202576e-06,
      "loss": 0.8622,
      "step": 3290
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2347929043774963,
      "learning_rate": 6.263309642641751e-06,
      "loss": 0.7485,
      "step": 3291
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.7460394099866559,
      "learning_rate": 6.257529725368405e-06,
      "loss": 0.8048,
      "step": 3292
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.3620192314154642,
      "learning_rate": 6.251751261627386e-06,
      "loss": 0.8958,
      "step": 3293
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2547123420273254,
      "learning_rate": 6.245974253662988e-06,
      "loss": 0.8746,
      "step": 3294
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2698533218165495,
      "learning_rate": 6.240198703718932e-06,
      "loss": 0.7795,
      "step": 3295
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0390790856443095,
      "learning_rate": 6.234424614038375e-06,
      "loss": 0.7699,
      "step": 3296
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.2014958140618526,
      "learning_rate": 6.2286519868639095e-06,
      "loss": 0.8463,
      "step": 3297
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0000362459520582,
      "learning_rate": 6.222880824437549e-06,
      "loss": 0.7994,
      "step": 3298
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.579907493549433,
      "learning_rate": 6.217111129000759e-06,
      "loss": 0.8726,
      "step": 3299
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.110420181734132,
      "learning_rate": 6.211342902794413e-06,
      "loss": 0.7701,
      "step": 3300
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2102639749788866,
      "learning_rate": 6.205576148058828e-06,
      "loss": 0.8334,
      "step": 3301
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.813144819373384,
      "learning_rate": 6.199810867033745e-06,
      "loss": 0.9212,
      "step": 3302
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2077429191112667,
      "learning_rate": 6.19404706195833e-06,
      "loss": 0.8725,
      "step": 3303
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3606565117231555,
      "learning_rate": 6.188284735071177e-06,
      "loss": 0.8877,
      "step": 3304
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0991644546779862,
      "learning_rate": 6.182523888610316e-06,
      "loss": 0.8496,
      "step": 3305
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9820291846328721,
      "learning_rate": 6.176764524813187e-06,
      "loss": 0.8226,
      "step": 3306
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.8967214145495557,
      "learning_rate": 6.171006645916662e-06,
      "loss": 0.8574,
      "step": 3307
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2993174505964267,
      "learning_rate": 6.165250254157032e-06,
      "loss": 0.8051,
      "step": 3308
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9924204918398224,
      "learning_rate": 6.159495351770017e-06,
      "loss": 0.8344,
      "step": 3309
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0834014274462382,
      "learning_rate": 6.153741940990749e-06,
      "loss": 0.8341,
      "step": 3310
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6862886273104005,
      "learning_rate": 6.1479900240537956e-06,
      "loss": 0.9076,
      "step": 3311
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1622022371295004,
      "learning_rate": 6.142239603193128e-06,
      "loss": 0.8501,
      "step": 3312
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2073167741739301,
      "learning_rate": 6.136490680642146e-06,
      "loss": 0.9115,
      "step": 3313
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1200406826635392,
      "learning_rate": 6.130743258633667e-06,
      "loss": 0.8816,
      "step": 3314
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5117302810675197,
      "learning_rate": 6.124997339399916e-06,
      "loss": 0.9071,
      "step": 3315
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2138093793044173,
      "learning_rate": 6.119252925172549e-06,
      "loss": 0.8127,
      "step": 3316
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.366656531021273,
      "learning_rate": 6.113510018182628e-06,
      "loss": 0.8865,
      "step": 3317
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.647274049697113,
      "learning_rate": 6.107768620660633e-06,
      "loss": 0.8294,
      "step": 3318
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.6983656703987244,
      "learning_rate": 6.102028734836456e-06,
      "loss": 0.8806,
      "step": 3319
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5575473255526375,
      "learning_rate": 6.0962903629394e-06,
      "loss": 0.6816,
      "step": 3320
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.240571986075866,
      "learning_rate": 6.090553507198187e-06,
      "loss": 0.8392,
      "step": 3321
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.5138212394853063,
      "learning_rate": 6.0848181698409384e-06,
      "loss": 0.9412,
      "step": 3322
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0890814844013352,
      "learning_rate": 6.079084353095202e-06,
      "loss": 0.8558,
      "step": 3323
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2533437042244047,
      "learning_rate": 6.07335205918792e-06,
      "loss": 0.8151,
      "step": 3324
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1611888208668966,
      "learning_rate": 6.067621290345455e-06,
      "loss": 0.8922,
      "step": 3325
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.067907424983754,
      "learning_rate": 6.061892048793568e-06,
      "loss": 0.8131,
      "step": 3326
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2638429210159527,
      "learning_rate": 6.056164336757426e-06,
      "loss": 0.8644,
      "step": 3327
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0395430685091387,
      "learning_rate": 6.050438156461613e-06,
      "loss": 0.773,
      "step": 3328
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0883789185506443,
      "learning_rate": 6.044713510130108e-06,
      "loss": 0.8157,
      "step": 3329
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9685915514070587,
      "learning_rate": 6.038990399986302e-06,
      "loss": 0.7352,
      "step": 3330
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1185661194854752,
      "learning_rate": 6.03326882825298e-06,
      "loss": 0.8357,
      "step": 3331
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3885652575628593,
      "learning_rate": 6.027548797152336e-06,
      "loss": 0.8441,
      "step": 3332
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.236512669240893,
      "learning_rate": 6.021830308905963e-06,
      "loss": 0.7702,
      "step": 3333
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0111594322540294,
      "learning_rate": 6.016113365734861e-06,
      "loss": 0.7908,
      "step": 3334
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3317404734473255,
      "learning_rate": 6.0103979698594215e-06,
      "loss": 0.8022,
      "step": 3335
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4930680894664423,
      "learning_rate": 6.004684123499436e-06,
      "loss": 0.7962,
      "step": 3336
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4323252804380893,
      "learning_rate": 5.998971828874102e-06,
      "loss": 0.7851,
      "step": 3337
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.632032676755958,
      "learning_rate": 5.993261088202005e-06,
      "loss": 0.9029,
      "step": 3338
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.1809586204064504,
      "learning_rate": 5.987551903701128e-06,
      "loss": 0.845,
      "step": 3339
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9513151640540511,
      "learning_rate": 5.9818442775888595e-06,
      "loss": 0.6462,
      "step": 3340
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.875934518941671,
      "learning_rate": 5.97613821208197e-06,
      "loss": 0.8412,
      "step": 3341
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2543247024534536,
      "learning_rate": 5.970433709396635e-06,
      "loss": 0.8922,
      "step": 3342
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0036844671167593,
      "learning_rate": 5.964730771748415e-06,
      "loss": 0.8186,
      "step": 3343
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3733114815776428,
      "learning_rate": 5.959029401352262e-06,
      "loss": 0.9528,
      "step": 3344
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.4547035080677344,
      "learning_rate": 5.953329600422524e-06,
      "loss": 0.8624,
      "step": 3345
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.299808139997063,
      "learning_rate": 5.947631371172943e-06,
      "loss": 0.896,
      "step": 3346
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.421281986971206,
      "learning_rate": 5.941934715816642e-06,
      "loss": 0.8009,
      "step": 3347
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2661337933568764,
      "learning_rate": 5.936239636566137e-06,
      "loss": 0.8361,
      "step": 3348
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2506909643715427,
      "learning_rate": 5.930546135633327e-06,
      "loss": 0.7156,
      "step": 3349
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.2533131021693793,
      "learning_rate": 5.924854215229509e-06,
      "loss": 0.8495,
      "step": 3350
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.0450147879371405,
      "learning_rate": 5.919163877565351e-06,
      "loss": 0.8155,
      "step": 3351
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.483045026733512,
      "learning_rate": 5.9134751248509236e-06,
      "loss": 0.8496,
      "step": 3352
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1748879235525513,
      "learning_rate": 5.9077879592956675e-06,
      "loss": 0.8745,
      "step": 3353
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.162460371713242,
      "learning_rate": 5.902102383108415e-06,
      "loss": 0.8048,
      "step": 3354
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2673373890116197,
      "learning_rate": 5.896418398497377e-06,
      "loss": 0.936,
      "step": 3355
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.115683159661234,
      "learning_rate": 5.890736007670144e-06,
      "loss": 0.8346,
      "step": 3356
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.351954475140111,
      "learning_rate": 5.885055212833696e-06,
      "loss": 0.9374,
      "step": 3357
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.166098769616519,
      "learning_rate": 5.879376016194387e-06,
      "loss": 0.8054,
      "step": 3358
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0351586031437165,
      "learning_rate": 5.873698419957952e-06,
      "loss": 0.7872,
      "step": 3359
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.275749055040974,
      "learning_rate": 5.8680224263295045e-06,
      "loss": 0.8914,
      "step": 3360
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0031789633080328,
      "learning_rate": 5.862348037513533e-06,
      "loss": 0.86,
      "step": 3361
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.089204611157909,
      "learning_rate": 5.856675255713905e-06,
      "loss": 0.7028,
      "step": 3362
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3900897664969942,
      "learning_rate": 5.851004083133862e-06,
      "loss": 0.8383,
      "step": 3363
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2060359980413098,
      "learning_rate": 5.8453345219760275e-06,
      "loss": 0.8088,
      "step": 3364
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.207193601169408,
      "learning_rate": 5.839666574442389e-06,
      "loss": 0.7375,
      "step": 3365
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3652721189703347,
      "learning_rate": 5.834000242734317e-06,
      "loss": 0.8648,
      "step": 3366
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0927268347292858,
      "learning_rate": 5.828335529052541e-06,
      "loss": 0.8252,
      "step": 3367
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0494640031527454,
      "learning_rate": 5.822672435597172e-06,
      "loss": 0.8744,
      "step": 3368
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9746948046596298,
      "learning_rate": 5.817010964567702e-06,
      "loss": 0.783,
      "step": 3369
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.8900180832803506,
      "learning_rate": 5.811351118162969e-06,
      "loss": 0.7535,
      "step": 3370
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1952343346206284,
      "learning_rate": 5.805692898581196e-06,
      "loss": 0.7653,
      "step": 3371
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2409401625649945,
      "learning_rate": 5.800036308019974e-06,
      "loss": 0.9112,
      "step": 3372
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4245903319290771,
      "learning_rate": 5.79438134867625e-06,
      "loss": 0.8379,
      "step": 3373
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1222969262922675,
      "learning_rate": 5.788728022746348e-06,
      "loss": 0.7841,
      "step": 3374
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1262368575863697,
      "learning_rate": 5.783076332425957e-06,
      "loss": 0.8719,
      "step": 3375
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0261715158927296,
      "learning_rate": 5.777426279910125e-06,
      "loss": 0.7683,
      "step": 3376
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9783113681877842,
      "learning_rate": 5.771777867393275e-06,
      "loss": 0.8289,
      "step": 3377
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9971152654148202,
      "learning_rate": 5.766131097069174e-06,
      "loss": 0.7544,
      "step": 3378
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.4334798947605412,
      "learning_rate": 5.760485971130969e-06,
      "loss": 0.8852,
      "step": 3379
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0985513546733083,
      "learning_rate": 5.7548424917711596e-06,
      "loss": 0.7959,
      "step": 3380
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1891156788268131,
      "learning_rate": 5.749200661181611e-06,
      "loss": 0.8087,
      "step": 3381
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0787222968184949,
      "learning_rate": 5.7435604815535475e-06,
      "loss": 0.7948,
      "step": 3382
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.6516991190898074,
      "learning_rate": 5.7379219550775415e-06,
      "loss": 0.781,
      "step": 3383
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0447744327873627,
      "learning_rate": 5.732285083943537e-06,
      "loss": 0.7885,
      "step": 3384
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.27641116119789,
      "learning_rate": 5.726649870340833e-06,
      "loss": 0.8615,
      "step": 3385
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1071235830655661,
      "learning_rate": 5.721016316458068e-06,
      "loss": 0.8196,
      "step": 3386
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1293631902651446,
      "learning_rate": 5.715384424483268e-06,
      "loss": 0.8475,
      "step": 3387
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2861662565617336,
      "learning_rate": 5.709754196603781e-06,
      "loss": 0.8351,
      "step": 3388
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.268836005831267,
      "learning_rate": 5.704125635006329e-06,
      "loss": 0.8675,
      "step": 3389
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.265362546045998,
      "learning_rate": 5.6984987418769825e-06,
      "loss": 0.8343,
      "step": 3390
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.074837558849536,
      "learning_rate": 5.692873519401154e-06,
      "loss": 0.8058,
      "step": 3391
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3252997980903876,
      "learning_rate": 5.6872499697636195e-06,
      "loss": 0.9157,
      "step": 3392
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5723495487655685,
      "learning_rate": 5.681628095148502e-06,
      "loss": 0.7778,
      "step": 3393
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.9172999796791032,
      "learning_rate": 5.6760078977392706e-06,
      "loss": 0.7132,
      "step": 3394
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2613882500745064,
      "learning_rate": 5.67038937971875e-06,
      "loss": 0.7414,
      "step": 3395
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.070944686818365,
      "learning_rate": 5.664772543269101e-06,
      "loss": 0.7754,
      "step": 3396
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.422761464424541,
      "learning_rate": 5.659157390571842e-06,
      "loss": 0.8806,
      "step": 3397
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0241107539384937,
      "learning_rate": 5.653543923807833e-06,
      "loss": 0.8146,
      "step": 3398
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.5303124745069339,
      "learning_rate": 5.6479321451572785e-06,
      "loss": 0.9717,
      "step": 3399
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0382808998349864,
      "learning_rate": 5.642322056799732e-06,
      "loss": 0.8532,
      "step": 3400
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.325541647447562,
      "learning_rate": 5.636713660914087e-06,
      "loss": 0.8872,
      "step": 3401
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.1575087167113502,
      "learning_rate": 5.631106959678575e-06,
      "loss": 0.8957,
      "step": 3402
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.3211023592795283,
      "learning_rate": 5.625501955270777e-06,
      "loss": 0.8847,
      "step": 3403
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.2530686977038559,
      "learning_rate": 5.619898649867612e-06,
      "loss": 0.8551,
      "step": 3404
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0930615591573758,
      "learning_rate": 5.614297045645339e-06,
      "loss": 0.7548,
      "step": 3405
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.040379030110844,
      "learning_rate": 5.6086971447795625e-06,
      "loss": 0.7722,
      "step": 3406
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6041415278882227,
      "learning_rate": 5.603098949445209e-06,
      "loss": 0.8542,
      "step": 3407
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.351821626852617,
      "learning_rate": 5.597502461816557e-06,
      "loss": 0.9526,
      "step": 3408
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0372237727907403,
      "learning_rate": 5.5919076840672215e-06,
      "loss": 0.8335,
      "step": 3409
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1243968744307709,
      "learning_rate": 5.5863146183701454e-06,
      "loss": 0.8542,
      "step": 3410
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.292786139445847,
      "learning_rate": 5.580723266897616e-06,
      "loss": 0.8946,
      "step": 3411
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1752323401249074,
      "learning_rate": 5.575133631821243e-06,
      "loss": 0.8241,
      "step": 3412
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0970411435324843,
      "learning_rate": 5.5695457153119806e-06,
      "loss": 0.7842,
      "step": 3413
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3655949731685693,
      "learning_rate": 5.563959519540114e-06,
      "loss": 0.9249,
      "step": 3414
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1116296874634644,
      "learning_rate": 5.558375046675244e-06,
      "loss": 0.8295,
      "step": 3415
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.153636554705102,
      "learning_rate": 5.552792298886335e-06,
      "loss": 0.8487,
      "step": 3416
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2051795234016227,
      "learning_rate": 5.547211278341646e-06,
      "loss": 0.7557,
      "step": 3417
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.6158449689255854,
      "learning_rate": 5.541631987208789e-06,
      "loss": 0.8864,
      "step": 3418
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2632201869236883,
      "learning_rate": 5.536054427654698e-06,
      "loss": 0.8083,
      "step": 3419
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.573931948919603,
      "learning_rate": 5.530478601845624e-06,
      "loss": 0.957,
      "step": 3420
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2049782489799756,
      "learning_rate": 5.52490451194716e-06,
      "loss": 0.8258,
      "step": 3421
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.270053374687614,
      "learning_rate": 5.519332160124215e-06,
      "loss": 0.7938,
      "step": 3422
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0792068136678212,
      "learning_rate": 5.513761548541032e-06,
      "loss": 0.8719,
      "step": 3423
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.173667887752993,
      "learning_rate": 5.508192679361169e-06,
      "loss": 0.8309,
      "step": 3424
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2001811384414756,
      "learning_rate": 5.502625554747508e-06,
      "loss": 0.855,
      "step": 3425
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3421421692984754,
      "learning_rate": 5.497060176862259e-06,
      "loss": 0.8872,
      "step": 3426
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2387651233647299,
      "learning_rate": 5.491496547866948e-06,
      "loss": 0.8473,
      "step": 3427
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3476750476189603,
      "learning_rate": 5.485934669922428e-06,
      "loss": 0.8556,
      "step": 3428
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.329309720479782,
      "learning_rate": 5.480374545188866e-06,
      "loss": 0.7506,
      "step": 3429
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2068270335769566,
      "learning_rate": 5.474816175825754e-06,
      "loss": 0.8869,
      "step": 3430
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4145314284749806,
      "learning_rate": 5.469259563991894e-06,
      "loss": 0.8652,
      "step": 3431
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3576993305362948,
      "learning_rate": 5.46370471184541e-06,
      "loss": 0.8709,
      "step": 3432
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1064154375963786,
      "learning_rate": 5.458151621543744e-06,
      "loss": 0.8733,
      "step": 3433
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3392507885596718,
      "learning_rate": 5.452600295243653e-06,
      "loss": 0.8744,
      "step": 3434
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.8698151466388621,
      "learning_rate": 5.4470507351012116e-06,
      "loss": 0.7697,
      "step": 3435
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0459510032460946,
      "learning_rate": 5.441502943271797e-06,
      "loss": 0.8425,
      "step": 3436
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2554012392891407,
      "learning_rate": 5.4359569219101115e-06,
      "loss": 0.7029,
      "step": 3437
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0917188270187188,
      "learning_rate": 5.430412673170167e-06,
      "loss": 0.7532,
      "step": 3438
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.9641885864144807,
      "learning_rate": 5.424870199205283e-06,
      "loss": 0.7038,
      "step": 3439
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4272338358991863,
      "learning_rate": 5.4193295021681e-06,
      "loss": 0.9233,
      "step": 3440
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.455709002847924,
      "learning_rate": 5.413790584210551e-06,
      "loss": 0.7665,
      "step": 3441
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4087655396681207,
      "learning_rate": 5.408253447483892e-06,
      "loss": 0.8357,
      "step": 3442
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3131526400473315,
      "learning_rate": 5.402718094138688e-06,
      "loss": 0.8172,
      "step": 3443
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5359798326120617,
      "learning_rate": 5.397184526324792e-06,
      "loss": 0.8838,
      "step": 3444
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0326569903967455,
      "learning_rate": 5.391652746191398e-06,
      "loss": 0.7678,
      "step": 3445
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1893673648203278,
      "learning_rate": 5.38612275588697e-06,
      "loss": 0.903,
      "step": 3446
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3292464412764569,
      "learning_rate": 5.380594557559298e-06,
      "loss": 0.8438,
      "step": 3447
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.200544815839321,
      "learning_rate": 5.375068153355474e-06,
      "loss": 0.9457,
      "step": 3448
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2352073971683266,
      "learning_rate": 5.369543545421883e-06,
      "loss": 0.9038,
      "step": 3449
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0356273451857987,
      "learning_rate": 5.364020735904223e-06,
      "loss": 0.8341,
      "step": 3450
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.1523850077985789,
      "learning_rate": 5.358499726947488e-06,
      "loss": 0.8859,
      "step": 3451
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.2540231766061927,
      "learning_rate": 5.352980520695974e-06,
      "loss": 0.8728,
      "step": 3452
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.4619137140297842,
      "learning_rate": 5.347463119293283e-06,
      "loss": 0.833,
      "step": 3453
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.3508945782690724,
      "learning_rate": 5.341947524882301e-06,
      "loss": 0.8393,
      "step": 3454
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.25122981519405,
      "learning_rate": 5.336433739605227e-06,
      "loss": 0.8005,
      "step": 3455
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.0442012965021457,
      "learning_rate": 5.330921765603549e-06,
      "loss": 0.8721,
      "step": 3456
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0650961545724085,
      "learning_rate": 5.325411605018056e-06,
      "loss": 0.8242,
      "step": 3457
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.473885348657693,
      "learning_rate": 5.31990325998883e-06,
      "loss": 0.9129,
      "step": 3458
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4080924352376951,
      "learning_rate": 5.314396732655253e-06,
      "loss": 0.7323,
      "step": 3459
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3255520511228684,
      "learning_rate": 5.308892025155989e-06,
      "loss": 0.7757,
      "step": 3460
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5968709906902856,
      "learning_rate": 5.303389139629007e-06,
      "loss": 0.8839,
      "step": 3461
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0522017909944055,
      "learning_rate": 5.297888078211564e-06,
      "loss": 0.7424,
      "step": 3462
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1019901897859485,
      "learning_rate": 5.2923888430402085e-06,
      "loss": 0.906,
      "step": 3463
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1896508233430518,
      "learning_rate": 5.286891436250785e-06,
      "loss": 0.8197,
      "step": 3464
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.039044678730616,
      "learning_rate": 5.281395859978414e-06,
      "loss": 0.7185,
      "step": 3465
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.392539383113931,
      "learning_rate": 5.2759021163575184e-06,
      "loss": 0.8685,
      "step": 3466
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2179467958095178,
      "learning_rate": 5.27041020752181e-06,
      "loss": 0.7617,
      "step": 3467
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.00432316935031,
      "learning_rate": 5.26492013560427e-06,
      "loss": 0.7979,
      "step": 3468
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.9525747441565634,
      "learning_rate": 5.259431902737195e-06,
      "loss": 0.8053,
      "step": 3469
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2119963415896404,
      "learning_rate": 5.2539455110521385e-06,
      "loss": 0.8857,
      "step": 3470
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3420122402715515,
      "learning_rate": 5.248460962679958e-06,
      "loss": 0.7019,
      "step": 3471
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.117774682983299,
      "learning_rate": 5.24297825975079e-06,
      "loss": 0.8336,
      "step": 3472
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.463513770967475,
      "learning_rate": 5.237497404394044e-06,
      "loss": 0.776,
      "step": 3473
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1303640085249576,
      "learning_rate": 5.232018398738436e-06,
      "loss": 0.7829,
      "step": 3474
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3487383765243692,
      "learning_rate": 5.226541244911936e-06,
      "loss": 0.882,
      "step": 3475
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.402355370367141,
      "learning_rate": 5.221065945041811e-06,
      "loss": 0.8696,
      "step": 3476
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.751946534853547,
      "learning_rate": 5.215592501254609e-06,
      "loss": 0.8782,
      "step": 3477
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3032615749783758,
      "learning_rate": 5.210120915676147e-06,
      "loss": 0.7356,
      "step": 3478
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3443694090566225,
      "learning_rate": 5.2046511904315265e-06,
      "loss": 0.7798,
      "step": 3479
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1653902019494338,
      "learning_rate": 5.199183327645128e-06,
      "loss": 0.8115,
      "step": 3480
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2384394791289117,
      "learning_rate": 5.193717329440604e-06,
      "loss": 0.8769,
      "step": 3481
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0288679875690407,
      "learning_rate": 5.188253197940889e-06,
      "loss": 0.8769,
      "step": 3482
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2477815622896906,
      "learning_rate": 5.182790935268185e-06,
      "loss": 0.8743,
      "step": 3483
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3341488223693267,
      "learning_rate": 5.177330543543971e-06,
      "loss": 0.8164,
      "step": 3484
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4762731166371363,
      "learning_rate": 5.171872024889004e-06,
      "loss": 0.817,
      "step": 3485
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3148382215814307,
      "learning_rate": 5.166415381423306e-06,
      "loss": 0.8195,
      "step": 3486
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0264894633134738,
      "learning_rate": 5.160960615266179e-06,
      "loss": 0.8437,
      "step": 3487
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.8807736909072201,
      "learning_rate": 5.155507728536191e-06,
      "loss": 0.8829,
      "step": 3488
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.4426640725117392,
      "learning_rate": 5.150056723351173e-06,
      "loss": 0.8513,
      "step": 3489
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1986586885268342,
      "learning_rate": 5.14460760182824e-06,
      "loss": 0.688,
      "step": 3490
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2566580779933139,
      "learning_rate": 5.139160366083765e-06,
      "loss": 0.8551,
      "step": 3491
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3066033689821195,
      "learning_rate": 5.133715018233393e-06,
      "loss": 0.7754,
      "step": 3492
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3355556163211686,
      "learning_rate": 5.128271560392037e-06,
      "loss": 0.8092,
      "step": 3493
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5252912161717065,
      "learning_rate": 5.122829994673866e-06,
      "loss": 0.8639,
      "step": 3494
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3833834609621694,
      "learning_rate": 5.117390323192326e-06,
      "loss": 0.8517,
      "step": 3495
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5257999798007964,
      "learning_rate": 5.111952548060126e-06,
      "loss": 0.806,
      "step": 3496
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2323609838088405,
      "learning_rate": 5.106516671389224e-06,
      "loss": 0.8608,
      "step": 3497
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5240019092043913,
      "learning_rate": 5.101082695290866e-06,
      "loss": 0.8486,
      "step": 3498
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.1371333891568152,
      "learning_rate": 5.0956506218755344e-06,
      "loss": 0.7813,
      "step": 3499
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3102840461698961,
      "learning_rate": 5.09022045325299e-06,
      "loss": 0.7334,
      "step": 3500
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.3249318107566688,
      "learning_rate": 5.0847921915322486e-06,
      "loss": 0.9079,
      "step": 3501
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.351130742330343,
      "learning_rate": 5.07936583882158e-06,
      "loss": 0.7825,
      "step": 3502
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.5873248941776543,
      "learning_rate": 5.073941397228518e-06,
      "loss": 0.7452,
      "step": 3503
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.432798615800975,
      "learning_rate": 5.068518868859854e-06,
      "loss": 0.9273,
      "step": 3504
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.2776671369903305,
      "learning_rate": 5.063098255821637e-06,
      "loss": 0.799,
      "step": 3505
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.0579487988712375,
      "learning_rate": 5.0576795602191734e-06,
      "loss": 0.7752,
      "step": 3506
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.221926271281815,
      "learning_rate": 5.052262784157014e-06,
      "loss": 0.8873,
      "step": 3507
    },
    {
      "epoch": 0.67,
      "grad_norm": 1.6812232038869013,
      "learning_rate": 5.046847929738971e-06,
      "loss": 0.8939,
      "step": 3508
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0468286919493417,
      "learning_rate": 5.041434999068127e-06,
      "loss": 0.8355,
      "step": 3509
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.561068271396686,
      "learning_rate": 5.036023994246787e-06,
      "loss": 0.8564,
      "step": 3510
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0058599310012317,
      "learning_rate": 5.030614917376532e-06,
      "loss": 0.8474,
      "step": 3511
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3391427953564639,
      "learning_rate": 5.025207770558176e-06,
      "loss": 0.8171,
      "step": 3512
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.224767737438801,
      "learning_rate": 5.0198025558917985e-06,
      "loss": 0.7317,
      "step": 3513
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8618598765839145,
      "learning_rate": 5.014399275476721e-06,
      "loss": 0.8781,
      "step": 3514
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0499807003974464,
      "learning_rate": 5.008997931411517e-06,
      "loss": 0.8011,
      "step": 3515
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.984587338395329,
      "learning_rate": 5.003598525794002e-06,
      "loss": 0.8574,
      "step": 3516
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.163930759279739,
      "learning_rate": 4.998201060721253e-06,
      "loss": 0.875,
      "step": 3517
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.8945253389305632,
      "learning_rate": 4.992805538289571e-06,
      "loss": 0.9377,
      "step": 3518
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0317561057338809,
      "learning_rate": 4.987411960594521e-06,
      "loss": 0.8426,
      "step": 3519
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9836869131584187,
      "learning_rate": 4.982020329730904e-06,
      "loss": 0.8018,
      "step": 3520
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.2428044078336609,
      "learning_rate": 4.976630647792771e-06,
      "loss": 0.9057,
      "step": 3521
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9697078373369792,
      "learning_rate": 4.971242916873412e-06,
      "loss": 0.8431,
      "step": 3522
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.2229246972741923,
      "learning_rate": 4.965857139065354e-06,
      "loss": 0.835,
      "step": 3523
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4017325722461829,
      "learning_rate": 4.9604733164603755e-06,
      "loss": 0.8328,
      "step": 3524
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0483273313083896,
      "learning_rate": 4.955091451149495e-06,
      "loss": 0.6567,
      "step": 3525
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.7110375324492073,
      "learning_rate": 4.9497115452229535e-06,
      "loss": 0.9191,
      "step": 3526
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3087716197004435,
      "learning_rate": 4.9443336007702614e-06,
      "loss": 0.9096,
      "step": 3527
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.044282459989434,
      "learning_rate": 4.938957619880138e-06,
      "loss": 0.7813,
      "step": 3528
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9924831820402749,
      "learning_rate": 4.9335836046405575e-06,
      "loss": 0.7823,
      "step": 3529
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3698876253860583,
      "learning_rate": 4.928211557138728e-06,
      "loss": 0.8299,
      "step": 3530
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4016128328066444,
      "learning_rate": 4.922841479461083e-06,
      "loss": 0.8447,
      "step": 3531
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1023175183384908,
      "learning_rate": 4.917473373693305e-06,
      "loss": 0.7335,
      "step": 3532
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.2129780684845,
      "learning_rate": 4.9121072419203016e-06,
      "loss": 0.8496,
      "step": 3533
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3211241405607705,
      "learning_rate": 4.906743086226218e-06,
      "loss": 0.8724,
      "step": 3534
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1157533620536464,
      "learning_rate": 4.901380908694434e-06,
      "loss": 0.694,
      "step": 3535
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5089580157350428,
      "learning_rate": 4.8960207114075495e-06,
      "loss": 0.9219,
      "step": 3536
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0183295034620974,
      "learning_rate": 4.890662496447407e-06,
      "loss": 0.7856,
      "step": 3537
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0565856440689483,
      "learning_rate": 4.8853062658950765e-06,
      "loss": 0.7597,
      "step": 3538
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.04615786929623,
      "learning_rate": 4.879952021830856e-06,
      "loss": 0.7595,
      "step": 3539
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4229820403712727,
      "learning_rate": 4.874599766334276e-06,
      "loss": 0.8268,
      "step": 3540
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1882172382325955,
      "learning_rate": 4.8692495014840825e-06,
      "loss": 0.8865,
      "step": 3541
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4525258483570334,
      "learning_rate": 4.863901229358261e-06,
      "loss": 0.8065,
      "step": 3542
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.206530918661697,
      "learning_rate": 4.858554952034019e-06,
      "loss": 0.8288,
      "step": 3543
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3659771993000653,
      "learning_rate": 4.853210671587789e-06,
      "loss": 0.8831,
      "step": 3544
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0316485410171383,
      "learning_rate": 4.847868390095227e-06,
      "loss": 0.8265,
      "step": 3545
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.5271770017057475,
      "learning_rate": 4.842528109631218e-06,
      "loss": 0.9065,
      "step": 3546
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9133983676773989,
      "learning_rate": 4.837189832269858e-06,
      "loss": 0.6923,
      "step": 3547
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.2089146128279926,
      "learning_rate": 4.8318535600844775e-06,
      "loss": 0.8309,
      "step": 3548
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.3354099867670286,
      "learning_rate": 4.8265192951476206e-06,
      "loss": 0.8374,
      "step": 3549
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4435450120926046,
      "learning_rate": 4.8211870395310556e-06,
      "loss": 0.8872,
      "step": 3550
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1923586730091282,
      "learning_rate": 4.815856795305772e-06,
      "loss": 0.827,
      "step": 3551
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.6089737557470338,
      "learning_rate": 4.81052856454197e-06,
      "loss": 0.813,
      "step": 3552
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.4801431831992982,
      "learning_rate": 4.805202349309074e-06,
      "loss": 0.8782,
      "step": 3553
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1367383108061857,
      "learning_rate": 4.7998781516757295e-06,
      "loss": 0.9116,
      "step": 3554
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1552685034542534,
      "learning_rate": 4.794555973709783e-06,
      "loss": 0.6795,
      "step": 3555
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1180566786130386,
      "learning_rate": 4.789235817478322e-06,
      "loss": 0.8027,
      "step": 3556
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9775331008264414,
      "learning_rate": 4.783917685047621e-06,
      "loss": 0.8581,
      "step": 3557
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.0620899168361497,
      "learning_rate": 4.778601578483187e-06,
      "loss": 0.752,
      "step": 3558
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1197489180463305,
      "learning_rate": 4.773287499849737e-06,
      "loss": 0.8386,
      "step": 3559
    },
    {
      "epoch": 0.68,
      "grad_norm": 1.1289462829870247,
      "learning_rate": 4.767975451211191e-06,
      "loss": 0.8183,
      "step": 3560
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.184557695706847,
      "learning_rate": 4.762665434630692e-06,
      "loss": 0.8155,
      "step": 3561
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.000369878742163,
      "learning_rate": 4.757357452170588e-06,
      "loss": 0.8856,
      "step": 3562
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1639000836137459,
      "learning_rate": 4.752051505892438e-06,
      "loss": 0.843,
      "step": 3563
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0803288205265822,
      "learning_rate": 4.746747597857014e-06,
      "loss": 0.7496,
      "step": 3564
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1896027332326427,
      "learning_rate": 4.741445730124287e-06,
      "loss": 0.8082,
      "step": 3565
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9914096124618705,
      "learning_rate": 4.736145904753445e-06,
      "loss": 0.8286,
      "step": 3566
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0885202153306621,
      "learning_rate": 4.730848123802877e-06,
      "loss": 0.8141,
      "step": 3567
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9608635210038816,
      "learning_rate": 4.725552389330183e-06,
      "loss": 0.8502,
      "step": 3568
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1544973141697248,
      "learning_rate": 4.720258703392161e-06,
      "loss": 0.8735,
      "step": 3569
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1841420085700325,
      "learning_rate": 4.714967068044826e-06,
      "loss": 0.908,
      "step": 3570
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.5155058861902215,
      "learning_rate": 4.7096774853433765e-06,
      "loss": 0.8768,
      "step": 3571
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1624521036609416,
      "learning_rate": 4.704389957342237e-06,
      "loss": 0.8167,
      "step": 3572
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.947089743538764,
      "learning_rate": 4.699104486095008e-06,
      "loss": 0.8247,
      "step": 3573
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.6406339450717213,
      "learning_rate": 4.69382107365452e-06,
      "loss": 0.7872,
      "step": 3574
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0995184433488592,
      "learning_rate": 4.6885397220727855e-06,
      "loss": 0.7947,
      "step": 3575
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3437396171426519,
      "learning_rate": 4.683260433401016e-06,
      "loss": 0.7931,
      "step": 3576
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.098646811608028,
      "learning_rate": 4.677983209689631e-06,
      "loss": 0.8111,
      "step": 3577
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0276664967560403,
      "learning_rate": 4.6727080529882394e-06,
      "loss": 0.7477,
      "step": 3578
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0186180982391162,
      "learning_rate": 4.667434965345654e-06,
      "loss": 0.8201,
      "step": 3579
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0686836689779222,
      "learning_rate": 4.6621639488098856e-06,
      "loss": 0.7652,
      "step": 3580
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1466143073875754,
      "learning_rate": 4.656895005428127e-06,
      "loss": 0.8502,
      "step": 3581
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9912035270000491,
      "learning_rate": 4.651628137246781e-06,
      "loss": 0.7326,
      "step": 3582
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3850133980888826,
      "learning_rate": 4.6463633463114395e-06,
      "loss": 0.8266,
      "step": 3583
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3521598087958369,
      "learning_rate": 4.641100634666877e-06,
      "loss": 0.7226,
      "step": 3584
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4143853543471885,
      "learning_rate": 4.635840004357086e-06,
      "loss": 0.8227,
      "step": 3585
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2520742290857942,
      "learning_rate": 4.630581457425222e-06,
      "loss": 0.7371,
      "step": 3586
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9661786597793989,
      "learning_rate": 4.625324995913648e-06,
      "loss": 0.6814,
      "step": 3587
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2300909264589797,
      "learning_rate": 4.620070621863917e-06,
      "loss": 0.8641,
      "step": 3588
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2630698433359888,
      "learning_rate": 4.614818337316759e-06,
      "loss": 0.8611,
      "step": 3589
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.4987536777855073,
      "learning_rate": 4.609568144312107e-06,
      "loss": 0.8274,
      "step": 3590
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1433476131083153,
      "learning_rate": 4.6043200448890724e-06,
      "loss": 0.7732,
      "step": 3591
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.594948298555161,
      "learning_rate": 4.599074041085958e-06,
      "loss": 0.8602,
      "step": 3592
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1561667214588789,
      "learning_rate": 4.593830134940256e-06,
      "loss": 0.8118,
      "step": 3593
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.273386044428056,
      "learning_rate": 4.588588328488629e-06,
      "loss": 0.8459,
      "step": 3594
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.167304501979167,
      "learning_rate": 4.5833486237669414e-06,
      "loss": 0.8828,
      "step": 3595
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1213082362148488,
      "learning_rate": 4.578111022810231e-06,
      "loss": 0.8331,
      "step": 3596
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.2660391716354868,
      "learning_rate": 4.5728755276527225e-06,
      "loss": 0.8916,
      "step": 3597
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0045146107697378,
      "learning_rate": 4.567642140327823e-06,
      "loss": 0.8232,
      "step": 3598
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.3212825917017137,
      "learning_rate": 4.562410862868123e-06,
      "loss": 0.8544,
      "step": 3599
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1015551787498348,
      "learning_rate": 4.557181697305383e-06,
      "loss": 0.7998,
      "step": 3600
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.221670786507288,
      "learning_rate": 4.551954645670557e-06,
      "loss": 0.8289,
      "step": 3601
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.92962068254517,
      "learning_rate": 4.546729709993762e-06,
      "loss": 0.7132,
      "step": 3602
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1656069858190679,
      "learning_rate": 4.541506892304314e-06,
      "loss": 0.8873,
      "step": 3603
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1841610730718555,
      "learning_rate": 4.536286194630694e-06,
      "loss": 0.8848,
      "step": 3604
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.243149928018597,
      "learning_rate": 4.531067619000553e-06,
      "loss": 0.7137,
      "step": 3605
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9729002436849562,
      "learning_rate": 4.525851167440731e-06,
      "loss": 0.7737,
      "step": 3606
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9675671475957806,
      "learning_rate": 4.52063684197724e-06,
      "loss": 0.7867,
      "step": 3607
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9385189350498175,
      "learning_rate": 4.515424644635254e-06,
      "loss": 0.7881,
      "step": 3608
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1387385374188719,
      "learning_rate": 4.510214577439146e-06,
      "loss": 0.7837,
      "step": 3609
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0502199766545088,
      "learning_rate": 4.5050066424124324e-06,
      "loss": 0.7247,
      "step": 3610
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.076139307221624,
      "learning_rate": 4.49980084157782e-06,
      "loss": 0.7579,
      "step": 3611
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.1239824471924817,
      "learning_rate": 4.494597176957186e-06,
      "loss": 0.7552,
      "step": 3612
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2034347854481862,
      "learning_rate": 4.489395650571562e-06,
      "loss": 0.7846,
      "step": 3613
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1410506243106309,
      "learning_rate": 4.4841962644411765e-06,
      "loss": 0.8662,
      "step": 3614
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.290083456322375,
      "learning_rate": 4.4789990205854e-06,
      "loss": 0.8417,
      "step": 3615
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1027174865248297,
      "learning_rate": 4.473803921022784e-06,
      "loss": 0.8102,
      "step": 3616
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2728335637492219,
      "learning_rate": 4.468610967771051e-06,
      "loss": 0.8191,
      "step": 3617
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9842354545712018,
      "learning_rate": 4.4634201628470766e-06,
      "loss": 0.8568,
      "step": 3618
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.5189592025060927,
      "learning_rate": 4.458231508266912e-06,
      "loss": 0.8266,
      "step": 3619
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2884931860477793,
      "learning_rate": 4.453045006045773e-06,
      "loss": 0.7635,
      "step": 3620
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9983384020150429,
      "learning_rate": 4.447860658198035e-06,
      "loss": 0.8192,
      "step": 3621
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3719787268429975,
      "learning_rate": 4.442678466737245e-06,
      "loss": 0.8836,
      "step": 3622
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0207684211524783,
      "learning_rate": 4.4374984336760975e-06,
      "loss": 0.7743,
      "step": 3623
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2995391706349362,
      "learning_rate": 4.432320561026461e-06,
      "loss": 0.9073,
      "step": 3624
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2572363565355917,
      "learning_rate": 4.427144850799363e-06,
      "loss": 0.7878,
      "step": 3625
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.090528066089521,
      "learning_rate": 4.421971305004989e-06,
      "loss": 0.8522,
      "step": 3626
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.337161852748223,
      "learning_rate": 4.416799925652684e-06,
      "loss": 0.8103,
      "step": 3627
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.227879823465889,
      "learning_rate": 4.411630714750956e-06,
      "loss": 0.877,
      "step": 3628
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.168474429200691,
      "learning_rate": 4.4064636743074605e-06,
      "loss": 0.8476,
      "step": 3629
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1151160546517964,
      "learning_rate": 4.40129880632902e-06,
      "loss": 0.8289,
      "step": 3630
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3070661806197617,
      "learning_rate": 4.396136112821608e-06,
      "loss": 0.8212,
      "step": 3631
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.30279854769406,
      "learning_rate": 4.390975595790358e-06,
      "loss": 0.8735,
      "step": 3632
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.4751075282140609,
      "learning_rate": 4.385817257239556e-06,
      "loss": 0.8068,
      "step": 3633
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.117273936312441,
      "learning_rate": 4.380661099172636e-06,
      "loss": 0.8711,
      "step": 3634
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3348605410155427,
      "learning_rate": 4.375507123592194e-06,
      "loss": 0.8486,
      "step": 3635
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0692450175542183,
      "learning_rate": 4.370355332499977e-06,
      "loss": 0.8177,
      "step": 3636
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6540035102529795,
      "learning_rate": 4.365205727896872e-06,
      "loss": 0.8218,
      "step": 3637
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2280732684715199,
      "learning_rate": 4.36005831178294e-06,
      "loss": 0.7096,
      "step": 3638
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.9620401505549863,
      "learning_rate": 4.354913086157367e-06,
      "loss": 0.7015,
      "step": 3639
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3031358187913047,
      "learning_rate": 4.349770053018502e-06,
      "loss": 0.9243,
      "step": 3640
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3526665412306556,
      "learning_rate": 4.344629214363845e-06,
      "loss": 0.8233,
      "step": 3641
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.186884343042142,
      "learning_rate": 4.339490572190031e-06,
      "loss": 0.8382,
      "step": 3642
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6158768040527165,
      "learning_rate": 4.334354128492851e-06,
      "loss": 0.8561,
      "step": 3643
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.513844589101148,
      "learning_rate": 4.329219885267244e-06,
      "loss": 0.8013,
      "step": 3644
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2004529916551865,
      "learning_rate": 4.324087844507289e-06,
      "loss": 0.8148,
      "step": 3645
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0558572562831885,
      "learning_rate": 4.318958008206214e-06,
      "loss": 0.6298,
      "step": 3646
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1647389205970164,
      "learning_rate": 4.313830378356384e-06,
      "loss": 0.7938,
      "step": 3647
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.6810414812028658,
      "learning_rate": 4.3087049569493136e-06,
      "loss": 0.8659,
      "step": 3648
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0979328731781497,
      "learning_rate": 4.303581745975656e-06,
      "loss": 0.8688,
      "step": 3649
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3974365769401627,
      "learning_rate": 4.2984607474252084e-06,
      "loss": 0.7774,
      "step": 3650
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.253251069462535,
      "learning_rate": 4.293341963286912e-06,
      "loss": 0.7595,
      "step": 3651
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0335732576298766,
      "learning_rate": 4.288225395548835e-06,
      "loss": 0.8481,
      "step": 3652
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.8829042618563945,
      "learning_rate": 4.283111046198198e-06,
      "loss": 0.7377,
      "step": 3653
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1314888945439683,
      "learning_rate": 4.277998917221354e-06,
      "loss": 0.8135,
      "step": 3654
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1957884447529201,
      "learning_rate": 4.272889010603798e-06,
      "loss": 0.8663,
      "step": 3655
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2167054910465203,
      "learning_rate": 4.267781328330155e-06,
      "loss": 0.8456,
      "step": 3656
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3868195745591645,
      "learning_rate": 4.262675872384197e-06,
      "loss": 0.8404,
      "step": 3657
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.93460433610531,
      "learning_rate": 4.257572644748813e-06,
      "loss": 0.8575,
      "step": 3658
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0885544972632264,
      "learning_rate": 4.252471647406045e-06,
      "loss": 0.84,
      "step": 3659
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.2499443922861504,
      "learning_rate": 4.2473728823370605e-06,
      "loss": 0.8406,
      "step": 3660
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1178197272229449,
      "learning_rate": 4.242276351522161e-06,
      "loss": 0.8961,
      "step": 3661
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.3988004518459791,
      "learning_rate": 4.237182056940784e-06,
      "loss": 0.8449,
      "step": 3662
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1474076780174147,
      "learning_rate": 4.232090000571488e-06,
      "loss": 0.8665,
      "step": 3663
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.1461242810101433,
      "learning_rate": 4.2270001843919714e-06,
      "loss": 0.8791,
      "step": 3664
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.318090036924697,
      "learning_rate": 4.221912610379065e-06,
      "loss": 0.7996,
      "step": 3665
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0417145548680666,
      "learning_rate": 4.216827280508712e-06,
      "loss": 0.8776,
      "step": 3666
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1320724269039928,
      "learning_rate": 4.211744196756011e-06,
      "loss": 0.8427,
      "step": 3667
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.197640801278477,
      "learning_rate": 4.206663361095164e-06,
      "loss": 0.8766,
      "step": 3668
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0437492212311188,
      "learning_rate": 4.201584775499509e-06,
      "loss": 0.7378,
      "step": 3669
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5255352527446064,
      "learning_rate": 4.196508441941516e-06,
      "loss": 0.8501,
      "step": 3670
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.5618340238241686,
      "learning_rate": 4.191434362392768e-06,
      "loss": 0.9533,
      "step": 3671
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6451951791137522,
      "learning_rate": 4.186362538823981e-06,
      "loss": 0.8256,
      "step": 3672
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.070549970429888,
      "learning_rate": 4.181292973204992e-06,
      "loss": 0.773,
      "step": 3673
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.9587100938343629,
      "learning_rate": 4.1762256675047655e-06,
      "loss": 0.7621,
      "step": 3674
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.42488222584468,
      "learning_rate": 4.171160623691384e-06,
      "loss": 0.8553,
      "step": 3675
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1138211440704213,
      "learning_rate": 4.166097843732048e-06,
      "loss": 0.7628,
      "step": 3676
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.831063568348011,
      "learning_rate": 4.161037329593085e-06,
      "loss": 0.86,
      "step": 3677
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.234829238491741,
      "learning_rate": 4.155979083239942e-06,
      "loss": 0.8597,
      "step": 3678
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.093851672709144,
      "learning_rate": 4.1509231066371815e-06,
      "loss": 0.8435,
      "step": 3679
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4176840437230314,
      "learning_rate": 4.1458694017484915e-06,
      "loss": 0.8675,
      "step": 3680
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.4117570469854372,
      "learning_rate": 4.140817970536664e-06,
      "loss": 0.9359,
      "step": 3681
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1786634031459586,
      "learning_rate": 4.135768814963622e-06,
      "loss": 0.6923,
      "step": 3682
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.040169815790085,
      "learning_rate": 4.130721936990399e-06,
      "loss": 0.7375,
      "step": 3683
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.2790124598870471,
      "learning_rate": 4.1256773385771444e-06,
      "loss": 0.8686,
      "step": 3684
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.194633885935079,
      "learning_rate": 4.120635021683122e-06,
      "loss": 0.8789,
      "step": 3685
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1838523248668509,
      "learning_rate": 4.115594988266711e-06,
      "loss": 0.8123,
      "step": 3686
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1169670381798116,
      "learning_rate": 4.1105572402853976e-06,
      "loss": 0.8491,
      "step": 3687
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1972896501952734,
      "learning_rate": 4.1055217796957895e-06,
      "loss": 0.7874,
      "step": 3688
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1742576195799277,
      "learning_rate": 4.100488608453599e-06,
      "loss": 0.7793,
      "step": 3689
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.2513446361292326,
      "learning_rate": 4.095457728513652e-06,
      "loss": 0.7494,
      "step": 3690
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0835996073803118,
      "learning_rate": 4.09042914182989e-06,
      "loss": 0.7577,
      "step": 3691
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.9935731284505679,
      "learning_rate": 4.08540285035535e-06,
      "loss": 0.8271,
      "step": 3692
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0641942886314513,
      "learning_rate": 4.0803788560421885e-06,
      "loss": 0.8796,
      "step": 3693
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3597253941839398,
      "learning_rate": 4.075357160841671e-06,
      "loss": 0.9214,
      "step": 3694
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.2984399792782952,
      "learning_rate": 4.070337766704155e-06,
      "loss": 0.784,
      "step": 3695
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3391287831200764,
      "learning_rate": 4.065320675579132e-06,
      "loss": 0.8215,
      "step": 3696
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3287909230223334,
      "learning_rate": 4.0603058894151685e-06,
      "loss": 0.8436,
      "step": 3697
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.544239632315163,
      "learning_rate": 4.055293410159954e-06,
      "loss": 0.8691,
      "step": 3698
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.2911690248964105,
      "learning_rate": 4.050283239760282e-06,
      "loss": 0.8518,
      "step": 3699
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.385713307803566,
      "learning_rate": 4.045275380162038e-06,
      "loss": 0.7818,
      "step": 3700
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.040899128080836,
      "learning_rate": 4.04026983331022e-06,
      "loss": 0.7261,
      "step": 3701
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3557897075760987,
      "learning_rate": 4.035266601148924e-06,
      "loss": 0.7419,
      "step": 3702
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3773844973232345,
      "learning_rate": 4.03026568562135e-06,
      "loss": 0.8366,
      "step": 3703
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.6590711758533678,
      "learning_rate": 4.025267088669797e-06,
      "loss": 0.9026,
      "step": 3704
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.2468482100162037,
      "learning_rate": 4.020270812235656e-06,
      "loss": 0.8707,
      "step": 3705
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.097391668517591,
      "learning_rate": 4.015276858259427e-06,
      "loss": 0.7565,
      "step": 3706
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0664606076139935,
      "learning_rate": 4.010285228680705e-06,
      "loss": 0.8969,
      "step": 3707
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.2101154305732134,
      "learning_rate": 4.005295925438181e-06,
      "loss": 0.7533,
      "step": 3708
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.167079015019565,
      "learning_rate": 4.000308950469646e-06,
      "loss": 0.8943,
      "step": 3709
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.2271030549991486,
      "learning_rate": 3.995324305711976e-06,
      "loss": 0.7469,
      "step": 3710
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.3598491472780168,
      "learning_rate": 3.990341993101154e-06,
      "loss": 0.8894,
      "step": 3711
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.1615373418704438,
      "learning_rate": 3.985362014572256e-06,
      "loss": 0.8537,
      "step": 3712
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.392090569960593,
      "learning_rate": 3.9803843720594385e-06,
      "loss": 0.8421,
      "step": 3713
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.303365916056398,
      "learning_rate": 3.97540906749597e-06,
      "loss": 0.8961,
      "step": 3714
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.2681214655166053,
      "learning_rate": 3.970436102814203e-06,
      "loss": 0.8116,
      "step": 3715
    },
    {
      "epoch": 0.71,
      "grad_norm": 1.0741599472164025,
      "learning_rate": 3.965465479945569e-06,
      "loss": 0.6848,
      "step": 3716
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9033705460267517,
      "learning_rate": 3.9604972008206085e-06,
      "loss": 0.7897,
      "step": 3717
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3967914818818519,
      "learning_rate": 3.955531267368942e-06,
      "loss": 0.8385,
      "step": 3718
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2810951410453055,
      "learning_rate": 3.950567681519279e-06,
      "loss": 0.8409,
      "step": 3719
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2366373607978731,
      "learning_rate": 3.945606445199427e-06,
      "loss": 0.8605,
      "step": 3720
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.0221385101303944,
      "learning_rate": 3.940647560336262e-06,
      "loss": 0.8019,
      "step": 3721
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.124861624274056,
      "learning_rate": 3.935691028855763e-06,
      "loss": 0.798,
      "step": 3722
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1068378793286424,
      "learning_rate": 3.930736852682993e-06,
      "loss": 0.7975,
      "step": 3723
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5131966392444667,
      "learning_rate": 3.9257850337420856e-06,
      "loss": 0.8126,
      "step": 3724
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.913899826416166,
      "learning_rate": 3.920835573956285e-06,
      "loss": 0.6859,
      "step": 3725
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.0878357124338243,
      "learning_rate": 3.915888475247894e-06,
      "loss": 0.8057,
      "step": 3726
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4903420344420018,
      "learning_rate": 3.910943739538313e-06,
      "loss": 0.8147,
      "step": 3727
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2805991573184903,
      "learning_rate": 3.906001368748023e-06,
      "loss": 0.8515,
      "step": 3728
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3004643258935398,
      "learning_rate": 3.901061364796574e-06,
      "loss": 0.8352,
      "step": 3729
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.7481258555636257,
      "learning_rate": 3.8961237296026155e-06,
      "loss": 0.8803,
      "step": 3730
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6442956565968962,
      "learning_rate": 3.891188465083865e-06,
      "loss": 0.8705,
      "step": 3731
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.0821696757879495,
      "learning_rate": 3.886255573157121e-06,
      "loss": 0.8767,
      "step": 3732
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1478925948170564,
      "learning_rate": 3.88132505573827e-06,
      "loss": 0.9079,
      "step": 3733
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.81367691881685,
      "learning_rate": 3.876396914742258e-06,
      "loss": 0.8711,
      "step": 3734
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5155847290000521,
      "learning_rate": 3.871471152083121e-06,
      "loss": 0.8905,
      "step": 3735
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2231578418822153,
      "learning_rate": 3.866547769673968e-06,
      "loss": 0.8599,
      "step": 3736
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2479621839069983,
      "learning_rate": 3.861626769426988e-06,
      "loss": 0.829,
      "step": 3737
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1585865692699409,
      "learning_rate": 3.8567081532534374e-06,
      "loss": 0.8389,
      "step": 3738
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2118057941116895,
      "learning_rate": 3.851791923063655e-06,
      "loss": 0.8298,
      "step": 3739
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.162827901538943,
      "learning_rate": 3.846878080767039e-06,
      "loss": 0.768,
      "step": 3740
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.497730540344338,
      "learning_rate": 3.841966628272079e-06,
      "loss": 0.7872,
      "step": 3741
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1431081015483386,
      "learning_rate": 3.837057567486314e-06,
      "loss": 0.7721,
      "step": 3742
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2722844971655838,
      "learning_rate": 3.832150900316377e-06,
      "loss": 0.8178,
      "step": 3743
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.177683934156417,
      "learning_rate": 3.827246628667962e-06,
      "loss": 0.8142,
      "step": 3744
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4423301828580248,
      "learning_rate": 3.822344754445826e-06,
      "loss": 0.9197,
      "step": 3745
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.0880339997152157,
      "learning_rate": 3.817445279553801e-06,
      "loss": 0.8353,
      "step": 3746
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.8516650460777234,
      "learning_rate": 3.8125482058947905e-06,
      "loss": 0.7685,
      "step": 3747
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.0535352781896858,
      "learning_rate": 3.8076535353707523e-06,
      "loss": 0.7637,
      "step": 3748
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.5475647254418445,
      "learning_rate": 3.8027612698827344e-06,
      "loss": 0.7027,
      "step": 3749
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2413418985499152,
      "learning_rate": 3.7978714113308246e-06,
      "loss": 0.8153,
      "step": 3750
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.439986563750929,
      "learning_rate": 3.7929839616141917e-06,
      "loss": 0.8373,
      "step": 3751
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.0638418181213187,
      "learning_rate": 3.788098922631067e-06,
      "loss": 0.8331,
      "step": 3752
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3957978878766575,
      "learning_rate": 3.7832162962787355e-06,
      "loss": 0.8602,
      "step": 3753
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1864626052552492,
      "learning_rate": 3.7783360844535653e-06,
      "loss": 0.8653,
      "step": 3754
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1972594369911973,
      "learning_rate": 3.773458289050963e-06,
      "loss": 0.8481,
      "step": 3755
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.1531125851821555,
      "learning_rate": 3.768582911965414e-06,
      "loss": 0.7612,
      "step": 3756
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3183951756243535,
      "learning_rate": 3.763709955090461e-06,
      "loss": 0.812,
      "step": 3757
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3993056162776834,
      "learning_rate": 3.7588394203186963e-06,
      "loss": 0.9049,
      "step": 3758
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4249682002534882,
      "learning_rate": 3.753971309541784e-06,
      "loss": 0.9107,
      "step": 3759
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.0921184282946164,
      "learning_rate": 3.7491056246504433e-06,
      "loss": 0.7748,
      "step": 3760
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6212710817849811,
      "learning_rate": 3.7442423675344474e-06,
      "loss": 0.7723,
      "step": 3761
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9090359580086393,
      "learning_rate": 3.739381540082635e-06,
      "loss": 0.7989,
      "step": 3762
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.2813142093118877,
      "learning_rate": 3.7345231441828876e-06,
      "loss": 0.9731,
      "step": 3763
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9225108102897439,
      "learning_rate": 3.729667181722154e-06,
      "loss": 0.7603,
      "step": 3764
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.386814550999312,
      "learning_rate": 3.7248136545864345e-06,
      "loss": 0.8705,
      "step": 3765
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.123335859808481,
      "learning_rate": 3.719962564660783e-06,
      "loss": 0.7344,
      "step": 3766
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.3382372327108383,
      "learning_rate": 3.7151139138293056e-06,
      "loss": 0.8116,
      "step": 3767
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.6592409252835267,
      "learning_rate": 3.7102677039751667e-06,
      "loss": 0.9327,
      "step": 3768
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.322220991971413,
      "learning_rate": 3.705423936980572e-06,
      "loss": 0.7931,
      "step": 3769
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3313526700225597,
      "learning_rate": 3.700582614726791e-06,
      "loss": 0.8451,
      "step": 3770
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.308597136429063,
      "learning_rate": 3.6957437390941274e-06,
      "loss": 0.7692,
      "step": 3771
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4809490936901712,
      "learning_rate": 3.6909073119619555e-06,
      "loss": 0.7548,
      "step": 3772
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.085131640143191,
      "learning_rate": 3.6860733352086866e-06,
      "loss": 0.9509,
      "step": 3773
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3789696148667094,
      "learning_rate": 3.6812418107117765e-06,
      "loss": 0.7995,
      "step": 3774
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4893931418045139,
      "learning_rate": 3.6764127403477347e-06,
      "loss": 0.8769,
      "step": 3775
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.398661126738598,
      "learning_rate": 3.6715861259921226e-06,
      "loss": 0.8977,
      "step": 3776
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.6157329417201343,
      "learning_rate": 3.6667619695195287e-06,
      "loss": 0.8106,
      "step": 3777
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0379216063185823,
      "learning_rate": 3.6619402728036157e-06,
      "loss": 0.6819,
      "step": 3778
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4736616505960465,
      "learning_rate": 3.657121037717064e-06,
      "loss": 0.8765,
      "step": 3779
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.266350566874142,
      "learning_rate": 3.652304266131612e-06,
      "loss": 0.8193,
      "step": 3780
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4302531465968744,
      "learning_rate": 3.6474899599180426e-06,
      "loss": 0.8635,
      "step": 3781
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3344191108817607,
      "learning_rate": 3.642678120946168e-06,
      "loss": 0.8372,
      "step": 3782
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.351448732339741,
      "learning_rate": 3.6378687510848576e-06,
      "loss": 0.8746,
      "step": 3783
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0320634381449472,
      "learning_rate": 3.6330618522020124e-06,
      "loss": 0.8398,
      "step": 3784
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0218203591070987,
      "learning_rate": 3.6282574261645776e-06,
      "loss": 0.8774,
      "step": 3785
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3588423596624988,
      "learning_rate": 3.62345547483854e-06,
      "loss": 0.8132,
      "step": 3786
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3009293574995395,
      "learning_rate": 3.618656000088916e-06,
      "loss": 0.8423,
      "step": 3787
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0987479568117366,
      "learning_rate": 3.6138590037797695e-06,
      "loss": 0.9335,
      "step": 3788
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0767371089622175,
      "learning_rate": 3.6090644877741986e-06,
      "loss": 0.7318,
      "step": 3789
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.789804770021477,
      "learning_rate": 3.6042724539343378e-06,
      "loss": 0.9264,
      "step": 3790
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2144494409557427,
      "learning_rate": 3.599482904121361e-06,
      "loss": 0.8439,
      "step": 3791
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3637590220121893,
      "learning_rate": 3.594695840195468e-06,
      "loss": 0.8622,
      "step": 3792
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3053127467412307,
      "learning_rate": 3.5899112640159017e-06,
      "loss": 0.8598,
      "step": 3793
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.1948309903251093,
      "learning_rate": 3.585129177440938e-06,
      "loss": 0.868,
      "step": 3794
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.9457241587602202,
      "learning_rate": 3.580349582327882e-06,
      "loss": 0.7136,
      "step": 3795
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.784538324346399,
      "learning_rate": 3.575572480533076e-06,
      "loss": 0.8984,
      "step": 3796
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.168495608791677,
      "learning_rate": 3.570797873911892e-06,
      "loss": 0.8116,
      "step": 3797
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2549626807389724,
      "learning_rate": 3.566025764318728e-06,
      "loss": 0.902,
      "step": 3798
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.1218753432413469,
      "learning_rate": 3.5612561536070213e-06,
      "loss": 0.7921,
      "step": 3799
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4175439150885205,
      "learning_rate": 3.5564890436292243e-06,
      "loss": 0.8095,
      "step": 3800
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2362816835406998,
      "learning_rate": 3.5517244362368363e-06,
      "loss": 0.8512,
      "step": 3801
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.1156174537092256,
      "learning_rate": 3.5469623332803795e-06,
      "loss": 0.7582,
      "step": 3802
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2415905168710188,
      "learning_rate": 3.5422027366093893e-06,
      "loss": 0.7983,
      "step": 3803
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3799058429013689,
      "learning_rate": 3.5374456480724427e-06,
      "loss": 0.7566,
      "step": 3804
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.2685505163610187,
      "learning_rate": 3.532691069517142e-06,
      "loss": 0.9024,
      "step": 3805
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.252437549904878,
      "learning_rate": 3.5279390027901004e-06,
      "loss": 0.7718,
      "step": 3806
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4187151895545111,
      "learning_rate": 3.5231894497369802e-06,
      "loss": 0.8943,
      "step": 3807
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.1319354065442933,
      "learning_rate": 3.5184424122024406e-06,
      "loss": 0.8782,
      "step": 3808
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.167737785079991,
      "learning_rate": 3.5136978920301822e-06,
      "loss": 0.8332,
      "step": 3809
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0470139269846694,
      "learning_rate": 3.508955891062924e-06,
      "loss": 0.7966,
      "step": 3810
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.688741151366851,
      "learning_rate": 3.5042164111423983e-06,
      "loss": 0.7464,
      "step": 3811
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.1055353409151532,
      "learning_rate": 3.4994794541093667e-06,
      "loss": 0.8006,
      "step": 3812
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3325112969160502,
      "learning_rate": 3.4947450218036106e-06,
      "loss": 0.8059,
      "step": 3813
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.4103949670355531,
      "learning_rate": 3.4900131160639283e-06,
      "loss": 0.8411,
      "step": 3814
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.338790538862881,
      "learning_rate": 3.485283738728139e-06,
      "loss": 0.8362,
      "step": 3815
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.028547723756022,
      "learning_rate": 3.4805568916330747e-06,
      "loss": 0.8101,
      "step": 3816
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.3181641282214276,
      "learning_rate": 3.4758325766145896e-06,
      "loss": 0.7954,
      "step": 3817
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.489961827641934,
      "learning_rate": 3.471110795507554e-06,
      "loss": 0.8215,
      "step": 3818
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.019097295207729,
      "learning_rate": 3.4663915501458523e-06,
      "loss": 0.8133,
      "step": 3819
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.30792622479093,
      "learning_rate": 3.4616748423623893e-06,
      "loss": 0.8615,
      "step": 3820
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9910765779975842,
      "learning_rate": 3.4569606739890737e-06,
      "loss": 0.8285,
      "step": 3821
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.8592789700617695,
      "learning_rate": 3.452249046856836e-06,
      "loss": 0.6593,
      "step": 3822
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4538252256016957,
      "learning_rate": 3.4475399627956197e-06,
      "loss": 0.8253,
      "step": 3823
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.961027533686345,
      "learning_rate": 3.4428334236343774e-06,
      "loss": 0.7596,
      "step": 3824
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.6019149175920842,
      "learning_rate": 3.438129431201075e-06,
      "loss": 0.8377,
      "step": 3825
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1696785226340316,
      "learning_rate": 3.433427987322693e-06,
      "loss": 0.8141,
      "step": 3826
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.190384298308899,
      "learning_rate": 3.4287290938252103e-06,
      "loss": 0.7991,
      "step": 3827
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3889558502763828,
      "learning_rate": 3.424032752533627e-06,
      "loss": 0.8771,
      "step": 3828
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2364047937816676,
      "learning_rate": 3.4193389652719478e-06,
      "loss": 0.895,
      "step": 3829
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.420160212249991,
      "learning_rate": 3.4146477338631856e-06,
      "loss": 0.8622,
      "step": 3830
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5190615056622627,
      "learning_rate": 3.4099590601293632e-06,
      "loss": 0.9537,
      "step": 3831
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.5150711710474292,
      "learning_rate": 3.4052729458915024e-06,
      "loss": 0.8504,
      "step": 3832
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2752594361883436,
      "learning_rate": 3.4005893929696377e-06,
      "loss": 0.8062,
      "step": 3833
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2757929222953557,
      "learning_rate": 3.3959084031828114e-06,
      "loss": 0.7842,
      "step": 3834
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.419873785125447,
      "learning_rate": 3.3912299783490567e-06,
      "loss": 0.8484,
      "step": 3835
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0640624328944455,
      "learning_rate": 3.3865541202854314e-06,
      "loss": 0.7926,
      "step": 3836
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1323593339002958,
      "learning_rate": 3.3818808308079753e-06,
      "loss": 0.7716,
      "step": 3837
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1853162269727922,
      "learning_rate": 3.3772101117317437e-06,
      "loss": 0.7417,
      "step": 3838
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9765904286682464,
      "learning_rate": 3.372541964870795e-06,
      "loss": 0.7948,
      "step": 3839
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1105863005147223,
      "learning_rate": 3.367876392038174e-06,
      "loss": 0.8761,
      "step": 3840
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4948436638229081,
      "learning_rate": 3.363213395045941e-06,
      "loss": 0.8292,
      "step": 3841
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1435118705086234,
      "learning_rate": 3.3585529757051504e-06,
      "loss": 0.8542,
      "step": 3842
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2129500796078805,
      "learning_rate": 3.353895135825854e-06,
      "loss": 0.7628,
      "step": 3843
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1475116172718127,
      "learning_rate": 3.3492398772171074e-06,
      "loss": 0.822,
      "step": 3844
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3048821738763556,
      "learning_rate": 3.344587201686952e-06,
      "loss": 0.8214,
      "step": 3845
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2104762675597367,
      "learning_rate": 3.3399371110424372e-06,
      "loss": 0.8342,
      "step": 3846
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1883036231785087,
      "learning_rate": 3.3352896070896057e-06,
      "loss": 0.8467,
      "step": 3847
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2783820293658732,
      "learning_rate": 3.330644691633492e-06,
      "loss": 0.7157,
      "step": 3848
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2057000380098166,
      "learning_rate": 3.3260023664781326e-06,
      "loss": 0.8495,
      "step": 3849
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1071300382760605,
      "learning_rate": 3.321362633426547e-06,
      "loss": 0.766,
      "step": 3850
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.8177906313663297,
      "learning_rate": 3.316725494280757e-06,
      "loss": 0.7753,
      "step": 3851
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9765607817157888,
      "learning_rate": 3.3120909508417754e-06,
      "loss": 0.7446,
      "step": 3852
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1713731050594693,
      "learning_rate": 3.307459004909599e-06,
      "loss": 0.8543,
      "step": 3853
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2597599406446802,
      "learning_rate": 3.3028296582832285e-06,
      "loss": 0.8507,
      "step": 3854
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0589084694076252,
      "learning_rate": 3.2982029127606517e-06,
      "loss": 0.7967,
      "step": 3855
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3789489509168404,
      "learning_rate": 3.2935787701388346e-06,
      "loss": 0.8753,
      "step": 3856
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.9977050212583226,
      "learning_rate": 3.2889572322137454e-06,
      "loss": 0.7286,
      "step": 3857
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2477176417439764,
      "learning_rate": 3.2843383007803364e-06,
      "loss": 0.8522,
      "step": 3858
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4197600502363261,
      "learning_rate": 3.279721977632546e-06,
      "loss": 0.8278,
      "step": 3859
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.149357120169746,
      "learning_rate": 3.275108264563306e-06,
      "loss": 0.8241,
      "step": 3860
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1487934074389732,
      "learning_rate": 3.270497163364521e-06,
      "loss": 0.7479,
      "step": 3861
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.4434688777255515,
      "learning_rate": 3.2658886758270947e-06,
      "loss": 0.8846,
      "step": 3862
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2118249202591804,
      "learning_rate": 3.2612828037409116e-06,
      "loss": 0.7675,
      "step": 3863
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.3470047533520948,
      "learning_rate": 3.256679548894831e-06,
      "loss": 0.8574,
      "step": 3864
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.0159425482049553,
      "learning_rate": 3.252078913076718e-06,
      "loss": 0.7783,
      "step": 3865
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.747450263222185,
      "learning_rate": 3.247480898073395e-06,
      "loss": 0.7856,
      "step": 3866
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2411952004609317,
      "learning_rate": 3.242885505670681e-06,
      "loss": 0.8278,
      "step": 3867
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.1487499646451702,
      "learning_rate": 3.238292737653379e-06,
      "loss": 0.8739,
      "step": 3868
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.202368336350882,
      "learning_rate": 3.233702595805258e-06,
      "loss": 0.8451,
      "step": 3869
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.910350027734731,
      "learning_rate": 3.229115081909082e-06,
      "loss": 0.8082,
      "step": 3870
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.361564025046843,
      "learning_rate": 3.224530197746587e-06,
      "loss": 0.7648,
      "step": 3871
    },
    {
      "epoch": 0.74,
      "grad_norm": 1.2970596714844131,
      "learning_rate": 3.2199479450984892e-06,
      "loss": 0.8571,
      "step": 3872
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0448803962514295,
      "learning_rate": 3.2153683257444856e-06,
      "loss": 0.783,
      "step": 3873
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4484069068824856,
      "learning_rate": 3.210791341463243e-06,
      "loss": 0.8483,
      "step": 3874
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.5806538207376226,
      "learning_rate": 3.206216994032411e-06,
      "loss": 0.9058,
      "step": 3875
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1240218818746583,
      "learning_rate": 3.2016452852286127e-06,
      "loss": 0.7161,
      "step": 3876
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1232446757564136,
      "learning_rate": 3.1970762168274495e-06,
      "loss": 0.8252,
      "step": 3877
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.873024958262537,
      "learning_rate": 3.1925097906034962e-06,
      "loss": 0.9337,
      "step": 3878
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2399908833014768,
      "learning_rate": 3.187946008330295e-06,
      "loss": 0.8173,
      "step": 3879
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.275083430025999,
      "learning_rate": 3.1833848717803674e-06,
      "loss": 0.7258,
      "step": 3880
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9496291844546908,
      "learning_rate": 3.178826382725212e-06,
      "loss": 0.6598,
      "step": 3881
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2685502120505097,
      "learning_rate": 3.1742705429352827e-06,
      "loss": 0.8591,
      "step": 3882
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1648307223905923,
      "learning_rate": 3.1697173541800254e-06,
      "loss": 0.7535,
      "step": 3883
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9415232753334115,
      "learning_rate": 3.165166818227845e-06,
      "loss": 0.6269,
      "step": 3884
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.257907381092437,
      "learning_rate": 3.1606189368461117e-06,
      "loss": 0.8332,
      "step": 3885
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3649579472306137,
      "learning_rate": 3.156073711801172e-06,
      "loss": 0.8311,
      "step": 3886
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4632463716575297,
      "learning_rate": 3.151531144858344e-06,
      "loss": 0.8509,
      "step": 3887
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2630296984997205,
      "learning_rate": 3.146991237781899e-06,
      "loss": 0.7563,
      "step": 3888
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.175828292569372,
      "learning_rate": 3.142453992335096e-06,
      "loss": 0.8325,
      "step": 3889
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1025681229977449,
      "learning_rate": 3.137919410280139e-06,
      "loss": 0.8439,
      "step": 3890
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1930651032664814,
      "learning_rate": 3.1333874933782114e-06,
      "loss": 0.8663,
      "step": 3891
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2333906457372483,
      "learning_rate": 3.128858243389461e-06,
      "loss": 0.8183,
      "step": 3892
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.223869314955583,
      "learning_rate": 3.124331662072987e-06,
      "loss": 0.6994,
      "step": 3893
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.4451697240364871,
      "learning_rate": 3.119807751186872e-06,
      "loss": 0.8071,
      "step": 3894
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0063314922428352,
      "learning_rate": 3.1152865124881436e-06,
      "loss": 0.7975,
      "step": 3895
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9475889140930245,
      "learning_rate": 3.110767947732801e-06,
      "loss": 0.8046,
      "step": 3896
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3743680987357214,
      "learning_rate": 3.106252058675806e-06,
      "loss": 0.7623,
      "step": 3897
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.235870851152602,
      "learning_rate": 3.101738847071072e-06,
      "loss": 0.8444,
      "step": 3898
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1338278655378673,
      "learning_rate": 3.097228314671481e-06,
      "loss": 0.7467,
      "step": 3899
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.240686233500825,
      "learning_rate": 3.092720463228872e-06,
      "loss": 0.8051,
      "step": 3900
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.997896125451347,
      "learning_rate": 3.0882152944940423e-06,
      "loss": 0.7501,
      "step": 3901
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2706357582169738,
      "learning_rate": 3.0837128102167514e-06,
      "loss": 0.8218,
      "step": 3902
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3604827079624293,
      "learning_rate": 3.079213012145705e-06,
      "loss": 0.8022,
      "step": 3903
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0635383980308815,
      "learning_rate": 3.0747159020285766e-06,
      "loss": 0.7115,
      "step": 3904
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3466197146422023,
      "learning_rate": 3.0702214816119925e-06,
      "loss": 0.8493,
      "step": 3905
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1640186409560358,
      "learning_rate": 3.065729752641532e-06,
      "loss": 0.8354,
      "step": 3906
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1284326472332564,
      "learning_rate": 3.0612407168617352e-06,
      "loss": 0.8834,
      "step": 3907
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3383154763587275,
      "learning_rate": 3.0567543760160866e-06,
      "loss": 0.7933,
      "step": 3908
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3652124169498006,
      "learning_rate": 3.05227073184703e-06,
      "loss": 0.8859,
      "step": 3909
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2426539145608644,
      "learning_rate": 3.047789786095967e-06,
      "loss": 0.8121,
      "step": 3910
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9523155371439364,
      "learning_rate": 3.0433115405032334e-06,
      "loss": 0.723,
      "step": 3911
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1049768352575233,
      "learning_rate": 3.0388359968081395e-06,
      "loss": 0.7825,
      "step": 3912
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.277756247425079,
      "learning_rate": 3.034363156748933e-06,
      "loss": 0.8846,
      "step": 3913
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0136654398599962,
      "learning_rate": 3.0298930220628086e-06,
      "loss": 0.7111,
      "step": 3914
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2108884055429878,
      "learning_rate": 3.025425594485919e-06,
      "loss": 0.8227,
      "step": 3915
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1310331313236932,
      "learning_rate": 3.0209608757533626e-06,
      "loss": 0.8561,
      "step": 3916
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.018974974893091,
      "learning_rate": 3.0164988675991768e-06,
      "loss": 0.8921,
      "step": 3917
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0463342564470892,
      "learning_rate": 3.0120395717563655e-06,
      "loss": 0.6161,
      "step": 3918
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0671888083080607,
      "learning_rate": 3.00758298995686e-06,
      "loss": 0.8724,
      "step": 3919
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1910302514716697,
      "learning_rate": 3.0031291239315473e-06,
      "loss": 0.7353,
      "step": 3920
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.1957776163582579,
      "learning_rate": 2.9986779754102613e-06,
      "loss": 0.8246,
      "step": 3921
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2631013865239094,
      "learning_rate": 2.9942295461217698e-06,
      "loss": 0.8252,
      "step": 3922
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.316334407993921,
      "learning_rate": 2.9897838377937947e-06,
      "loss": 0.8127,
      "step": 3923
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.0991321480126095,
      "learning_rate": 2.985340852152999e-06,
      "loss": 0.8432,
      "step": 3924
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1984282553538794,
      "learning_rate": 2.9809005909249866e-06,
      "loss": 0.7637,
      "step": 3925
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3650865427018675,
      "learning_rate": 2.9764630558343064e-06,
      "loss": 0.8694,
      "step": 3926
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.9649415071622689,
      "learning_rate": 2.9720282486044407e-06,
      "loss": 0.7016,
      "step": 3927
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7599759648284448,
      "learning_rate": 2.9675961709578194e-06,
      "loss": 0.8398,
      "step": 3928
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3336439396442707,
      "learning_rate": 2.9631668246158105e-06,
      "loss": 0.8895,
      "step": 3929
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.108663675737105,
      "learning_rate": 2.958740211298722e-06,
      "loss": 0.8316,
      "step": 3930
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.137168995019266,
      "learning_rate": 2.9543163327258016e-06,
      "loss": 0.8447,
      "step": 3931
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1063844528530602,
      "learning_rate": 2.949895190615227e-06,
      "loss": 0.7598,
      "step": 3932
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1986524249618817,
      "learning_rate": 2.9454767866841225e-06,
      "loss": 0.8445,
      "step": 3933
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2518994251776714,
      "learning_rate": 2.941061122648545e-06,
      "loss": 0.7883,
      "step": 3934
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.976495890014613,
      "learning_rate": 2.9366482002234874e-06,
      "loss": 0.8128,
      "step": 3935
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.681840625249611,
      "learning_rate": 2.932238021122877e-06,
      "loss": 0.9161,
      "step": 3936
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3906923569750498,
      "learning_rate": 2.9278305870595814e-06,
      "loss": 0.8805,
      "step": 3937
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1167222743287657,
      "learning_rate": 2.92342589974539e-06,
      "loss": 0.8028,
      "step": 3938
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0329939992492845,
      "learning_rate": 2.919023960891039e-06,
      "loss": 0.6746,
      "step": 3939
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.817675923033026,
      "learning_rate": 2.9146247722061806e-06,
      "loss": 0.8286,
      "step": 3940
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.457150731160728,
      "learning_rate": 2.910228335399419e-06,
      "loss": 0.8749,
      "step": 3941
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0675301310550773,
      "learning_rate": 2.90583465217828e-06,
      "loss": 0.8878,
      "step": 3942
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3827937840148827,
      "learning_rate": 2.9014437242492133e-06,
      "loss": 0.7534,
      "step": 3943
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3794786628452809,
      "learning_rate": 2.897055553317607e-06,
      "loss": 0.8638,
      "step": 3944
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4291018425807076,
      "learning_rate": 2.89267014108778e-06,
      "loss": 0.8761,
      "step": 3945
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.579133476354756,
      "learning_rate": 2.8882874892629654e-06,
      "loss": 0.8499,
      "step": 3946
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1660630419768805,
      "learning_rate": 2.883907599545348e-06,
      "loss": 0.893,
      "step": 3947
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1516163680108042,
      "learning_rate": 2.8795304736360184e-06,
      "loss": 0.7675,
      "step": 3948
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3573260678298555,
      "learning_rate": 2.8751561132350025e-06,
      "loss": 0.8388,
      "step": 3949
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2060989004980933,
      "learning_rate": 2.8707845200412567e-06,
      "loss": 0.8219,
      "step": 3950
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.298447455644599,
      "learning_rate": 2.866415695752649e-06,
      "loss": 0.8846,
      "step": 3951
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2742594431478491,
      "learning_rate": 2.862049642065986e-06,
      "loss": 0.7747,
      "step": 3952
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2111988689240747,
      "learning_rate": 2.857686360676991e-06,
      "loss": 0.79,
      "step": 3953
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.348053772664669,
      "learning_rate": 2.853325853280312e-06,
      "loss": 0.8605,
      "step": 3954
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0642498664415805,
      "learning_rate": 2.8489681215695242e-06,
      "loss": 0.8128,
      "step": 3955
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2630641926536033,
      "learning_rate": 2.8446131672371136e-06,
      "loss": 0.8299,
      "step": 3956
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2904398347597974,
      "learning_rate": 2.840260991974497e-06,
      "loss": 0.8478,
      "step": 3957
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2541437917457403,
      "learning_rate": 2.83591159747201e-06,
      "loss": 0.8672,
      "step": 3958
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.327133874764168,
      "learning_rate": 2.8315649854189066e-06,
      "loss": 0.806,
      "step": 3959
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.259423998782887,
      "learning_rate": 2.8272211575033635e-06,
      "loss": 0.7699,
      "step": 3960
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1351148684277863,
      "learning_rate": 2.8228801154124687e-06,
      "loss": 0.8435,
      "step": 3961
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.6733206273943824,
      "learning_rate": 2.8185418608322344e-06,
      "loss": 0.9282,
      "step": 3962
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.030931989537851,
      "learning_rate": 2.814206395447593e-06,
      "loss": 0.7684,
      "step": 3963
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.434477993336296,
      "learning_rate": 2.80987372094238e-06,
      "loss": 0.9077,
      "step": 3964
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4396158942220258,
      "learning_rate": 2.805543838999364e-06,
      "loss": 0.836,
      "step": 3965
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1146656931398233,
      "learning_rate": 2.801216751300223e-06,
      "loss": 0.8614,
      "step": 3966
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1835259702996987,
      "learning_rate": 2.796892459525541e-06,
      "loss": 0.8005,
      "step": 3967
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.4312550684550758,
      "learning_rate": 2.7925709653548295e-06,
      "loss": 0.9259,
      "step": 3968
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3679947753461597,
      "learning_rate": 2.788252270466497e-06,
      "loss": 0.8833,
      "step": 3969
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.1505865321257385,
      "learning_rate": 2.783936376537886e-06,
      "loss": 0.7864,
      "step": 3970
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.2148841674097755,
      "learning_rate": 2.7796232852452378e-06,
      "loss": 0.7105,
      "step": 3971
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.0129498007487865,
      "learning_rate": 2.775312998263703e-06,
      "loss": 0.8076,
      "step": 3972
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.743488655536415,
      "learning_rate": 2.771005517267349e-06,
      "loss": 0.8602,
      "step": 3973
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.086022645970706,
      "learning_rate": 2.7667008439291552e-06,
      "loss": 0.7145,
      "step": 3974
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.3587855624545477,
      "learning_rate": 2.762398979920998e-06,
      "loss": 0.8928,
      "step": 3975
    },
    {
      "epoch": 0.76,
      "grad_norm": 1.7294095362639645,
      "learning_rate": 2.7580999269136854e-06,
      "loss": 0.8527,
      "step": 3976
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2481547728389113,
      "learning_rate": 2.7538036865769093e-06,
      "loss": 0.8453,
      "step": 3977
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3952082116492783,
      "learning_rate": 2.749510260579282e-06,
      "loss": 0.8353,
      "step": 3978
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5401151574202454,
      "learning_rate": 2.7452196505883265e-06,
      "loss": 0.8128,
      "step": 3979
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.016677128532866,
      "learning_rate": 2.7409318582704594e-06,
      "loss": 0.851,
      "step": 3980
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0206047150130293,
      "learning_rate": 2.736646885291011e-06,
      "loss": 0.8493,
      "step": 3981
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.210884891413198,
      "learning_rate": 2.7323647333142176e-06,
      "loss": 0.8254,
      "step": 3982
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4831936065739129,
      "learning_rate": 2.728085404003217e-06,
      "loss": 0.8858,
      "step": 3983
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1332566153250305,
      "learning_rate": 2.7238088990200538e-06,
      "loss": 0.8375,
      "step": 3984
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3781681526952474,
      "learning_rate": 2.7195352200256675e-06,
      "loss": 0.7955,
      "step": 3985
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2794558180649482,
      "learning_rate": 2.7152643686799095e-06,
      "loss": 0.8419,
      "step": 3986
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1634217081079177,
      "learning_rate": 2.710996346641528e-06,
      "loss": 0.808,
      "step": 3987
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2080668654305355,
      "learning_rate": 2.706731155568175e-06,
      "loss": 0.7787,
      "step": 3988
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1454316379751799,
      "learning_rate": 2.7024687971164032e-06,
      "loss": 0.7694,
      "step": 3989
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1370557606214216,
      "learning_rate": 2.698209272941659e-06,
      "loss": 0.7695,
      "step": 3990
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3298923522692774,
      "learning_rate": 2.693952584698294e-06,
      "loss": 0.8232,
      "step": 3991
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0632737564478727,
      "learning_rate": 2.689698734039561e-06,
      "loss": 0.648,
      "step": 3992
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1114446006185799,
      "learning_rate": 2.685447722617597e-06,
      "loss": 0.8175,
      "step": 3993
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0331768220030446,
      "learning_rate": 2.6811995520834543e-06,
      "loss": 0.7736,
      "step": 3994
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.9768412085024937,
      "learning_rate": 2.676954224087075e-06,
      "loss": 0.8419,
      "step": 3995
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0969747783664474,
      "learning_rate": 2.6727117402772886e-06,
      "loss": 0.7622,
      "step": 3996
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.259126666211422,
      "learning_rate": 2.668472102301829e-06,
      "loss": 0.7865,
      "step": 3997
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.9634983735071727,
      "learning_rate": 2.664235311807327e-06,
      "loss": 0.7597,
      "step": 3998
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.8800363517581107,
      "learning_rate": 2.6600013704392946e-06,
      "loss": 0.9559,
      "step": 3999
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1833211030826165,
      "learning_rate": 2.655770279842157e-06,
      "loss": 0.8148,
      "step": 4000
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1909725306525663,
      "learning_rate": 2.651542041659211e-06,
      "loss": 0.8421,
      "step": 4001
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0298649356582925,
      "learning_rate": 2.6473166575326603e-06,
      "loss": 0.7399,
      "step": 4002
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3324259046802855,
      "learning_rate": 2.6430941291035984e-06,
      "loss": 0.9855,
      "step": 4003
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.192302889414349,
      "learning_rate": 2.6388744580119975e-06,
      "loss": 0.7687,
      "step": 4004
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.51004755933458,
      "learning_rate": 2.6346576458967397e-06,
      "loss": 0.9052,
      "step": 4005
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.6097065294203106,
      "learning_rate": 2.630443694395579e-06,
      "loss": 0.8508,
      "step": 4006
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1791266357797894,
      "learning_rate": 2.6262326051451683e-06,
      "loss": 0.8789,
      "step": 4007
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.3449637261717116,
      "learning_rate": 2.6220243797810483e-06,
      "loss": 0.9002,
      "step": 4008
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0430123335906163,
      "learning_rate": 2.6178190199376394e-06,
      "loss": 0.7853,
      "step": 4009
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1786495965516037,
      "learning_rate": 2.6136165272482596e-06,
      "loss": 0.8816,
      "step": 4010
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.4908496082300635,
      "learning_rate": 2.6094169033451066e-06,
      "loss": 0.8477,
      "step": 4011
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2606336530658897,
      "learning_rate": 2.605220149859267e-06,
      "loss": 0.8109,
      "step": 4012
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.43184523336827,
      "learning_rate": 2.6010262684207134e-06,
      "loss": 0.8458,
      "step": 4013
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0673688037350904,
      "learning_rate": 2.596835260658297e-06,
      "loss": 0.6941,
      "step": 4014
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2807214892777676,
      "learning_rate": 2.5926471281997577e-06,
      "loss": 0.68,
      "step": 4015
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2870394383099726,
      "learning_rate": 2.588461872671719e-06,
      "loss": 0.8249,
      "step": 4016
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.320886452270919,
      "learning_rate": 2.5842794956996863e-06,
      "loss": 0.8313,
      "step": 4017
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.35459541932656,
      "learning_rate": 2.580099998908049e-06,
      "loss": 0.8765,
      "step": 4018
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.177466840746938,
      "learning_rate": 2.575923383920069e-06,
      "loss": 0.7052,
      "step": 4019
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2091787610291542,
      "learning_rate": 2.5717496523578998e-06,
      "loss": 0.7814,
      "step": 4020
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.3552359261116806,
      "learning_rate": 2.5675788058425723e-06,
      "loss": 0.955,
      "step": 4021
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1235431602885904,
      "learning_rate": 2.563410845993988e-06,
      "loss": 0.8065,
      "step": 4022
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0116159274531562,
      "learning_rate": 2.5592457744309405e-06,
      "loss": 0.7802,
      "step": 4023
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.170104764572505,
      "learning_rate": 2.5550835927710982e-06,
      "loss": 0.8102,
      "step": 4024
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1007789196801274,
      "learning_rate": 2.5509243026309983e-06,
      "loss": 0.8255,
      "step": 4025
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.5616843256691504,
      "learning_rate": 2.546767905626063e-06,
      "loss": 0.8521,
      "step": 4026
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2714504923752046,
      "learning_rate": 2.5426144033705937e-06,
      "loss": 0.8881,
      "step": 4027
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.2908879082017422,
      "learning_rate": 2.5384637974777513e-06,
      "loss": 0.8628,
      "step": 4028
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0024762646931455,
      "learning_rate": 2.5343160895595977e-06,
      "loss": 0.7185,
      "step": 4029
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4252953169954616,
      "learning_rate": 2.530171281227044e-06,
      "loss": 0.8234,
      "step": 4030
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.534012441788785,
      "learning_rate": 2.52602937408989e-06,
      "loss": 0.8881,
      "step": 4031
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4135194563593676,
      "learning_rate": 2.5218903697568075e-06,
      "loss": 0.8745,
      "step": 4032
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4961388745487265,
      "learning_rate": 2.517754269835332e-06,
      "loss": 0.8588,
      "step": 4033
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5074839768365758,
      "learning_rate": 2.5136210759318814e-06,
      "loss": 0.7995,
      "step": 4034
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1931922911912254,
      "learning_rate": 2.5094907896517383e-06,
      "loss": 0.8159,
      "step": 4035
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5926244968379342,
      "learning_rate": 2.505363412599059e-06,
      "loss": 0.9068,
      "step": 4036
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.6923980393030151,
      "learning_rate": 2.5012389463768737e-06,
      "loss": 0.8233,
      "step": 4037
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.07249364573771,
      "learning_rate": 2.4971173925870694e-06,
      "loss": 0.7859,
      "step": 4038
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1425712165460642,
      "learning_rate": 2.4929987528304144e-06,
      "loss": 0.7867,
      "step": 4039
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.9650250478829755,
      "learning_rate": 2.4888830287065414e-06,
      "loss": 0.8219,
      "step": 4040
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.088505419796616,
      "learning_rate": 2.4847702218139493e-06,
      "loss": 0.6954,
      "step": 4041
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2732353342512301,
      "learning_rate": 2.480660333750007e-06,
      "loss": 0.8603,
      "step": 4042
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1039241389089283,
      "learning_rate": 2.476553366110944e-06,
      "loss": 0.8598,
      "step": 4043
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5299239225061712,
      "learning_rate": 2.4724493204918598e-06,
      "loss": 0.8995,
      "step": 4044
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2310005257475716,
      "learning_rate": 2.4683481984867207e-06,
      "loss": 0.8842,
      "step": 4045
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5183264159081595,
      "learning_rate": 2.4642500016883532e-06,
      "loss": 0.791,
      "step": 4046
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2778160807015264,
      "learning_rate": 2.4601547316884544e-06,
      "loss": 0.7867,
      "step": 4047
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.141242456612956,
      "learning_rate": 2.4560623900775728e-06,
      "loss": 0.9138,
      "step": 4048
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.287342038022954,
      "learning_rate": 2.45197297844513e-06,
      "loss": 0.8148,
      "step": 4049
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2519315856860118,
      "learning_rate": 2.447886498379409e-06,
      "loss": 0.8013,
      "step": 4050
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5717362096001424,
      "learning_rate": 2.4438029514675444e-06,
      "loss": 0.9211,
      "step": 4051
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1352712923174764,
      "learning_rate": 2.439722339295545e-06,
      "loss": 0.8163,
      "step": 4052
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1588439696288366,
      "learning_rate": 2.4356446634482756e-06,
      "loss": 0.7052,
      "step": 4053
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.142720043505935,
      "learning_rate": 2.4315699255094516e-06,
      "loss": 0.732,
      "step": 4054
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.5040067314045622,
      "learning_rate": 2.427498127061658e-06,
      "loss": 0.8885,
      "step": 4055
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3744706737223817,
      "learning_rate": 2.423429269686336e-06,
      "loss": 0.8011,
      "step": 4056
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3246157987726268,
      "learning_rate": 2.4193633549637765e-06,
      "loss": 0.8427,
      "step": 4057
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.3871648624943387,
      "learning_rate": 2.4153003844731425e-06,
      "loss": 0.6461,
      "step": 4058
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4623255300329365,
      "learning_rate": 2.411240359792438e-06,
      "loss": 0.8984,
      "step": 4059
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1385574794546198,
      "learning_rate": 2.407183282498534e-06,
      "loss": 0.8526,
      "step": 4060
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.064341765668254,
      "learning_rate": 2.403129154167153e-06,
      "loss": 0.8405,
      "step": 4061
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.099375364602975,
      "learning_rate": 2.3990779763728666e-06,
      "loss": 0.864,
      "step": 4062
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.9647178673961507,
      "learning_rate": 2.3950297506891084e-06,
      "loss": 0.816,
      "step": 4063
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2356535139204312,
      "learning_rate": 2.390984478688164e-06,
      "loss": 0.8815,
      "step": 4064
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0017849701370243,
      "learning_rate": 2.386942161941169e-06,
      "loss": 0.8014,
      "step": 4065
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1696123309114328,
      "learning_rate": 2.3829028020181154e-06,
      "loss": 0.9105,
      "step": 4066
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1620110027366488,
      "learning_rate": 2.3788664004878405e-06,
      "loss": 0.8886,
      "step": 4067
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0779816618169036,
      "learning_rate": 2.374832958918035e-06,
      "loss": 0.8671,
      "step": 4068
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.262795453275284,
      "learning_rate": 2.3708024788752448e-06,
      "loss": 0.9098,
      "step": 4069
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.580883849812052,
      "learning_rate": 2.3667749619248614e-06,
      "loss": 0.8914,
      "step": 4070
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0681843106413087,
      "learning_rate": 2.3627504096311273e-06,
      "loss": 0.8732,
      "step": 4071
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.177931793946622,
      "learning_rate": 2.3587288235571258e-06,
      "loss": 0.9108,
      "step": 4072
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0129796663982809,
      "learning_rate": 2.354710205264801e-06,
      "loss": 0.7522,
      "step": 4073
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.0208278172532088,
      "learning_rate": 2.350694556314934e-06,
      "loss": 0.7485,
      "step": 4074
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1621487238176706,
      "learning_rate": 2.3466818782671597e-06,
      "loss": 0.7899,
      "step": 4075
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.2070411883102445,
      "learning_rate": 2.3426721726799573e-06,
      "loss": 0.9127,
      "step": 4076
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.4959785037933677,
      "learning_rate": 2.3386654411106446e-06,
      "loss": 0.8902,
      "step": 4077
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.430136520195887,
      "learning_rate": 2.3346616851153935e-06,
      "loss": 0.8327,
      "step": 4078
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1576571182667859,
      "learning_rate": 2.330660906249218e-06,
      "loss": 0.8012,
      "step": 4079
    },
    {
      "epoch": 0.78,
      "grad_norm": 1.1756074454556216,
      "learning_rate": 2.3266631060659685e-06,
      "loss": 0.7454,
      "step": 4080
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4310837214796692,
      "learning_rate": 2.32266828611835e-06,
      "loss": 0.7899,
      "step": 4081
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0143316176322463,
      "learning_rate": 2.318676447957907e-06,
      "loss": 0.753,
      "step": 4082
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.367732920843907,
      "learning_rate": 2.3146875931350165e-06,
      "loss": 0.8418,
      "step": 4083
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.23217691391626,
      "learning_rate": 2.310701723198908e-06,
      "loss": 0.6922,
      "step": 4084
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.154694813144132,
      "learning_rate": 2.3067188396976482e-06,
      "loss": 0.829,
      "step": 4085
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.961625665671431,
      "learning_rate": 2.3027389441781368e-06,
      "loss": 0.7854,
      "step": 4086
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3543933484774153,
      "learning_rate": 2.2987620381861288e-06,
      "loss": 0.9588,
      "step": 4087
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.386091488021572,
      "learning_rate": 2.2947881232662007e-06,
      "loss": 0.7761,
      "step": 4088
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2968598253226957,
      "learning_rate": 2.290817200961779e-06,
      "loss": 0.8367,
      "step": 4089
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0571938648925199,
      "learning_rate": 2.286849272815126e-06,
      "loss": 0.7539,
      "step": 4090
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3392783687594472,
      "learning_rate": 2.2828843403673338e-06,
      "loss": 0.9391,
      "step": 4091
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1824904969724588,
      "learning_rate": 2.2789224051583403e-06,
      "loss": 0.9004,
      "step": 4092
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1849950591440928,
      "learning_rate": 2.274963468726914e-06,
      "loss": 0.8259,
      "step": 4093
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.062795367234256,
      "learning_rate": 2.2710075326106618e-06,
      "loss": 0.8267,
      "step": 4094
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6114275445033222,
      "learning_rate": 2.2670545983460245e-06,
      "loss": 0.8548,
      "step": 4095
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.121187137866096,
      "learning_rate": 2.263104667468272e-06,
      "loss": 0.8121,
      "step": 4096
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3178451912911344,
      "learning_rate": 2.259157741511515e-06,
      "loss": 0.89,
      "step": 4097
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4044918321564752,
      "learning_rate": 2.2552138220086927e-06,
      "loss": 0.8851,
      "step": 4098
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1909358170670616,
      "learning_rate": 2.2512729104915787e-06,
      "loss": 0.8893,
      "step": 4099
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4128040020602106,
      "learning_rate": 2.2473350084907806e-06,
      "loss": 0.8802,
      "step": 4100
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.6052544333584684,
      "learning_rate": 2.243400117535729e-06,
      "loss": 0.8708,
      "step": 4101
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0944842662536207,
      "learning_rate": 2.2394682391546928e-06,
      "loss": 0.6934,
      "step": 4102
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0799472166441184,
      "learning_rate": 2.2355393748747702e-06,
      "loss": 0.8081,
      "step": 4103
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0886699542787277,
      "learning_rate": 2.2316135262218787e-06,
      "loss": 0.8034,
      "step": 4104
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1918842107379921,
      "learning_rate": 2.227690694720784e-06,
      "loss": 0.8516,
      "step": 4105
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.4738879403220886,
      "learning_rate": 2.223770881895061e-06,
      "loss": 0.821,
      "step": 4106
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.12142306589242,
      "learning_rate": 2.2198540892671215e-06,
      "loss": 0.8625,
      "step": 4107
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2810667007884518,
      "learning_rate": 2.215940318358206e-06,
      "loss": 0.7868,
      "step": 4108
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.357140966206592,
      "learning_rate": 2.2120295706883698e-06,
      "loss": 0.9137,
      "step": 4109
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1299398658413176,
      "learning_rate": 2.2081218477765097e-06,
      "loss": 0.8067,
      "step": 4110
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2083057766185783,
      "learning_rate": 2.204217151140342e-06,
      "loss": 0.8603,
      "step": 4111
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0871055276729313,
      "learning_rate": 2.200315482296398e-06,
      "loss": 0.7611,
      "step": 4112
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3090851917819182,
      "learning_rate": 2.1964168427600462e-06,
      "loss": 0.8768,
      "step": 4113
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1838791938951032,
      "learning_rate": 2.1925212340454737e-06,
      "loss": 0.8366,
      "step": 4114
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1765187222415319,
      "learning_rate": 2.1886286576656834e-06,
      "loss": 0.9468,
      "step": 4115
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2074355806969246,
      "learning_rate": 2.184739115132517e-06,
      "loss": 0.7869,
      "step": 4116
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.208564579111692,
      "learning_rate": 2.1808526079566215e-06,
      "loss": 0.8613,
      "step": 4117
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3211156804640534,
      "learning_rate": 2.1769691376474722e-06,
      "loss": 0.7773,
      "step": 4118
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1434036736659883,
      "learning_rate": 2.1730887057133678e-06,
      "loss": 0.8287,
      "step": 4119
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.3864465305274762,
      "learning_rate": 2.1692113136614177e-06,
      "loss": 0.8433,
      "step": 4120
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.33567967143756,
      "learning_rate": 2.1653369629975595e-06,
      "loss": 0.804,
      "step": 4121
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1052825976563645,
      "learning_rate": 2.1614656552265457e-06,
      "loss": 0.7523,
      "step": 4122
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2232179309423146,
      "learning_rate": 2.157597391851949e-06,
      "loss": 0.7891,
      "step": 4123
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.289954172585715,
      "learning_rate": 2.1537321743761587e-06,
      "loss": 0.9015,
      "step": 4124
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1716933204962925,
      "learning_rate": 2.1498700043003773e-06,
      "loss": 0.7688,
      "step": 4125
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0070308668655246,
      "learning_rate": 2.1460108831246295e-06,
      "loss": 0.6821,
      "step": 4126
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.0680901760976647,
      "learning_rate": 2.142154812347753e-06,
      "loss": 0.8175,
      "step": 4127
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.179111152029859,
      "learning_rate": 2.1383017934674012e-06,
      "loss": 0.8248,
      "step": 4128
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.1885156993330588,
      "learning_rate": 2.1344518279800454e-06,
      "loss": 0.8135,
      "step": 4129
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2338019267551834,
      "learning_rate": 2.130604917380962e-06,
      "loss": 0.9064,
      "step": 4130
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.2219825362775005,
      "learning_rate": 2.12676106316425e-06,
      "loss": 0.7911,
      "step": 4131
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.358542095009043,
      "learning_rate": 2.1229202668228197e-06,
      "loss": 0.7985,
      "step": 4132
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7170253109115428,
      "learning_rate": 2.1190825298483855e-06,
      "loss": 0.8753,
      "step": 4133
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0990035671253335,
      "learning_rate": 2.115247853731488e-06,
      "loss": 0.7596,
      "step": 4134
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0915474444666224,
      "learning_rate": 2.11141623996147e-06,
      "loss": 0.8215,
      "step": 4135
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2825151958986307,
      "learning_rate": 2.107587690026481e-06,
      "loss": 0.8228,
      "step": 4136
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.6271270507864928,
      "learning_rate": 2.103762205413493e-06,
      "loss": 0.8465,
      "step": 4137
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0744758688384073,
      "learning_rate": 2.0999397876082726e-06,
      "loss": 0.7656,
      "step": 4138
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9706373143242043,
      "learning_rate": 2.096120438095404e-06,
      "loss": 0.7993,
      "step": 4139
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2951356907637233,
      "learning_rate": 2.092304158358286e-06,
      "loss": 0.8126,
      "step": 4140
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4658245179372054,
      "learning_rate": 2.0884909498791106e-06,
      "loss": 0.8464,
      "step": 4141
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3793334662162589,
      "learning_rate": 2.0846808141388852e-06,
      "loss": 0.891,
      "step": 4142
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.08255380060913,
      "learning_rate": 2.080873752617426e-06,
      "loss": 0.6988,
      "step": 4143
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0635103845603813,
      "learning_rate": 2.0770697667933436e-06,
      "loss": 0.8579,
      "step": 4144
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1098293992814783,
      "learning_rate": 2.073268858144074e-06,
      "loss": 0.8073,
      "step": 4145
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1640695739297537,
      "learning_rate": 2.0694710281458372e-06,
      "loss": 0.8359,
      "step": 4146
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3233105736829132,
      "learning_rate": 2.0656762782736693e-06,
      "loss": 0.8453,
      "step": 4147
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0393922988687276,
      "learning_rate": 2.061884610001411e-06,
      "loss": 0.8233,
      "step": 4148
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9796583742089306,
      "learning_rate": 2.0580960248016966e-06,
      "loss": 0.7357,
      "step": 4149
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1268281057420655,
      "learning_rate": 2.0543105241459713e-06,
      "loss": 0.7014,
      "step": 4150
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4040896683307351,
      "learning_rate": 2.0505281095044804e-06,
      "loss": 0.829,
      "step": 4151
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.34817479633982,
      "learning_rate": 2.0467487823462696e-06,
      "loss": 0.8242,
      "step": 4152
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.7017100952132553,
      "learning_rate": 2.042972544139189e-06,
      "loss": 0.8139,
      "step": 4153
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9616906692124312,
      "learning_rate": 2.039199396349881e-06,
      "loss": 0.7364,
      "step": 4154
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1059986022479396,
      "learning_rate": 2.0354293404437963e-06,
      "loss": 0.7247,
      "step": 4155
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0861261927693284,
      "learning_rate": 2.0316623778851784e-06,
      "loss": 0.7171,
      "step": 4156
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.238806316519727,
      "learning_rate": 2.0278985101370753e-06,
      "loss": 0.7823,
      "step": 4157
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0213490385322626,
      "learning_rate": 2.024137738661329e-06,
      "loss": 0.8038,
      "step": 4158
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5827911865300035,
      "learning_rate": 2.020380064918579e-06,
      "loss": 0.9028,
      "step": 4159
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0814767025006673,
      "learning_rate": 2.01662549036826e-06,
      "loss": 0.8203,
      "step": 4160
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1138802945333919,
      "learning_rate": 2.0128740164686134e-06,
      "loss": 0.8476,
      "step": 4161
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1459859917467279,
      "learning_rate": 2.009125644676656e-06,
      "loss": 0.7716,
      "step": 4162
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1323073093077851,
      "learning_rate": 2.0053803764482226e-06,
      "loss": 0.6413,
      "step": 4163
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4970112048323454,
      "learning_rate": 2.001638213237932e-06,
      "loss": 0.7695,
      "step": 4164
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3428481941220847,
      "learning_rate": 1.997899156499191e-06,
      "loss": 0.8182,
      "step": 4165
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0449508667426675,
      "learning_rate": 1.994163207684212e-06,
      "loss": 0.749,
      "step": 4166
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0606627743445238,
      "learning_rate": 1.9904303682439896e-06,
      "loss": 0.8107,
      "step": 4167
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1790438551664602,
      "learning_rate": 1.986700639628316e-06,
      "loss": 0.7033,
      "step": 4168
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0902746803039067,
      "learning_rate": 1.9829740232857807e-06,
      "loss": 0.8158,
      "step": 4169
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2427720718325328,
      "learning_rate": 1.9792505206637523e-06,
      "loss": 0.805,
      "step": 4170
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.3025638698938857,
      "learning_rate": 1.9755301332083997e-06,
      "loss": 0.8439,
      "step": 4171
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4071585481926034,
      "learning_rate": 1.9718128623646792e-06,
      "loss": 0.8854,
      "step": 4172
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0930387197958753,
      "learning_rate": 1.9680987095763315e-06,
      "loss": 0.8752,
      "step": 4173
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9385112062385289,
      "learning_rate": 1.964387676285894e-06,
      "loss": 0.7748,
      "step": 4174
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4540512256863645,
      "learning_rate": 1.9606797639346874e-06,
      "loss": 0.859,
      "step": 4175
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2121778565318484,
      "learning_rate": 1.9569749739628243e-06,
      "loss": 0.7346,
      "step": 4176
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.4212760973977638,
      "learning_rate": 1.9532733078092034e-06,
      "loss": 0.9279,
      "step": 4177
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.098163284847234,
      "learning_rate": 1.9495747669115062e-06,
      "loss": 0.8232,
      "step": 4178
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.2234836405241853,
      "learning_rate": 1.9458793527062035e-06,
      "loss": 0.7959,
      "step": 4179
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.0731977444021161,
      "learning_rate": 1.9421870666285523e-06,
      "loss": 0.7925,
      "step": 4180
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.1030161330593546,
      "learning_rate": 1.9384979101125944e-06,
      "loss": 0.7606,
      "step": 4181
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.6612855453066493,
      "learning_rate": 1.934811884591159e-06,
      "loss": 0.8456,
      "step": 4182
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.320852337534349,
      "learning_rate": 1.93112899149585e-06,
      "loss": 0.7059,
      "step": 4183
    },
    {
      "epoch": 0.8,
      "grad_norm": 1.5987400958043,
      "learning_rate": 1.9274492322570616e-06,
      "loss": 0.8995,
      "step": 4184
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.335505152233598,
      "learning_rate": 1.923772608303972e-06,
      "loss": 0.8461,
      "step": 4185
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4292291325969504,
      "learning_rate": 1.9200991210645394e-06,
      "loss": 0.813,
      "step": 4186
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8266781477461485,
      "learning_rate": 1.916428771965506e-06,
      "loss": 0.8492,
      "step": 4187
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1569761385548825,
      "learning_rate": 1.912761562432388e-06,
      "loss": 0.7839,
      "step": 4188
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2924124130905053,
      "learning_rate": 1.9090974938894902e-06,
      "loss": 0.8773,
      "step": 4189
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.216641142876949,
      "learning_rate": 1.9054365677598963e-06,
      "loss": 0.7857,
      "step": 4190
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3543438493296687,
      "learning_rate": 1.9017787854654613e-06,
      "loss": 0.8395,
      "step": 4191
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1843171843795401,
      "learning_rate": 1.898124148426832e-06,
      "loss": 0.8425,
      "step": 4192
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1385994774898942,
      "learning_rate": 1.8944726580634287e-06,
      "loss": 0.8989,
      "step": 4193
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1567455463012202,
      "learning_rate": 1.8908243157934424e-06,
      "loss": 0.7878,
      "step": 4194
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.519513918893038,
      "learning_rate": 1.8871791230338499e-06,
      "loss": 0.8057,
      "step": 4195
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0709878466311131,
      "learning_rate": 1.883537081200404e-06,
      "loss": 0.7783,
      "step": 4196
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0362981595571823,
      "learning_rate": 1.8798981917076254e-06,
      "loss": 0.7986,
      "step": 4197
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.7056574705698264,
      "learning_rate": 1.876262455968826e-06,
      "loss": 0.7831,
      "step": 4198
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4403575182470294,
      "learning_rate": 1.872629875396076e-06,
      "loss": 0.8418,
      "step": 4199
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.482773994698542,
      "learning_rate": 1.8690004514002314e-06,
      "loss": 0.896,
      "step": 4200
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3805640491943898,
      "learning_rate": 1.8653741853909201e-06,
      "loss": 0.9013,
      "step": 4201
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6813135776100478,
      "learning_rate": 1.861751078776538e-06,
      "loss": 0.8558,
      "step": 4202
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0761274695970848,
      "learning_rate": 1.8581311329642592e-06,
      "loss": 0.7532,
      "step": 4203
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.148739873076923,
      "learning_rate": 1.8545143493600293e-06,
      "loss": 0.8628,
      "step": 4204
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.908701010714265,
      "learning_rate": 1.8509007293685666e-06,
      "loss": 0.6861,
      "step": 4205
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4718500341233751,
      "learning_rate": 1.8472902743933608e-06,
      "loss": 0.8136,
      "step": 4206
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0769013139090586,
      "learning_rate": 1.8436829858366655e-06,
      "loss": 0.7583,
      "step": 4207
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8448544604834693,
      "learning_rate": 1.8400788650995137e-06,
      "loss": 0.8695,
      "step": 4208
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3594450870894719,
      "learning_rate": 1.8364779135817045e-06,
      "loss": 0.8201,
      "step": 4209
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1668819698654012,
      "learning_rate": 1.8328801326818045e-06,
      "loss": 0.7953,
      "step": 4210
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.6583912296787717,
      "learning_rate": 1.829285523797155e-06,
      "loss": 0.7754,
      "step": 4211
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1905779804872616,
      "learning_rate": 1.8256940883238538e-06,
      "loss": 0.8846,
      "step": 4212
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4809270574943003,
      "learning_rate": 1.822105827656776e-06,
      "loss": 0.7903,
      "step": 4213
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0258169230365215,
      "learning_rate": 1.8185207431895613e-06,
      "loss": 0.7934,
      "step": 4214
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1802030030702837,
      "learning_rate": 1.8149388363146148e-06,
      "loss": 0.8897,
      "step": 4215
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2754366595838353,
      "learning_rate": 1.8113601084231091e-06,
      "loss": 0.8421,
      "step": 4216
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2515966021952414,
      "learning_rate": 1.8077845609049782e-06,
      "loss": 0.8906,
      "step": 4217
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.4530759878122241,
      "learning_rate": 1.8042121951489254e-06,
      "loss": 0.8516,
      "step": 4218
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5561361787816443,
      "learning_rate": 1.800643012542418e-06,
      "loss": 0.8606,
      "step": 4219
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.463556608707683,
      "learning_rate": 1.7970770144716777e-06,
      "loss": 0.8926,
      "step": 4220
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1217516655405981,
      "learning_rate": 1.7935142023217056e-06,
      "loss": 0.7005,
      "step": 4221
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3286643442535586,
      "learning_rate": 1.7899545774762573e-06,
      "loss": 0.8893,
      "step": 4222
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.2143867053043524,
      "learning_rate": 1.7863981413178433e-06,
      "loss": 0.7738,
      "step": 4223
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3974970926849954,
      "learning_rate": 1.7828448952277456e-06,
      "loss": 0.8195,
      "step": 4224
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1862197801380532,
      "learning_rate": 1.7792948405860079e-06,
      "loss": 0.7733,
      "step": 4225
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.5624400204828883,
      "learning_rate": 1.7757479787714217e-06,
      "loss": 0.8176,
      "step": 4226
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3437649780092946,
      "learning_rate": 1.7722043111615572e-06,
      "loss": 0.8405,
      "step": 4227
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0109128467024184,
      "learning_rate": 1.768663839132727e-06,
      "loss": 0.741,
      "step": 4228
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1367143079090825,
      "learning_rate": 1.7651265640600113e-06,
      "loss": 0.7671,
      "step": 4229
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.390124289775633,
      "learning_rate": 1.7615924873172506e-06,
      "loss": 0.8641,
      "step": 4230
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.8352874964701753,
      "learning_rate": 1.7580616102770353e-06,
      "loss": 0.711,
      "step": 4231
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.704489917279346,
      "learning_rate": 1.754533934310717e-06,
      "loss": 0.9031,
      "step": 4232
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1252342443223438,
      "learning_rate": 1.7510094607884075e-06,
      "loss": 0.7827,
      "step": 4233
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.0664804833638566,
      "learning_rate": 1.7474881910789698e-06,
      "loss": 0.8562,
      "step": 4234
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.3252642361659974,
      "learning_rate": 1.7439701265500274e-06,
      "loss": 0.9018,
      "step": 4235
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9922645977245612,
      "learning_rate": 1.740455268567951e-06,
      "loss": 0.7656,
      "step": 4236
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2710850281876294,
      "learning_rate": 1.7369436184978738e-06,
      "loss": 0.8555,
      "step": 4237
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2240074467866109,
      "learning_rate": 1.7334351777036807e-06,
      "loss": 0.7457,
      "step": 4238
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1977215454233563,
      "learning_rate": 1.729929947548008e-06,
      "loss": 0.7232,
      "step": 4239
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.406302931239764,
      "learning_rate": 1.7264279293922503e-06,
      "loss": 0.868,
      "step": 4240
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0909142748287222,
      "learning_rate": 1.7229291245965463e-06,
      "loss": 0.706,
      "step": 4241
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3630317839570223,
      "learning_rate": 1.7194335345197933e-06,
      "loss": 0.7781,
      "step": 4242
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1594035186402527,
      "learning_rate": 1.7159411605196407e-06,
      "loss": 0.8166,
      "step": 4243
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4066202454466474,
      "learning_rate": 1.7124520039524805e-06,
      "loss": 0.7621,
      "step": 4244
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3896905389360734,
      "learning_rate": 1.7089660661734685e-06,
      "loss": 0.8554,
      "step": 4245
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.284341381322163,
      "learning_rate": 1.7054833485364962e-06,
      "loss": 0.7326,
      "step": 4246
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5763466627613674,
      "learning_rate": 1.702003852394214e-06,
      "loss": 0.8588,
      "step": 4247
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.7093147023984046,
      "learning_rate": 1.6985275790980205e-06,
      "loss": 0.8708,
      "step": 4248
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1977922516635817,
      "learning_rate": 1.6950545299980526e-06,
      "loss": 0.7313,
      "step": 4249
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4906735879148847,
      "learning_rate": 1.691584706443209e-06,
      "loss": 0.8338,
      "step": 4250
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2031590535094385,
      "learning_rate": 1.6881181097811305e-06,
      "loss": 0.829,
      "step": 4251
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2269466422746815,
      "learning_rate": 1.6846547413581981e-06,
      "loss": 0.8142,
      "step": 4252
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4662021362677755,
      "learning_rate": 1.6811946025195459e-06,
      "loss": 0.8094,
      "step": 4253
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0389004334236238,
      "learning_rate": 1.6777376946090552e-06,
      "loss": 0.8415,
      "step": 4254
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3306043035027355,
      "learning_rate": 1.674284018969342e-06,
      "loss": 0.8538,
      "step": 4255
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4900025123929137,
      "learning_rate": 1.6708335769417827e-06,
      "loss": 0.7914,
      "step": 4256
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2653075610420326,
      "learning_rate": 1.667386369866484e-06,
      "loss": 0.7969,
      "step": 4257
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4928638669186725,
      "learning_rate": 1.6639423990823011e-06,
      "loss": 0.9222,
      "step": 4258
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4844071842770163,
      "learning_rate": 1.660501665926838e-06,
      "loss": 0.8598,
      "step": 4259
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.329980505639318,
      "learning_rate": 1.6570641717364277e-06,
      "loss": 0.7482,
      "step": 4260
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.5255718669967733,
      "learning_rate": 1.653629917846159e-06,
      "loss": 0.8746,
      "step": 4261
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3691998851891984,
      "learning_rate": 1.6501989055898537e-06,
      "loss": 0.8366,
      "step": 4262
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1832342904237807,
      "learning_rate": 1.6467711363000794e-06,
      "loss": 0.7085,
      "step": 4263
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1025550070759351,
      "learning_rate": 1.6433466113081442e-06,
      "loss": 0.7798,
      "step": 4264
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3409363230384723,
      "learning_rate": 1.6399253319440888e-06,
      "loss": 0.8376,
      "step": 4265
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1837849374068916,
      "learning_rate": 1.6365072995367004e-06,
      "loss": 0.8857,
      "step": 4266
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1371981995936984,
      "learning_rate": 1.6330925154135057e-06,
      "loss": 0.8669,
      "step": 4267
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.270664504135948,
      "learning_rate": 1.6296809809007652e-06,
      "loss": 0.8659,
      "step": 4268
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.561123083022978,
      "learning_rate": 1.6262726973234844e-06,
      "loss": 0.7841,
      "step": 4269
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.9670182466224875,
      "learning_rate": 1.6228676660053932e-06,
      "loss": 0.9593,
      "step": 4270
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4006912423859676,
      "learning_rate": 1.6194658882689718e-06,
      "loss": 0.8771,
      "step": 4271
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.090195031363377,
      "learning_rate": 1.6160673654354331e-06,
      "loss": 0.7531,
      "step": 4272
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0643152370736624,
      "learning_rate": 1.6126720988247168e-06,
      "loss": 0.7932,
      "step": 4273
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4894685802463221,
      "learning_rate": 1.609280089755515e-06,
      "loss": 0.8035,
      "step": 4274
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.0780850736508913,
      "learning_rate": 1.605891339545237e-06,
      "loss": 0.8014,
      "step": 4275
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4703085786172259,
      "learning_rate": 1.6025058495100388e-06,
      "loss": 0.9607,
      "step": 4276
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3041375437342304,
      "learning_rate": 1.5991236209648052e-06,
      "loss": 0.893,
      "step": 4277
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.194811428844994,
      "learning_rate": 1.5957446552231526e-06,
      "loss": 0.6782,
      "step": 4278
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6982044887032706,
      "learning_rate": 1.5923689535974307e-06,
      "loss": 0.8428,
      "step": 4279
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3522412664289132,
      "learning_rate": 1.588996517398731e-06,
      "loss": 0.8134,
      "step": 4280
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.2754925308145064,
      "learning_rate": 1.5856273479368611e-06,
      "loss": 0.7666,
      "step": 4281
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.447900480502522,
      "learning_rate": 1.582261446520371e-06,
      "loss": 0.8057,
      "step": 4282
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6229277485580114,
      "learning_rate": 1.5788988144565397e-06,
      "loss": 0.8478,
      "step": 4283
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.6943659573624668,
      "learning_rate": 1.575539453051369e-06,
      "loss": 0.8101,
      "step": 4284
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.4618486773305257,
      "learning_rate": 1.572183363609603e-06,
      "loss": 0.7795,
      "step": 4285
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1557861091061155,
      "learning_rate": 1.568830547434703e-06,
      "loss": 0.8339,
      "step": 4286
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.3359420585275696,
      "learning_rate": 1.5654810058288661e-06,
      "loss": 0.7512,
      "step": 4287
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.1925430281988412,
      "learning_rate": 1.5621347400930176e-06,
      "loss": 0.7621,
      "step": 4288
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1838102591183577,
      "learning_rate": 1.5587917515268048e-06,
      "loss": 0.8752,
      "step": 4289
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2216698099555783,
      "learning_rate": 1.5554520414286067e-06,
      "loss": 0.7791,
      "step": 4290
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2289353100695881,
      "learning_rate": 1.5521156110955293e-06,
      "loss": 0.8385,
      "step": 4291
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.0417499481873989,
      "learning_rate": 1.5487824618234049e-06,
      "loss": 0.7892,
      "step": 4292
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.0390220967853665,
      "learning_rate": 1.54545259490679e-06,
      "loss": 0.7055,
      "step": 4293
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2170672307687254,
      "learning_rate": 1.5421260116389636e-06,
      "loss": 0.8085,
      "step": 4294
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4273774918199478,
      "learning_rate": 1.5388027133119343e-06,
      "loss": 0.7564,
      "step": 4295
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.0806872000407193,
      "learning_rate": 1.535482701216433e-06,
      "loss": 0.7969,
      "step": 4296
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5984954932302253,
      "learning_rate": 1.5321659766419129e-06,
      "loss": 0.6746,
      "step": 4297
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2589244248150764,
      "learning_rate": 1.5288525408765564e-06,
      "loss": 0.817,
      "step": 4298
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.0615477844295813,
      "learning_rate": 1.5255423952072567e-06,
      "loss": 0.8335,
      "step": 4299
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1672341022179002,
      "learning_rate": 1.52223554091964e-06,
      "loss": 0.84,
      "step": 4300
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3195253011466066,
      "learning_rate": 1.5189319792980517e-06,
      "loss": 0.898,
      "step": 4301
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1427841524476878,
      "learning_rate": 1.5156317116255515e-06,
      "loss": 0.7502,
      "step": 4302
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.609561394631004,
      "learning_rate": 1.5123347391839305e-06,
      "loss": 0.6875,
      "step": 4303
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.0206044765029945,
      "learning_rate": 1.5090410632536968e-06,
      "loss": 0.7416,
      "step": 4304
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.34290602983053,
      "learning_rate": 1.5057506851140701e-06,
      "loss": 0.8271,
      "step": 4305
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1033942725542927,
      "learning_rate": 1.5024636060429998e-06,
      "loss": 0.7787,
      "step": 4306
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2797770465359557,
      "learning_rate": 1.4991798273171465e-06,
      "loss": 0.7987,
      "step": 4307
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3766247856679266,
      "learning_rate": 1.49589935021189e-06,
      "loss": 0.8345,
      "step": 4308
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9319297315209105,
      "learning_rate": 1.4926221760013393e-06,
      "loss": 0.6905,
      "step": 4309
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2198640270210415,
      "learning_rate": 1.4893483059583014e-06,
      "loss": 0.8747,
      "step": 4310
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3268895173850876,
      "learning_rate": 1.4860777413543138e-06,
      "loss": 0.8302,
      "step": 4311
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.5182150304511346,
      "learning_rate": 1.4828104834596268e-06,
      "loss": 0.8908,
      "step": 4312
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3238835592755442,
      "learning_rate": 1.4795465335432036e-06,
      "loss": 0.854,
      "step": 4313
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3422128415740715,
      "learning_rate": 1.4762858928727241e-06,
      "loss": 0.7743,
      "step": 4314
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4570670257706784,
      "learning_rate": 1.4730285627145858e-06,
      "loss": 0.8695,
      "step": 4315
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1539160843451417,
      "learning_rate": 1.4697745443338984e-06,
      "loss": 0.7688,
      "step": 4316
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4976806006344896,
      "learning_rate": 1.4665238389944859e-06,
      "loss": 0.846,
      "step": 4317
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1399255891988702,
      "learning_rate": 1.46327644795888e-06,
      "loss": 0.7344,
      "step": 4318
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3361048144002947,
      "learning_rate": 1.4600323724883337e-06,
      "loss": 0.802,
      "step": 4319
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2902001382152586,
      "learning_rate": 1.4567916138428072e-06,
      "loss": 0.8423,
      "step": 4320
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2674589670510255,
      "learning_rate": 1.4535541732809755e-06,
      "loss": 0.7629,
      "step": 4321
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.0959487166366437,
      "learning_rate": 1.4503200520602245e-06,
      "loss": 0.7577,
      "step": 4322
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1013519738204074,
      "learning_rate": 1.4470892514366442e-06,
      "loss": 0.8489,
      "step": 4323
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4468951001944184,
      "learning_rate": 1.443861772665044e-06,
      "loss": 0.9675,
      "step": 4324
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.873143523048951,
      "learning_rate": 1.4406376169989389e-06,
      "loss": 0.7167,
      "step": 4325
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1806209910726626,
      "learning_rate": 1.4374167856905542e-06,
      "loss": 0.8284,
      "step": 4326
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2746830188737217,
      "learning_rate": 1.4341992799908255e-06,
      "loss": 0.8998,
      "step": 4327
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.136832890236623,
      "learning_rate": 1.4309851011493903e-06,
      "loss": 0.8564,
      "step": 4328
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.463784427670096,
      "learning_rate": 1.427774250414601e-06,
      "loss": 0.8413,
      "step": 4329
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4430060615605345,
      "learning_rate": 1.4245667290335175e-06,
      "loss": 0.7888,
      "step": 4330
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.4634483344480185,
      "learning_rate": 1.421362538251897e-06,
      "loss": 0.757,
      "step": 4331
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.144178622201892,
      "learning_rate": 1.4181616793142173e-06,
      "loss": 0.7548,
      "step": 4332
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1279917720535702,
      "learning_rate": 1.414964153463655e-06,
      "loss": 0.7735,
      "step": 4333
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.099019298389749,
      "learning_rate": 1.4117699619420878e-06,
      "loss": 0.7739,
      "step": 4334
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1414670365271715,
      "learning_rate": 1.4085791059901077e-06,
      "loss": 0.8565,
      "step": 4335
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.2199892695741144,
      "learning_rate": 1.4053915868470013e-06,
      "loss": 0.6398,
      "step": 4336
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.3041785457048056,
      "learning_rate": 1.402207405750765e-06,
      "loss": 0.7826,
      "step": 4337
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1638092959326953,
      "learning_rate": 1.399026563938105e-06,
      "loss": 0.6926,
      "step": 4338
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.0982203435484275,
      "learning_rate": 1.3958490626444154e-06,
      "loss": 0.6866,
      "step": 4339
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.335250243753379,
      "learning_rate": 1.3926749031038055e-06,
      "loss": 0.832,
      "step": 4340
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3130902537664049,
      "learning_rate": 1.3895040865490817e-06,
      "loss": 0.8311,
      "step": 4341
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.179529228985339,
      "learning_rate": 1.3863366142117506e-06,
      "loss": 0.85,
      "step": 4342
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0597790114815402,
      "learning_rate": 1.383172487322023e-06,
      "loss": 0.751,
      "step": 4343
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4941874266132296,
      "learning_rate": 1.3800117071088104e-06,
      "loss": 0.8731,
      "step": 4344
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.135638595540612,
      "learning_rate": 1.3768542747997215e-06,
      "loss": 0.6974,
      "step": 4345
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1190257439975908,
      "learning_rate": 1.3737001916210713e-06,
      "loss": 0.7388,
      "step": 4346
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1780440858765804,
      "learning_rate": 1.370549458797863e-06,
      "loss": 0.8315,
      "step": 4347
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0640510889140278,
      "learning_rate": 1.3674020775538078e-06,
      "loss": 0.8011,
      "step": 4348
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3733955669023168,
      "learning_rate": 1.3642580491113122e-06,
      "loss": 0.8771,
      "step": 4349
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.2805273221120674,
      "learning_rate": 1.3611173746914797e-06,
      "loss": 0.7676,
      "step": 4350
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3884603504249147,
      "learning_rate": 1.3579800555141165e-06,
      "loss": 0.915,
      "step": 4351
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.2166912335710087,
      "learning_rate": 1.3548460927977158e-06,
      "loss": 0.7234,
      "step": 4352
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.648438900567314,
      "learning_rate": 1.351715487759474e-06,
      "loss": 0.9169,
      "step": 4353
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4706388480995167,
      "learning_rate": 1.3485882416152819e-06,
      "loss": 0.8794,
      "step": 4354
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0130378124193986,
      "learning_rate": 1.3454643555797276e-06,
      "loss": 0.7115,
      "step": 4355
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.8757874092968874,
      "learning_rate": 1.3423438308660929e-06,
      "loss": 0.6947,
      "step": 4356
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0874847326083936,
      "learning_rate": 1.3392266686863508e-06,
      "loss": 0.7606,
      "step": 4357
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.5634129122299492,
      "learning_rate": 1.3361128702511716e-06,
      "loss": 0.8305,
      "step": 4358
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3678226640621935,
      "learning_rate": 1.3330024367699224e-06,
      "loss": 0.8283,
      "step": 4359
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3652329669994248,
      "learning_rate": 1.3298953694506522e-06,
      "loss": 0.7701,
      "step": 4360
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1450068715093131,
      "learning_rate": 1.3267916695001172e-06,
      "loss": 0.8064,
      "step": 4361
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3239678873872425,
      "learning_rate": 1.3236913381237592e-06,
      "loss": 0.7453,
      "step": 4362
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1765911874686983,
      "learning_rate": 1.3205943765257057e-06,
      "loss": 0.7249,
      "step": 4363
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.2037377931442232,
      "learning_rate": 1.317500785908783e-06,
      "loss": 0.7875,
      "step": 4364
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0785856388033106,
      "learning_rate": 1.31441056747451e-06,
      "loss": 0.8517,
      "step": 4365
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.2593920046466451,
      "learning_rate": 1.3113237224230836e-06,
      "loss": 0.8068,
      "step": 4366
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9979460419427807,
      "learning_rate": 1.3082402519534076e-06,
      "loss": 0.7999,
      "step": 4367
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1634451970305086,
      "learning_rate": 1.3051601572630611e-06,
      "loss": 0.85,
      "step": 4368
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6431025978625662,
      "learning_rate": 1.3020834395483195e-06,
      "loss": 0.8637,
      "step": 4369
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.097177999685735,
      "learning_rate": 1.2990101000041445e-06,
      "loss": 0.8439,
      "step": 4370
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1160601927540805,
      "learning_rate": 1.2959401398241844e-06,
      "loss": 0.8467,
      "step": 4371
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3369513691753707,
      "learning_rate": 1.2928735602007768e-06,
      "loss": 0.805,
      "step": 4372
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0203774838981037,
      "learning_rate": 1.2898103623249458e-06,
      "loss": 0.6957,
      "step": 4373
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3582164085732593,
      "learning_rate": 1.2867505473864029e-06,
      "loss": 0.8173,
      "step": 4374
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.2350055515333693,
      "learning_rate": 1.283694116573546e-06,
      "loss": 0.7343,
      "step": 4375
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.2865978989871965,
      "learning_rate": 1.2806410710734552e-06,
      "loss": 0.8012,
      "step": 4376
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.476244923679939,
      "learning_rate": 1.2775914120718992e-06,
      "loss": 0.8501,
      "step": 4377
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1714386191086725,
      "learning_rate": 1.2745451407533294e-06,
      "loss": 0.8732,
      "step": 4378
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.398973607615514,
      "learning_rate": 1.2715022583008851e-06,
      "loss": 0.8182,
      "step": 4379
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.4740218815897037,
      "learning_rate": 1.2684627658963865e-06,
      "loss": 0.8612,
      "step": 4380
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.386028566333385,
      "learning_rate": 1.265426664720334e-06,
      "loss": 0.9313,
      "step": 4381
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0141395152126096,
      "learning_rate": 1.2623939559519161e-06,
      "loss": 0.8277,
      "step": 4382
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.73072683958593,
      "learning_rate": 1.2593646407690051e-06,
      "loss": 0.8736,
      "step": 4383
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.729868224936228,
      "learning_rate": 1.2563387203481447e-06,
      "loss": 0.8123,
      "step": 4384
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1788914257062968,
      "learning_rate": 1.2533161958645755e-06,
      "loss": 0.8533,
      "step": 4385
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.0167288237920218,
      "learning_rate": 1.2502970684922067e-06,
      "loss": 0.6965,
      "step": 4386
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.2076826197545787,
      "learning_rate": 1.2472813394036344e-06,
      "loss": 0.7996,
      "step": 4387
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.3659823165366447,
      "learning_rate": 1.2442690097701327e-06,
      "loss": 0.8005,
      "step": 4388
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.2421303565748962,
      "learning_rate": 1.2412600807616526e-06,
      "loss": 0.8371,
      "step": 4389
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.1588905856931981,
      "learning_rate": 1.2382545535468316e-06,
      "loss": 0.7786,
      "step": 4390
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.6323631822852198,
      "learning_rate": 1.2352524292929823e-06,
      "loss": 0.8088,
      "step": 4391
    },
    {
      "epoch": 0.84,
      "grad_norm": 1.313224558781013,
      "learning_rate": 1.2322537091660912e-06,
      "loss": 0.8506,
      "step": 4392
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4371134828574637,
      "learning_rate": 1.22925839433083e-06,
      "loss": 0.7033,
      "step": 4393
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1651138531867407,
      "learning_rate": 1.2262664859505434e-06,
      "loss": 0.6804,
      "step": 4394
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3684759900796908,
      "learning_rate": 1.2232779851872511e-06,
      "loss": 0.8688,
      "step": 4395
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9881567605679962,
      "learning_rate": 1.2202928932016588e-06,
      "loss": 0.7702,
      "step": 4396
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2862626685799008,
      "learning_rate": 1.217311211153137e-06,
      "loss": 0.8581,
      "step": 4397
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2381973839888545,
      "learning_rate": 1.2143329401997372e-06,
      "loss": 0.8617,
      "step": 4398
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1435005760950423,
      "learning_rate": 1.2113580814981884e-06,
      "loss": 0.8501,
      "step": 4399
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.267716115558628,
      "learning_rate": 1.2083866362038865e-06,
      "loss": 0.832,
      "step": 4400
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9637743145202347,
      "learning_rate": 1.2054186054709105e-06,
      "loss": 0.7302,
      "step": 4401
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2938814366966847,
      "learning_rate": 1.2024539904520072e-06,
      "loss": 0.8097,
      "step": 4402
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2368207533105238,
      "learning_rate": 1.1994927922985999e-06,
      "loss": 0.7545,
      "step": 4403
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3523427021974574,
      "learning_rate": 1.1965350121607866e-06,
      "loss": 0.8002,
      "step": 4404
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4714337100974366,
      "learning_rate": 1.1935806511873306e-06,
      "loss": 0.8542,
      "step": 4405
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.337411061537408,
      "learning_rate": 1.1906297105256725e-06,
      "loss": 0.8049,
      "step": 4406
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5676890276132576,
      "learning_rate": 1.187682191321925e-06,
      "loss": 0.8654,
      "step": 4407
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1970935288684807,
      "learning_rate": 1.1847380947208697e-06,
      "loss": 0.687,
      "step": 4408
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.0204043052966323,
      "learning_rate": 1.1817974218659621e-06,
      "loss": 0.6895,
      "step": 4409
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.7420719572421703,
      "learning_rate": 1.178860173899321e-06,
      "loss": 0.8169,
      "step": 4410
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1415620691763062,
      "learning_rate": 1.1759263519617437e-06,
      "loss": 0.6711,
      "step": 4411
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3989941758351316,
      "learning_rate": 1.172995957192693e-06,
      "loss": 0.8298,
      "step": 4412
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6473687614789827,
      "learning_rate": 1.1700689907302953e-06,
      "loss": 0.8578,
      "step": 4413
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6474530050813725,
      "learning_rate": 1.167145453711358e-06,
      "loss": 0.9541,
      "step": 4414
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2932442288079165,
      "learning_rate": 1.1642253472713427e-06,
      "loss": 0.8924,
      "step": 4415
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4666416359721515,
      "learning_rate": 1.161308672544389e-06,
      "loss": 0.8559,
      "step": 4416
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.168932439817651,
      "learning_rate": 1.1583954306633004e-06,
      "loss": 0.8452,
      "step": 4417
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4027615443830237,
      "learning_rate": 1.1554856227595435e-06,
      "loss": 0.8464,
      "step": 4418
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2140176730428893,
      "learning_rate": 1.1525792499632526e-06,
      "loss": 0.8227,
      "step": 4419
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.0474422302812614,
      "learning_rate": 1.1496763134032363e-06,
      "loss": 0.6011,
      "step": 4420
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9129812412620949,
      "learning_rate": 1.1467768142069546e-06,
      "loss": 0.7221,
      "step": 4421
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.0134479249134403,
      "learning_rate": 1.1438807535005437e-06,
      "loss": 0.8255,
      "step": 4422
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4222996239473684,
      "learning_rate": 1.1409881324088013e-06,
      "loss": 0.782,
      "step": 4423
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3717580551966086,
      "learning_rate": 1.138098952055181e-06,
      "loss": 0.8244,
      "step": 4424
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.747080728255686,
      "learning_rate": 1.1352132135618165e-06,
      "loss": 0.7619,
      "step": 4425
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2595262669714469,
      "learning_rate": 1.13233091804949e-06,
      "loss": 0.8965,
      "step": 4426
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4776006709085925,
      "learning_rate": 1.1294520666376518e-06,
      "loss": 0.8,
      "step": 4427
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9872557501073783,
      "learning_rate": 1.1265766604444172e-06,
      "loss": 0.8377,
      "step": 4428
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3920206436089708,
      "learning_rate": 1.1237047005865576e-06,
      "loss": 0.8945,
      "step": 4429
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.208623652613809,
      "learning_rate": 1.1208361881795116e-06,
      "loss": 0.7598,
      "step": 4430
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3961096414217684,
      "learning_rate": 1.1179711243373736e-06,
      "loss": 0.8512,
      "step": 4431
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2386399488145172,
      "learning_rate": 1.1151095101729047e-06,
      "loss": 0.9567,
      "step": 4432
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2143535243955599,
      "learning_rate": 1.1122513467975237e-06,
      "loss": 0.892,
      "step": 4433
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3701838728962272,
      "learning_rate": 1.1093966353213036e-06,
      "loss": 0.879,
      "step": 4434
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1547712288917902,
      "learning_rate": 1.1065453768529844e-06,
      "loss": 0.791,
      "step": 4435
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.2401545234190299,
      "learning_rate": 1.103697572499961e-06,
      "loss": 0.7782,
      "step": 4436
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.118124245263677,
      "learning_rate": 1.1008532233682878e-06,
      "loss": 0.848,
      "step": 4437
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.4480460910998234,
      "learning_rate": 1.0980123305626812e-06,
      "loss": 0.8232,
      "step": 4438
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.173775707842241,
      "learning_rate": 1.0951748951865048e-06,
      "loss": 0.7758,
      "step": 4439
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.3500160320227417,
      "learning_rate": 1.0923409183417887e-06,
      "loss": 0.7905,
      "step": 4440
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.5741616559974894,
      "learning_rate": 1.0895104011292202e-06,
      "loss": 0.9021,
      "step": 4441
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.6682553536442672,
      "learning_rate": 1.0866833446481317e-06,
      "loss": 0.8973,
      "step": 4442
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.8069142861203982,
      "learning_rate": 1.0838597499965276e-06,
      "loss": 0.8739,
      "step": 4443
    },
    {
      "epoch": 0.85,
      "grad_norm": 1.1360991750055647,
      "learning_rate": 1.0810396182710535e-06,
      "loss": 0.7186,
      "step": 4444
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3498025761398607,
      "learning_rate": 1.0782229505670195e-06,
      "loss": 0.9011,
      "step": 4445
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5727094974424345,
      "learning_rate": 1.0754097479783876e-06,
      "loss": 0.8413,
      "step": 4446
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.918137456258633,
      "learning_rate": 1.0726000115977696e-06,
      "loss": 0.7921,
      "step": 4447
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3024523567762756,
      "learning_rate": 1.069793742516435e-06,
      "loss": 0.7963,
      "step": 4448
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.439234205482809,
      "learning_rate": 1.066990941824312e-06,
      "loss": 0.8516,
      "step": 4449
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6010417917498074,
      "learning_rate": 1.0641916106099691e-06,
      "loss": 0.8644,
      "step": 4450
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4483618137035172,
      "learning_rate": 1.0613957499606388e-06,
      "loss": 0.837,
      "step": 4451
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1035741009874271,
      "learning_rate": 1.0586033609622004e-06,
      "loss": 0.7513,
      "step": 4452
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5487713135910695,
      "learning_rate": 1.0558144446991836e-06,
      "loss": 0.7596,
      "step": 4453
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3020638294348683,
      "learning_rate": 1.053029002254773e-06,
      "loss": 0.777,
      "step": 4454
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3490707486092446,
      "learning_rate": 1.0502470347108017e-06,
      "loss": 0.7971,
      "step": 4455
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4344681462574023,
      "learning_rate": 1.0474685431477537e-06,
      "loss": 0.751,
      "step": 4456
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.056670233854268,
      "learning_rate": 1.0446935286447657e-06,
      "loss": 0.8509,
      "step": 4457
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.624509515866895,
      "learning_rate": 1.0419219922796175e-06,
      "loss": 0.7707,
      "step": 4458
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.251223412487539,
      "learning_rate": 1.039153935128744e-06,
      "loss": 0.8463,
      "step": 4459
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3235643953507694,
      "learning_rate": 1.0363893582672246e-06,
      "loss": 0.8158,
      "step": 4460
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.089010310282229,
      "learning_rate": 1.033628262768792e-06,
      "loss": 0.7057,
      "step": 4461
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.297015386115505,
      "learning_rate": 1.0308706497058252e-06,
      "loss": 0.848,
      "step": 4462
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.7362514278842494,
      "learning_rate": 1.0281165201493437e-06,
      "loss": 0.8152,
      "step": 4463
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5608547423832564,
      "learning_rate": 1.0253658751690232e-06,
      "loss": 0.8634,
      "step": 4464
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.6337413792284219,
      "learning_rate": 1.0226187158331825e-06,
      "loss": 0.8766,
      "step": 4465
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5149039514746372,
      "learning_rate": 1.0198750432087855e-06,
      "loss": 0.8187,
      "step": 4466
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.005686205938553,
      "learning_rate": 1.017134858361446e-06,
      "loss": 0.8643,
      "step": 4467
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3445239409614338,
      "learning_rate": 1.0143981623554155e-06,
      "loss": 0.7424,
      "step": 4468
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4474351667154313,
      "learning_rate": 1.0116649562535984e-06,
      "loss": 0.7825,
      "step": 4469
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2399250872630898,
      "learning_rate": 1.0089352411175424e-06,
      "loss": 0.8882,
      "step": 4470
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2948482968641941,
      "learning_rate": 1.006209018007429e-06,
      "loss": 0.893,
      "step": 4471
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.362187550065166,
      "learning_rate": 1.0034862879821029e-06,
      "loss": 0.7754,
      "step": 4472
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.288739682365204,
      "learning_rate": 1.0007670520990331e-06,
      "loss": 0.7117,
      "step": 4473
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.9294802165157321,
      "learning_rate": 9.98051311414342e-07,
      "loss": 0.741,
      "step": 4474
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.0749416264255953,
      "learning_rate": 9.953390669827944e-07,
      "loss": 0.8652,
      "step": 4475
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2461141514378613,
      "learning_rate": 9.926303198577913e-07,
      "loss": 0.8117,
      "step": 4476
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.4927641909793448,
      "learning_rate": 9.899250710913767e-07,
      "loss": 0.8497,
      "step": 4477
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.184225024211614,
      "learning_rate": 9.872233217342463e-07,
      "loss": 0.7094,
      "step": 4478
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1353086085112385,
      "learning_rate": 9.845250728357214e-07,
      "loss": 0.6611,
      "step": 4479
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2509785776099742,
      "learning_rate": 9.818303254437723e-07,
      "loss": 0.8527,
      "step": 4480
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.209233576654063,
      "learning_rate": 9.791390806050117e-07,
      "loss": 0.8437,
      "step": 4481
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2122260006540766,
      "learning_rate": 9.764513393646812e-07,
      "loss": 0.7955,
      "step": 4482
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3445814746301274,
      "learning_rate": 9.737671027666728e-07,
      "loss": 0.8138,
      "step": 4483
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3151337018725149,
      "learning_rate": 9.710863718535135e-07,
      "loss": 0.7553,
      "step": 4484
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2331598257568854,
      "learning_rate": 9.684091476663659e-07,
      "loss": 0.8756,
      "step": 4485
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5080851344831379,
      "learning_rate": 9.657354312450363e-07,
      "loss": 0.7295,
      "step": 4486
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5920904789789807,
      "learning_rate": 9.630652236279626e-07,
      "loss": 0.8491,
      "step": 4487
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.382948905405181,
      "learning_rate": 9.603985258522219e-07,
      "loss": 0.8761,
      "step": 4488
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.1960132837637043,
      "learning_rate": 9.577353389535315e-07,
      "loss": 0.8007,
      "step": 4489
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2748484134407603,
      "learning_rate": 9.550756639662417e-07,
      "loss": 0.7443,
      "step": 4490
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.2959153660068834,
      "learning_rate": 9.524195019233407e-07,
      "loss": 0.7615,
      "step": 4491
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.5162275489340404,
      "learning_rate": 9.497668538564475e-07,
      "loss": 0.84,
      "step": 4492
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.253223234652262,
      "learning_rate": 9.471177207958238e-07,
      "loss": 0.827,
      "step": 4493
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.0578831367348784,
      "learning_rate": 9.444721037703597e-07,
      "loss": 0.7873,
      "step": 4494
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.0801980187472497,
      "learning_rate": 9.418300038075845e-07,
      "loss": 0.7851,
      "step": 4495
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.3453317823313025,
      "learning_rate": 9.391914219336606e-07,
      "loss": 0.7781,
      "step": 4496
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3796483763335061,
      "learning_rate": 9.365563591733784e-07,
      "loss": 0.841,
      "step": 4497
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3953221967142349,
      "learning_rate": 9.33924816550168e-07,
      "loss": 0.8805,
      "step": 4498
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1050226696129701,
      "learning_rate": 9.31296795086093e-07,
      "loss": 0.8138,
      "step": 4499
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4035110539782072,
      "learning_rate": 9.286722958018391e-07,
      "loss": 0.7133,
      "step": 4500
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.177611956710503,
      "learning_rate": 9.260513197167398e-07,
      "loss": 0.8096,
      "step": 4501
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2200220038846126,
      "learning_rate": 9.234338678487509e-07,
      "loss": 0.9406,
      "step": 4502
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0066035174247907,
      "learning_rate": 9.208199412144559e-07,
      "loss": 0.8096,
      "step": 4503
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1911067191363311,
      "learning_rate": 9.182095408290781e-07,
      "loss": 0.8025,
      "step": 4504
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.071236225727332,
      "learning_rate": 9.156026677064633e-07,
      "loss": 0.8346,
      "step": 4505
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0468410047840289,
      "learning_rate": 9.129993228590917e-07,
      "loss": 0.7451,
      "step": 4506
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0314571991349135,
      "learning_rate": 9.103995072980765e-07,
      "loss": 0.787,
      "step": 4507
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.371765561724333,
      "learning_rate": 9.078032220331523e-07,
      "loss": 0.8703,
      "step": 4508
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1938969802808612,
      "learning_rate": 9.052104680726859e-07,
      "loss": 0.8914,
      "step": 4509
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.6627693737379252,
      "learning_rate": 9.026212464236772e-07,
      "loss": 0.7916,
      "step": 4510
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.880332253470278,
      "learning_rate": 9.000355580917464e-07,
      "loss": 0.8949,
      "step": 4511
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0918734217408788,
      "learning_rate": 8.974534040811444e-07,
      "loss": 0.8455,
      "step": 4512
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2036536223516359,
      "learning_rate": 8.948747853947526e-07,
      "loss": 0.872,
      "step": 4513
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0617339540491877,
      "learning_rate": 8.922997030340752e-07,
      "loss": 0.6452,
      "step": 4514
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.106630401411453,
      "learning_rate": 8.897281579992467e-07,
      "loss": 0.9316,
      "step": 4515
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.7237720379240156,
      "learning_rate": 8.871601512890238e-07,
      "loss": 0.8563,
      "step": 4516
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.771307710641327,
      "learning_rate": 8.845956839007897e-07,
      "loss": 0.7683,
      "step": 4517
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4238137972467975,
      "learning_rate": 8.820347568305543e-07,
      "loss": 0.8403,
      "step": 4518
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2375836266828872,
      "learning_rate": 8.794773710729543e-07,
      "loss": 0.8807,
      "step": 4519
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2142958440434504,
      "learning_rate": 8.769235276212496e-07,
      "loss": 0.7817,
      "step": 4520
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.246563330800312,
      "learning_rate": 8.743732274673189e-07,
      "loss": 0.8735,
      "step": 4521
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2573030358909674,
      "learning_rate": 8.718264716016722e-07,
      "loss": 0.7386,
      "step": 4522
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0653545065087935,
      "learning_rate": 8.692832610134428e-07,
      "loss": 0.7192,
      "step": 4523
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0809405338938733,
      "learning_rate": 8.66743596690377e-07,
      "loss": 0.7458,
      "step": 4524
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0634982323168356,
      "learning_rate": 8.642074796188594e-07,
      "loss": 0.7553,
      "step": 4525
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3028553355364243,
      "learning_rate": 8.61674910783884e-07,
      "loss": 0.6984,
      "step": 4526
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3254991288873523,
      "learning_rate": 8.59145891169072e-07,
      "loss": 0.8979,
      "step": 4527
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4852381138736706,
      "learning_rate": 8.566204217566664e-07,
      "loss": 0.8261,
      "step": 4528
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.185551825415631,
      "learning_rate": 8.540985035275273e-07,
      "loss": 0.7585,
      "step": 4529
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.9367558809394658,
      "learning_rate": 8.515801374611432e-07,
      "loss": 0.7785,
      "step": 4530
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.3775433256190688,
      "learning_rate": 8.490653245356184e-07,
      "loss": 0.8395,
      "step": 4531
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4092972062716,
      "learning_rate": 8.465540657276728e-07,
      "loss": 0.871,
      "step": 4532
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2908890571245342,
      "learning_rate": 8.44046362012656e-07,
      "loss": 0.7747,
      "step": 4533
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.663067381627068,
      "learning_rate": 8.415422143645247e-07,
      "loss": 0.894,
      "step": 4534
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5617521694330234,
      "learning_rate": 8.390416237558641e-07,
      "loss": 0.7242,
      "step": 4535
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.276957203694292,
      "learning_rate": 8.365445911578785e-07,
      "loss": 0.7833,
      "step": 4536
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2291424244693112,
      "learning_rate": 8.340511175403809e-07,
      "loss": 0.863,
      "step": 4537
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2983882469301933,
      "learning_rate": 8.315612038718101e-07,
      "loss": 0.8468,
      "step": 4538
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4837141592520404,
      "learning_rate": 8.290748511192214e-07,
      "loss": 0.7649,
      "step": 4539
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1790875478748561,
      "learning_rate": 8.265920602482825e-07,
      "loss": 0.8243,
      "step": 4540
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0830856841093544,
      "learning_rate": 8.241128322232816e-07,
      "loss": 0.6754,
      "step": 4541
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4050187886870076,
      "learning_rate": 8.216371680071244e-07,
      "loss": 0.9137,
      "step": 4542
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.5124340702965051,
      "learning_rate": 8.191650685613273e-07,
      "loss": 0.8503,
      "step": 4543
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.180530372016525,
      "learning_rate": 8.166965348460298e-07,
      "loss": 0.7887,
      "step": 4544
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1163942344231148,
      "learning_rate": 8.142315678199764e-07,
      "loss": 0.7763,
      "step": 4545
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.1058369299747595,
      "learning_rate": 8.117701684405343e-07,
      "loss": 0.8206,
      "step": 4546
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.0165078118086441,
      "learning_rate": 8.093123376636836e-07,
      "loss": 0.6862,
      "step": 4547
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.2531261340261617,
      "learning_rate": 8.06858076444017e-07,
      "loss": 0.8658,
      "step": 4548
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5293384701028068,
      "learning_rate": 8.044073857347423e-07,
      "loss": 0.8897,
      "step": 4549
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2239864215942071,
      "learning_rate": 8.019602664876758e-07,
      "loss": 0.8479,
      "step": 4550
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.313707329994451,
      "learning_rate": 7.995167196532527e-07,
      "loss": 0.7833,
      "step": 4551
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6254019326135503,
      "learning_rate": 7.970767461805218e-07,
      "loss": 0.8334,
      "step": 4552
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3289676373856054,
      "learning_rate": 7.946403470171326e-07,
      "loss": 0.8545,
      "step": 4553
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4905169117298875,
      "learning_rate": 7.922075231093628e-07,
      "loss": 0.9096,
      "step": 4554
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.302843592582218,
      "learning_rate": 7.897782754020889e-07,
      "loss": 0.8109,
      "step": 4555
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3434503756307872,
      "learning_rate": 7.873526048388025e-07,
      "loss": 0.7048,
      "step": 4556
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.120088235377834,
      "learning_rate": 7.849305123616091e-07,
      "loss": 0.8087,
      "step": 4557
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4838411123956359,
      "learning_rate": 7.825119989112173e-07,
      "loss": 0.7029,
      "step": 4558
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.0012867946898203,
      "learning_rate": 7.800970654269513e-07,
      "loss": 0.7114,
      "step": 4559
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.291423226488389,
      "learning_rate": 7.776857128467464e-07,
      "loss": 0.7792,
      "step": 4560
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.450757784568939,
      "learning_rate": 7.75277942107141e-07,
      "loss": 0.7689,
      "step": 4561
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2758722505859375,
      "learning_rate": 7.728737541432862e-07,
      "loss": 0.8353,
      "step": 4562
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.202228500673461,
      "learning_rate": 7.704731498889428e-07,
      "loss": 0.8724,
      "step": 4563
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.361976743008212,
      "learning_rate": 7.680761302764727e-07,
      "loss": 0.8063,
      "step": 4564
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.0786286303756487,
      "learning_rate": 7.65682696236858e-07,
      "loss": 0.8623,
      "step": 4565
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7619665700042353,
      "learning_rate": 7.632928486996749e-07,
      "loss": 0.8784,
      "step": 4566
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9253568063621438,
      "learning_rate": 7.609065885931155e-07,
      "loss": 0.7535,
      "step": 4567
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2754973641459084,
      "learning_rate": 7.585239168439762e-07,
      "loss": 0.7164,
      "step": 4568
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1660767571959147,
      "learning_rate": 7.561448343776567e-07,
      "loss": 0.8593,
      "step": 4569
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1798893474795076,
      "learning_rate": 7.537693421181658e-07,
      "loss": 0.8373,
      "step": 4570
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.0085636567495182,
      "learning_rate": 7.513974409881186e-07,
      "loss": 0.7651,
      "step": 4571
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4088349287414248,
      "learning_rate": 7.49029131908734e-07,
      "loss": 0.8822,
      "step": 4572
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4657260920405348,
      "learning_rate": 7.466644157998371e-07,
      "loss": 0.8368,
      "step": 4573
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.160864349014159,
      "learning_rate": 7.443032935798533e-07,
      "loss": 0.8492,
      "step": 4574
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3859367758201764,
      "learning_rate": 7.419457661658169e-07,
      "loss": 0.862,
      "step": 4575
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1654316209024598,
      "learning_rate": 7.395918344733644e-07,
      "loss": 0.8761,
      "step": 4576
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.6372589404019784,
      "learning_rate": 7.372414994167354e-07,
      "loss": 0.8187,
      "step": 4577
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9894562317030996,
      "learning_rate": 7.348947619087754e-07,
      "loss": 0.7727,
      "step": 4578
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.8398053940745513,
      "learning_rate": 7.325516228609264e-07,
      "loss": 0.8629,
      "step": 4579
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7758901185087401,
      "learning_rate": 7.302120831832382e-07,
      "loss": 0.8555,
      "step": 4580
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.0969570803531907,
      "learning_rate": 7.278761437843629e-07,
      "loss": 0.6664,
      "step": 4581
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.203692365721588,
      "learning_rate": 7.255438055715469e-07,
      "loss": 0.8223,
      "step": 4582
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.193877886465476,
      "learning_rate": 7.232150694506512e-07,
      "loss": 0.8273,
      "step": 4583
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5116493639806003,
      "learning_rate": 7.208899363261234e-07,
      "loss": 0.807,
      "step": 4584
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3608056068562069,
      "learning_rate": 7.185684071010224e-07,
      "loss": 0.7279,
      "step": 4585
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.370185260345956,
      "learning_rate": 7.162504826770033e-07,
      "loss": 0.8291,
      "step": 4586
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2053839212078266,
      "learning_rate": 7.139361639543185e-07,
      "loss": 0.793,
      "step": 4587
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2196479822445137,
      "learning_rate": 7.116254518318222e-07,
      "loss": 0.8387,
      "step": 4588
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.4606620690221959,
      "learning_rate": 7.093183472069753e-07,
      "loss": 0.8939,
      "step": 4589
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.5969475840761258,
      "learning_rate": 7.070148509758223e-07,
      "loss": 0.8846,
      "step": 4590
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.409509385626214,
      "learning_rate": 7.047149640330197e-07,
      "loss": 0.8641,
      "step": 4591
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2918843298574225,
      "learning_rate": 7.024186872718164e-07,
      "loss": 0.7991,
      "step": 4592
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.1240052052700336,
      "learning_rate": 7.001260215840567e-07,
      "loss": 0.8674,
      "step": 4593
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2574048521981824,
      "learning_rate": 6.978369678601892e-07,
      "loss": 0.8468,
      "step": 4594
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.382876234417709,
      "learning_rate": 6.955515269892533e-07,
      "loss": 0.8768,
      "step": 4595
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3495969299068322,
      "learning_rate": 6.932696998588895e-07,
      "loss": 0.8623,
      "step": 4596
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.2399147849685133,
      "learning_rate": 6.909914873553347e-07,
      "loss": 0.8388,
      "step": 4597
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.3716182344085188,
      "learning_rate": 6.887168903634178e-07,
      "loss": 0.7489,
      "step": 4598
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.195114565609685,
      "learning_rate": 6.864459097665654e-07,
      "loss": 0.794,
      "step": 4599
    },
    {
      "epoch": 0.88,
      "grad_norm": 1.7876473831224928,
      "learning_rate": 6.84178546446802e-07,
      "loss": 0.8876,
      "step": 4600
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3085359891555768,
      "learning_rate": 6.819148012847454e-07,
      "loss": 0.8614,
      "step": 4601
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0523257506416444,
      "learning_rate": 6.796546751596089e-07,
      "loss": 0.8067,
      "step": 4602
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2153820230249244,
      "learning_rate": 6.77398168949196e-07,
      "loss": 0.8523,
      "step": 4603
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2012447263366077,
      "learning_rate": 6.751452835299111e-07,
      "loss": 0.7901,
      "step": 4604
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4727645013368778,
      "learning_rate": 6.728960197767475e-07,
      "loss": 0.8316,
      "step": 4605
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3435505366188474,
      "learning_rate": 6.706503785632934e-07,
      "loss": 0.7826,
      "step": 4606
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6240225113517979,
      "learning_rate": 6.68408360761732e-07,
      "loss": 0.848,
      "step": 4607
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3220734005752635,
      "learning_rate": 6.661699672428334e-07,
      "loss": 0.8703,
      "step": 4608
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1038902014107757,
      "learning_rate": 6.639351988759657e-07,
      "loss": 0.7753,
      "step": 4609
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2759559854786566,
      "learning_rate": 6.6170405652909e-07,
      "loss": 0.7363,
      "step": 4610
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.6164060515214183,
      "learning_rate": 6.594765410687487e-07,
      "loss": 0.8469,
      "step": 4611
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0934781449798803,
      "learning_rate": 6.57252653360092e-07,
      "loss": 0.8008,
      "step": 4612
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2381757076754534,
      "learning_rate": 6.550323942668469e-07,
      "loss": 0.7843,
      "step": 4613
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1564611797052773,
      "learning_rate": 6.528157646513378e-07,
      "loss": 0.8278,
      "step": 4614
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4395042394830366,
      "learning_rate": 6.506027653744796e-07,
      "loss": 0.8385,
      "step": 4615
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3899802095390266,
      "learning_rate": 6.483933972957734e-07,
      "loss": 0.871,
      "step": 4616
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3977106962132715,
      "learning_rate": 6.461876612733109e-07,
      "loss": 0.781,
      "step": 4617
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3007200508785248,
      "learning_rate": 6.4398555816378e-07,
      "loss": 0.8153,
      "step": 4618
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1884808979096402,
      "learning_rate": 6.417870888224476e-07,
      "loss": 0.7207,
      "step": 4619
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3970760105890936,
      "learning_rate": 6.395922541031741e-07,
      "loss": 0.8242,
      "step": 4620
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4290876810948858,
      "learning_rate": 6.374010548584119e-07,
      "loss": 0.857,
      "step": 4621
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2713192845032892,
      "learning_rate": 6.352134919391928e-07,
      "loss": 0.8273,
      "step": 4622
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1303048462538734,
      "learning_rate": 6.330295661951436e-07,
      "loss": 0.7497,
      "step": 4623
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2711763710242907,
      "learning_rate": 6.308492784744746e-07,
      "loss": 0.8833,
      "step": 4624
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0560149967895225,
      "learning_rate": 6.286726296239854e-07,
      "loss": 0.6876,
      "step": 4625
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4520126338917012,
      "learning_rate": 6.264996204890628e-07,
      "loss": 0.9037,
      "step": 4626
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.113954138894563,
      "learning_rate": 6.24330251913674e-07,
      "loss": 0.7798,
      "step": 4627
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1615354330797867,
      "learning_rate": 6.221645247403807e-07,
      "loss": 0.8593,
      "step": 4628
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3388795681665504,
      "learning_rate": 6.200024398103255e-07,
      "loss": 0.8236,
      "step": 4629
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1576031610291744,
      "learning_rate": 6.178439979632367e-07,
      "loss": 0.8249,
      "step": 4630
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2507752108323875,
      "learning_rate": 6.156892000374293e-07,
      "loss": 0.7787,
      "step": 4631
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1513799111760885,
      "learning_rate": 6.135380468698004e-07,
      "loss": 0.8051,
      "step": 4632
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1688430565332317,
      "learning_rate": 6.113905392958342e-07,
      "loss": 0.8274,
      "step": 4633
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1056912930283476,
      "learning_rate": 6.092466781495976e-07,
      "loss": 0.7643,
      "step": 4634
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4713221435557458,
      "learning_rate": 6.071064642637404e-07,
      "loss": 0.911,
      "step": 4635
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1885817609727436,
      "learning_rate": 6.049698984695007e-07,
      "loss": 0.6654,
      "step": 4636
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.5101405948221167,
      "learning_rate": 6.028369815966917e-07,
      "loss": 0.7915,
      "step": 4637
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3686943966368956,
      "learning_rate": 6.007077144737161e-07,
      "loss": 0.8829,
      "step": 4638
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1941536519032916,
      "learning_rate": 5.985820979275569e-07,
      "loss": 0.8068,
      "step": 4639
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.496969491483817,
      "learning_rate": 5.96460132783776e-07,
      "loss": 0.8372,
      "step": 4640
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4092235915230598,
      "learning_rate": 5.943418198665251e-07,
      "loss": 0.8627,
      "step": 4641
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.69526202812303,
      "learning_rate": 5.922271599985286e-07,
      "loss": 0.8693,
      "step": 4642
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2650921985650487,
      "learning_rate": 5.901161540010969e-07,
      "loss": 0.8802,
      "step": 4643
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2727560738906778,
      "learning_rate": 5.880088026941233e-07,
      "loss": 0.7435,
      "step": 4644
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3030883452579816,
      "learning_rate": 5.859051068960741e-07,
      "loss": 0.7724,
      "step": 4645
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3001506847901552,
      "learning_rate": 5.838050674240025e-07,
      "loss": 0.8432,
      "step": 4646
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.9965845584136455,
      "learning_rate": 5.817086850935416e-07,
      "loss": 0.8405,
      "step": 4647
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.4511299579696717,
      "learning_rate": 5.796159607189001e-07,
      "loss": 0.8466,
      "step": 4648
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.2977036864781386,
      "learning_rate": 5.775268951128676e-07,
      "loss": 0.8427,
      "step": 4649
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.3874914659176454,
      "learning_rate": 5.754414890868154e-07,
      "loss": 0.8651,
      "step": 4650
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1976751296943542,
      "learning_rate": 5.733597434506877e-07,
      "loss": 0.7108,
      "step": 4651
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.84073488153598,
      "learning_rate": 5.712816590130133e-07,
      "loss": 0.8286,
      "step": 4652
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5873822874212018,
      "learning_rate": 5.692072365808954e-07,
      "loss": 0.8744,
      "step": 4653
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.7955525266332413,
      "learning_rate": 5.671364769600162e-07,
      "loss": 0.8421,
      "step": 4654
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4614592859650724,
      "learning_rate": 5.650693809546348e-07,
      "loss": 0.7729,
      "step": 4655
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0543050370548814,
      "learning_rate": 5.630059493675866e-07,
      "loss": 0.8651,
      "step": 4656
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6595726260761385,
      "learning_rate": 5.60946183000285e-07,
      "loss": 0.8324,
      "step": 4657
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4734055120711482,
      "learning_rate": 5.5889008265272e-07,
      "loss": 0.8898,
      "step": 4658
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1093352115070878,
      "learning_rate": 5.568376491234562e-07,
      "loss": 0.6778,
      "step": 4659
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.092047650176136,
      "learning_rate": 5.547888832096382e-07,
      "loss": 0.6382,
      "step": 4660
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2881317678212552,
      "learning_rate": 5.527437857069784e-07,
      "loss": 0.811,
      "step": 4661
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3596839043400495,
      "learning_rate": 5.507023574097725e-07,
      "loss": 0.9056,
      "step": 4662
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.221333562179641,
      "learning_rate": 5.486645991108875e-07,
      "loss": 0.7575,
      "step": 4663
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.323424586432371,
      "learning_rate": 5.466305116017623e-07,
      "loss": 0.7926,
      "step": 4664
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9236572701915928,
      "learning_rate": 5.446000956724174e-07,
      "loss": 0.728,
      "step": 4665
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2016551348206574,
      "learning_rate": 5.425733521114396e-07,
      "loss": 0.8585,
      "step": 4666
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0116249138993525,
      "learning_rate": 5.405502817059937e-07,
      "loss": 0.7713,
      "step": 4667
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2148954173121935,
      "learning_rate": 5.385308852418191e-07,
      "loss": 0.7286,
      "step": 4668
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2905247140165532,
      "learning_rate": 5.365151635032218e-07,
      "loss": 0.7733,
      "step": 4669
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2403143669223935,
      "learning_rate": 5.345031172730875e-07,
      "loss": 0.8275,
      "step": 4670
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2437343600322528,
      "learning_rate": 5.324947473328735e-07,
      "loss": 0.8641,
      "step": 4671
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1863841349848347,
      "learning_rate": 5.304900544626046e-07,
      "loss": 0.6706,
      "step": 4672
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5741224377799934,
      "learning_rate": 5.284890394408826e-07,
      "loss": 0.816,
      "step": 4673
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1506125049149614,
      "learning_rate": 5.264917030448757e-07,
      "loss": 0.7829,
      "step": 4674
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2780022699072828,
      "learning_rate": 5.244980460503268e-07,
      "loss": 0.8375,
      "step": 4675
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3300925313908802,
      "learning_rate": 5.225080692315532e-07,
      "loss": 0.7903,
      "step": 4676
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9928730830974353,
      "learning_rate": 5.205217733614353e-07,
      "loss": 0.7214,
      "step": 4677
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9638594916460634,
      "learning_rate": 5.185391592114286e-07,
      "loss": 0.8024,
      "step": 4678
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.455738747486451,
      "learning_rate": 5.165602275515592e-07,
      "loss": 0.766,
      "step": 4679
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3810238386168774,
      "learning_rate": 5.145849791504187e-07,
      "loss": 0.8242,
      "step": 4680
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2381869810078947,
      "learning_rate": 5.126134147751716e-07,
      "loss": 0.8364,
      "step": 4681
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.5343763876707674,
      "learning_rate": 5.106455351915507e-07,
      "loss": 0.8547,
      "step": 4682
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.385423292252346,
      "learning_rate": 5.086813411638581e-07,
      "loss": 0.7707,
      "step": 4683
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3801083844398547,
      "learning_rate": 5.067208334549656e-07,
      "loss": 0.8758,
      "step": 4684
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.245048756682417,
      "learning_rate": 5.047640128263087e-07,
      "loss": 0.8372,
      "step": 4685
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2174311797798627,
      "learning_rate": 5.028108800378961e-07,
      "loss": 0.8373,
      "step": 4686
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.315488212029778,
      "learning_rate": 5.008614358483021e-07,
      "loss": 0.7294,
      "step": 4687
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2122424381641108,
      "learning_rate": 4.989156810146667e-07,
      "loss": 0.7872,
      "step": 4688
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2035705891556894,
      "learning_rate": 4.969736162927019e-07,
      "loss": 0.8206,
      "step": 4689
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.9016171201348937,
      "learning_rate": 4.9503524243668e-07,
      "loss": 0.8275,
      "step": 4690
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.7951290752480877,
      "learning_rate": 4.931005601994432e-07,
      "loss": 0.7585,
      "step": 4691
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.0356377368040464,
      "learning_rate": 4.911695703324038e-07,
      "loss": 0.8408,
      "step": 4692
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.2238287938122545,
      "learning_rate": 4.892422735855284e-07,
      "loss": 0.7688,
      "step": 4693
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.1150028755518828,
      "learning_rate": 4.873186707073663e-07,
      "loss": 0.8114,
      "step": 4694
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3787574681045633,
      "learning_rate": 4.853987624450151e-07,
      "loss": 0.8133,
      "step": 4695
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.244907460220522,
      "learning_rate": 4.834825495441475e-07,
      "loss": 0.8634,
      "step": 4696
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.6334355471198687,
      "learning_rate": 4.815700327490014e-07,
      "loss": 0.7908,
      "step": 4697
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.8575381056834505,
      "learning_rate": 4.796612128023726e-07,
      "loss": 0.7029,
      "step": 4698
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.663016239974905,
      "learning_rate": 4.777560904456236e-07,
      "loss": 0.895,
      "step": 4699
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3161446179766894,
      "learning_rate": 4.7585466641868696e-07,
      "loss": 0.8457,
      "step": 4700
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.3374602614107793,
      "learning_rate": 4.7395694146004976e-07,
      "loss": 0.9094,
      "step": 4701
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.029211065051527,
      "learning_rate": 4.7206291630677024e-07,
      "loss": 0.7672,
      "step": 4702
    },
    {
      "epoch": 0.9,
      "grad_norm": 1.4471706141689593,
      "learning_rate": 4.7017259169446104e-07,
      "loss": 0.8184,
      "step": 4703
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.7647737760421869,
      "learning_rate": 4.6828596835730487e-07,
      "loss": 0.863,
      "step": 4704
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5413720310437384,
      "learning_rate": 4.664030470280467e-07,
      "loss": 0.8014,
      "step": 4705
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.438288525610717,
      "learning_rate": 4.645238284379883e-07,
      "loss": 0.7851,
      "step": 4706
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1953985543222092,
      "learning_rate": 4.626483133169968e-07,
      "loss": 0.7985,
      "step": 4707
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1456209435416498,
      "learning_rate": 4.60776502393504e-07,
      "loss": 0.8129,
      "step": 4708
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1848646609603986,
      "learning_rate": 4.5890839639449514e-07,
      "loss": 0.7358,
      "step": 4709
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4826032932129456,
      "learning_rate": 4.5704399604552417e-07,
      "loss": 0.7791,
      "step": 4710
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3300948464046933,
      "learning_rate": 4.551833020707008e-07,
      "loss": 0.8843,
      "step": 4711
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1471967153502494,
      "learning_rate": 4.533263151926981e-07,
      "loss": 0.7762,
      "step": 4712
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0883420917236941,
      "learning_rate": 4.514730361327502e-07,
      "loss": 0.7357,
      "step": 4713
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3702239788877286,
      "learning_rate": 4.4962346561064574e-07,
      "loss": 0.692,
      "step": 4714
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2604526080834229,
      "learning_rate": 4.4777760434473796e-07,
      "loss": 0.7482,
      "step": 4715
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.178200523525867,
      "learning_rate": 4.4593545305193774e-07,
      "loss": 0.8603,
      "step": 4716
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.394349253957319,
      "learning_rate": 4.440970124477173e-07,
      "loss": 0.7597,
      "step": 4717
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0130598819993784,
      "learning_rate": 4.4226228324610544e-07,
      "loss": 0.7064,
      "step": 4718
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.9019383247161599,
      "learning_rate": 4.404312661596877e-07,
      "loss": 0.8691,
      "step": 4719
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.987370078056083,
      "learning_rate": 4.386039618996119e-07,
      "loss": 0.789,
      "step": 4720
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3430608351661326,
      "learning_rate": 4.3678037117558135e-07,
      "loss": 0.8126,
      "step": 4721
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5627412255165671,
      "learning_rate": 4.349604946958563e-07,
      "loss": 0.9037,
      "step": 4722
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2098541133714005,
      "learning_rate": 4.331443331672591e-07,
      "loss": 0.8102,
      "step": 4723
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.266500975277248,
      "learning_rate": 4.313318872951633e-07,
      "loss": 0.8721,
      "step": 4724
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3426035211734428,
      "learning_rate": 4.295231577835024e-07,
      "loss": 0.7964,
      "step": 4725
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4230473903322085,
      "learning_rate": 4.2771814533476787e-07,
      "loss": 0.8204,
      "step": 4726
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5202166671188182,
      "learning_rate": 4.2591685065000223e-07,
      "loss": 0.7638,
      "step": 4727
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2972005972549117,
      "learning_rate": 4.241192744288092e-07,
      "loss": 0.7538,
      "step": 4728
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6772020114841641,
      "learning_rate": 4.223254173693492e-07,
      "loss": 0.7946,
      "step": 4729
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5973572999278207,
      "learning_rate": 4.2053528016833267e-07,
      "loss": 0.8715,
      "step": 4730
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2546808158148965,
      "learning_rate": 4.1874886352103015e-07,
      "loss": 0.7484,
      "step": 4731
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0969666619749616,
      "learning_rate": 4.1696616812126333e-07,
      "loss": 0.8273,
      "step": 4732
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2527760458302908,
      "learning_rate": 4.1518719466141165e-07,
      "loss": 0.7617,
      "step": 4733
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1306143010876353,
      "learning_rate": 4.13411943832408e-07,
      "loss": 0.7933,
      "step": 4734
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5828442644968828,
      "learning_rate": 4.116404163237386e-07,
      "loss": 0.8295,
      "step": 4735
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2377570677522414,
      "learning_rate": 4.0987261282344425e-07,
      "loss": 0.8554,
      "step": 4736
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.338142990757956,
      "learning_rate": 4.081085340181223e-07,
      "loss": 0.7616,
      "step": 4737
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0999283243325273,
      "learning_rate": 4.06348180592917e-07,
      "loss": 0.8045,
      "step": 4738
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.5800841918423323,
      "learning_rate": 4.0459155323153034e-07,
      "loss": 0.865,
      "step": 4739
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.3401493644618083,
      "learning_rate": 4.028386526162176e-07,
      "loss": 0.8247,
      "step": 4740
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4336928434386182,
      "learning_rate": 4.010894794277831e-07,
      "loss": 0.8924,
      "step": 4741
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4043513552413134,
      "learning_rate": 3.993440343455879e-07,
      "loss": 0.795,
      "step": 4742
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1983910672531806,
      "learning_rate": 3.976023180475397e-07,
      "loss": 0.7286,
      "step": 4743
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2025046903364232,
      "learning_rate": 3.95864331210104e-07,
      "loss": 0.8264,
      "step": 4744
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6599935188197457,
      "learning_rate": 3.941300745082932e-07,
      "loss": 0.8265,
      "step": 4745
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4374872474648968,
      "learning_rate": 3.9239954861567177e-07,
      "loss": 0.8678,
      "step": 4746
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0322503519790525,
      "learning_rate": 3.906727542043598e-07,
      "loss": 0.7445,
      "step": 4747
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.4707909151930083,
      "learning_rate": 3.8894969194502083e-07,
      "loss": 0.8932,
      "step": 4748
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.320195829510062,
      "learning_rate": 3.87230362506873e-07,
      "loss": 0.8132,
      "step": 4749
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2209549636460841,
      "learning_rate": 3.8551476655768527e-07,
      "loss": 0.7058,
      "step": 4750
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2904359151500269,
      "learning_rate": 3.8380290476377255e-07,
      "loss": 0.7986,
      "step": 4751
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.1932086685529946,
      "learning_rate": 3.8209477779000637e-07,
      "loss": 0.8077,
      "step": 4752
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.6150090188385045,
      "learning_rate": 3.803903862998004e-07,
      "loss": 0.9744,
      "step": 4753
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2668945852961992,
      "learning_rate": 3.7868973095512185e-07,
      "loss": 0.7593,
      "step": 4754
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0258993809929564,
      "learning_rate": 3.7699281241648565e-07,
      "loss": 0.7348,
      "step": 4755
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3935332824597555,
      "learning_rate": 3.7529963134295466e-07,
      "loss": 0.8272,
      "step": 4756
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2819397239425152,
      "learning_rate": 3.736101883921406e-07,
      "loss": 0.7881,
      "step": 4757
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4176398183443637,
      "learning_rate": 3.719244842202074e-07,
      "loss": 0.7693,
      "step": 4758
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3381077684178722,
      "learning_rate": 3.702425194818582e-07,
      "loss": 0.8824,
      "step": 4759
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.209697034580085,
      "learning_rate": 3.685642948303503e-07,
      "loss": 0.6969,
      "step": 4760
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3136158711536219,
      "learning_rate": 3.66889810917489e-07,
      "loss": 0.9469,
      "step": 4761
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4431264293160926,
      "learning_rate": 3.6521906839362187e-07,
      "loss": 0.822,
      "step": 4762
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5173294760897158,
      "learning_rate": 3.635520679076465e-07,
      "loss": 0.8845,
      "step": 4763
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2216905010973687,
      "learning_rate": 3.6188881010700725e-07,
      "loss": 0.8278,
      "step": 4764
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4431817257722162,
      "learning_rate": 3.6022929563769513e-07,
      "loss": 0.8234,
      "step": 4765
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5684817747082638,
      "learning_rate": 3.5857352514424573e-07,
      "loss": 0.7344,
      "step": 4766
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4735354245352654,
      "learning_rate": 3.5692149926974006e-07,
      "loss": 0.8411,
      "step": 4767
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1301276771879316,
      "learning_rate": 3.552732186558072e-07,
      "loss": 0.7659,
      "step": 4768
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4440427570287397,
      "learning_rate": 3.536286839426195e-07,
      "loss": 0.7607,
      "step": 4769
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4108547847577442,
      "learning_rate": 3.51987895768896e-07,
      "loss": 0.8242,
      "step": 4770
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3071701049012063,
      "learning_rate": 3.5035085477190143e-07,
      "loss": 0.8369,
      "step": 4771
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3909449008465364,
      "learning_rate": 3.4871756158744054e-07,
      "loss": 0.8196,
      "step": 4772
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2979746445158853,
      "learning_rate": 3.4708801684986693e-07,
      "loss": 0.844,
      "step": 4773
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4517949532836536,
      "learning_rate": 3.454622211920766e-07,
      "loss": 0.7544,
      "step": 4774
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1810584508013615,
      "learning_rate": 3.4384017524551116e-07,
      "loss": 0.7685,
      "step": 4775
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9460777696628974,
      "learning_rate": 3.422218796401544e-07,
      "loss": 0.7944,
      "step": 4776
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.7232861167482045,
      "learning_rate": 3.4060733500453247e-07,
      "loss": 0.8656,
      "step": 4777
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3461505079784766,
      "learning_rate": 3.38996541965716e-07,
      "loss": 0.8877,
      "step": 4778
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.040570981378495,
      "learning_rate": 3.3738950114932e-07,
      "loss": 0.7477,
      "step": 4779
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.388763218670809,
      "learning_rate": 3.3578621317949755e-07,
      "loss": 0.7523,
      "step": 4780
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3377191513745628,
      "learning_rate": 3.341866786789505e-07,
      "loss": 0.8271,
      "step": 4781
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9268504679733252,
      "learning_rate": 3.325908982689185e-07,
      "loss": 0.8197,
      "step": 4782
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2829722613401704,
      "learning_rate": 3.309988725691837e-07,
      "loss": 0.8915,
      "step": 4783
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9416794667342797,
      "learning_rate": 3.294106021980714e-07,
      "loss": 0.7298,
      "step": 4784
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.5673731723381987,
      "learning_rate": 3.278260877724471e-07,
      "loss": 0.844,
      "step": 4785
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.0570596192099124,
      "learning_rate": 3.2624532990771507e-07,
      "loss": 0.7157,
      "step": 4786
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.251657821594761,
      "learning_rate": 3.2466832921782986e-07,
      "loss": 0.9117,
      "step": 4787
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4035826970664957,
      "learning_rate": 3.2309508631527486e-07,
      "loss": 0.8072,
      "step": 4788
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.3239667059711546,
      "learning_rate": 3.215256018110824e-07,
      "loss": 0.7375,
      "step": 4789
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1087735549617752,
      "learning_rate": 3.199598763148215e-07,
      "loss": 0.7897,
      "step": 4790
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2766699627024234,
      "learning_rate": 3.183979104346002e-07,
      "loss": 0.8167,
      "step": 4791
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1867447038465637,
      "learning_rate": 3.1683970477706994e-07,
      "loss": 0.8137,
      "step": 4792
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2149812560747577,
      "learning_rate": 3.1528525994741876e-07,
      "loss": 0.803,
      "step": 4793
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1739908008865403,
      "learning_rate": 3.13734576549376e-07,
      "loss": 0.8874,
      "step": 4794
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4132262297364402,
      "learning_rate": 3.121876551852099e-07,
      "loss": 0.8154,
      "step": 4795
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.564563144013299,
      "learning_rate": 3.1064449645572536e-07,
      "loss": 0.8564,
      "step": 4796
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.222719117763397,
      "learning_rate": 3.091051009602675e-07,
      "loss": 0.8422,
      "step": 4797
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4692215872589824,
      "learning_rate": 3.0756946929672017e-07,
      "loss": 0.7901,
      "step": 4798
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.0487074898048467,
      "learning_rate": 3.060376020615052e-07,
      "loss": 0.8651,
      "step": 4799
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.203333113872678,
      "learning_rate": 3.0450949984958347e-07,
      "loss": 0.7572,
      "step": 4800
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.0075652259018137,
      "learning_rate": 3.0298516325444893e-07,
      "loss": 0.6741,
      "step": 4801
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.487884545582965,
      "learning_rate": 3.0146459286813924e-07,
      "loss": 0.8711,
      "step": 4802
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.2804589395397452,
      "learning_rate": 2.999477892812264e-07,
      "loss": 0.7773,
      "step": 4803
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.9429907848735536,
      "learning_rate": 2.984347530828158e-07,
      "loss": 0.7761,
      "step": 4804
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.1198104864209792,
      "learning_rate": 2.969254848605585e-07,
      "loss": 0.7156,
      "step": 4805
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.9216110743174266,
      "learning_rate": 2.9541998520063344e-07,
      "loss": 0.787,
      "step": 4806
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.4357395488840348,
      "learning_rate": 2.9391825468775946e-07,
      "loss": 0.8093,
      "step": 4807
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1638383665579761,
      "learning_rate": 2.9242029390519454e-07,
      "loss": 0.8435,
      "step": 4808
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4483894654599005,
      "learning_rate": 2.909261034347255e-07,
      "loss": 0.8749,
      "step": 4809
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1405467925547577,
      "learning_rate": 2.894356838566792e-07,
      "loss": 0.7256,
      "step": 4810
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5793914179451949,
      "learning_rate": 2.879490357499204e-07,
      "loss": 0.8204,
      "step": 4811
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.21347825393915,
      "learning_rate": 2.864661596918428e-07,
      "loss": 0.8328,
      "step": 4812
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.6117478272005847,
      "learning_rate": 2.849870562583812e-07,
      "loss": 0.7943,
      "step": 4813
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5480093986832122,
      "learning_rate": 2.8351172602399945e-07,
      "loss": 0.7441,
      "step": 4814
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5253260405882572,
      "learning_rate": 2.8204016956169924e-07,
      "loss": 0.9096,
      "step": 4815
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.9689819662435097,
      "learning_rate": 2.8057238744301994e-07,
      "loss": 0.7107,
      "step": 4816
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2165978874226668,
      "learning_rate": 2.7910838023802676e-07,
      "loss": 0.8311,
      "step": 4817
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0342516133401092,
      "learning_rate": 2.7764814851532485e-07,
      "loss": 0.7511,
      "step": 4818
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2116506335959771,
      "learning_rate": 2.761916928420527e-07,
      "loss": 0.7408,
      "step": 4819
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1654544598980228,
      "learning_rate": 2.74739013783879e-07,
      "loss": 0.7923,
      "step": 4820
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5287918190719632,
      "learning_rate": 2.7329011190500797e-07,
      "loss": 0.8118,
      "step": 4821
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1004952384467486,
      "learning_rate": 2.7184498776817615e-07,
      "loss": 0.7125,
      "step": 4822
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.029120187596287,
      "learning_rate": 2.704036419346534e-07,
      "loss": 0.7579,
      "step": 4823
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3775558136814339,
      "learning_rate": 2.689660749642442e-07,
      "loss": 0.8561,
      "step": 4824
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2036917608647109,
      "learning_rate": 2.675322874152786e-07,
      "loss": 0.8759,
      "step": 4825
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.4924247591149262,
      "learning_rate": 2.6610227984462556e-07,
      "loss": 0.8712,
      "step": 4826
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1363508761499603,
      "learning_rate": 2.646760528076842e-07,
      "loss": 0.881,
      "step": 4827
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2832622137066279,
      "learning_rate": 2.6325360685838243e-07,
      "loss": 0.7312,
      "step": 4828
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.133421767341617,
      "learning_rate": 2.618349425491851e-07,
      "loss": 0.7978,
      "step": 4829
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2024531156530078,
      "learning_rate": 2.604200604310825e-07,
      "loss": 0.8438,
      "step": 4830
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1237931545910627,
      "learning_rate": 2.590089610535984e-07,
      "loss": 0.827,
      "step": 4831
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1599964146536828,
      "learning_rate": 2.5760164496479e-07,
      "loss": 0.6833,
      "step": 4832
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2243715113044409,
      "learning_rate": 2.5619811271123897e-07,
      "loss": 0.8779,
      "step": 4833
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2823782569263198,
      "learning_rate": 2.5479836483806586e-07,
      "loss": 0.8087,
      "step": 4834
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5716488345116129,
      "learning_rate": 2.5340240188891143e-07,
      "loss": 0.805,
      "step": 4835
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.183970452783399,
      "learning_rate": 2.520102244059552e-07,
      "loss": 0.773,
      "step": 4836
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.226511384914855,
      "learning_rate": 2.506218329299026e-07,
      "loss": 0.8689,
      "step": 4837
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0856597916432236,
      "learning_rate": 2.4923722799998664e-07,
      "loss": 0.7891,
      "step": 4838
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0456161129107657,
      "learning_rate": 2.4785641015397375e-07,
      "loss": 0.8376,
      "step": 4839
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.22199392165322,
      "learning_rate": 2.464793799281573e-07,
      "loss": 0.8275,
      "step": 4840
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.541285777012222,
      "learning_rate": 2.4510613785735936e-07,
      "loss": 0.8286,
      "step": 4841
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.450509206921013,
      "learning_rate": 2.4373668447493225e-07,
      "loss": 0.7864,
      "step": 4842
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.2386707677027222,
      "learning_rate": 2.423710203127561e-07,
      "loss": 0.7339,
      "step": 4843
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.9585934132652733,
      "learning_rate": 2.410091459012376e-07,
      "loss": 0.8274,
      "step": 4844
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.001030291766788,
      "learning_rate": 2.3965106176931375e-07,
      "loss": 0.759,
      "step": 4845
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.8293809799525702,
      "learning_rate": 2.3829676844444926e-07,
      "loss": 0.8729,
      "step": 4846
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3424127232951646,
      "learning_rate": 2.3694626645263675e-07,
      "loss": 0.8152,
      "step": 4847
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5553427865561396,
      "learning_rate": 2.3559955631839436e-07,
      "loss": 0.814,
      "step": 4848
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3212865521420516,
      "learning_rate": 2.3425663856476932e-07,
      "loss": 0.8506,
      "step": 4849
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0372879367155357,
      "learning_rate": 2.3291751371333438e-07,
      "loss": 0.821,
      "step": 4850
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.68289677294692,
      "learning_rate": 2.3158218228419127e-07,
      "loss": 0.7116,
      "step": 4851
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0581556065382165,
      "learning_rate": 2.3025064479596625e-07,
      "loss": 0.8754,
      "step": 4852
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.363855762466613,
      "learning_rate": 2.2892290176581678e-07,
      "loss": 0.9205,
      "step": 4853
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1707862356018797,
      "learning_rate": 2.2759895370941809e-07,
      "loss": 0.8132,
      "step": 4854
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.3535609506061044,
      "learning_rate": 2.2627880114097779e-07,
      "loss": 0.8199,
      "step": 4855
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.288028557419771,
      "learning_rate": 2.2496244457323013e-07,
      "loss": 0.8053,
      "step": 4856
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.0026773769852972,
      "learning_rate": 2.2364988451742953e-07,
      "loss": 0.8126,
      "step": 4857
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.5198774366321213,
      "learning_rate": 2.2234112148336373e-07,
      "loss": 0.8608,
      "step": 4858
    },
    {
      "epoch": 0.93,
      "grad_norm": 1.1332964911455692,
      "learning_rate": 2.2103615597933613e-07,
      "loss": 0.8509,
      "step": 4859
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0823581916876241,
      "learning_rate": 2.1973498851218244e-07,
      "loss": 0.8026,
      "step": 4860
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0448383338011153,
      "learning_rate": 2.1843761958726283e-07,
      "loss": 0.7557,
      "step": 4861
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2065049853997887,
      "learning_rate": 2.1714404970845647e-07,
      "loss": 0.8017,
      "step": 4862
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3382926677933857,
      "learning_rate": 2.1585427937817594e-07,
      "loss": 0.8403,
      "step": 4863
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.9487756615399545,
      "learning_rate": 2.145683090973494e-07,
      "loss": 0.7986,
      "step": 4864
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2415971275239581,
      "learning_rate": 2.1328613936543396e-07,
      "loss": 0.8342,
      "step": 4865
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3367914397163911,
      "learning_rate": 2.1200777068041134e-07,
      "loss": 0.914,
      "step": 4866
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.093819740958526,
      "learning_rate": 2.1073320353878102e-07,
      "loss": 0.8811,
      "step": 4867
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3745223185535378,
      "learning_rate": 2.0946243843557367e-07,
      "loss": 0.8511,
      "step": 4868
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.45816454999869,
      "learning_rate": 2.0819547586434008e-07,
      "loss": 0.8333,
      "step": 4869
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1412420987704917,
      "learning_rate": 2.0693231631715105e-07,
      "loss": 0.6766,
      "step": 4870
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4079501304063642,
      "learning_rate": 2.0567296028460638e-07,
      "loss": 0.9301,
      "step": 4871
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3081093403985689,
      "learning_rate": 2.0441740825582258e-07,
      "loss": 0.8636,
      "step": 4872
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9255672788017182,
      "learning_rate": 2.0316566071844402e-07,
      "loss": 0.7229,
      "step": 4873
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0503126784993144,
      "learning_rate": 2.0191771815863292e-07,
      "loss": 0.7844,
      "step": 4874
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3307647833673748,
      "learning_rate": 2.0067358106107714e-07,
      "loss": 0.7474,
      "step": 4875
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.371151691113192,
      "learning_rate": 1.994332499089846e-07,
      "loss": 0.8739,
      "step": 4876
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4959957383897036,
      "learning_rate": 1.9819672518408662e-07,
      "loss": 0.8107,
      "step": 4877
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.576239149555808,
      "learning_rate": 1.9696400736663457e-07,
      "loss": 0.7462,
      "step": 4878
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9126226675342304,
      "learning_rate": 1.9573509693540104e-07,
      "loss": 0.7948,
      "step": 4879
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.484520474006232,
      "learning_rate": 1.9450999436768093e-07,
      "loss": 0.9014,
      "step": 4880
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2216725366369403,
      "learning_rate": 1.9328870013929134e-07,
      "loss": 0.8366,
      "step": 4881
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2465880016926547,
      "learning_rate": 1.9207121472456846e-07,
      "loss": 0.8194,
      "step": 4882
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.081372204295842,
      "learning_rate": 1.9085753859636736e-07,
      "loss": 0.8315,
      "step": 4883
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2918892364903847,
      "learning_rate": 1.8964767222606873e-07,
      "loss": 0.7919,
      "step": 4884
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1758249629566715,
      "learning_rate": 1.8844161608356782e-07,
      "loss": 0.7667,
      "step": 4885
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2751547564640466,
      "learning_rate": 1.872393706372866e-07,
      "loss": 0.7777,
      "step": 4886
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1899697512106242,
      "learning_rate": 1.8604093635416155e-07,
      "loss": 0.8597,
      "step": 4887
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.4570362292964012,
      "learning_rate": 1.8484631369964922e-07,
      "loss": 0.7527,
      "step": 4888
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0603612514284362,
      "learning_rate": 1.8365550313772852e-07,
      "loss": 0.7919,
      "step": 4889
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.454421590695359,
      "learning_rate": 1.8246850513089832e-07,
      "loss": 0.8213,
      "step": 4890
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.440796968866429,
      "learning_rate": 1.8128532014017098e-07,
      "loss": 0.8626,
      "step": 4891
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2199406888291573,
      "learning_rate": 1.8010594862508669e-07,
      "loss": 0.8541,
      "step": 4892
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9938073409941718,
      "learning_rate": 1.789303910436968e-07,
      "loss": 0.7016,
      "step": 4893
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0546882198914085,
      "learning_rate": 1.777586478525739e-07,
      "loss": 0.7653,
      "step": 4894
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1627725227764496,
      "learning_rate": 1.7659071950681172e-07,
      "loss": 0.8245,
      "step": 4895
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5437162399461553,
      "learning_rate": 1.754266064600174e-07,
      "loss": 0.8287,
      "step": 4896
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1265232114878616,
      "learning_rate": 1.742663091643204e-07,
      "loss": 0.8223,
      "step": 4897
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.5374424776735296,
      "learning_rate": 1.7310982807036915e-07,
      "loss": 0.8044,
      "step": 4898
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6643705525045174,
      "learning_rate": 1.719571636273243e-07,
      "loss": 0.8527,
      "step": 4899
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3061753866355648,
      "learning_rate": 1.7080831628286886e-07,
      "loss": 0.7783,
      "step": 4900
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9600466403026902,
      "learning_rate": 1.6966328648320152e-07,
      "loss": 0.8016,
      "step": 4901
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1984359971926666,
      "learning_rate": 1.685220746730387e-07,
      "loss": 0.7891,
      "step": 4902
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1773322282352663,
      "learning_rate": 1.673846812956137e-07,
      "loss": 0.8278,
      "step": 4903
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3103546095349394,
      "learning_rate": 1.6625110679267642e-07,
      "loss": 0.7799,
      "step": 4904
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.0874856118103013,
      "learning_rate": 1.6512135160449583e-07,
      "loss": 0.8031,
      "step": 4905
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3192776417223984,
      "learning_rate": 1.6399541616985648e-07,
      "loss": 0.8036,
      "step": 4906
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.9576166550868027,
      "learning_rate": 1.6287330092605525e-07,
      "loss": 0.8193,
      "step": 4907
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.6533291586083276,
      "learning_rate": 1.6175500630891128e-07,
      "loss": 0.9222,
      "step": 4908
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.1422893978547923,
      "learning_rate": 1.6064053275275716e-07,
      "loss": 0.8403,
      "step": 4909
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.3490782657415166,
      "learning_rate": 1.5952988069044105e-07,
      "loss": 0.8454,
      "step": 4910
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.472183795862856,
      "learning_rate": 1.5842305055332796e-07,
      "loss": 0.7969,
      "step": 4911
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.543027531886369,
      "learning_rate": 1.573200427712973e-07,
      "loss": 0.8968,
      "step": 4912
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.9359757266357713,
      "learning_rate": 1.562208577727442e-07,
      "loss": 0.9127,
      "step": 4913
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.1181599566954814,
      "learning_rate": 1.551254959845805e-07,
      "loss": 0.8011,
      "step": 4914
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2116829179477662,
      "learning_rate": 1.540339578322314e-07,
      "loss": 0.7685,
      "step": 4915
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2318751502339365,
      "learning_rate": 1.5294624373963894e-07,
      "loss": 0.7309,
      "step": 4916
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.417751346820154,
      "learning_rate": 1.5186235412925744e-07,
      "loss": 0.8303,
      "step": 4917
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.239003423639017,
      "learning_rate": 1.5078228942205674e-07,
      "loss": 0.8324,
      "step": 4918
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5674335043722498,
      "learning_rate": 1.4970605003752359e-07,
      "loss": 0.8421,
      "step": 4919
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0768229895568262,
      "learning_rate": 1.4863363639365357e-07,
      "loss": 0.6645,
      "step": 4920
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2258272807277966,
      "learning_rate": 1.4756504890696466e-07,
      "loss": 0.8168,
      "step": 4921
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.094757573916112,
      "learning_rate": 1.4650028799247928e-07,
      "loss": 0.8387,
      "step": 4922
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.342810728422283,
      "learning_rate": 1.454393540637411e-07,
      "loss": 0.8648,
      "step": 4923
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0721194824744276,
      "learning_rate": 1.4438224753280384e-07,
      "loss": 0.8004,
      "step": 4924
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2669128468911997,
      "learning_rate": 1.4332896881023462e-07,
      "loss": 0.7933,
      "step": 4925
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0640904084192342,
      "learning_rate": 1.422795183051151e-07,
      "loss": 0.7379,
      "step": 4926
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0944479524833435,
      "learning_rate": 1.4123389642504148e-07,
      "loss": 0.8363,
      "step": 4927
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9322948363075327,
      "learning_rate": 1.401921035761189e-07,
      "loss": 0.7761,
      "step": 4928
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4684347121205548,
      "learning_rate": 1.3915414016296925e-07,
      "loss": 0.8292,
      "step": 4929
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3465646154494852,
      "learning_rate": 1.381200065887256e-07,
      "loss": 0.8179,
      "step": 4930
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.273633146907515,
      "learning_rate": 1.3708970325503222e-07,
      "loss": 0.8704,
      "step": 4931
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9776267189601981,
      "learning_rate": 1.3606323056204795e-07,
      "loss": 0.7076,
      "step": 4932
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4344618139857703,
      "learning_rate": 1.3504058890844274e-07,
      "loss": 0.7885,
      "step": 4933
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5848611264346684,
      "learning_rate": 1.3402177869139887e-07,
      "loss": 0.816,
      "step": 4934
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9147242706377796,
      "learning_rate": 1.3300680030661096e-07,
      "loss": 0.7542,
      "step": 4935
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5105354676852947,
      "learning_rate": 1.3199565414828363e-07,
      "loss": 0.7568,
      "step": 4936
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2176501868297238,
      "learning_rate": 1.3098834060913612e-07,
      "loss": 0.7358,
      "step": 4937
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2498004280902422,
      "learning_rate": 1.2998486008039545e-07,
      "loss": 0.8257,
      "step": 4938
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3359506392739073,
      "learning_rate": 1.289852129518032e-07,
      "loss": 0.8382,
      "step": 4939
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0901606769333143,
      "learning_rate": 1.2798939961161217e-07,
      "loss": 0.8507,
      "step": 4940
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.0326539891169046,
      "learning_rate": 1.269974204465818e-07,
      "loss": 0.8626,
      "step": 4941
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0776478358906518,
      "learning_rate": 1.2600927584198618e-07,
      "loss": 0.7391,
      "step": 4942
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.12097394428525,
      "learning_rate": 1.2502496618161165e-07,
      "loss": 0.8695,
      "step": 4943
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.020136575160391,
      "learning_rate": 1.2404449184774904e-07,
      "loss": 0.7318,
      "step": 4944
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4683448424182093,
      "learning_rate": 1.2306785322120596e-07,
      "loss": 0.7922,
      "step": 4945
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.1201877112416214,
      "learning_rate": 1.220950506812968e-07,
      "loss": 0.7975,
      "step": 4946
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.2309316960125556,
      "learning_rate": 1.2112608460584707e-07,
      "loss": 0.8258,
      "step": 4947
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.434657221932562,
      "learning_rate": 1.2016095537119242e-07,
      "loss": 0.9184,
      "step": 4948
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3423030530486502,
      "learning_rate": 1.1919966335217636e-07,
      "loss": 0.9127,
      "step": 4949
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4382580431247542,
      "learning_rate": 1.1824220892215465e-07,
      "loss": 0.8108,
      "step": 4950
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.189631860517645,
      "learning_rate": 1.1728859245299207e-07,
      "loss": 0.8839,
      "step": 4951
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.222571319191159,
      "learning_rate": 1.1633881431506122e-07,
      "loss": 0.8279,
      "step": 4952
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.0971836480297297,
      "learning_rate": 1.1539287487724594e-07,
      "loss": 0.9221,
      "step": 4953
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5845165584577332,
      "learning_rate": 1.1445077450693786e-07,
      "loss": 0.9207,
      "step": 4954
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.4751683609352886,
      "learning_rate": 1.1351251357003656e-07,
      "loss": 0.7973,
      "step": 4955
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.8958626460657458,
      "learning_rate": 1.1257809243095385e-07,
      "loss": 0.7233,
      "step": 4956
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.263602828640858,
      "learning_rate": 1.1164751145260722e-07,
      "loss": 0.8349,
      "step": 4957
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.0598902223783746,
      "learning_rate": 1.107207709964242e-07,
      "loss": 0.6535,
      "step": 4958
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3026506727343343,
      "learning_rate": 1.0979787142233911e-07,
      "loss": 0.8594,
      "step": 4959
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.8299088878200862,
      "learning_rate": 1.0887881308879633e-07,
      "loss": 0.7949,
      "step": 4960
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.225407267651437,
      "learning_rate": 1.0796359635274701e-07,
      "loss": 0.8675,
      "step": 4961
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.3810496789272004,
      "learning_rate": 1.0705222156965011e-07,
      "loss": 0.8031,
      "step": 4962
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.404130304376407,
      "learning_rate": 1.0614468909347476e-07,
      "loss": 0.7098,
      "step": 4963
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1323696964634296,
      "learning_rate": 1.0524099927669563e-07,
      "loss": 0.8216,
      "step": 4964
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3793187439615486,
      "learning_rate": 1.0434115247029419e-07,
      "loss": 0.8681,
      "step": 4965
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.013925708014394,
      "learning_rate": 1.0344514902376201e-07,
      "loss": 0.7153,
      "step": 4966
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2777204891232838,
      "learning_rate": 1.0255298928509627e-07,
      "loss": 0.6759,
      "step": 4967
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1888027793517344,
      "learning_rate": 1.0166467360079979e-07,
      "loss": 0.7738,
      "step": 4968
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.300909973554197,
      "learning_rate": 1.007802023158877e-07,
      "loss": 0.8563,
      "step": 4969
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3936429146183122,
      "learning_rate": 9.989957577387521e-08,
      "loss": 0.8182,
      "step": 4970
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1977056712465934,
      "learning_rate": 9.902279431678874e-08,
      "loss": 0.8418,
      "step": 4971
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1596637117408115,
      "learning_rate": 9.814985828516033e-08,
      "loss": 0.7522,
      "step": 4972
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.068961695499011,
      "learning_rate": 9.728076801802656e-08,
      "loss": 0.8549,
      "step": 4973
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2670871918343665,
      "learning_rate": 9.641552385293518e-08,
      "loss": 0.7812,
      "step": 4974
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2645883682153756,
      "learning_rate": 9.555412612593518e-08,
      "loss": 0.8499,
      "step": 4975
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0733598483205578,
      "learning_rate": 9.469657517158226e-08,
      "loss": 0.814,
      "step": 4976
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.470486435308581,
      "learning_rate": 9.384287132294223e-08,
      "loss": 0.7793,
      "step": 4977
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.282903180964021,
      "learning_rate": 9.299301491158207e-08,
      "loss": 0.8564,
      "step": 4978
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1013466495879427,
      "learning_rate": 9.214700626757667e-08,
      "loss": 0.7794,
      "step": 4979
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0923238301070566,
      "learning_rate": 9.130484571950538e-08,
      "loss": 0.7201,
      "step": 4980
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3051526588135705,
      "learning_rate": 9.046653359445323e-08,
      "loss": 0.8432,
      "step": 4981
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.010284140707373,
      "learning_rate": 8.963207021801423e-08,
      "loss": 0.6307,
      "step": 4982
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9911790699369546,
      "learning_rate": 8.880145591428024e-08,
      "loss": 0.8257,
      "step": 4983
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3080708355677906,
      "learning_rate": 8.797469100585432e-08,
      "loss": 0.6734,
      "step": 4984
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4649407815585418,
      "learning_rate": 8.715177581384182e-08,
      "loss": 0.819,
      "step": 4985
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4656767660502268,
      "learning_rate": 8.633271065785486e-08,
      "loss": 0.9015,
      "step": 4986
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9883944733741877,
      "learning_rate": 8.551749585600678e-08,
      "loss": 0.8523,
      "step": 4987
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1545294361578444,
      "learning_rate": 8.470613172491981e-08,
      "loss": 0.8358,
      "step": 4988
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2839394177822583,
      "learning_rate": 8.389861857971748e-08,
      "loss": 0.826,
      "step": 4989
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2093923951747398,
      "learning_rate": 8.309495673402778e-08,
      "loss": 0.7143,
      "step": 4990
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.346126242116521,
      "learning_rate": 8.229514649998438e-08,
      "loss": 0.8427,
      "step": 4991
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1860467714673013,
      "learning_rate": 8.149918818822433e-08,
      "loss": 0.8586,
      "step": 4992
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3080992661144326,
      "learning_rate": 8.070708210788925e-08,
      "loss": 0.8618,
      "step": 4993
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.5057111503577905,
      "learning_rate": 7.991882856662303e-08,
      "loss": 0.8742,
      "step": 4994
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3769313355676533,
      "learning_rate": 7.913442787057523e-08,
      "loss": 0.861,
      "step": 4995
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.367695835161255,
      "learning_rate": 7.835388032439661e-08,
      "loss": 0.7357,
      "step": 4996
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1882622027108918,
      "learning_rate": 7.757718623124466e-08,
      "loss": 0.7578,
      "step": 4997
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4487511003681806,
      "learning_rate": 7.680434589277696e-08,
      "loss": 0.6762,
      "step": 4998
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2408528467936215,
      "learning_rate": 7.603535960915675e-08,
      "loss": 0.8388,
      "step": 4999
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3616154981743187,
      "learning_rate": 7.527022767904957e-08,
      "loss": 0.8299,
      "step": 5000
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0020569344147532,
      "learning_rate": 7.450895039962214e-08,
      "loss": 0.6774,
      "step": 5001
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.3630949155372716,
      "learning_rate": 7.375152806654685e-08,
      "loss": 0.8058,
      "step": 5002
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2148677420700222,
      "learning_rate": 7.299796097399947e-08,
      "loss": 0.8354,
      "step": 5003
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2106995091067676,
      "learning_rate": 7.224824941465369e-08,
      "loss": 0.8572,
      "step": 5004
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0250288811145996,
      "learning_rate": 7.150239367969102e-08,
      "loss": 0.7127,
      "step": 5005
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0880349680288843,
      "learning_rate": 7.076039405879309e-08,
      "loss": 0.7018,
      "step": 5006
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.4632529771594334,
      "learning_rate": 7.002225084014269e-08,
      "loss": 0.8272,
      "step": 5007
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.211457441593535,
      "learning_rate": 6.928796431042717e-08,
      "loss": 0.8278,
      "step": 5008
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.062755257346587,
      "learning_rate": 6.855753475483507e-08,
      "loss": 0.8365,
      "step": 5009
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.2973999718878655,
      "learning_rate": 6.783096245705612e-08,
      "loss": 0.7127,
      "step": 5010
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1011409874610283,
      "learning_rate": 6.710824769928349e-08,
      "loss": 0.7493,
      "step": 5011
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1963105840109491,
      "learning_rate": 6.63893907622104e-08,
      "loss": 0.8898,
      "step": 5012
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.7470819607213632,
      "learning_rate": 6.567439192503244e-08,
      "loss": 0.8145,
      "step": 5013
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.0584334586652073,
      "learning_rate": 6.496325146544746e-08,
      "loss": 0.7689,
      "step": 5014
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1398066064233798,
      "learning_rate": 6.425596965965453e-08,
      "loss": 0.8679,
      "step": 5015
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9849365509251058,
      "learning_rate": 6.35525467823539e-08,
      "loss": 0.7137,
      "step": 5016
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1459523831821756,
      "learning_rate": 6.285298310674703e-08,
      "loss": 0.8885,
      "step": 5017
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3212887757985439,
      "learning_rate": 6.215727890453438e-08,
      "loss": 0.8116,
      "step": 5018
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3325659445720173,
      "learning_rate": 6.14654344459209e-08,
      "loss": 0.7454,
      "step": 5019
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1260034280038442,
      "learning_rate": 6.077744999961166e-08,
      "loss": 0.8493,
      "step": 5020
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.352116218118559,
      "learning_rate": 6.009332583281069e-08,
      "loss": 0.8256,
      "step": 5021
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1955258332564362,
      "learning_rate": 5.941306221122545e-08,
      "loss": 0.7589,
      "step": 5022
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1251734516670144,
      "learning_rate": 5.873665939906015e-08,
      "loss": 0.865,
      "step": 5023
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4973912843690411,
      "learning_rate": 5.806411765902353e-08,
      "loss": 0.7768,
      "step": 5024
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3474555505356525,
      "learning_rate": 5.739543725232333e-08,
      "loss": 0.8242,
      "step": 5025
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2315836190839697,
      "learning_rate": 5.673061843866623e-08,
      "loss": 0.7389,
      "step": 5026
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2555483641332859,
      "learning_rate": 5.606966147626125e-08,
      "loss": 0.8586,
      "step": 5027
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0656624298534847,
      "learning_rate": 5.5412566621815266e-08,
      "loss": 0.877,
      "step": 5028
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.478459205961972,
      "learning_rate": 5.4759334130536355e-08,
      "loss": 0.8673,
      "step": 5029
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.015738718608001,
      "learning_rate": 5.41099642561338e-08,
      "loss": 0.7766,
      "step": 5030
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.493646424036432,
      "learning_rate": 5.3464457250814726e-08,
      "loss": 0.9395,
      "step": 5031
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.475812448691307,
      "learning_rate": 5.2822813365286386e-08,
      "loss": 0.8528,
      "step": 5032
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5511831482252114,
      "learning_rate": 5.218503284875609e-08,
      "loss": 0.8275,
      "step": 5033
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.518565293486622,
      "learning_rate": 5.155111594893014e-08,
      "loss": 0.8809,
      "step": 5034
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4551748986033843,
      "learning_rate": 5.092106291201604e-08,
      "loss": 0.8731,
      "step": 5035
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1392201727906768,
      "learning_rate": 5.029487398271693e-08,
      "loss": 0.7589,
      "step": 5036
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.517328851250753,
      "learning_rate": 4.967254940423716e-08,
      "loss": 0.681,
      "step": 5037
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.296568535951943,
      "learning_rate": 4.905408941828338e-08,
      "loss": 0.8709,
      "step": 5038
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1840880220792567,
      "learning_rate": 4.8439494265055674e-08,
      "loss": 0.7881,
      "step": 5039
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1711304031575804,
      "learning_rate": 4.7828764183257545e-08,
      "loss": 0.7717,
      "step": 5040
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3546858475822439,
      "learning_rate": 4.722189941008703e-08,
      "loss": 0.8175,
      "step": 5041
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2628000279409883,
      "learning_rate": 4.66189001812456e-08,
      "loss": 0.7362,
      "step": 5042
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3421344087875586,
      "learning_rate": 4.6019766730930336e-08,
      "loss": 0.7729,
      "step": 5043
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.237271774760501,
      "learning_rate": 4.542449929183845e-08,
      "loss": 0.7928,
      "step": 5044
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1614377717762614,
      "learning_rate": 4.4833098095165005e-08,
      "loss": 0.87,
      "step": 5045
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5501510762437947,
      "learning_rate": 4.424556337060182e-08,
      "loss": 0.8915,
      "step": 5046
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3482585597629504,
      "learning_rate": 4.366189534634191e-08,
      "loss": 0.882,
      "step": 5047
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5125482643496568,
      "learning_rate": 4.308209424907506e-08,
      "loss": 0.9053,
      "step": 5048
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.390212396960858,
      "learning_rate": 4.250616030399002e-08,
      "loss": 0.7951,
      "step": 5049
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2872588963699416,
      "learning_rate": 4.1934093734771194e-08,
      "loss": 0.8876,
      "step": 5050
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0858839874324346,
      "learning_rate": 4.13658947636042e-08,
      "loss": 0.8551,
      "step": 5051
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0898488567601814,
      "learning_rate": 4.080156361117027e-08,
      "loss": 0.7465,
      "step": 5052
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.4530309469154117,
      "learning_rate": 4.024110049664853e-08,
      "loss": 0.8307,
      "step": 5053
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.176504282924776,
      "learning_rate": 3.9684505637718194e-08,
      "loss": 0.8277,
      "step": 5054
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0436792056800461,
      "learning_rate": 3.913177925055189e-08,
      "loss": 0.8323,
      "step": 5055
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2598500851847176,
      "learning_rate": 3.858292154982457e-08,
      "loss": 0.7945,
      "step": 5056
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2563358614709281,
      "learning_rate": 3.8037932748704596e-08,
      "loss": 0.8409,
      "step": 5057
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1475635239215483,
      "learning_rate": 3.7496813058859325e-08,
      "loss": 0.8053,
      "step": 5058
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.1824225597108662,
      "learning_rate": 3.695956269045509e-08,
      "loss": 0.7159,
      "step": 5059
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.001220528714905,
      "learning_rate": 3.642618185215163e-08,
      "loss": 0.8132,
      "step": 5060
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.5405630340310992,
      "learning_rate": 3.589667075110992e-08,
      "loss": 0.7592,
      "step": 5061
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.6023714665420181,
      "learning_rate": 3.537102959298322e-08,
      "loss": 0.8961,
      "step": 5062
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9812070901430747,
      "learning_rate": 3.4849258581928224e-08,
      "loss": 0.6977,
      "step": 5063
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0372131214047453,
      "learning_rate": 3.4331357920591726e-08,
      "loss": 0.6362,
      "step": 5064
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3475275759151137,
      "learning_rate": 3.3817327810121706e-08,
      "loss": 0.7774,
      "step": 5065
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.2102435146105126,
      "learning_rate": 3.3307168450160685e-08,
      "loss": 0.6757,
      "step": 5066
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.3872979140059258,
      "learning_rate": 3.280088003885018e-08,
      "loss": 0.8161,
      "step": 5067
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.283341682623537,
      "learning_rate": 3.229846277282511e-08,
      "loss": 0.8932,
      "step": 5068
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3458436612616171,
      "learning_rate": 3.1799916847220505e-08,
      "loss": 0.8663,
      "step": 5069
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0233262670244125,
      "learning_rate": 3.130524245566369e-08,
      "loss": 0.6758,
      "step": 5070
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.310112083727891,
      "learning_rate": 3.0814439790280984e-08,
      "loss": 0.7194,
      "step": 5071
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0100208140786235,
      "learning_rate": 3.032750904169546e-08,
      "loss": 0.6925,
      "step": 5072
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2597957921666998,
      "learning_rate": 2.9844450399024725e-08,
      "loss": 0.7441,
      "step": 5073
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1512800139994215,
      "learning_rate": 2.936526404988427e-08,
      "loss": 0.8255,
      "step": 5074
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0063674295279128,
      "learning_rate": 2.8889950180382985e-08,
      "loss": 0.6131,
      "step": 5075
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0939167449073401,
      "learning_rate": 2.8418508975127655e-08,
      "loss": 0.6892,
      "step": 5076
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1937719531718187,
      "learning_rate": 2.7950940617221812e-08,
      "loss": 0.9058,
      "step": 5077
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2796365621813355,
      "learning_rate": 2.7487245288261298e-08,
      "loss": 0.8663,
      "step": 5078
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3432954167264832,
      "learning_rate": 2.702742316834206e-08,
      "loss": 0.8518,
      "step": 5079
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0965845781409334,
      "learning_rate": 2.657147443605457e-08,
      "loss": 0.7704,
      "step": 5080
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0544120775543337,
      "learning_rate": 2.6119399268480505e-08,
      "loss": 0.7233,
      "step": 5081
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0934918818567383,
      "learning_rate": 2.5671197841203867e-08,
      "loss": 0.7899,
      "step": 5082
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1734456708318202,
      "learning_rate": 2.5226870328299845e-08,
      "loss": 0.8323,
      "step": 5083
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1485273115647376,
      "learning_rate": 2.4786416902339293e-08,
      "loss": 0.7322,
      "step": 5084
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4927467317474523,
      "learning_rate": 2.4349837734390923e-08,
      "loss": 0.7167,
      "step": 5085
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5334299041294823,
      "learning_rate": 2.3917132994016878e-08,
      "loss": 0.7975,
      "step": 5086
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.460252991301475,
      "learning_rate": 2.3488302849272726e-08,
      "loss": 0.8671,
      "step": 5087
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2423826250334922,
      "learning_rate": 2.3063347466713014e-08,
      "loss": 0.8824,
      "step": 5088
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5376745380733872,
      "learning_rate": 2.264226701138461e-08,
      "loss": 0.8811,
      "step": 5089
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6894958049697253,
      "learning_rate": 2.2225061646830025e-08,
      "loss": 0.8799,
      "step": 5090
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1408806179244009,
      "learning_rate": 2.181173153508853e-08,
      "loss": 0.7769,
      "step": 5091
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3211713835054568,
      "learning_rate": 2.1402276836691715e-08,
      "loss": 0.8168,
      "step": 5092
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2343710834404824,
      "learning_rate": 2.0996697710666812e-08,
      "loss": 0.8641,
      "step": 5093
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3790917994390395,
      "learning_rate": 2.059499431453671e-08,
      "loss": 0.7952,
      "step": 5094
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3407995167860904,
      "learning_rate": 2.0197166804317713e-08,
      "loss": 0.7762,
      "step": 5095
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9750184073261843,
      "learning_rate": 1.9803215334522895e-08,
      "loss": 0.8453,
      "step": 5096
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9253948902874798,
      "learning_rate": 1.9413140058156533e-08,
      "loss": 0.7598,
      "step": 5097
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.336441405807439,
      "learning_rate": 1.9026941126721876e-08,
      "loss": 0.8528,
      "step": 5098
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2853026815738384,
      "learning_rate": 1.864461869021117e-08,
      "loss": 0.8228,
      "step": 5099
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.3740546081304188,
      "learning_rate": 1.826617289711563e-08,
      "loss": 0.8199,
      "step": 5100
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.714845818103421,
      "learning_rate": 1.7891603894418797e-08,
      "loss": 0.7518,
      "step": 5101
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1220564310163057,
      "learning_rate": 1.7520911827598742e-08,
      "loss": 0.8506,
      "step": 5102
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.4101840449734968,
      "learning_rate": 1.7154096840629186e-08,
      "loss": 0.8489,
      "step": 5103
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2943129646964586,
      "learning_rate": 1.679115907597617e-08,
      "loss": 0.8087,
      "step": 5104
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1689926518707654,
      "learning_rate": 1.6432098674600272e-08,
      "loss": 0.8355,
      "step": 5105
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2947372370337562,
      "learning_rate": 1.6076915775956604e-08,
      "loss": 0.8747,
      "step": 5106
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0117112628004301,
      "learning_rate": 1.5725610517994816e-08,
      "loss": 0.6474,
      "step": 5107
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.76593631504281,
      "learning_rate": 1.537818303715688e-08,
      "loss": 0.9201,
      "step": 5108
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0959519177782315,
      "learning_rate": 1.50346334683793e-08,
      "loss": 0.7945,
      "step": 5109
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.493581908923139,
      "learning_rate": 1.4694961945093122e-08,
      "loss": 0.8018,
      "step": 5110
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.1840468926475871,
      "learning_rate": 1.4359168599223926e-08,
      "loss": 0.8245,
      "step": 5111
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.9269366305375119,
      "learning_rate": 1.4027253561188502e-08,
      "loss": 0.6304,
      "step": 5112
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.8566850606132257,
      "learning_rate": 1.3699216959899287e-08,
      "loss": 0.6369,
      "step": 5113
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.12267743668378,
      "learning_rate": 1.337505892276325e-08,
      "loss": 0.8143,
      "step": 5114
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2409719834415376,
      "learning_rate": 1.3054779575677468e-08,
      "loss": 0.8995,
      "step": 5115
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.194799331371549,
      "learning_rate": 1.2738379043035765e-08,
      "loss": 0.819,
      "step": 5116
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2963086630963216,
      "learning_rate": 1.2425857447725397e-08,
      "loss": 0.841,
      "step": 5117
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.2039621615484788,
      "learning_rate": 1.211721491112372e-08,
      "loss": 0.8231,
      "step": 5118
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.6437238282080064,
      "learning_rate": 1.1812451553107063e-08,
      "loss": 0.8778,
      "step": 5119
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3386208033121116,
      "learning_rate": 1.1511567492038522e-08,
      "loss": 0.885,
      "step": 5120
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5268265517411825,
      "learning_rate": 1.1214562844781285e-08,
      "loss": 0.8313,
      "step": 5121
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1786098407240315,
      "learning_rate": 1.0921437726686413e-08,
      "loss": 0.8034,
      "step": 5122
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.6709011533236882,
      "learning_rate": 1.0632192251601726e-08,
      "loss": 0.7793,
      "step": 5123
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.536115806931681,
      "learning_rate": 1.0346826531865139e-08,
      "loss": 0.8272,
      "step": 5124
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0194922812914293,
      "learning_rate": 1.006534067831022e-08,
      "loss": 0.7951,
      "step": 5125
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5408796572562833,
      "learning_rate": 9.78773480026396e-09,
      "loss": 0.891,
      "step": 5126
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.450606809540147,
      "learning_rate": 9.514009005543445e-09,
      "loss": 0.7629,
      "step": 5127
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2945328386264785,
      "learning_rate": 9.244163400462525e-09,
      "loss": 0.7445,
      "step": 5128
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4300605972391252,
      "learning_rate": 8.97819808982403e-09,
      "loss": 0.8432,
      "step": 5129
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3926081988550232,
      "learning_rate": 8.716113176927554e-09,
      "loss": 0.844,
      "step": 5130
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2826899888034193,
      "learning_rate": 8.457908763562783e-09,
      "loss": 0.7997,
      "step": 5131
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0667901025115032,
      "learning_rate": 8.203584950013942e-09,
      "loss": 0.8275,
      "step": 5132
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.453126106851423,
      "learning_rate": 7.953141835057576e-09,
      "loss": 0.8427,
      "step": 5133
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4197831010627155,
      "learning_rate": 7.706579515962542e-09,
      "loss": 0.7959,
      "step": 5134
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1420633692973463,
      "learning_rate": 7.463898088490019e-09,
      "loss": 0.8711,
      "step": 5135
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0124186215527615,
      "learning_rate": 7.225097646895718e-09,
      "loss": 0.7146,
      "step": 5136
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2791368033094521,
      "learning_rate": 6.990178283927673e-09,
      "loss": 0.8809,
      "step": 5137
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0854329278712702,
      "learning_rate": 6.759140090824012e-09,
      "loss": 0.8096,
      "step": 5138
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1187731795400413,
      "learning_rate": 6.531983157318511e-09,
      "loss": 0.8411,
      "step": 5139
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5777285810932293,
      "learning_rate": 6.308707571636152e-09,
      "loss": 0.7657,
      "step": 5140
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4927015774962031,
      "learning_rate": 6.089313420494236e-09,
      "loss": 0.8123,
      "step": 5141
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0181006300042805,
      "learning_rate": 5.87380078910349e-09,
      "loss": 0.7612,
      "step": 5142
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.37146442618023,
      "learning_rate": 5.662169761165848e-09,
      "loss": 0.8624,
      "step": 5143
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.485471077035233,
      "learning_rate": 5.4544204188777815e-09,
      "loss": 0.7776,
      "step": 5144
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5981049461369021,
      "learning_rate": 5.25055284292475e-09,
      "loss": 0.7861,
      "step": 5145
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.435116439632139,
      "learning_rate": 5.050567112487858e-09,
      "loss": 0.8397,
      "step": 5146
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1301124309761292,
      "learning_rate": 4.85446330523831e-09,
      "loss": 0.7894,
      "step": 5147
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3696793482326495,
      "learning_rate": 4.662241497341846e-09,
      "loss": 0.7819,
      "step": 5148
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2639493073913943,
      "learning_rate": 4.473901763454302e-09,
      "loss": 0.8446,
      "step": 5149
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2920708394492815,
      "learning_rate": 4.289444176724944e-09,
      "loss": 0.8725,
      "step": 5150
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5700198714572744,
      "learning_rate": 4.108868808794242e-09,
      "loss": 0.8002,
      "step": 5151
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.157187598011086,
      "learning_rate": 3.932175729797205e-09,
      "loss": 0.7762,
      "step": 5152
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1190341050782109,
      "learning_rate": 3.759365008357829e-09,
      "loss": 0.8177,
      "step": 5153
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.224725576679652,
      "learning_rate": 3.590436711594647e-09,
      "loss": 0.8999,
      "step": 5154
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4559722610977903,
      "learning_rate": 3.4253909051173985e-09,
      "loss": 0.746,
      "step": 5155
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0367218706196129,
      "learning_rate": 3.2642276530281404e-09,
      "loss": 0.8148,
      "step": 5156
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.9030642479024003,
      "learning_rate": 3.1069470179201365e-09,
      "loss": 0.7134,
      "step": 5157
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.1971202541560393,
      "learning_rate": 2.9535490608789687e-09,
      "loss": 0.787,
      "step": 5158
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2278920421424087,
      "learning_rate": 2.8040338414847545e-09,
      "loss": 0.8215,
      "step": 5159
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2325210531382667,
      "learning_rate": 2.6584014178054894e-09,
      "loss": 0.8412,
      "step": 5160
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0924490823548165,
      "learning_rate": 2.516651846403706e-09,
      "loss": 0.8441,
      "step": 5161
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.239302612401245,
      "learning_rate": 2.378785182333143e-09,
      "loss": 0.8186,
      "step": 5162
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.4963043316180429,
      "learning_rate": 2.2448014791398574e-09,
      "loss": 0.9096,
      "step": 5163
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.088905106299078,
      "learning_rate": 2.1147007888622227e-09,
      "loss": 0.7395,
      "step": 5164
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0975570807848327,
      "learning_rate": 1.9884831620287094e-09,
      "loss": 0.8164,
      "step": 5165
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.2727510506899313,
      "learning_rate": 1.8661486476612144e-09,
      "loss": 0.8814,
      "step": 5166
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0424770868858497,
      "learning_rate": 1.747697293272843e-09,
      "loss": 0.8376,
      "step": 5167
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.3827063427468527,
      "learning_rate": 1.633129144870127e-09,
      "loss": 0.8174,
      "step": 5168
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.090583119349984,
      "learning_rate": 1.5224442469474743e-09,
      "loss": 0.8192,
      "step": 5169
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.087724527455398,
      "learning_rate": 1.4156426424960513e-09,
      "loss": 0.7657,
      "step": 5170
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.5203942548650577,
      "learning_rate": 1.3127243729949003e-09,
      "loss": 0.8079,
      "step": 5171
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.6899147114247641,
      "learning_rate": 1.2136894784176011e-09,
      "loss": 0.7144,
      "step": 5172
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.1616540285198316,
      "learning_rate": 1.1185379972256105e-09,
      "loss": 0.7161,
      "step": 5173
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.04451238237829,
      "learning_rate": 1.0272699663782525e-09,
      "loss": 0.8565,
      "step": 5174
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3609672771761852,
      "learning_rate": 9.398854213193976e-10,
      "loss": 0.8203,
      "step": 5175
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3161386336700929,
      "learning_rate": 8.563843959907836e-10,
      "loss": 0.8198,
      "step": 5176
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.0311175549412992,
      "learning_rate": 7.767669228231356e-10,
      "loss": 0.7505,
      "step": 5177
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.0614550670707903,
      "learning_rate": 7.010330327372749e-10,
      "loss": 0.6962,
      "step": 5178
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.4375595415394513,
      "learning_rate": 6.291827551474505e-10,
      "loss": 0.7917,
      "step": 5179
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2929003155740642,
      "learning_rate": 5.612161179613385e-10,
      "loss": 0.7715,
      "step": 5180
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.8968782272689936,
      "learning_rate": 4.971331475756013e-10,
      "loss": 0.6905,
      "step": 5181
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2648472250454192,
      "learning_rate": 4.369338688781088e-10,
      "loss": 0.8143,
      "step": 5182
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.7719299861030742,
      "learning_rate": 3.8061830525126797e-10,
      "loss": 0.9014,
      "step": 5183
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.6829745424618257,
      "learning_rate": 3.2818647856647234e-10,
      "loss": 0.7558,
      "step": 5184
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.1608771775856934,
      "learning_rate": 2.796384091885429e-10,
      "loss": 0.7193,
      "step": 5185
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.0503924640576998,
      "learning_rate": 2.3497411597128705e-10,
      "loss": 0.67,
      "step": 5186
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2666117444213698,
      "learning_rate": 1.9419361626416e-10,
      "loss": 0.8102,
      "step": 5187
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.2421591145568114,
      "learning_rate": 1.5729692590338296e-10,
      "loss": 0.8867,
      "step": 5188
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.6610008178333715,
      "learning_rate": 1.2428405921971476e-10,
      "loss": 0.9645,
      "step": 5189
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.1192677957786983,
      "learning_rate": 9.515502903734153e-11,
      "loss": 0.8287,
      "step": 5190
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3048337901498948,
      "learning_rate": 6.990984666610523e-11,
      "loss": 0.7087,
      "step": 5191
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.295647532903836,
      "learning_rate": 4.854852191371606e-11,
      "loss": 0.7935,
      "step": 5192
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.133707085848582,
      "learning_rate": 3.1071063075760466e-11,
      "loss": 0.8425,
      "step": 5193
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.060690318860418,
      "learning_rate": 1.7477476940142013e-11,
      "loss": 0.8233,
      "step": 5194
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.138089783270698,
      "learning_rate": 7.767768785971185e-12,
      "loss": 0.8643,
      "step": 5195
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.3815485734678257,
      "learning_rate": 1.9419423846755993e-12,
      "loss": 0.7927,
      "step": 5196
    },
    {
      "epoch": 1.0,
      "grad_norm": 1.342900427968881,
      "learning_rate": 0.0,
      "loss": 0.6804,
      "step": 5197
    },
    {
      "epoch": 1.0,
      "step": 5197,
      "total_flos": 1.1668789302929654e+19,
      "train_loss": 0.8635435948262702,
      "train_runtime": 82925.3312,
      "train_samples_per_second": 8.023,
      "train_steps_per_second": 0.063
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 5197,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 200,
  "total_flos": 1.1668789302929654e+19,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}