{
  "best_metric": 2.129138708114624,
  "best_model_checkpoint": "/home/sunggeunan/data/ICL/outputs/lora/SKIML-ICL_mrqa_nq_v3/Meta-Llama-3-8B-Instruct-unanswerable-2Q-1U-0C-qa_first/checkpoint-402",
  "epoch": 0.9996891513832763,
  "eval_steps": 500,
  "global_step": 402,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0024867889337892445,
      "grad_norm": 0.4153629243373871,
      "learning_rate": 8.19672131147541e-09,
      "loss": 2.121,
      "step": 1
    },
    {
      "epoch": 0.004973577867578489,
      "grad_norm": 0.4008300006389618,
      "learning_rate": 1.639344262295082e-08,
      "loss": 2.1542,
      "step": 2
    },
    {
      "epoch": 0.007460366801367734,
      "grad_norm": 0.42680642008781433,
      "learning_rate": 2.459016393442623e-08,
      "loss": 2.1439,
      "step": 3
    },
    {
      "epoch": 0.009947155735156978,
      "grad_norm": 0.3831591308116913,
      "learning_rate": 3.278688524590164e-08,
      "loss": 2.1025,
      "step": 4
    },
    {
      "epoch": 0.012433944668946224,
      "grad_norm": 0.40637049078941345,
      "learning_rate": 4.0983606557377046e-08,
      "loss": 2.1374,
      "step": 5
    },
    {
      "epoch": 0.014920733602735468,
      "grad_norm": 0.3883218467235565,
      "learning_rate": 4.918032786885246e-08,
      "loss": 2.1412,
      "step": 6
    },
    {
      "epoch": 0.017407522536524712,
      "grad_norm": 0.42491665482521057,
      "learning_rate": 5.7377049180327866e-08,
      "loss": 2.205,
      "step": 7
    },
    {
      "epoch": 0.019894311470313956,
      "grad_norm": 0.40381714701652527,
      "learning_rate": 6.557377049180328e-08,
      "loss": 2.1575,
      "step": 8
    },
    {
      "epoch": 0.022381100404103203,
      "grad_norm": 0.3807780146598816,
      "learning_rate": 7.377049180327868e-08,
      "loss": 2.2206,
      "step": 9
    },
    {
      "epoch": 0.024867889337892447,
      "grad_norm": 0.3880959451198578,
      "learning_rate": 8.196721311475409e-08,
      "loss": 2.1772,
      "step": 10
    },
    {
      "epoch": 0.02735467827168169,
      "grad_norm": 0.36500561237335205,
      "learning_rate": 9.01639344262295e-08,
      "loss": 2.1232,
      "step": 11
    },
    {
      "epoch": 0.029841467205470935,
      "grad_norm": 0.3805394172668457,
      "learning_rate": 9.836065573770492e-08,
      "loss": 2.1446,
      "step": 12
    },
    {
      "epoch": 0.03232825613926018,
      "grad_norm": 0.38014543056488037,
      "learning_rate": 1.0655737704918032e-07,
      "loss": 2.1277,
      "step": 13
    },
    {
      "epoch": 0.034815045073049423,
      "grad_norm": 0.3875851333141327,
      "learning_rate": 1.1475409836065573e-07,
      "loss": 2.1064,
      "step": 14
    },
    {
      "epoch": 0.03730183400683867,
      "grad_norm": 0.39165419340133667,
      "learning_rate": 1.2295081967213113e-07,
      "loss": 2.1352,
      "step": 15
    },
    {
      "epoch": 0.03978862294062791,
      "grad_norm": 0.4067535102367401,
      "learning_rate": 1.3114754098360656e-07,
      "loss": 2.1601,
      "step": 16
    },
    {
      "epoch": 0.042275411874417156,
      "grad_norm": 0.41718506813049316,
      "learning_rate": 1.3934426229508196e-07,
      "loss": 2.1471,
      "step": 17
    },
    {
      "epoch": 0.04476220080820641,
      "grad_norm": 0.4221360981464386,
      "learning_rate": 1.4754098360655736e-07,
      "loss": 2.1499,
      "step": 18
    },
    {
      "epoch": 0.04724898974199565,
      "grad_norm": 0.39923396706581116,
      "learning_rate": 1.5573770491803278e-07,
      "loss": 2.1003,
      "step": 19
    },
    {
      "epoch": 0.049735778675784895,
      "grad_norm": 0.3728751242160797,
      "learning_rate": 1.6393442622950818e-07,
      "loss": 2.0842,
      "step": 20
    },
    {
      "epoch": 0.05222256760957414,
      "grad_norm": 0.3873041868209839,
      "learning_rate": 1.7213114754098358e-07,
      "loss": 2.1152,
      "step": 21
    },
    {
      "epoch": 0.05470935654336338,
      "grad_norm": 0.3714573383331299,
      "learning_rate": 1.80327868852459e-07,
      "loss": 2.1215,
      "step": 22
    },
    {
      "epoch": 0.05719614547715263,
      "grad_norm": 0.4204677939414978,
      "learning_rate": 1.885245901639344e-07,
      "loss": 2.1859,
      "step": 23
    },
    {
      "epoch": 0.05968293441094187,
      "grad_norm": 0.4137566089630127,
      "learning_rate": 1.9672131147540984e-07,
      "loss": 2.1317,
      "step": 24
    },
    {
      "epoch": 0.062169723344731115,
      "grad_norm": 0.3629921078681946,
      "learning_rate": 2.0491803278688524e-07,
      "loss": 2.0563,
      "step": 25
    },
    {
      "epoch": 0.06465651227852036,
      "grad_norm": 0.39072492718696594,
      "learning_rate": 2.1311475409836064e-07,
      "loss": 2.164,
      "step": 26
    },
    {
      "epoch": 0.0671433012123096,
      "grad_norm": 0.37331125140190125,
      "learning_rate": 2.2131147540983606e-07,
      "loss": 2.2048,
      "step": 27
    },
    {
      "epoch": 0.06963009014609885,
      "grad_norm": 0.3944483697414398,
      "learning_rate": 2.2950819672131146e-07,
      "loss": 2.1835,
      "step": 28
    },
    {
      "epoch": 0.07211687907988809,
      "grad_norm": 0.39379164576530457,
      "learning_rate": 2.3770491803278686e-07,
      "loss": 2.1465,
      "step": 29
    },
    {
      "epoch": 0.07460366801367734,
      "grad_norm": 0.3914564549922943,
      "learning_rate": 2.4590163934426226e-07,
      "loss": 2.091,
      "step": 30
    },
    {
      "epoch": 0.07709045694746658,
      "grad_norm": 0.4301564395427704,
      "learning_rate": 2.540983606557377e-07,
      "loss": 2.1183,
      "step": 31
    },
    {
      "epoch": 0.07957724588125582,
      "grad_norm": 0.40827327966690063,
      "learning_rate": 2.622950819672131e-07,
      "loss": 2.1588,
      "step": 32
    },
    {
      "epoch": 0.08206403481504507,
      "grad_norm": 0.3868783116340637,
      "learning_rate": 2.704918032786885e-07,
      "loss": 2.1667,
      "step": 33
    },
    {
      "epoch": 0.08455082374883431,
      "grad_norm": 0.40489786863327026,
      "learning_rate": 2.786885245901639e-07,
      "loss": 2.1857,
      "step": 34
    },
    {
      "epoch": 0.08703761268262357,
      "grad_norm": 0.3836217224597931,
      "learning_rate": 2.868852459016393e-07,
      "loss": 2.1313,
      "step": 35
    },
    {
      "epoch": 0.08952440161641281,
      "grad_norm": 0.4212404787540436,
      "learning_rate": 2.950819672131147e-07,
      "loss": 2.2024,
      "step": 36
    },
    {
      "epoch": 0.09201119055020206,
      "grad_norm": 0.395867258310318,
      "learning_rate": 3.0327868852459017e-07,
      "loss": 2.1355,
      "step": 37
    },
    {
      "epoch": 0.0944979794839913,
      "grad_norm": 0.3836336135864258,
      "learning_rate": 3.1147540983606557e-07,
      "loss": 2.1254,
      "step": 38
    },
    {
      "epoch": 0.09698476841778055,
      "grad_norm": 0.42212599515914917,
      "learning_rate": 3.1967213114754097e-07,
      "loss": 2.1262,
      "step": 39
    },
    {
      "epoch": 0.09947155735156979,
      "grad_norm": 0.43291711807250977,
      "learning_rate": 3.2786885245901637e-07,
      "loss": 2.1664,
      "step": 40
    },
    {
      "epoch": 0.10195834628535903,
      "grad_norm": 0.3876365125179291,
      "learning_rate": 3.3606557377049177e-07,
      "loss": 2.147,
      "step": 41
    },
    {
      "epoch": 0.10444513521914828,
      "grad_norm": 0.39074528217315674,
      "learning_rate": 3.4426229508196717e-07,
      "loss": 2.1113,
      "step": 42
    },
    {
      "epoch": 0.10693192415293752,
      "grad_norm": 0.4135940670967102,
      "learning_rate": 3.524590163934426e-07,
      "loss": 2.1834,
      "step": 43
    },
    {
      "epoch": 0.10941871308672677,
      "grad_norm": 0.4124310612678528,
      "learning_rate": 3.60655737704918e-07,
      "loss": 2.1019,
      "step": 44
    },
    {
      "epoch": 0.11190550202051601,
      "grad_norm": 0.3812576234340668,
      "learning_rate": 3.6885245901639347e-07,
      "loss": 2.1368,
      "step": 45
    },
    {
      "epoch": 0.11439229095430525,
      "grad_norm": 0.3919021189212799,
      "learning_rate": 3.770491803278688e-07,
      "loss": 2.1226,
      "step": 46
    },
    {
      "epoch": 0.1168790798880945,
      "grad_norm": 0.37712955474853516,
      "learning_rate": 3.852459016393442e-07,
      "loss": 2.1723,
      "step": 47
    },
    {
      "epoch": 0.11936586882188374,
      "grad_norm": 0.40433424711227417,
      "learning_rate": 3.9344262295081967e-07,
      "loss": 2.1469,
      "step": 48
    },
    {
      "epoch": 0.12185265775567299,
      "grad_norm": 0.4323996603488922,
      "learning_rate": 4.0163934426229507e-07,
      "loss": 2.1625,
      "step": 49
    },
    {
      "epoch": 0.12433944668946223,
      "grad_norm": 0.37467238306999207,
      "learning_rate": 4.0983606557377047e-07,
      "loss": 2.0877,
      "step": 50
    },
    {
      "epoch": 0.1268262356232515,
      "grad_norm": 0.3842613399028778,
      "learning_rate": 4.180327868852459e-07,
      "loss": 2.1367,
      "step": 51
    },
    {
      "epoch": 0.12931302455704072,
      "grad_norm": 0.41727927327156067,
      "learning_rate": 4.2622950819672127e-07,
      "loss": 2.158,
      "step": 52
    },
    {
      "epoch": 0.13179981349082998,
      "grad_norm": 0.427172988653183,
      "learning_rate": 4.3442622950819667e-07,
      "loss": 2.185,
      "step": 53
    },
    {
      "epoch": 0.1342866024246192,
      "grad_norm": 0.3944658041000366,
      "learning_rate": 4.426229508196721e-07,
      "loss": 2.1537,
      "step": 54
    },
    {
      "epoch": 0.13677339135840846,
      "grad_norm": 0.3892759382724762,
      "learning_rate": 4.508196721311475e-07,
      "loss": 2.1187,
      "step": 55
    },
    {
      "epoch": 0.1392601802921977,
      "grad_norm": 0.40089288353919983,
      "learning_rate": 4.590163934426229e-07,
      "loss": 2.1299,
      "step": 56
    },
    {
      "epoch": 0.14174696922598695,
      "grad_norm": 0.4039812982082367,
      "learning_rate": 4.672131147540984e-07,
      "loss": 2.1734,
      "step": 57
    },
    {
      "epoch": 0.14423375815977618,
      "grad_norm": 0.43650051951408386,
      "learning_rate": 4.754098360655737e-07,
      "loss": 2.1511,
      "step": 58
    },
    {
      "epoch": 0.14672054709356544,
      "grad_norm": 0.40934914350509644,
      "learning_rate": 4.836065573770492e-07,
      "loss": 2.1244,
      "step": 59
    },
    {
      "epoch": 0.14920733602735467,
      "grad_norm": 0.40043023228645325,
      "learning_rate": 4.918032786885245e-07,
      "loss": 2.1584,
      "step": 60
    },
    {
      "epoch": 0.15169412496114393,
      "grad_norm": 0.4129016697406769,
      "learning_rate": 5e-07,
      "loss": 2.158,
      "step": 61
    },
    {
      "epoch": 0.15418091389493316,
      "grad_norm": 0.38239961862564087,
      "learning_rate": 4.995633187772926e-07,
      "loss": 2.1423,
      "step": 62
    },
    {
      "epoch": 0.15666770282872242,
      "grad_norm": 0.4175527095794678,
      "learning_rate": 4.991266375545852e-07,
      "loss": 2.1224,
      "step": 63
    },
    {
      "epoch": 0.15915449176251165,
      "grad_norm": 0.4162661135196686,
      "learning_rate": 4.986899563318778e-07,
      "loss": 2.1816,
      "step": 64
    },
    {
      "epoch": 0.1616412806963009,
      "grad_norm": 0.4039028584957123,
      "learning_rate": 4.982532751091702e-07,
      "loss": 2.1734,
      "step": 65
    },
    {
      "epoch": 0.16412806963009013,
      "grad_norm": 0.4020048677921295,
      "learning_rate": 4.978165938864628e-07,
      "loss": 2.1546,
      "step": 66
    },
    {
      "epoch": 0.1666148585638794,
      "grad_norm": 0.4302126169204712,
      "learning_rate": 4.973799126637554e-07,
      "loss": 2.1906,
      "step": 67
    },
    {
      "epoch": 0.16910164749766862,
      "grad_norm": 0.4021979570388794,
      "learning_rate": 4.96943231441048e-07,
      "loss": 2.1297,
      "step": 68
    },
    {
      "epoch": 0.17158843643145788,
      "grad_norm": 0.3942105174064636,
      "learning_rate": 4.965065502183406e-07,
      "loss": 2.1292,
      "step": 69
    },
    {
      "epoch": 0.17407522536524714,
      "grad_norm": 0.4106265902519226,
      "learning_rate": 4.960698689956332e-07,
      "loss": 2.1454,
      "step": 70
    },
    {
      "epoch": 0.17656201429903637,
      "grad_norm": 0.4014648199081421,
      "learning_rate": 4.956331877729257e-07,
      "loss": 2.0864,
      "step": 71
    },
    {
      "epoch": 0.17904880323282563,
      "grad_norm": 0.41134366393089294,
      "learning_rate": 4.951965065502184e-07,
      "loss": 2.1021,
      "step": 72
    },
    {
      "epoch": 0.18153559216661486,
      "grad_norm": 0.40096017718315125,
      "learning_rate": 4.947598253275109e-07,
      "loss": 2.1465,
      "step": 73
    },
    {
      "epoch": 0.18402238110040411,
      "grad_norm": 0.41377922892570496,
      "learning_rate": 4.943231441048035e-07,
      "loss": 2.1694,
      "step": 74
    },
    {
      "epoch": 0.18650917003419334,
      "grad_norm": 0.39552953839302063,
      "learning_rate": 4.93886462882096e-07,
      "loss": 2.1748,
      "step": 75
    },
    {
      "epoch": 0.1889959589679826,
      "grad_norm": 0.44786471128463745,
      "learning_rate": 4.934497816593886e-07,
      "loss": 2.1785,
      "step": 76
    },
    {
      "epoch": 0.19148274790177183,
      "grad_norm": 0.42525768280029297,
      "learning_rate": 4.930131004366812e-07,
      "loss": 2.1825,
      "step": 77
    },
    {
      "epoch": 0.1939695368355611,
      "grad_norm": 0.427071750164032,
      "learning_rate": 4.925764192139738e-07,
      "loss": 2.1463,
      "step": 78
    },
    {
      "epoch": 0.19645632576935032,
      "grad_norm": 0.41076913475990295,
      "learning_rate": 4.921397379912663e-07,
      "loss": 2.124,
      "step": 79
    },
    {
      "epoch": 0.19894311470313958,
      "grad_norm": 0.4056430160999298,
      "learning_rate": 4.917030567685589e-07,
      "loss": 2.143,
      "step": 80
    },
    {
      "epoch": 0.2014299036369288,
      "grad_norm": 0.4058414101600647,
      "learning_rate": 4.912663755458515e-07,
      "loss": 2.1337,
      "step": 81
    },
    {
      "epoch": 0.20391669257071807,
      "grad_norm": 0.4427083730697632,
      "learning_rate": 4.908296943231441e-07,
      "loss": 2.1631,
      "step": 82
    },
    {
      "epoch": 0.2064034815045073,
      "grad_norm": 0.4002906084060669,
      "learning_rate": 4.903930131004367e-07,
      "loss": 2.0538,
      "step": 83
    },
    {
      "epoch": 0.20889027043829655,
      "grad_norm": 0.40065857768058777,
      "learning_rate": 4.899563318777293e-07,
      "loss": 2.1129,
      "step": 84
    },
    {
      "epoch": 0.21137705937208578,
      "grad_norm": 0.42688536643981934,
      "learning_rate": 4.895196506550219e-07,
      "loss": 2.139,
      "step": 85
    },
    {
      "epoch": 0.21386384830587504,
      "grad_norm": 0.4278879165649414,
      "learning_rate": 4.890829694323143e-07,
      "loss": 2.1395,
      "step": 86
    },
    {
      "epoch": 0.21635063723966427,
      "grad_norm": 0.43649378418922424,
      "learning_rate": 4.886462882096069e-07,
      "loss": 2.0751,
      "step": 87
    },
    {
      "epoch": 0.21883742617345353,
      "grad_norm": 0.3865818977355957,
      "learning_rate": 4.882096069868995e-07,
      "loss": 2.0862,
      "step": 88
    },
    {
      "epoch": 0.22132421510724276,
      "grad_norm": 0.42509347200393677,
      "learning_rate": 4.877729257641921e-07,
      "loss": 2.1478,
      "step": 89
    },
    {
      "epoch": 0.22381100404103202,
      "grad_norm": 0.4220832884311676,
      "learning_rate": 4.873362445414847e-07,
      "loss": 2.1609,
      "step": 90
    },
    {
      "epoch": 0.22629779297482125,
      "grad_norm": 0.40812230110168457,
      "learning_rate": 4.868995633187773e-07,
      "loss": 2.1551,
      "step": 91
    },
    {
      "epoch": 0.2287845819086105,
      "grad_norm": 0.4381932020187378,
      "learning_rate": 4.864628820960698e-07,
      "loss": 2.1594,
      "step": 92
    },
    {
      "epoch": 0.23127137084239976,
      "grad_norm": 0.4095819890499115,
      "learning_rate": 4.860262008733625e-07,
      "loss": 2.1396,
      "step": 93
    },
    {
      "epoch": 0.233758159776189,
      "grad_norm": 0.42679563164711,
      "learning_rate": 4.85589519650655e-07,
      "loss": 2.1771,
      "step": 94
    },
    {
      "epoch": 0.23624494870997825,
      "grad_norm": 0.44320186972618103,
      "learning_rate": 4.851528384279476e-07,
      "loss": 2.1842,
      "step": 95
    },
    {
      "epoch": 0.23873173764376748,
      "grad_norm": 0.39184531569480896,
      "learning_rate": 4.847161572052402e-07,
      "loss": 2.1378,
      "step": 96
    },
    {
      "epoch": 0.24121852657755674,
      "grad_norm": 0.4558006823062897,
      "learning_rate": 4.842794759825327e-07,
      "loss": 2.1706,
      "step": 97
    },
    {
      "epoch": 0.24370531551134597,
      "grad_norm": 0.4423806667327881,
      "learning_rate": 4.838427947598253e-07,
      "loss": 2.1841,
      "step": 98
    },
    {
      "epoch": 0.24619210444513523,
      "grad_norm": 0.4314688444137573,
      "learning_rate": 4.834061135371178e-07,
      "loss": 2.1154,
      "step": 99
    },
    {
      "epoch": 0.24867889337892446,
      "grad_norm": 0.44223618507385254,
      "learning_rate": 4.829694323144104e-07,
      "loss": 2.1124,
      "step": 100
    },
    {
      "epoch": 0.2511656823127137,
      "grad_norm": 0.44006800651550293,
      "learning_rate": 4.82532751091703e-07,
      "loss": 2.1937,
      "step": 101
    },
    {
      "epoch": 0.253652471246503,
      "grad_norm": 0.4089645445346832,
      "learning_rate": 4.820960698689956e-07,
      "loss": 2.1236,
      "step": 102
    },
    {
      "epoch": 0.2561392601802922,
      "grad_norm": 0.4407235383987427,
      "learning_rate": 4.816593886462882e-07,
      "loss": 2.1116,
      "step": 103
    },
    {
      "epoch": 0.25862604911408144,
      "grad_norm": 0.4155865013599396,
      "learning_rate": 4.812227074235808e-07,
      "loss": 2.1259,
      "step": 104
    },
    {
      "epoch": 0.26111283804787067,
      "grad_norm": 0.4286578893661499,
      "learning_rate": 4.807860262008734e-07,
      "loss": 2.1831,
      "step": 105
    },
    {
      "epoch": 0.26359962698165995,
      "grad_norm": 0.44605061411857605,
      "learning_rate": 4.80349344978166e-07,
      "loss": 2.1373,
      "step": 106
    },
    {
      "epoch": 0.2660864159154492,
      "grad_norm": 0.4532274007797241,
      "learning_rate": 4.799126637554585e-07,
      "loss": 2.1249,
      "step": 107
    },
    {
      "epoch": 0.2685732048492384,
      "grad_norm": 0.4327315092086792,
      "learning_rate": 4.79475982532751e-07,
      "loss": 2.1414,
      "step": 108
    },
    {
      "epoch": 0.27105999378302764,
      "grad_norm": 0.4438115358352661,
      "learning_rate": 4.790393013100436e-07,
      "loss": 2.0787,
      "step": 109
    },
    {
      "epoch": 0.2735467827168169,
      "grad_norm": 0.4239655137062073,
      "learning_rate": 4.786026200873362e-07,
      "loss": 2.1234,
      "step": 110
    },
    {
      "epoch": 0.27603357165060616,
      "grad_norm": 0.4541226327419281,
      "learning_rate": 4.781659388646288e-07,
      "loss": 2.2023,
      "step": 111
    },
    {
      "epoch": 0.2785203605843954,
      "grad_norm": 0.4275488555431366,
      "learning_rate": 4.777292576419214e-07,
      "loss": 2.1872,
      "step": 112
    },
    {
      "epoch": 0.2810071495181846,
      "grad_norm": 0.4427001476287842,
      "learning_rate": 4.772925764192139e-07,
      "loss": 2.1646,
      "step": 113
    },
    {
      "epoch": 0.2834939384519739,
      "grad_norm": 0.43924546241760254,
      "learning_rate": 4.768558951965065e-07,
      "loss": 2.1175,
      "step": 114
    },
    {
      "epoch": 0.28598072738576313,
      "grad_norm": 0.42863723635673523,
      "learning_rate": 4.764192139737991e-07,
      "loss": 2.1269,
      "step": 115
    },
    {
      "epoch": 0.28846751631955236,
      "grad_norm": 0.40726035833358765,
      "learning_rate": 4.759825327510917e-07,
      "loss": 2.071,
      "step": 116
    },
    {
      "epoch": 0.29095430525334165,
      "grad_norm": 0.4581323564052582,
      "learning_rate": 4.7554585152838427e-07,
      "loss": 2.1981,
      "step": 117
    },
    {
      "epoch": 0.2934410941871309,
      "grad_norm": 0.46849963068962097,
      "learning_rate": 4.751091703056768e-07,
      "loss": 2.1689,
      "step": 118
    },
    {
      "epoch": 0.2959278831209201,
      "grad_norm": 0.45309266448020935,
      "learning_rate": 4.746724890829694e-07,
      "loss": 2.1122,
      "step": 119
    },
    {
      "epoch": 0.29841467205470934,
      "grad_norm": 0.4709586203098297,
      "learning_rate": 4.7423580786026193e-07,
      "loss": 2.1774,
      "step": 120
    },
    {
      "epoch": 0.3009014609884986,
      "grad_norm": 0.4502153992652893,
      "learning_rate": 4.737991266375546e-07,
      "loss": 2.1357,
      "step": 121
    },
    {
      "epoch": 0.30338824992228786,
      "grad_norm": 0.4565674066543579,
      "learning_rate": 4.7336244541484717e-07,
      "loss": 2.1982,
      "step": 122
    },
    {
      "epoch": 0.3058750388560771,
      "grad_norm": 0.4817062020301819,
      "learning_rate": 4.729257641921397e-07,
      "loss": 2.1124,
      "step": 123
    },
    {
      "epoch": 0.3083618277898663,
      "grad_norm": 0.43636277318000793,
      "learning_rate": 4.724890829694323e-07,
      "loss": 2.1345,
      "step": 124
    },
    {
      "epoch": 0.3108486167236556,
      "grad_norm": 0.4348713159561157,
      "learning_rate": 4.720524017467249e-07,
      "loss": 2.1382,
      "step": 125
    },
    {
      "epoch": 0.31333540565744483,
      "grad_norm": 0.43462586402893066,
      "learning_rate": 4.7161572052401743e-07,
      "loss": 2.1708,
      "step": 126
    },
    {
      "epoch": 0.31582219459123406,
      "grad_norm": 0.4370459318161011,
      "learning_rate": 4.7117903930131e-07,
      "loss": 2.128,
      "step": 127
    },
    {
      "epoch": 0.3183089835250233,
      "grad_norm": 0.43912699818611145,
      "learning_rate": 4.7074235807860256e-07,
      "loss": 2.1016,
      "step": 128
    },
    {
      "epoch": 0.3207957724588126,
      "grad_norm": 0.4648686647415161,
      "learning_rate": 4.7030567685589515e-07,
      "loss": 2.073,
      "step": 129
    },
    {
      "epoch": 0.3232825613926018,
      "grad_norm": 0.45214056968688965,
      "learning_rate": 4.6986899563318775e-07,
      "loss": 2.1608,
      "step": 130
    },
    {
      "epoch": 0.32576935032639104,
      "grad_norm": 0.4569113850593567,
      "learning_rate": 4.6943231441048034e-07,
      "loss": 2.1456,
      "step": 131
    },
    {
      "epoch": 0.32825613926018027,
      "grad_norm": 0.4468495547771454,
      "learning_rate": 4.6899563318777293e-07,
      "loss": 2.104,
      "step": 132
    },
    {
      "epoch": 0.33074292819396955,
      "grad_norm": 0.4579126834869385,
      "learning_rate": 4.685589519650655e-07,
      "loss": 2.1415,
      "step": 133
    },
    {
      "epoch": 0.3332297171277588,
      "grad_norm": 0.41133925318717957,
      "learning_rate": 4.6812227074235806e-07,
      "loss": 2.0556,
      "step": 134
    },
    {
      "epoch": 0.335716506061548,
      "grad_norm": 0.45494189858436584,
      "learning_rate": 4.6768558951965065e-07,
      "loss": 2.1353,
      "step": 135
    },
    {
      "epoch": 0.33820329499533724,
      "grad_norm": 0.45598360896110535,
      "learning_rate": 4.672489082969432e-07,
      "loss": 2.1608,
      "step": 136
    },
    {
      "epoch": 0.34069008392912653,
      "grad_norm": 0.4804225564002991,
      "learning_rate": 4.668122270742358e-07,
      "loss": 2.125,
      "step": 137
    },
    {
      "epoch": 0.34317687286291576,
      "grad_norm": 0.45764321088790894,
      "learning_rate": 4.6637554585152837e-07,
      "loss": 2.1547,
      "step": 138
    },
    {
      "epoch": 0.345663661796705,
      "grad_norm": 0.469670832157135,
      "learning_rate": 4.659388646288209e-07,
      "loss": 2.1538,
      "step": 139
    },
    {
      "epoch": 0.3481504507304943,
      "grad_norm": 0.47154125571250916,
      "learning_rate": 4.655021834061135e-07,
      "loss": 2.1144,
      "step": 140
    },
    {
      "epoch": 0.3506372396642835,
      "grad_norm": 0.4631963074207306,
      "learning_rate": 4.6506550218340604e-07,
      "loss": 2.194,
      "step": 141
    },
    {
      "epoch": 0.35312402859807274,
      "grad_norm": 0.4393676519393921,
      "learning_rate": 4.646288209606987e-07,
      "loss": 2.0945,
      "step": 142
    },
    {
      "epoch": 0.35561081753186197,
      "grad_norm": 0.444672554731369,
      "learning_rate": 4.641921397379913e-07,
      "loss": 2.111,
      "step": 143
    },
    {
      "epoch": 0.35809760646565125,
      "grad_norm": 0.46494928002357483,
      "learning_rate": 4.637554585152838e-07,
      "loss": 2.1777,
      "step": 144
    },
    {
      "epoch": 0.3605843953994405,
      "grad_norm": 0.4453777074813843,
      "learning_rate": 4.633187772925764e-07,
      "loss": 2.1631,
      "step": 145
    },
    {
      "epoch": 0.3630711843332297,
      "grad_norm": 0.4813487231731415,
      "learning_rate": 4.62882096069869e-07,
      "loss": 2.1595,
      "step": 146
    },
    {
      "epoch": 0.36555797326701894,
      "grad_norm": 0.4742406904697418,
      "learning_rate": 4.6244541484716154e-07,
      "loss": 2.1576,
      "step": 147
    },
    {
      "epoch": 0.36804476220080823,
      "grad_norm": 0.45844781398773193,
      "learning_rate": 4.6200873362445413e-07,
      "loss": 2.1756,
      "step": 148
    },
    {
      "epoch": 0.37053155113459746,
      "grad_norm": 0.44323110580444336,
      "learning_rate": 4.6157205240174667e-07,
      "loss": 2.1483,
      "step": 149
    },
    {
      "epoch": 0.3730183400683867,
      "grad_norm": 0.49860548973083496,
      "learning_rate": 4.6113537117903926e-07,
      "loss": 2.2144,
      "step": 150
    },
    {
      "epoch": 0.3755051290021759,
      "grad_norm": 0.43856751918792725,
      "learning_rate": 4.6069868995633185e-07,
      "loss": 2.0581,
      "step": 151
    },
    {
      "epoch": 0.3779919179359652,
      "grad_norm": 0.4472333788871765,
      "learning_rate": 4.602620087336244e-07,
      "loss": 2.117,
      "step": 152
    },
    {
      "epoch": 0.38047870686975443,
      "grad_norm": 0.4927634298801422,
      "learning_rate": 4.5982532751091704e-07,
      "loss": 2.153,
      "step": 153
    },
    {
      "epoch": 0.38296549580354367,
      "grad_norm": 0.4599962532520294,
      "learning_rate": 4.5938864628820963e-07,
      "loss": 2.2226,
      "step": 154
    },
    {
      "epoch": 0.3854522847373329,
      "grad_norm": 0.45448487997055054,
      "learning_rate": 4.5895196506550217e-07,
      "loss": 2.1189,
      "step": 155
    },
    {
      "epoch": 0.3879390736711222,
      "grad_norm": 0.4686853587627411,
      "learning_rate": 4.5851528384279476e-07,
      "loss": 2.1257,
      "step": 156
    },
    {
      "epoch": 0.3904258626049114,
      "grad_norm": 0.5059552192687988,
      "learning_rate": 4.580786026200873e-07,
      "loss": 2.1586,
      "step": 157
    },
    {
      "epoch": 0.39291265153870064,
      "grad_norm": 0.4529350996017456,
      "learning_rate": 4.576419213973799e-07,
      "loss": 2.1436,
      "step": 158
    },
    {
      "epoch": 0.39539944047248987,
      "grad_norm": 0.44359931349754333,
      "learning_rate": 4.572052401746725e-07,
      "loss": 2.1086,
      "step": 159
    },
    {
      "epoch": 0.39788622940627916,
      "grad_norm": 0.4643580913543701,
      "learning_rate": 4.56768558951965e-07,
      "loss": 2.1566,
      "step": 160
    },
    {
      "epoch": 0.4003730183400684,
      "grad_norm": 0.47713202238082886,
      "learning_rate": 4.563318777292576e-07,
      "loss": 2.1494,
      "step": 161
    },
    {
      "epoch": 0.4028598072738576,
      "grad_norm": 0.4480564296245575,
      "learning_rate": 4.5589519650655015e-07,
      "loss": 2.1188,
      "step": 162
    },
    {
      "epoch": 0.4053465962076469,
      "grad_norm": 0.4450179636478424,
      "learning_rate": 4.554585152838428e-07,
      "loss": 2.1035,
      "step": 163
    },
    {
      "epoch": 0.40783338514143613,
      "grad_norm": 0.4772661328315735,
      "learning_rate": 4.550218340611354e-07,
      "loss": 2.1598,
      "step": 164
    },
    {
      "epoch": 0.41032017407522536,
      "grad_norm": 0.47646352648735046,
      "learning_rate": 4.545851528384279e-07,
      "loss": 2.1995,
      "step": 165
    },
    {
      "epoch": 0.4128069630090146,
      "grad_norm": 0.4821939468383789,
      "learning_rate": 4.541484716157205e-07,
      "loss": 2.1441,
      "step": 166
    },
    {
      "epoch": 0.4152937519428039,
      "grad_norm": 0.4545115828514099,
      "learning_rate": 4.537117903930131e-07,
      "loss": 2.1598,
      "step": 167
    },
    {
      "epoch": 0.4177805408765931,
      "grad_norm": 0.45019111037254333,
      "learning_rate": 4.5327510917030565e-07,
      "loss": 2.1148,
      "step": 168
    },
    {
      "epoch": 0.42026732981038234,
      "grad_norm": 0.4689873456954956,
      "learning_rate": 4.5283842794759824e-07,
      "loss": 2.1509,
      "step": 169
    },
    {
      "epoch": 0.42275411874417157,
      "grad_norm": 0.47073739767074585,
      "learning_rate": 4.524017467248908e-07,
      "loss": 2.1425,
      "step": 170
    },
    {
      "epoch": 0.42524090767796086,
      "grad_norm": 0.4607613980770111,
      "learning_rate": 4.5196506550218337e-07,
      "loss": 2.1226,
      "step": 171
    },
    {
      "epoch": 0.4277276966117501,
      "grad_norm": 0.46717172861099243,
      "learning_rate": 4.5152838427947596e-07,
      "loss": 2.1222,
      "step": 172
    },
    {
      "epoch": 0.4302144855455393,
      "grad_norm": 0.5047352313995361,
      "learning_rate": 4.510917030567685e-07,
      "loss": 2.2121,
      "step": 173
    },
    {
      "epoch": 0.43270127447932855,
      "grad_norm": 0.49366188049316406,
      "learning_rate": 4.5065502183406115e-07,
      "loss": 2.1806,
      "step": 174
    },
    {
      "epoch": 0.43518806341311783,
      "grad_norm": 0.4741223454475403,
      "learning_rate": 4.502183406113537e-07,
      "loss": 2.0808,
      "step": 175
    },
    {
      "epoch": 0.43767485234690706,
      "grad_norm": 0.4672994911670685,
      "learning_rate": 4.497816593886463e-07,
      "loss": 2.1021,
      "step": 176
    },
    {
      "epoch": 0.4401616412806963,
      "grad_norm": 0.4813832640647888,
      "learning_rate": 4.4934497816593887e-07,
      "loss": 2.139,
      "step": 177
    },
    {
      "epoch": 0.4426484302144855,
      "grad_norm": 0.4757406413555145,
      "learning_rate": 4.489082969432314e-07,
      "loss": 2.1245,
      "step": 178
    },
    {
      "epoch": 0.4451352191482748,
      "grad_norm": 0.4674074351787567,
      "learning_rate": 4.48471615720524e-07,
      "loss": 2.1619,
      "step": 179
    },
    {
      "epoch": 0.44762200808206404,
      "grad_norm": 0.4354044795036316,
      "learning_rate": 4.480349344978166e-07,
      "loss": 2.0624,
      "step": 180
    },
    {
      "epoch": 0.45010879701585327,
      "grad_norm": 0.4484567940235138,
      "learning_rate": 4.4759825327510913e-07,
      "loss": 2.1071,
      "step": 181
    },
    {
      "epoch": 0.4525955859496425,
      "grad_norm": 0.4580535292625427,
      "learning_rate": 4.471615720524017e-07,
      "loss": 2.1039,
      "step": 182
    },
    {
      "epoch": 0.4550823748834318,
      "grad_norm": 0.504393994808197,
      "learning_rate": 4.4672489082969426e-07,
      "loss": 2.1172,
      "step": 183
    },
    {
      "epoch": 0.457569163817221,
      "grad_norm": 0.4727741777896881,
      "learning_rate": 4.4628820960698685e-07,
      "loss": 2.1343,
      "step": 184
    },
    {
      "epoch": 0.46005595275101024,
      "grad_norm": 0.4549051523208618,
      "learning_rate": 4.458515283842795e-07,
      "loss": 2.1586,
      "step": 185
    },
    {
      "epoch": 0.46254274168479953,
      "grad_norm": 0.4877924919128418,
      "learning_rate": 4.4541484716157203e-07,
      "loss": 2.2136,
      "step": 186
    },
    {
      "epoch": 0.46502953061858876,
      "grad_norm": 0.47328630089759827,
      "learning_rate": 4.449781659388646e-07,
      "loss": 2.1065,
      "step": 187
    },
    {
      "epoch": 0.467516319552378,
      "grad_norm": 0.46814873814582825,
      "learning_rate": 4.445414847161572e-07,
      "loss": 2.0879,
      "step": 188
    },
    {
      "epoch": 0.4700031084861672,
      "grad_norm": 0.46883970499038696,
      "learning_rate": 4.4410480349344976e-07,
      "loss": 2.1495,
      "step": 189
    },
    {
      "epoch": 0.4724898974199565,
      "grad_norm": 0.5020297169685364,
      "learning_rate": 4.4366812227074235e-07,
      "loss": 2.161,
      "step": 190
    },
    {
      "epoch": 0.47497668635374574,
      "grad_norm": 0.47197675704956055,
      "learning_rate": 4.432314410480349e-07,
      "loss": 2.1354,
      "step": 191
    },
    {
      "epoch": 0.47746347528753497,
      "grad_norm": 0.47488582134246826,
      "learning_rate": 4.427947598253275e-07,
      "loss": 2.0913,
      "step": 192
    },
    {
      "epoch": 0.4799502642213242,
      "grad_norm": 0.49505242705345154,
      "learning_rate": 4.4235807860262007e-07,
      "loss": 2.1499,
      "step": 193
    },
    {
      "epoch": 0.4824370531551135,
      "grad_norm": 0.48239609599113464,
      "learning_rate": 4.419213973799126e-07,
      "loss": 2.1432,
      "step": 194
    },
    {
      "epoch": 0.4849238420889027,
      "grad_norm": 0.46357694268226624,
      "learning_rate": 4.4148471615720525e-07,
      "loss": 2.1352,
      "step": 195
    },
    {
      "epoch": 0.48741063102269194,
      "grad_norm": 0.4855436086654663,
      "learning_rate": 4.410480349344978e-07,
      "loss": 2.0876,
      "step": 196
    },
    {
      "epoch": 0.4898974199564812,
      "grad_norm": 0.5182051658630371,
      "learning_rate": 4.406113537117904e-07,
      "loss": 2.1872,
      "step": 197
    },
    {
      "epoch": 0.49238420889027046,
      "grad_norm": 0.4700855016708374,
      "learning_rate": 4.40174672489083e-07,
      "loss": 2.0742,
      "step": 198
    },
    {
      "epoch": 0.4948709978240597,
      "grad_norm": 0.4741506278514862,
      "learning_rate": 4.397379912663755e-07,
      "loss": 2.0981,
      "step": 199
    },
    {
      "epoch": 0.4973577867578489,
      "grad_norm": 0.4737417697906494,
      "learning_rate": 4.393013100436681e-07,
      "loss": 2.1206,
      "step": 200
    },
    {
      "epoch": 0.49984457569163815,
      "grad_norm": 0.4860036075115204,
      "learning_rate": 4.388646288209607e-07,
      "loss": 2.0539,
      "step": 201
    },
    {
      "epoch": 0.5023313646254274,
      "grad_norm": 0.4895828068256378,
      "learning_rate": 4.3842794759825324e-07,
      "loss": 2.2017,
      "step": 202
    },
    {
      "epoch": 0.5048181535592167,
      "grad_norm": 0.5107592940330505,
      "learning_rate": 4.3799126637554583e-07,
      "loss": 2.2033,
      "step": 203
    },
    {
      "epoch": 0.507304942493006,
      "grad_norm": 0.49359220266342163,
      "learning_rate": 4.3755458515283837e-07,
      "loss": 2.1245,
      "step": 204
    },
    {
      "epoch": 0.5097917314267951,
      "grad_norm": 0.43286237120628357,
      "learning_rate": 4.3711790393013096e-07,
      "loss": 2.1112,
      "step": 205
    },
    {
      "epoch": 0.5122785203605844,
      "grad_norm": 0.4412092864513397,
      "learning_rate": 4.366812227074236e-07,
      "loss": 2.032,
      "step": 206
    },
    {
      "epoch": 0.5147653092943736,
      "grad_norm": 0.5042114853858948,
      "learning_rate": 4.3624454148471614e-07,
      "loss": 2.1303,
      "step": 207
    },
    {
      "epoch": 0.5172520982281629,
      "grad_norm": 0.4746697247028351,
      "learning_rate": 4.3580786026200873e-07,
      "loss": 2.1337,
      "step": 208
    },
    {
      "epoch": 0.5197388871619522,
      "grad_norm": 0.4542432427406311,
      "learning_rate": 4.353711790393013e-07,
      "loss": 2.1181,
      "step": 209
    },
    {
      "epoch": 0.5222256760957413,
      "grad_norm": 0.5013236403465271,
      "learning_rate": 4.3493449781659386e-07,
      "loss": 2.1283,
      "step": 210
    },
    {
      "epoch": 0.5247124650295306,
      "grad_norm": 0.44694000482559204,
      "learning_rate": 4.3449781659388646e-07,
      "loss": 2.1317,
      "step": 211
    },
    {
      "epoch": 0.5271992539633199,
      "grad_norm": 0.5043014287948608,
      "learning_rate": 4.34061135371179e-07,
      "loss": 2.1751,
      "step": 212
    },
    {
      "epoch": 0.5296860428971091,
      "grad_norm": 0.45841050148010254,
      "learning_rate": 4.336244541484716e-07,
      "loss": 2.1164,
      "step": 213
    },
    {
      "epoch": 0.5321728318308984,
      "grad_norm": 0.4801214635372162,
      "learning_rate": 4.331877729257642e-07,
      "loss": 2.0855,
      "step": 214
    },
    {
      "epoch": 0.5346596207646876,
      "grad_norm": 0.5102494955062866,
      "learning_rate": 4.327510917030567e-07,
      "loss": 2.1819,
      "step": 215
    },
    {
      "epoch": 0.5371464096984768,
      "grad_norm": 0.5200817584991455,
      "learning_rate": 4.323144104803493e-07,
      "loss": 2.175,
      "step": 216
    },
    {
      "epoch": 0.5396331986322661,
      "grad_norm": 0.49951592087745667,
      "learning_rate": 4.318777292576419e-07,
      "loss": 2.1599,
      "step": 217
    },
    {
      "epoch": 0.5421199875660553,
      "grad_norm": 0.5104175209999084,
      "learning_rate": 4.314410480349345e-07,
      "loss": 2.1793,
      "step": 218
    },
    {
      "epoch": 0.5446067764998446,
      "grad_norm": 0.49184200167655945,
      "learning_rate": 4.310043668122271e-07,
      "loss": 2.1548,
      "step": 219
    },
    {
      "epoch": 0.5470935654336339,
      "grad_norm": 0.48827120661735535,
      "learning_rate": 4.305676855895196e-07,
      "loss": 2.1406,
      "step": 220
    },
    {
      "epoch": 0.549580354367423,
      "grad_norm": 0.47386690974235535,
      "learning_rate": 4.301310043668122e-07,
      "loss": 2.1014,
      "step": 221
    },
    {
      "epoch": 0.5520671433012123,
      "grad_norm": 0.47124195098876953,
      "learning_rate": 4.296943231441048e-07,
      "loss": 2.086,
      "step": 222
    },
    {
      "epoch": 0.5545539322350016,
      "grad_norm": 0.5211581587791443,
      "learning_rate": 4.2925764192139734e-07,
      "loss": 2.0998,
      "step": 223
    },
    {
      "epoch": 0.5570407211687908,
      "grad_norm": 0.4680314064025879,
      "learning_rate": 4.2882096069868994e-07,
      "loss": 2.0983,
      "step": 224
    },
    {
      "epoch": 0.5595275101025801,
      "grad_norm": 0.4839833080768585,
      "learning_rate": 4.283842794759825e-07,
      "loss": 2.1144,
      "step": 225
    },
    {
      "epoch": 0.5620142990363692,
      "grad_norm": 0.4539274275302887,
      "learning_rate": 4.2794759825327507e-07,
      "loss": 2.0693,
      "step": 226
    },
    {
      "epoch": 0.5645010879701585,
      "grad_norm": 0.4671003818511963,
      "learning_rate": 4.275109170305677e-07,
      "loss": 2.0779,
      "step": 227
    },
    {
      "epoch": 0.5669878769039478,
      "grad_norm": 0.5179879069328308,
      "learning_rate": 4.2707423580786025e-07,
      "loss": 2.1674,
      "step": 228
    },
    {
      "epoch": 0.569474665837737,
      "grad_norm": 0.4587318003177643,
      "learning_rate": 4.2663755458515284e-07,
      "loss": 2.1075,
      "step": 229
    },
    {
      "epoch": 0.5719614547715263,
      "grad_norm": 0.5107843279838562,
      "learning_rate": 4.262008733624454e-07,
      "loss": 2.1966,
      "step": 230
    },
    {
      "epoch": 0.5744482437053156,
      "grad_norm": 0.48125070333480835,
      "learning_rate": 4.2576419213973797e-07,
      "loss": 2.111,
      "step": 231
    },
    {
      "epoch": 0.5769350326391047,
      "grad_norm": 0.5291087031364441,
      "learning_rate": 4.2532751091703056e-07,
      "loss": 2.1401,
      "step": 232
    },
    {
      "epoch": 0.579421821572894,
      "grad_norm": 0.5241518020629883,
      "learning_rate": 4.248908296943231e-07,
      "loss": 2.1662,
      "step": 233
    },
    {
      "epoch": 0.5819086105066833,
      "grad_norm": 0.5210862755775452,
      "learning_rate": 4.244541484716157e-07,
      "loss": 2.2149,
      "step": 234
    },
    {
      "epoch": 0.5843953994404725,
      "grad_norm": 0.5254886150360107,
      "learning_rate": 4.240174672489083e-07,
      "loss": 2.2019,
      "step": 235
    },
    {
      "epoch": 0.5868821883742618,
      "grad_norm": 0.49172264337539673,
      "learning_rate": 4.235807860262008e-07,
      "loss": 2.1671,
      "step": 236
    },
    {
      "epoch": 0.5893689773080509,
      "grad_norm": 0.47738420963287354,
      "learning_rate": 4.231441048034934e-07,
      "loss": 2.0794,
      "step": 237
    },
    {
      "epoch": 0.5918557662418402,
      "grad_norm": 0.5100018978118896,
      "learning_rate": 4.22707423580786e-07,
      "loss": 2.1181,
      "step": 238
    },
    {
      "epoch": 0.5943425551756295,
      "grad_norm": 0.5403950810432434,
      "learning_rate": 4.222707423580786e-07,
      "loss": 2.1559,
      "step": 239
    },
    {
      "epoch": 0.5968293441094187,
      "grad_norm": 0.5101498961448669,
      "learning_rate": 4.218340611353712e-07,
      "loss": 2.2091,
      "step": 240
    },
    {
      "epoch": 0.599316133043208,
      "grad_norm": 0.5162122845649719,
      "learning_rate": 4.2139737991266373e-07,
      "loss": 2.1471,
      "step": 241
    },
    {
      "epoch": 0.6018029219769973,
      "grad_norm": 0.5074677467346191,
      "learning_rate": 4.209606986899563e-07,
      "loss": 2.0849,
      "step": 242
    },
    {
      "epoch": 0.6042897109107864,
      "grad_norm": 0.5043840408325195,
      "learning_rate": 4.205240174672489e-07,
      "loss": 2.109,
      "step": 243
    },
    {
      "epoch": 0.6067764998445757,
      "grad_norm": 0.49023503065109253,
      "learning_rate": 4.2008733624454145e-07,
      "loss": 2.157,
      "step": 244
    },
    {
      "epoch": 0.6092632887783649,
      "grad_norm": 0.5031821131706238,
      "learning_rate": 4.1965065502183404e-07,
      "loss": 2.1597,
      "step": 245
    },
    {
      "epoch": 0.6117500777121542,
      "grad_norm": 0.5147417783737183,
      "learning_rate": 4.192139737991266e-07,
      "loss": 2.1502,
      "step": 246
    },
    {
      "epoch": 0.6142368666459435,
      "grad_norm": 0.5135524272918701,
      "learning_rate": 4.187772925764192e-07,
      "loss": 2.1204,
      "step": 247
    },
    {
      "epoch": 0.6167236555797326,
      "grad_norm": 0.516242265701294,
      "learning_rate": 4.1834061135371177e-07,
      "loss": 2.1121,
      "step": 248
    },
    {
      "epoch": 0.6192104445135219,
      "grad_norm": 0.5270472764968872,
      "learning_rate": 4.1790393013100436e-07,
      "loss": 2.1296,
      "step": 249
    },
    {
      "epoch": 0.6216972334473112,
      "grad_norm": 0.5023481249809265,
      "learning_rate": 4.1746724890829695e-07,
      "loss": 2.1138,
      "step": 250
    },
    {
      "epoch": 0.6241840223811004,
      "grad_norm": 0.5072234869003296,
      "learning_rate": 4.170305676855895e-07,
      "loss": 2.1852,
      "step": 251
    },
    {
      "epoch": 0.6266708113148897,
      "grad_norm": 0.5261276364326477,
      "learning_rate": 4.165938864628821e-07,
      "loss": 2.1707,
      "step": 252
    },
    {
      "epoch": 0.6291576002486788,
      "grad_norm": 0.524861216545105,
      "learning_rate": 4.1615720524017467e-07,
      "loss": 2.1885,
      "step": 253
    },
    {
      "epoch": 0.6316443891824681,
      "grad_norm": 0.5122174620628357,
      "learning_rate": 4.157205240174672e-07,
      "loss": 2.1095,
      "step": 254
    },
    {
      "epoch": 0.6341311781162574,
      "grad_norm": 0.4976103603839874,
      "learning_rate": 4.152838427947598e-07,
      "loss": 2.1686,
      "step": 255
    },
    {
      "epoch": 0.6366179670500466,
      "grad_norm": 0.48984527587890625,
      "learning_rate": 4.148471615720524e-07,
      "loss": 2.0661,
      "step": 256
    },
    {
      "epoch": 0.6391047559838359,
      "grad_norm": 0.5184794664382935,
      "learning_rate": 4.1441048034934493e-07,
      "loss": 2.1323,
      "step": 257
    },
    {
      "epoch": 0.6415915449176252,
      "grad_norm": 0.4991200566291809,
      "learning_rate": 4.139737991266375e-07,
      "loss": 2.1294,
      "step": 258
    },
    {
      "epoch": 0.6440783338514143,
      "grad_norm": 0.5302152037620544,
      "learning_rate": 4.1353711790393006e-07,
      "loss": 2.0922,
      "step": 259
    },
    {
      "epoch": 0.6465651227852036,
      "grad_norm": 0.5143322348594666,
      "learning_rate": 4.131004366812227e-07,
      "loss": 2.1694,
      "step": 260
    },
    {
      "epoch": 0.6490519117189929,
      "grad_norm": 0.5043548941612244,
      "learning_rate": 4.126637554585153e-07,
      "loss": 2.0899,
      "step": 261
    },
    {
      "epoch": 0.6515387006527821,
      "grad_norm": 0.5160046815872192,
      "learning_rate": 4.1222707423580784e-07,
      "loss": 2.1185,
      "step": 262
    },
    {
      "epoch": 0.6540254895865714,
      "grad_norm": 0.5054792761802673,
      "learning_rate": 4.1179039301310043e-07,
      "loss": 2.1503,
      "step": 263
    },
    {
      "epoch": 0.6565122785203605,
      "grad_norm": 0.5056222677230835,
      "learning_rate": 4.11353711790393e-07,
      "loss": 2.1089,
      "step": 264
    },
    {
      "epoch": 0.6589990674541498,
      "grad_norm": 0.5285047292709351,
      "learning_rate": 4.1091703056768556e-07,
      "loss": 2.1556,
      "step": 265
    },
    {
      "epoch": 0.6614858563879391,
      "grad_norm": 0.48898041248321533,
      "learning_rate": 4.1048034934497815e-07,
      "loss": 2.1107,
      "step": 266
    },
    {
      "epoch": 0.6639726453217283,
      "grad_norm": 0.525590717792511,
      "learning_rate": 4.100436681222707e-07,
      "loss": 2.1374,
      "step": 267
    },
    {
      "epoch": 0.6664594342555176,
      "grad_norm": 0.5363737344741821,
      "learning_rate": 4.096069868995633e-07,
      "loss": 2.1198,
      "step": 268
    },
    {
      "epoch": 0.6689462231893069,
      "grad_norm": 0.5182633399963379,
      "learning_rate": 4.091703056768559e-07,
      "loss": 2.126,
      "step": 269
    },
    {
      "epoch": 0.671433012123096,
      "grad_norm": 0.4978923201560974,
      "learning_rate": 4.0873362445414847e-07,
      "loss": 2.0764,
      "step": 270
    },
    {
      "epoch": 0.6739198010568853,
      "grad_norm": 0.5094720125198364,
      "learning_rate": 4.0829694323144106e-07,
      "loss": 2.145,
      "step": 271
    },
    {
      "epoch": 0.6764065899906745,
      "grad_norm": 0.540023148059845,
      "learning_rate": 4.078602620087336e-07,
      "loss": 2.1327,
      "step": 272
    },
    {
      "epoch": 0.6788933789244638,
      "grad_norm": 0.5420276522636414,
      "learning_rate": 4.074235807860262e-07,
      "loss": 2.1707,
      "step": 273
    },
    {
      "epoch": 0.6813801678582531,
      "grad_norm": 0.5282043218612671,
      "learning_rate": 4.069868995633188e-07,
      "loss": 2.1473,
      "step": 274
    },
    {
      "epoch": 0.6838669567920422,
      "grad_norm": 0.5049037933349609,
      "learning_rate": 4.065502183406113e-07,
      "loss": 2.1335,
      "step": 275
    },
    {
      "epoch": 0.6863537457258315,
      "grad_norm": 0.5107303261756897,
      "learning_rate": 4.061135371179039e-07,
      "loss": 2.1349,
      "step": 276
    },
    {
      "epoch": 0.6888405346596208,
      "grad_norm": 0.4959608018398285,
      "learning_rate": 4.056768558951965e-07,
      "loss": 2.1044,
      "step": 277
    },
    {
      "epoch": 0.69132732359341,
      "grad_norm": 0.5125852227210999,
      "learning_rate": 4.0524017467248904e-07,
      "loss": 2.1428,
      "step": 278
    },
    {
      "epoch": 0.6938141125271993,
      "grad_norm": 0.511873185634613,
      "learning_rate": 4.0480349344978163e-07,
      "loss": 2.0763,
      "step": 279
    },
    {
      "epoch": 0.6963009014609886,
      "grad_norm": 0.5032888054847717,
      "learning_rate": 4.0436681222707417e-07,
      "loss": 2.122,
      "step": 280
    },
    {
      "epoch": 0.6987876903947777,
      "grad_norm": 0.5102598667144775,
      "learning_rate": 4.039301310043668e-07,
      "loss": 2.0693,
      "step": 281
    },
    {
      "epoch": 0.701274479328567,
      "grad_norm": 0.5118304491043091,
      "learning_rate": 4.034934497816594e-07,
      "loss": 2.11,
      "step": 282
    },
    {
      "epoch": 0.7037612682623562,
      "grad_norm": 0.5202342867851257,
      "learning_rate": 4.0305676855895195e-07,
      "loss": 2.1582,
      "step": 283
    },
    {
      "epoch": 0.7062480571961455,
      "grad_norm": 0.48433917760849,
      "learning_rate": 4.0262008733624454e-07,
      "loss": 2.103,
      "step": 284
    },
    {
      "epoch": 0.7087348461299348,
      "grad_norm": 0.4986036717891693,
      "learning_rate": 4.0218340611353713e-07,
      "loss": 2.1203,
      "step": 285
    },
    {
      "epoch": 0.7112216350637239,
      "grad_norm": 0.5467602014541626,
      "learning_rate": 4.0174672489082967e-07,
      "loss": 2.1204,
      "step": 286
    },
    {
      "epoch": 0.7137084239975132,
      "grad_norm": 0.5108657479286194,
      "learning_rate": 4.0131004366812226e-07,
      "loss": 2.1478,
      "step": 287
    },
    {
      "epoch": 0.7161952129313025,
      "grad_norm": 0.5145993232727051,
      "learning_rate": 4.008733624454148e-07,
      "loss": 2.1563,
      "step": 288
    },
    {
      "epoch": 0.7186820018650917,
      "grad_norm": 0.5134692788124084,
      "learning_rate": 4.004366812227074e-07,
      "loss": 2.1067,
      "step": 289
    },
    {
      "epoch": 0.721168790798881,
      "grad_norm": 0.5436774492263794,
      "learning_rate": 4e-07,
      "loss": 2.1369,
      "step": 290
    },
    {
      "epoch": 0.7236555797326701,
      "grad_norm": 0.5296205282211304,
      "learning_rate": 3.995633187772925e-07,
      "loss": 2.1452,
      "step": 291
    },
    {
      "epoch": 0.7261423686664594,
      "grad_norm": 0.4911108911037445,
      "learning_rate": 3.9912663755458517e-07,
      "loss": 2.1279,
      "step": 292
    },
    {
      "epoch": 0.7286291576002487,
      "grad_norm": 0.5625902414321899,
      "learning_rate": 3.986899563318777e-07,
      "loss": 2.169,
      "step": 293
    },
    {
      "epoch": 0.7311159465340379,
      "grad_norm": 0.5042857527732849,
      "learning_rate": 3.982532751091703e-07,
      "loss": 2.0692,
      "step": 294
    },
    {
      "epoch": 0.7336027354678272,
      "grad_norm": 0.5251498222351074,
      "learning_rate": 3.978165938864629e-07,
      "loss": 2.1261,
      "step": 295
    },
    {
      "epoch": 0.7360895244016165,
      "grad_norm": 0.5093502402305603,
      "learning_rate": 3.973799126637554e-07,
      "loss": 2.1175,
      "step": 296
    },
    {
      "epoch": 0.7385763133354056,
      "grad_norm": 0.49675241112709045,
      "learning_rate": 3.96943231441048e-07,
      "loss": 2.1679,
      "step": 297
    },
    {
      "epoch": 0.7410631022691949,
      "grad_norm": 0.523313045501709,
      "learning_rate": 3.965065502183406e-07,
      "loss": 2.1195,
      "step": 298
    },
    {
      "epoch": 0.7435498912029841,
      "grad_norm": 0.5194100737571716,
      "learning_rate": 3.9606986899563315e-07,
      "loss": 2.1431,
      "step": 299
    },
    {
      "epoch": 0.7460366801367734,
      "grad_norm": 0.5145063996315002,
      "learning_rate": 3.9563318777292574e-07,
      "loss": 2.0968,
      "step": 300
    },
    {
      "epoch": 0.7485234690705627,
      "grad_norm": 0.5165944695472717,
      "learning_rate": 3.951965065502183e-07,
      "loss": 2.1316,
      "step": 301
    },
    {
      "epoch": 0.7510102580043518,
      "grad_norm": 0.5502745509147644,
      "learning_rate": 3.947598253275109e-07,
      "loss": 2.1215,
      "step": 302
    },
    {
      "epoch": 0.7534970469381411,
      "grad_norm": 0.5752532482147217,
      "learning_rate": 3.943231441048035e-07,
      "loss": 2.165,
      "step": 303
    },
    {
      "epoch": 0.7559838358719304,
      "grad_norm": 0.5388760566711426,
      "learning_rate": 3.9388646288209605e-07,
      "loss": 2.136,
      "step": 304
    },
    {
      "epoch": 0.7584706248057196,
      "grad_norm": 0.5256951451301575,
      "learning_rate": 3.9344978165938865e-07,
      "loss": 2.0978,
      "step": 305
    },
    {
      "epoch": 0.7609574137395089,
      "grad_norm": 0.5247829556465149,
      "learning_rate": 3.930131004366812e-07,
      "loss": 2.1591,
      "step": 306
    },
    {
      "epoch": 0.7634442026732982,
      "grad_norm": 0.508574366569519,
      "learning_rate": 3.925764192139738e-07,
      "loss": 2.1542,
      "step": 307
    },
    {
      "epoch": 0.7659309916070873,
      "grad_norm": 0.49671751260757446,
      "learning_rate": 3.9213973799126637e-07,
      "loss": 2.1469,
      "step": 308
    },
    {
      "epoch": 0.7684177805408766,
      "grad_norm": 0.5673956274986267,
      "learning_rate": 3.917030567685589e-07,
      "loss": 2.2209,
      "step": 309
    },
    {
      "epoch": 0.7709045694746658,
      "grad_norm": 0.4881182610988617,
      "learning_rate": 3.912663755458515e-07,
      "loss": 2.1353,
      "step": 310
    },
    {
      "epoch": 0.7733913584084551,
      "grad_norm": 0.5374391078948975,
      "learning_rate": 3.908296943231441e-07,
      "loss": 2.2102,
      "step": 311
    },
    {
      "epoch": 0.7758781473422444,
      "grad_norm": 0.520723283290863,
      "learning_rate": 3.9039301310043663e-07,
      "loss": 2.1716,
      "step": 312
    },
    {
      "epoch": 0.7783649362760335,
      "grad_norm": 0.5542478561401367,
      "learning_rate": 3.8995633187772927e-07,
      "loss": 2.2128,
      "step": 313
    },
    {
      "epoch": 0.7808517252098228,
      "grad_norm": 0.5180374979972839,
      "learning_rate": 3.895196506550218e-07,
      "loss": 2.1245,
      "step": 314
    },
    {
      "epoch": 0.7833385141436121,
      "grad_norm": 0.5454829931259155,
      "learning_rate": 3.890829694323144e-07,
      "loss": 2.1609,
      "step": 315
    },
    {
      "epoch": 0.7858253030774013,
      "grad_norm": 0.568573534488678,
      "learning_rate": 3.88646288209607e-07,
      "loss": 2.175,
      "step": 316
    },
    {
      "epoch": 0.7883120920111906,
      "grad_norm": 0.5162298679351807,
      "learning_rate": 3.8820960698689953e-07,
      "loss": 2.1474,
      "step": 317
    },
    {
      "epoch": 0.7907988809449797,
      "grad_norm": 0.5148350596427917,
      "learning_rate": 3.877729257641921e-07,
      "loss": 2.0697,
      "step": 318
    },
    {
      "epoch": 0.793285669878769,
      "grad_norm": 0.5210283994674683,
      "learning_rate": 3.873362445414847e-07,
      "loss": 2.1587,
      "step": 319
    },
    {
      "epoch": 0.7957724588125583,
      "grad_norm": 0.4845898151397705,
      "learning_rate": 3.8689956331877726e-07,
      "loss": 2.0581,
      "step": 320
    },
    {
      "epoch": 0.7982592477463475,
      "grad_norm": 0.5222198367118835,
      "learning_rate": 3.8646288209606985e-07,
      "loss": 2.0504,
      "step": 321
    },
    {
      "epoch": 0.8007460366801368,
      "grad_norm": 0.5040515065193176,
      "learning_rate": 3.860262008733624e-07,
      "loss": 2.0898,
      "step": 322
    },
    {
      "epoch": 0.8032328256139261,
      "grad_norm": 0.501930296421051,
      "learning_rate": 3.85589519650655e-07,
      "loss": 2.1335,
      "step": 323
    },
    {
      "epoch": 0.8057196145477152,
      "grad_norm": 0.5378695726394653,
      "learning_rate": 3.851528384279476e-07,
      "loss": 2.0953,
      "step": 324
    },
    {
      "epoch": 0.8082064034815045,
      "grad_norm": 0.49689194560050964,
      "learning_rate": 3.8471615720524016e-07,
      "loss": 2.0837,
      "step": 325
    },
    {
      "epoch": 0.8106931924152938,
      "grad_norm": 0.5431040525436401,
      "learning_rate": 3.8427947598253275e-07,
      "loss": 2.1151,
      "step": 326
    },
    {
      "epoch": 0.813179981349083,
      "grad_norm": 0.510339081287384,
      "learning_rate": 3.838427947598253e-07,
      "loss": 2.1399,
      "step": 327
    },
    {
      "epoch": 0.8156667702828723,
      "grad_norm": 0.5451592206954956,
      "learning_rate": 3.834061135371179e-07,
      "loss": 2.1182,
      "step": 328
    },
    {
      "epoch": 0.8181535592166614,
      "grad_norm": 0.5272311568260193,
      "learning_rate": 3.829694323144105e-07,
      "loss": 2.139,
      "step": 329
    },
    {
      "epoch": 0.8206403481504507,
      "grad_norm": 0.5389718413352966,
      "learning_rate": 3.82532751091703e-07,
      "loss": 2.1086,
      "step": 330
    },
    {
      "epoch": 0.82312713708424,
      "grad_norm": 0.5228806138038635,
      "learning_rate": 3.820960698689956e-07,
      "loss": 2.1435,
      "step": 331
    },
    {
      "epoch": 0.8256139260180292,
      "grad_norm": 0.5186501741409302,
      "learning_rate": 3.816593886462882e-07,
      "loss": 2.095,
      "step": 332
    },
    {
      "epoch": 0.8281007149518185,
      "grad_norm": 0.5484049320220947,
      "learning_rate": 3.8122270742358074e-07,
      "loss": 2.1666,
      "step": 333
    },
    {
      "epoch": 0.8305875038856078,
      "grad_norm": 0.5375939607620239,
      "learning_rate": 3.807860262008734e-07,
      "loss": 2.125,
      "step": 334
    },
    {
      "epoch": 0.8330742928193969,
      "grad_norm": 0.5139255523681641,
      "learning_rate": 3.803493449781659e-07,
      "loss": 2.075,
      "step": 335
    },
    {
      "epoch": 0.8355610817531862,
      "grad_norm": 0.5235688090324402,
      "learning_rate": 3.799126637554585e-07,
      "loss": 2.0731,
      "step": 336
    },
    {
      "epoch": 0.8380478706869754,
      "grad_norm": 0.5630027651786804,
      "learning_rate": 3.794759825327511e-07,
      "loss": 2.1261,
      "step": 337
    },
    {
      "epoch": 0.8405346596207647,
      "grad_norm": 0.547572910785675,
      "learning_rate": 3.7903930131004364e-07,
      "loss": 2.1641,
      "step": 338
    },
    {
      "epoch": 0.843021448554554,
      "grad_norm": 0.5533425211906433,
      "learning_rate": 3.7860262008733623e-07,
      "loss": 2.1293,
      "step": 339
    },
    {
      "epoch": 0.8455082374883431,
      "grad_norm": 0.5256425738334656,
      "learning_rate": 3.781659388646288e-07,
      "loss": 2.1397,
      "step": 340
    },
    {
      "epoch": 0.8479950264221324,
      "grad_norm": 0.5411325693130493,
      "learning_rate": 3.7772925764192136e-07,
      "loss": 2.1631,
      "step": 341
    },
    {
      "epoch": 0.8504818153559217,
      "grad_norm": 0.5244682431221008,
      "learning_rate": 3.7729257641921396e-07,
      "loss": 2.1655,
      "step": 342
    },
    {
      "epoch": 0.8529686042897109,
      "grad_norm": 0.5120859742164612,
      "learning_rate": 3.768558951965065e-07,
      "loss": 2.0929,
      "step": 343
    },
    {
      "epoch": 0.8554553932235002,
      "grad_norm": 0.5486117601394653,
      "learning_rate": 3.764192139737991e-07,
      "loss": 2.1333,
      "step": 344
    },
    {
      "epoch": 0.8579421821572893,
      "grad_norm": 0.5485012531280518,
      "learning_rate": 3.7598253275109173e-07,
      "loss": 2.1497,
      "step": 345
    },
    {
      "epoch": 0.8604289710910786,
      "grad_norm": 0.5423093438148499,
      "learning_rate": 3.7554585152838427e-07,
      "loss": 2.2169,
      "step": 346
    },
    {
      "epoch": 0.8629157600248679,
      "grad_norm": 0.5003622770309448,
      "learning_rate": 3.7510917030567686e-07,
      "loss": 2.1818,
      "step": 347
    },
    {
      "epoch": 0.8654025489586571,
      "grad_norm": 0.5931081771850586,
      "learning_rate": 3.746724890829694e-07,
      "loss": 2.1631,
      "step": 348
    },
    {
      "epoch": 0.8678893378924464,
      "grad_norm": 0.5221492052078247,
      "learning_rate": 3.74235807860262e-07,
      "loss": 2.1087,
      "step": 349
    },
    {
      "epoch": 0.8703761268262357,
      "grad_norm": 0.5065641403198242,
      "learning_rate": 3.737991266375546e-07,
      "loss": 2.0622,
      "step": 350
    },
    {
      "epoch": 0.8728629157600248,
      "grad_norm": 0.5329532027244568,
      "learning_rate": 3.733624454148471e-07,
      "loss": 2.1275,
      "step": 351
    },
    {
      "epoch": 0.8753497046938141,
      "grad_norm": 0.5383079648017883,
      "learning_rate": 3.729257641921397e-07,
      "loss": 2.1342,
      "step": 352
    },
    {
      "epoch": 0.8778364936276034,
      "grad_norm": 0.49477216601371765,
      "learning_rate": 3.724890829694323e-07,
      "loss": 2.0404,
      "step": 353
    },
    {
      "epoch": 0.8803232825613926,
      "grad_norm": 0.5197799205780029,
      "learning_rate": 3.7205240174672484e-07,
      "loss": 2.1228,
      "step": 354
    },
    {
      "epoch": 0.8828100714951819,
      "grad_norm": 0.5122123956680298,
      "learning_rate": 3.7161572052401744e-07,
      "loss": 2.1329,
      "step": 355
    },
    {
      "epoch": 0.885296860428971,
      "grad_norm": 0.5379232168197632,
      "learning_rate": 3.7117903930131003e-07,
      "loss": 2.0743,
      "step": 356
    },
    {
      "epoch": 0.8877836493627603,
      "grad_norm": 0.5164668560028076,
      "learning_rate": 3.707423580786026e-07,
      "loss": 2.1474,
      "step": 357
    },
    {
      "epoch": 0.8902704382965496,
      "grad_norm": 0.518368661403656,
      "learning_rate": 3.703056768558952e-07,
      "loss": 2.1987,
      "step": 358
    },
    {
      "epoch": 0.8927572272303388,
      "grad_norm": 0.5662968754768372,
      "learning_rate": 3.6986899563318775e-07,
      "loss": 2.1301,
      "step": 359
    },
    {
      "epoch": 0.8952440161641281,
      "grad_norm": 0.5161558389663696,
      "learning_rate": 3.6943231441048034e-07,
      "loss": 2.1033,
      "step": 360
    },
    {
      "epoch": 0.8977308050979174,
      "grad_norm": 0.5516855120658875,
      "learning_rate": 3.6899563318777293e-07,
      "loss": 2.1003,
      "step": 361
    },
    {
      "epoch": 0.9002175940317065,
      "grad_norm": 0.5291304588317871,
      "learning_rate": 3.6855895196506547e-07,
      "loss": 2.0533,
      "step": 362
    },
    {
      "epoch": 0.9027043829654958,
      "grad_norm": 0.5586827397346497,
      "learning_rate": 3.6812227074235806e-07,
      "loss": 2.1052,
      "step": 363
    },
    {
      "epoch": 0.905191171899285,
      "grad_norm": 0.5328514575958252,
      "learning_rate": 3.676855895196506e-07,
      "loss": 2.1548,
      "step": 364
    },
    {
      "epoch": 0.9076779608330743,
      "grad_norm": 0.5259972810745239,
      "learning_rate": 3.672489082969432e-07,
      "loss": 2.1101,
      "step": 365
    },
    {
      "epoch": 0.9101647497668636,
      "grad_norm": 0.5482295751571655,
      "learning_rate": 3.6681222707423584e-07,
      "loss": 2.1678,
      "step": 366
    },
    {
      "epoch": 0.9126515387006527,
      "grad_norm": 0.5381218194961548,
      "learning_rate": 3.663755458515284e-07,
      "loss": 2.2098,
      "step": 367
    },
    {
      "epoch": 0.915138327634442,
      "grad_norm": 0.5494764447212219,
      "learning_rate": 3.6593886462882097e-07,
      "loss": 2.1338,
      "step": 368
    },
    {
      "epoch": 0.9176251165682313,
      "grad_norm": 0.5393621921539307,
      "learning_rate": 3.655021834061135e-07,
      "loss": 2.0952,
      "step": 369
    },
    {
      "epoch": 0.9201119055020205,
      "grad_norm": 0.5395556092262268,
      "learning_rate": 3.650655021834061e-07,
      "loss": 2.1402,
      "step": 370
    },
    {
      "epoch": 0.9225986944358098,
      "grad_norm": 0.5069707632064819,
      "learning_rate": 3.646288209606987e-07,
      "loss": 2.0925,
      "step": 371
    },
    {
      "epoch": 0.9250854833695991,
      "grad_norm": 0.5580669641494751,
      "learning_rate": 3.6419213973799123e-07,
      "loss": 2.1585,
      "step": 372
    },
    {
      "epoch": 0.9275722723033882,
      "grad_norm": 0.5407446026802063,
      "learning_rate": 3.637554585152838e-07,
      "loss": 2.1448,
      "step": 373
    },
    {
      "epoch": 0.9300590612371775,
      "grad_norm": 0.5261268019676208,
      "learning_rate": 3.633187772925764e-07,
      "loss": 2.1687,
      "step": 374
    },
    {
      "epoch": 0.9325458501709667,
      "grad_norm": 0.5728645920753479,
      "learning_rate": 3.6288209606986895e-07,
      "loss": 2.0929,
      "step": 375
    },
    {
      "epoch": 0.935032639104756,
      "grad_norm": 0.536983072757721,
      "learning_rate": 3.6244541484716154e-07,
      "loss": 2.1669,
      "step": 376
    },
    {
      "epoch": 0.9375194280385453,
      "grad_norm": 0.5492017269134521,
      "learning_rate": 3.6200873362445414e-07,
      "loss": 2.1449,
      "step": 377
    },
    {
      "epoch": 0.9400062169723344,
      "grad_norm": 0.5745022296905518,
      "learning_rate": 3.6157205240174673e-07,
      "loss": 2.1315,
      "step": 378
    },
    {
      "epoch": 0.9424930059061237,
      "grad_norm": 0.5852669477462769,
      "learning_rate": 3.611353711790393e-07,
      "loss": 2.1405,
      "step": 379
    },
    {
      "epoch": 0.944979794839913,
      "grad_norm": 0.5169341564178467,
      "learning_rate": 3.6069868995633186e-07,
      "loss": 2.0788,
      "step": 380
    },
    {
      "epoch": 0.9474665837737022,
      "grad_norm": 0.5499164462089539,
      "learning_rate": 3.6026200873362445e-07,
      "loss": 2.1843,
      "step": 381
    },
    {
      "epoch": 0.9499533727074915,
      "grad_norm": 0.5195809006690979,
      "learning_rate": 3.59825327510917e-07,
      "loss": 2.1045,
      "step": 382
    },
    {
      "epoch": 0.9524401616412806,
      "grad_norm": 0.5368107557296753,
      "learning_rate": 3.593886462882096e-07,
      "loss": 2.1261,
      "step": 383
    },
    {
      "epoch": 0.9549269505750699,
      "grad_norm": 0.5721762776374817,
      "learning_rate": 3.5895196506550217e-07,
      "loss": 2.1323,
      "step": 384
    },
    {
      "epoch": 0.9574137395088592,
      "grad_norm": 0.5255040526390076,
      "learning_rate": 3.585152838427947e-07,
      "loss": 2.13,
      "step": 385
    },
    {
      "epoch": 0.9599005284426484,
      "grad_norm": 0.5373786687850952,
      "learning_rate": 3.580786026200873e-07,
      "loss": 2.0763,
      "step": 386
    },
    {
      "epoch": 0.9623873173764377,
      "grad_norm": 0.5432249307632446,
      "learning_rate": 3.576419213973799e-07,
      "loss": 2.1305,
      "step": 387
    },
    {
      "epoch": 0.964874106310227,
      "grad_norm": 0.5505443811416626,
      "learning_rate": 3.572052401746725e-07,
      "loss": 2.1311,
      "step": 388
    },
    {
      "epoch": 0.9673608952440161,
      "grad_norm": 0.5119839906692505,
      "learning_rate": 3.567685589519651e-07,
      "loss": 2.1121,
      "step": 389
    },
    {
      "epoch": 0.9698476841778054,
      "grad_norm": 0.5414577126502991,
      "learning_rate": 3.563318777292576e-07,
      "loss": 2.1076,
      "step": 390
    },
    {
      "epoch": 0.9723344731115946,
      "grad_norm": 0.5283794403076172,
      "learning_rate": 3.558951965065502e-07,
      "loss": 2.1293,
      "step": 391
    },
    {
      "epoch": 0.9748212620453839,
      "grad_norm": 0.5475645065307617,
      "learning_rate": 3.554585152838428e-07,
      "loss": 2.1373,
      "step": 392
    },
    {
      "epoch": 0.9773080509791732,
      "grad_norm": 0.5172975063323975,
      "learning_rate": 3.5502183406113534e-07,
      "loss": 2.1378,
      "step": 393
    },
    {
      "epoch": 0.9797948399129623,
      "grad_norm": 0.5674493312835693,
      "learning_rate": 3.5458515283842793e-07,
      "loss": 2.0797,
      "step": 394
    },
    {
      "epoch": 0.9822816288467516,
      "grad_norm": 0.510979950428009,
      "learning_rate": 3.541484716157205e-07,
      "loss": 2.091,
      "step": 395
    },
    {
      "epoch": 0.9847684177805409,
      "grad_norm": 0.5517850518226624,
      "learning_rate": 3.5371179039301306e-07,
      "loss": 2.1703,
      "step": 396
    },
    {
      "epoch": 0.9872552067143301,
      "grad_norm": 0.5487313270568848,
      "learning_rate": 3.5327510917030565e-07,
      "loss": 2.1213,
      "step": 397
    },
    {
      "epoch": 0.9897419956481194,
      "grad_norm": 0.5256079435348511,
      "learning_rate": 3.528384279475982e-07,
      "loss": 2.1052,
      "step": 398
    },
    {
      "epoch": 0.9922287845819087,
      "grad_norm": 0.5553068518638611,
      "learning_rate": 3.5240174672489084e-07,
      "loss": 2.0818,
      "step": 399
    },
    {
      "epoch": 0.9947155735156978,
      "grad_norm": 0.5434982180595398,
      "learning_rate": 3.5196506550218343e-07,
      "loss": 2.0612,
      "step": 400
    },
    {
      "epoch": 0.9972023624494871,
      "grad_norm": 0.5237376689910889,
      "learning_rate": 3.5152838427947597e-07,
      "loss": 2.1489,
      "step": 401
    },
    {
      "epoch": 0.9996891513832763,
      "grad_norm": 0.5455615520477295,
      "learning_rate": 3.5109170305676856e-07,
      "loss": 2.0467,
      "step": 402
    },
    {
      "epoch": 0.9996891513832763,
      "eval_loss": 2.129138708114624,
      "eval_runtime": 458.2461,
      "eval_samples_per_second": 1.065,
      "eval_steps_per_second": 0.266,
      "step": 402
    }
  ],
  "logging_steps": 1,
  "max_steps": 1206,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.1872324383890473e+18,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}