{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9999893708612791,
  "eval_steps": 400,
  "global_step": 8820,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0006802648781369246,
      "grad_norm": 3.334683656692505,
      "learning_rate": 6.802721088435375e-07,
      "loss": 2.9439,
      "num_input_tokens_seen": 2359296,
      "step": 6
    },
    {
      "epoch": 0.0013605297562738492,
      "grad_norm": 2.447828769683838,
      "learning_rate": 1.360544217687075e-06,
      "loss": 2.918,
      "num_input_tokens_seen": 4718592,
      "step": 12
    },
    {
      "epoch": 0.0020407946344107738,
      "grad_norm": 1.870556116104126,
      "learning_rate": 2.040816326530612e-06,
      "loss": 2.8392,
      "num_input_tokens_seen": 7077888,
      "step": 18
    },
    {
      "epoch": 0.0027210595125476984,
      "grad_norm": 1.367610216140747,
      "learning_rate": 2.72108843537415e-06,
      "loss": 2.7568,
      "num_input_tokens_seen": 9437184,
      "step": 24
    },
    {
      "epoch": 0.003401324390684623,
      "grad_norm": 1.1030510663986206,
      "learning_rate": 3.4013605442176877e-06,
      "loss": 2.71,
      "num_input_tokens_seen": 11796480,
      "step": 30
    },
    {
      "epoch": 0.0040815892688215475,
      "grad_norm": 0.904552161693573,
      "learning_rate": 4.081632653061224e-06,
      "loss": 2.6018,
      "num_input_tokens_seen": 14155776,
      "step": 36
    },
    {
      "epoch": 0.004761854146958472,
      "grad_norm": 0.7523818612098694,
      "learning_rate": 4.7619047619047615e-06,
      "loss": 2.5708,
      "num_input_tokens_seen": 16515072,
      "step": 42
    },
    {
      "epoch": 0.005442119025095397,
      "grad_norm": 0.6976463198661804,
      "learning_rate": 5.4421768707483e-06,
      "loss": 2.5212,
      "num_input_tokens_seen": 18874368,
      "step": 48
    },
    {
      "epoch": 0.006122383903232321,
      "grad_norm": 0.6655228734016418,
      "learning_rate": 6.122448979591837e-06,
      "loss": 2.502,
      "num_input_tokens_seen": 21233664,
      "step": 54
    },
    {
      "epoch": 0.006802648781369246,
      "grad_norm": 0.6486473679542542,
      "learning_rate": 6.802721088435375e-06,
      "loss": 2.529,
      "num_input_tokens_seen": 23592960,
      "step": 60
    },
    {
      "epoch": 0.00748291365950617,
      "grad_norm": 0.5861107110977173,
      "learning_rate": 7.482993197278912e-06,
      "loss": 2.501,
      "num_input_tokens_seen": 25952256,
      "step": 66
    },
    {
      "epoch": 0.008163178537643095,
      "grad_norm": 0.6155074834823608,
      "learning_rate": 8.163265306122448e-06,
      "loss": 2.4401,
      "num_input_tokens_seen": 28311552,
      "step": 72
    },
    {
      "epoch": 0.00884344341578002,
      "grad_norm": 0.6312918663024902,
      "learning_rate": 8.843537414965987e-06,
      "loss": 2.4007,
      "num_input_tokens_seen": 30670848,
      "step": 78
    },
    {
      "epoch": 0.009523708293916943,
      "grad_norm": 0.5730547904968262,
      "learning_rate": 9.523809523809523e-06,
      "loss": 2.4158,
      "num_input_tokens_seen": 33030144,
      "step": 84
    },
    {
      "epoch": 0.01020397317205387,
      "grad_norm": 0.6233570575714111,
      "learning_rate": 1.0204081632653061e-05,
      "loss": 2.3776,
      "num_input_tokens_seen": 35389440,
      "step": 90
    },
    {
      "epoch": 0.010884238050190793,
      "grad_norm": 0.6111224293708801,
      "learning_rate": 1.08843537414966e-05,
      "loss": 2.3986,
      "num_input_tokens_seen": 37748736,
      "step": 96
    },
    {
      "epoch": 0.011564502928327718,
      "grad_norm": 0.6153233647346497,
      "learning_rate": 1.1564625850340138e-05,
      "loss": 2.3898,
      "num_input_tokens_seen": 40108032,
      "step": 102
    },
    {
      "epoch": 0.012244767806464642,
      "grad_norm": 0.5808484554290771,
      "learning_rate": 1.2244897959183674e-05,
      "loss": 2.3324,
      "num_input_tokens_seen": 42467328,
      "step": 108
    },
    {
      "epoch": 0.012925032684601566,
      "grad_norm": 0.6722745299339294,
      "learning_rate": 1.2925170068027212e-05,
      "loss": 2.3763,
      "num_input_tokens_seen": 44826624,
      "step": 114
    },
    {
      "epoch": 0.013605297562738492,
      "grad_norm": 0.5742015242576599,
      "learning_rate": 1.360544217687075e-05,
      "loss": 2.341,
      "num_input_tokens_seen": 47185920,
      "step": 120
    },
    {
      "epoch": 0.014285562440875416,
      "grad_norm": 0.572271466255188,
      "learning_rate": 1.4285714285714285e-05,
      "loss": 2.3944,
      "num_input_tokens_seen": 49545216,
      "step": 126
    },
    {
      "epoch": 0.01496582731901234,
      "grad_norm": 0.6920814514160156,
      "learning_rate": 1.4965986394557824e-05,
      "loss": 2.2826,
      "num_input_tokens_seen": 51904512,
      "step": 132
    },
    {
      "epoch": 0.015646092197149266,
      "grad_norm": 0.6880550384521484,
      "learning_rate": 1.5646258503401362e-05,
      "loss": 2.3113,
      "num_input_tokens_seen": 54263808,
      "step": 138
    },
    {
      "epoch": 0.01632635707528619,
      "grad_norm": 0.7120464444160461,
      "learning_rate": 1.6326530612244897e-05,
      "loss": 2.299,
      "num_input_tokens_seen": 56623104,
      "step": 144
    },
    {
      "epoch": 0.017006621953423114,
      "grad_norm": 0.7833120226860046,
      "learning_rate": 1.7006802721088435e-05,
      "loss": 2.3243,
      "num_input_tokens_seen": 58982400,
      "step": 150
    },
    {
      "epoch": 0.01768688683156004,
      "grad_norm": 0.6928340792655945,
      "learning_rate": 1.7687074829931973e-05,
      "loss": 2.3074,
      "num_input_tokens_seen": 61341696,
      "step": 156
    },
    {
      "epoch": 0.018367151709696963,
      "grad_norm": 0.6552649736404419,
      "learning_rate": 1.836734693877551e-05,
      "loss": 2.2916,
      "num_input_tokens_seen": 63700992,
      "step": 162
    },
    {
      "epoch": 0.019047416587833887,
      "grad_norm": 0.776566743850708,
      "learning_rate": 1.9047619047619046e-05,
      "loss": 2.3148,
      "num_input_tokens_seen": 66060288,
      "step": 168
    },
    {
      "epoch": 0.01972768146597081,
      "grad_norm": 0.8164829611778259,
      "learning_rate": 1.9727891156462584e-05,
      "loss": 2.3097,
      "num_input_tokens_seen": 68419584,
      "step": 174
    },
    {
      "epoch": 0.02040794634410774,
      "grad_norm": 0.6100189685821533,
      "learning_rate": 2.0408163265306123e-05,
      "loss": 2.279,
      "num_input_tokens_seen": 70778880,
      "step": 180
    },
    {
      "epoch": 0.021088211222244663,
      "grad_norm": 0.6935499310493469,
      "learning_rate": 2.108843537414966e-05,
      "loss": 2.3033,
      "num_input_tokens_seen": 73138176,
      "step": 186
    },
    {
      "epoch": 0.021768476100381587,
      "grad_norm": 0.6464715600013733,
      "learning_rate": 2.17687074829932e-05,
      "loss": 2.29,
      "num_input_tokens_seen": 75497472,
      "step": 192
    },
    {
      "epoch": 0.02244874097851851,
      "grad_norm": 0.6630780696868896,
      "learning_rate": 2.2448979591836737e-05,
      "loss": 2.2882,
      "num_input_tokens_seen": 77856768,
      "step": 198
    },
    {
      "epoch": 0.023129005856655435,
      "grad_norm": 0.6190893054008484,
      "learning_rate": 2.3129251700680275e-05,
      "loss": 2.2754,
      "num_input_tokens_seen": 80216064,
      "step": 204
    },
    {
      "epoch": 0.02380927073479236,
      "grad_norm": 0.7775458097457886,
      "learning_rate": 2.380952380952381e-05,
      "loss": 2.2589,
      "num_input_tokens_seen": 82575360,
      "step": 210
    },
    {
      "epoch": 0.024489535612929283,
      "grad_norm": 0.7430821657180786,
      "learning_rate": 2.448979591836735e-05,
      "loss": 2.2157,
      "num_input_tokens_seen": 84934656,
      "step": 216
    },
    {
      "epoch": 0.025169800491066208,
      "grad_norm": 0.8468402624130249,
      "learning_rate": 2.5170068027210887e-05,
      "loss": 2.2681,
      "num_input_tokens_seen": 87293952,
      "step": 222
    },
    {
      "epoch": 0.025850065369203132,
      "grad_norm": 0.6779688000679016,
      "learning_rate": 2.5850340136054425e-05,
      "loss": 2.2527,
      "num_input_tokens_seen": 89653248,
      "step": 228
    },
    {
      "epoch": 0.02653033024734006,
      "grad_norm": 0.7911133170127869,
      "learning_rate": 2.6530612244897963e-05,
      "loss": 2.2089,
      "num_input_tokens_seen": 92012544,
      "step": 234
    },
    {
      "epoch": 0.027210595125476984,
      "grad_norm": 0.8615039587020874,
      "learning_rate": 2.72108843537415e-05,
      "loss": 2.2765,
      "num_input_tokens_seen": 94371840,
      "step": 240
    },
    {
      "epoch": 0.027890860003613908,
      "grad_norm": 0.8226616978645325,
      "learning_rate": 2.7891156462585033e-05,
      "loss": 2.2692,
      "num_input_tokens_seen": 96731136,
      "step": 246
    },
    {
      "epoch": 0.028571124881750832,
      "grad_norm": 0.7901866436004639,
      "learning_rate": 2.857142857142857e-05,
      "loss": 2.2716,
      "num_input_tokens_seen": 99090432,
      "step": 252
    },
    {
      "epoch": 0.029251389759887756,
      "grad_norm": 0.7447572350502014,
      "learning_rate": 2.925170068027211e-05,
      "loss": 2.2277,
      "num_input_tokens_seen": 101449728,
      "step": 258
    },
    {
      "epoch": 0.02993165463802468,
      "grad_norm": 0.7737066149711609,
      "learning_rate": 2.9931972789115647e-05,
      "loss": 2.2078,
      "num_input_tokens_seen": 103809024,
      "step": 264
    },
    {
      "epoch": 0.030611919516161604,
      "grad_norm": 0.9132639169692993,
      "learning_rate": 3.061224489795919e-05,
      "loss": 2.2601,
      "num_input_tokens_seen": 106168320,
      "step": 270
    },
    {
      "epoch": 0.03129218439429853,
      "grad_norm": 0.7523462772369385,
      "learning_rate": 3.1292517006802724e-05,
      "loss": 2.2504,
      "num_input_tokens_seen": 108527616,
      "step": 276
    },
    {
      "epoch": 0.031972449272435456,
      "grad_norm": 0.688888430595398,
      "learning_rate": 3.1972789115646265e-05,
      "loss": 2.2534,
      "num_input_tokens_seen": 110886912,
      "step": 282
    },
    {
      "epoch": 0.03265271415057238,
      "grad_norm": 1.0086206197738647,
      "learning_rate": 3.265306122448979e-05,
      "loss": 2.2697,
      "num_input_tokens_seen": 113246208,
      "step": 288
    },
    {
      "epoch": 0.033332979028709304,
      "grad_norm": 0.93113112449646,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 2.2168,
      "num_input_tokens_seen": 115605504,
      "step": 294
    },
    {
      "epoch": 0.03401324390684623,
      "grad_norm": 1.0298339128494263,
      "learning_rate": 3.401360544217687e-05,
      "loss": 2.249,
      "num_input_tokens_seen": 117964800,
      "step": 300
    },
    {
      "epoch": 0.03469350878498315,
      "grad_norm": 0.807465136051178,
      "learning_rate": 3.469387755102041e-05,
      "loss": 2.2063,
      "num_input_tokens_seen": 120324096,
      "step": 306
    },
    {
      "epoch": 0.03537377366312008,
      "grad_norm": 0.8339959383010864,
      "learning_rate": 3.5374149659863946e-05,
      "loss": 2.2061,
      "num_input_tokens_seen": 122683392,
      "step": 312
    },
    {
      "epoch": 0.036054038541257,
      "grad_norm": 0.8316759467124939,
      "learning_rate": 3.605442176870749e-05,
      "loss": 2.2576,
      "num_input_tokens_seen": 125042688,
      "step": 318
    },
    {
      "epoch": 0.036734303419393925,
      "grad_norm": 0.7208542823791504,
      "learning_rate": 3.673469387755102e-05,
      "loss": 2.1918,
      "num_input_tokens_seen": 127401984,
      "step": 324
    },
    {
      "epoch": 0.03741456829753085,
      "grad_norm": 0.658276379108429,
      "learning_rate": 3.7414965986394564e-05,
      "loss": 2.231,
      "num_input_tokens_seen": 129761280,
      "step": 330
    },
    {
      "epoch": 0.038094833175667774,
      "grad_norm": 0.7552313208580017,
      "learning_rate": 3.809523809523809e-05,
      "loss": 2.1973,
      "num_input_tokens_seen": 132120576,
      "step": 336
    },
    {
      "epoch": 0.0387750980538047,
      "grad_norm": 0.6971672773361206,
      "learning_rate": 3.8775510204081634e-05,
      "loss": 2.2358,
      "num_input_tokens_seen": 134479872,
      "step": 342
    },
    {
      "epoch": 0.03945536293194162,
      "grad_norm": 0.9760845303535461,
      "learning_rate": 3.945578231292517e-05,
      "loss": 2.2392,
      "num_input_tokens_seen": 136839168,
      "step": 348
    },
    {
      "epoch": 0.040135627810078546,
      "grad_norm": 0.8042694330215454,
      "learning_rate": 4.013605442176871e-05,
      "loss": 2.2047,
      "num_input_tokens_seen": 139198464,
      "step": 354
    },
    {
      "epoch": 0.04081589268821548,
      "grad_norm": 0.6926929354667664,
      "learning_rate": 4.0816326530612245e-05,
      "loss": 2.2546,
      "num_input_tokens_seen": 141557760,
      "step": 360
    },
    {
      "epoch": 0.0414961575663524,
      "grad_norm": 0.8320844173431396,
      "learning_rate": 4.149659863945579e-05,
      "loss": 2.1762,
      "num_input_tokens_seen": 143917056,
      "step": 366
    },
    {
      "epoch": 0.042176422444489325,
      "grad_norm": 0.9185928106307983,
      "learning_rate": 4.217687074829932e-05,
      "loss": 2.2258,
      "num_input_tokens_seen": 146276352,
      "step": 372
    },
    {
      "epoch": 0.04285668732262625,
      "grad_norm": 0.9259613156318665,
      "learning_rate": 4.2857142857142856e-05,
      "loss": 2.1874,
      "num_input_tokens_seen": 148635648,
      "step": 378
    },
    {
      "epoch": 0.043536952200763174,
      "grad_norm": 0.7989060878753662,
      "learning_rate": 4.35374149659864e-05,
      "loss": 2.2364,
      "num_input_tokens_seen": 150994944,
      "step": 384
    },
    {
      "epoch": 0.0442172170789001,
      "grad_norm": 0.975271999835968,
      "learning_rate": 4.421768707482993e-05,
      "loss": 2.2092,
      "num_input_tokens_seen": 153354240,
      "step": 390
    },
    {
      "epoch": 0.04489748195703702,
      "grad_norm": 0.6971870064735413,
      "learning_rate": 4.4897959183673474e-05,
      "loss": 2.2374,
      "num_input_tokens_seen": 155713536,
      "step": 396
    },
    {
      "epoch": 0.04535099187579497,
      "eval_accuracy": 0.5588241758241759,
      "eval_loss": 2.1870992183685303,
      "eval_runtime": 128.6022,
      "eval_samples_per_second": 3.11,
      "eval_steps_per_second": 1.042,
      "num_input_tokens_seen": 157286400,
      "step": 400
    },
    {
      "epoch": 0.045577746835173946,
      "grad_norm": 0.8090885877609253,
      "learning_rate": 4.557823129251701e-05,
      "loss": 2.2098,
      "num_input_tokens_seen": 158072832,
      "step": 402
    },
    {
      "epoch": 0.04625801171331087,
      "grad_norm": 0.8753838539123535,
      "learning_rate": 4.625850340136055e-05,
      "loss": 2.1732,
      "num_input_tokens_seen": 160432128,
      "step": 408
    },
    {
      "epoch": 0.046938276591447795,
      "grad_norm": 1.0101414918899536,
      "learning_rate": 4.6938775510204086e-05,
      "loss": 2.1742,
      "num_input_tokens_seen": 162791424,
      "step": 414
    },
    {
      "epoch": 0.04761854146958472,
      "grad_norm": 0.841810405254364,
      "learning_rate": 4.761904761904762e-05,
      "loss": 2.1769,
      "num_input_tokens_seen": 165150720,
      "step": 420
    },
    {
      "epoch": 0.04829880634772164,
      "grad_norm": 0.9404070973396301,
      "learning_rate": 4.8299319727891155e-05,
      "loss": 2.2274,
      "num_input_tokens_seen": 167510016,
      "step": 426
    },
    {
      "epoch": 0.04897907122585857,
      "grad_norm": 0.7818936109542847,
      "learning_rate": 4.89795918367347e-05,
      "loss": 2.2116,
      "num_input_tokens_seen": 169869312,
      "step": 432
    },
    {
      "epoch": 0.04965933610399549,
      "grad_norm": 0.8758242130279541,
      "learning_rate": 4.965986394557823e-05,
      "loss": 2.2065,
      "num_input_tokens_seen": 172228608,
      "step": 438
    },
    {
      "epoch": 0.050339600982132415,
      "grad_norm": 0.8778213262557983,
      "learning_rate": 4.9982098102398855e-05,
      "loss": 2.1828,
      "num_input_tokens_seen": 174587904,
      "step": 444
    },
    {
      "epoch": 0.05101986586026934,
      "grad_norm": 0.8915372490882874,
      "learning_rate": 4.9946294307196566e-05,
      "loss": 2.1787,
      "num_input_tokens_seen": 176947200,
      "step": 450
    },
    {
      "epoch": 0.051700130738406264,
      "grad_norm": 0.8329364657402039,
      "learning_rate": 4.991049051199427e-05,
      "loss": 2.1746,
      "num_input_tokens_seen": 179306496,
      "step": 456
    },
    {
      "epoch": 0.052380395616543195,
      "grad_norm": 0.7898052334785461,
      "learning_rate": 4.987468671679198e-05,
      "loss": 2.1859,
      "num_input_tokens_seen": 181665792,
      "step": 462
    },
    {
      "epoch": 0.05306066049468012,
      "grad_norm": 0.9453828930854797,
      "learning_rate": 4.9838882921589694e-05,
      "loss": 2.2036,
      "num_input_tokens_seen": 184025088,
      "step": 468
    },
    {
      "epoch": 0.05374092537281704,
      "grad_norm": 0.8436469435691833,
      "learning_rate": 4.98030791263874e-05,
      "loss": 2.169,
      "num_input_tokens_seen": 186384384,
      "step": 474
    },
    {
      "epoch": 0.05442119025095397,
      "grad_norm": 0.9970703721046448,
      "learning_rate": 4.976727533118511e-05,
      "loss": 2.161,
      "num_input_tokens_seen": 188743680,
      "step": 480
    },
    {
      "epoch": 0.05510145512909089,
      "grad_norm": 0.7459275722503662,
      "learning_rate": 4.9731471535982815e-05,
      "loss": 2.2542,
      "num_input_tokens_seen": 191102976,
      "step": 486
    },
    {
      "epoch": 0.055781720007227815,
      "grad_norm": 0.9407626986503601,
      "learning_rate": 4.969566774078053e-05,
      "loss": 2.1648,
      "num_input_tokens_seen": 193462272,
      "step": 492
    },
    {
      "epoch": 0.05646198488536474,
      "grad_norm": 0.9194992780685425,
      "learning_rate": 4.965986394557823e-05,
      "loss": 2.142,
      "num_input_tokens_seen": 195821568,
      "step": 498
    },
    {
      "epoch": 0.057142249763501664,
      "grad_norm": 0.819237232208252,
      "learning_rate": 4.9624060150375936e-05,
      "loss": 2.2195,
      "num_input_tokens_seen": 198180864,
      "step": 504
    },
    {
      "epoch": 0.05782251464163859,
      "grad_norm": 0.8461591005325317,
      "learning_rate": 4.958825635517365e-05,
      "loss": 2.1649,
      "num_input_tokens_seen": 200540160,
      "step": 510
    },
    {
      "epoch": 0.05850277951977551,
      "grad_norm": 0.8540611267089844,
      "learning_rate": 4.955245255997136e-05,
      "loss": 2.1611,
      "num_input_tokens_seen": 202899456,
      "step": 516
    },
    {
      "epoch": 0.059183044397912436,
      "grad_norm": 0.767410933971405,
      "learning_rate": 4.951664876476907e-05,
      "loss": 2.1524,
      "num_input_tokens_seen": 205258752,
      "step": 522
    },
    {
      "epoch": 0.05986330927604936,
      "grad_norm": 1.049315333366394,
      "learning_rate": 4.9480844969566776e-05,
      "loss": 2.1582,
      "num_input_tokens_seen": 207618048,
      "step": 528
    },
    {
      "epoch": 0.060543574154186285,
      "grad_norm": 0.7773332595825195,
      "learning_rate": 4.944504117436449e-05,
      "loss": 2.193,
      "num_input_tokens_seen": 209977344,
      "step": 534
    },
    {
      "epoch": 0.06122383903232321,
      "grad_norm": 0.9237553477287292,
      "learning_rate": 4.940923737916219e-05,
      "loss": 2.158,
      "num_input_tokens_seen": 212336640,
      "step": 540
    },
    {
      "epoch": 0.06190410391046013,
      "grad_norm": 0.836017370223999,
      "learning_rate": 4.93734335839599e-05,
      "loss": 2.2233,
      "num_input_tokens_seen": 214695936,
      "step": 546
    },
    {
      "epoch": 0.06258436878859706,
      "grad_norm": 0.8589292168617249,
      "learning_rate": 4.933762978875761e-05,
      "loss": 2.2209,
      "num_input_tokens_seen": 217055232,
      "step": 552
    },
    {
      "epoch": 0.06326463366673399,
      "grad_norm": 0.7112890481948853,
      "learning_rate": 4.930182599355532e-05,
      "loss": 2.2024,
      "num_input_tokens_seen": 219414528,
      "step": 558
    },
    {
      "epoch": 0.06394489854487091,
      "grad_norm": 0.718296229839325,
      "learning_rate": 4.926602219835303e-05,
      "loss": 2.1465,
      "num_input_tokens_seen": 221773824,
      "step": 564
    },
    {
      "epoch": 0.06462516342300784,
      "grad_norm": 0.8518996238708496,
      "learning_rate": 4.9230218403150736e-05,
      "loss": 2.1673,
      "num_input_tokens_seen": 224133120,
      "step": 570
    },
    {
      "epoch": 0.06530542830114476,
      "grad_norm": 0.8261798024177551,
      "learning_rate": 4.919441460794845e-05,
      "loss": 2.1991,
      "num_input_tokens_seen": 226492416,
      "step": 576
    },
    {
      "epoch": 0.06598569317928168,
      "grad_norm": 0.9106934070587158,
      "learning_rate": 4.915861081274615e-05,
      "loss": 2.1448,
      "num_input_tokens_seen": 228851712,
      "step": 582
    },
    {
      "epoch": 0.06666595805741861,
      "grad_norm": 0.8303735256195068,
      "learning_rate": 4.912280701754386e-05,
      "loss": 2.1883,
      "num_input_tokens_seen": 231211008,
      "step": 588
    },
    {
      "epoch": 0.06734622293555553,
      "grad_norm": 0.7179098129272461,
      "learning_rate": 4.908700322234157e-05,
      "loss": 2.1744,
      "num_input_tokens_seen": 233570304,
      "step": 594
    },
    {
      "epoch": 0.06802648781369246,
      "grad_norm": 0.9411275386810303,
      "learning_rate": 4.905119942713928e-05,
      "loss": 2.1269,
      "num_input_tokens_seen": 235929600,
      "step": 600
    },
    {
      "epoch": 0.06870675269182938,
      "grad_norm": 0.9154955744743347,
      "learning_rate": 4.901539563193699e-05,
      "loss": 2.1807,
      "num_input_tokens_seen": 238288896,
      "step": 606
    },
    {
      "epoch": 0.0693870175699663,
      "grad_norm": 0.6920604705810547,
      "learning_rate": 4.89795918367347e-05,
      "loss": 2.1427,
      "num_input_tokens_seen": 240648192,
      "step": 612
    },
    {
      "epoch": 0.07006728244810323,
      "grad_norm": 0.6742058396339417,
      "learning_rate": 4.894378804153241e-05,
      "loss": 2.1443,
      "num_input_tokens_seen": 243007488,
      "step": 618
    },
    {
      "epoch": 0.07074754732624015,
      "grad_norm": 0.7783246040344238,
      "learning_rate": 4.890798424633011e-05,
      "loss": 2.1613,
      "num_input_tokens_seen": 245366784,
      "step": 624
    },
    {
      "epoch": 0.07142781220437708,
      "grad_norm": 0.9674144983291626,
      "learning_rate": 4.887218045112782e-05,
      "loss": 2.1811,
      "num_input_tokens_seen": 247726080,
      "step": 630
    },
    {
      "epoch": 0.072108077082514,
      "grad_norm": 0.7616820335388184,
      "learning_rate": 4.883637665592553e-05,
      "loss": 2.1264,
      "num_input_tokens_seen": 250085376,
      "step": 636
    },
    {
      "epoch": 0.07278834196065093,
      "grad_norm": 0.7255170941352844,
      "learning_rate": 4.8800572860723234e-05,
      "loss": 2.1,
      "num_input_tokens_seen": 252444672,
      "step": 642
    },
    {
      "epoch": 0.07346860683878785,
      "grad_norm": 0.7598791718482971,
      "learning_rate": 4.8764769065520946e-05,
      "loss": 2.1683,
      "num_input_tokens_seen": 254803968,
      "step": 648
    },
    {
      "epoch": 0.07414887171692477,
      "grad_norm": 0.6518032550811768,
      "learning_rate": 4.872896527031866e-05,
      "loss": 2.1476,
      "num_input_tokens_seen": 257163264,
      "step": 654
    },
    {
      "epoch": 0.0748291365950617,
      "grad_norm": 0.6598438024520874,
      "learning_rate": 4.869316147511637e-05,
      "loss": 2.1574,
      "num_input_tokens_seen": 259522560,
      "step": 660
    },
    {
      "epoch": 0.07550940147319862,
      "grad_norm": 0.7716994881629944,
      "learning_rate": 4.8657357679914074e-05,
      "loss": 2.1797,
      "num_input_tokens_seen": 261881856,
      "step": 666
    },
    {
      "epoch": 0.07618966635133555,
      "grad_norm": 0.6889157295227051,
      "learning_rate": 4.862155388471178e-05,
      "loss": 2.126,
      "num_input_tokens_seen": 264241152,
      "step": 672
    },
    {
      "epoch": 0.07686993122947247,
      "grad_norm": 0.7756158113479614,
      "learning_rate": 4.858575008950949e-05,
      "loss": 2.1199,
      "num_input_tokens_seen": 266600448,
      "step": 678
    },
    {
      "epoch": 0.0775501961076094,
      "grad_norm": 0.7093831896781921,
      "learning_rate": 4.8549946294307195e-05,
      "loss": 2.1428,
      "num_input_tokens_seen": 268959744,
      "step": 684
    },
    {
      "epoch": 0.07823046098574632,
      "grad_norm": 0.786888599395752,
      "learning_rate": 4.8514142499104906e-05,
      "loss": 2.2016,
      "num_input_tokens_seen": 271319040,
      "step": 690
    },
    {
      "epoch": 0.07891072586388324,
      "grad_norm": 1.1578270196914673,
      "learning_rate": 4.847833870390262e-05,
      "loss": 2.1278,
      "num_input_tokens_seen": 273678336,
      "step": 696
    },
    {
      "epoch": 0.07959099074202017,
      "grad_norm": 0.8472400307655334,
      "learning_rate": 4.844253490870033e-05,
      "loss": 2.1288,
      "num_input_tokens_seen": 276037632,
      "step": 702
    },
    {
      "epoch": 0.08027125562015709,
      "grad_norm": 0.708258867263794,
      "learning_rate": 4.8406731113498034e-05,
      "loss": 2.1609,
      "num_input_tokens_seen": 278396928,
      "step": 708
    },
    {
      "epoch": 0.08095152049829403,
      "grad_norm": 0.9472253918647766,
      "learning_rate": 4.837092731829574e-05,
      "loss": 2.1452,
      "num_input_tokens_seen": 280756224,
      "step": 714
    },
    {
      "epoch": 0.08163178537643095,
      "grad_norm": 0.7842580080032349,
      "learning_rate": 4.833512352309345e-05,
      "loss": 2.1191,
      "num_input_tokens_seen": 283115520,
      "step": 720
    },
    {
      "epoch": 0.08231205025456788,
      "grad_norm": 0.6376339793205261,
      "learning_rate": 4.8299319727891155e-05,
      "loss": 2.1575,
      "num_input_tokens_seen": 285474816,
      "step": 726
    },
    {
      "epoch": 0.0829923151327048,
      "grad_norm": 0.6511639952659607,
      "learning_rate": 4.826351593268887e-05,
      "loss": 2.1064,
      "num_input_tokens_seen": 287834112,
      "step": 732
    },
    {
      "epoch": 0.08367258001084173,
      "grad_norm": 0.599183976650238,
      "learning_rate": 4.822771213748657e-05,
      "loss": 2.1406,
      "num_input_tokens_seen": 290193408,
      "step": 738
    },
    {
      "epoch": 0.08435284488897865,
      "grad_norm": 0.6168906092643738,
      "learning_rate": 4.819190834228429e-05,
      "loss": 2.1267,
      "num_input_tokens_seen": 292552704,
      "step": 744
    },
    {
      "epoch": 0.08503310976711558,
      "grad_norm": 0.7475244998931885,
      "learning_rate": 4.8156104547081995e-05,
      "loss": 2.1511,
      "num_input_tokens_seen": 294912000,
      "step": 750
    },
    {
      "epoch": 0.0857133746452525,
      "grad_norm": 0.7636436223983765,
      "learning_rate": 4.81203007518797e-05,
      "loss": 2.1664,
      "num_input_tokens_seen": 297271296,
      "step": 756
    },
    {
      "epoch": 0.08639363952338942,
      "grad_norm": 0.8825888633728027,
      "learning_rate": 4.808449695667741e-05,
      "loss": 2.1587,
      "num_input_tokens_seen": 299630592,
      "step": 762
    },
    {
      "epoch": 0.08707390440152635,
      "grad_norm": 0.8732916712760925,
      "learning_rate": 4.8048693161475116e-05,
      "loss": 2.1548,
      "num_input_tokens_seen": 301989888,
      "step": 768
    },
    {
      "epoch": 0.08775416927966327,
      "grad_norm": 0.9067391157150269,
      "learning_rate": 4.801288936627283e-05,
      "loss": 2.1383,
      "num_input_tokens_seen": 304349184,
      "step": 774
    },
    {
      "epoch": 0.0884344341578002,
      "grad_norm": 0.795757532119751,
      "learning_rate": 4.797708557107053e-05,
      "loss": 2.1138,
      "num_input_tokens_seen": 306708480,
      "step": 780
    },
    {
      "epoch": 0.08911469903593712,
      "grad_norm": 0.8759602904319763,
      "learning_rate": 4.7941281775868244e-05,
      "loss": 2.1481,
      "num_input_tokens_seen": 309067776,
      "step": 786
    },
    {
      "epoch": 0.08979496391407404,
      "grad_norm": 0.6154273748397827,
      "learning_rate": 4.7905477980665955e-05,
      "loss": 2.1156,
      "num_input_tokens_seen": 311427072,
      "step": 792
    },
    {
      "epoch": 0.09047522879221097,
      "grad_norm": 0.6875632405281067,
      "learning_rate": 4.786967418546366e-05,
      "loss": 2.143,
      "num_input_tokens_seen": 313786368,
      "step": 798
    },
    {
      "epoch": 0.09070198375158994,
      "eval_accuracy": 0.5665372405372405,
      "eval_loss": 2.1336145401000977,
      "eval_runtime": 130.3356,
      "eval_samples_per_second": 3.069,
      "eval_steps_per_second": 1.028,
      "num_input_tokens_seen": 314572800,
      "step": 800
    },
    {
      "epoch": 0.09115549367034789,
      "grad_norm": 0.6513155698776245,
      "learning_rate": 4.783387039026137e-05,
      "loss": 2.1974,
      "num_input_tokens_seen": 316145664,
      "step": 804
    },
    {
      "epoch": 0.09183575854848482,
      "grad_norm": 0.6210876703262329,
      "learning_rate": 4.7798066595059076e-05,
      "loss": 2.1321,
      "num_input_tokens_seen": 318504960,
      "step": 810
    },
    {
      "epoch": 0.09251602342662174,
      "grad_norm": 0.6908721327781677,
      "learning_rate": 4.776226279985679e-05,
      "loss": 2.1574,
      "num_input_tokens_seen": 320864256,
      "step": 816
    },
    {
      "epoch": 0.09319628830475866,
      "grad_norm": 0.8170259594917297,
      "learning_rate": 4.772645900465449e-05,
      "loss": 2.0947,
      "num_input_tokens_seen": 323223552,
      "step": 822
    },
    {
      "epoch": 0.09387655318289559,
      "grad_norm": 0.7803713083267212,
      "learning_rate": 4.7690655209452204e-05,
      "loss": 2.1412,
      "num_input_tokens_seen": 325582848,
      "step": 828
    },
    {
      "epoch": 0.09455681806103251,
      "grad_norm": 0.9013774394989014,
      "learning_rate": 4.7654851414249916e-05,
      "loss": 2.1511,
      "num_input_tokens_seen": 327942144,
      "step": 834
    },
    {
      "epoch": 0.09523708293916944,
      "grad_norm": 0.691776692867279,
      "learning_rate": 4.761904761904762e-05,
      "loss": 2.149,
      "num_input_tokens_seen": 330301440,
      "step": 840
    },
    {
      "epoch": 0.09591734781730636,
      "grad_norm": 0.7903074622154236,
      "learning_rate": 4.758324382384533e-05,
      "loss": 2.1061,
      "num_input_tokens_seen": 332660736,
      "step": 846
    },
    {
      "epoch": 0.09659761269544329,
      "grad_norm": 0.7019173502922058,
      "learning_rate": 4.754744002864304e-05,
      "loss": 2.1225,
      "num_input_tokens_seen": 335020032,
      "step": 852
    },
    {
      "epoch": 0.09727787757358021,
      "grad_norm": 0.7324870824813843,
      "learning_rate": 4.751163623344075e-05,
      "loss": 2.0793,
      "num_input_tokens_seen": 337379328,
      "step": 858
    },
    {
      "epoch": 0.09795814245171713,
      "grad_norm": 0.6702744960784912,
      "learning_rate": 4.747583243823845e-05,
      "loss": 2.1023,
      "num_input_tokens_seen": 339738624,
      "step": 864
    },
    {
      "epoch": 0.09863840732985406,
      "grad_norm": 0.7916101217269897,
      "learning_rate": 4.7440028643036165e-05,
      "loss": 2.1885,
      "num_input_tokens_seen": 342097920,
      "step": 870
    },
    {
      "epoch": 0.09931867220799098,
      "grad_norm": 0.7214677929878235,
      "learning_rate": 4.740422484783387e-05,
      "loss": 2.2039,
      "num_input_tokens_seen": 344457216,
      "step": 876
    },
    {
      "epoch": 0.0999989370861279,
      "grad_norm": 0.9506244659423828,
      "learning_rate": 4.736842105263158e-05,
      "loss": 2.1401,
      "num_input_tokens_seen": 346816512,
      "step": 882
    },
    {
      "epoch": 0.10067920196426483,
      "grad_norm": 0.8334141969680786,
      "learning_rate": 4.733261725742929e-05,
      "loss": 2.1155,
      "num_input_tokens_seen": 349175808,
      "step": 888
    },
    {
      "epoch": 0.10135946684240175,
      "grad_norm": 0.8239167928695679,
      "learning_rate": 4.7296813462227e-05,
      "loss": 2.1143,
      "num_input_tokens_seen": 351535104,
      "step": 894
    },
    {
      "epoch": 0.10203973172053868,
      "grad_norm": 0.6935220956802368,
      "learning_rate": 4.726100966702471e-05,
      "loss": 2.1481,
      "num_input_tokens_seen": 353894400,
      "step": 900
    },
    {
      "epoch": 0.1027199965986756,
      "grad_norm": 0.6344029307365417,
      "learning_rate": 4.7225205871822413e-05,
      "loss": 2.1337,
      "num_input_tokens_seen": 356253696,
      "step": 906
    },
    {
      "epoch": 0.10340026147681253,
      "grad_norm": 0.9699512720108032,
      "learning_rate": 4.7189402076620125e-05,
      "loss": 2.1522,
      "num_input_tokens_seen": 358612992,
      "step": 912
    },
    {
      "epoch": 0.10408052635494947,
      "grad_norm": 0.6322435736656189,
      "learning_rate": 4.715359828141783e-05,
      "loss": 2.1133,
      "num_input_tokens_seen": 360972288,
      "step": 918
    },
    {
      "epoch": 0.10476079123308639,
      "grad_norm": 0.755022406578064,
      "learning_rate": 4.711779448621554e-05,
      "loss": 2.1191,
      "num_input_tokens_seen": 363331584,
      "step": 924
    },
    {
      "epoch": 0.10544105611122331,
      "grad_norm": 0.6669276356697083,
      "learning_rate": 4.708199069101325e-05,
      "loss": 2.1255,
      "num_input_tokens_seen": 365690880,
      "step": 930
    },
    {
      "epoch": 0.10612132098936024,
      "grad_norm": 0.7509146928787231,
      "learning_rate": 4.704618689581096e-05,
      "loss": 2.1711,
      "num_input_tokens_seen": 368050176,
      "step": 936
    },
    {
      "epoch": 0.10680158586749716,
      "grad_norm": 0.8903239369392395,
      "learning_rate": 4.701038310060867e-05,
      "loss": 2.1675,
      "num_input_tokens_seen": 370409472,
      "step": 942
    },
    {
      "epoch": 0.10748185074563409,
      "grad_norm": 0.6709368824958801,
      "learning_rate": 4.6974579305406374e-05,
      "loss": 2.1266,
      "num_input_tokens_seen": 372768768,
      "step": 948
    },
    {
      "epoch": 0.10816211562377101,
      "grad_norm": 0.6461692452430725,
      "learning_rate": 4.6938775510204086e-05,
      "loss": 2.1098,
      "num_input_tokens_seen": 375128064,
      "step": 954
    },
    {
      "epoch": 0.10884238050190793,
      "grad_norm": 0.8384061455726624,
      "learning_rate": 4.690297171500179e-05,
      "loss": 2.1397,
      "num_input_tokens_seen": 377487360,
      "step": 960
    },
    {
      "epoch": 0.10952264538004486,
      "grad_norm": 0.6946293115615845,
      "learning_rate": 4.6867167919799495e-05,
      "loss": 2.1413,
      "num_input_tokens_seen": 379846656,
      "step": 966
    },
    {
      "epoch": 0.11020291025818178,
      "grad_norm": 0.7992385625839233,
      "learning_rate": 4.6831364124597213e-05,
      "loss": 2.1188,
      "num_input_tokens_seen": 382205952,
      "step": 972
    },
    {
      "epoch": 0.1108831751363187,
      "grad_norm": 0.6177113056182861,
      "learning_rate": 4.679556032939492e-05,
      "loss": 2.1798,
      "num_input_tokens_seen": 384565248,
      "step": 978
    },
    {
      "epoch": 0.11156344001445563,
      "grad_norm": 0.6821500062942505,
      "learning_rate": 4.675975653419263e-05,
      "loss": 2.1062,
      "num_input_tokens_seen": 386924544,
      "step": 984
    },
    {
      "epoch": 0.11224370489259256,
      "grad_norm": 0.6839202642440796,
      "learning_rate": 4.6723952738990334e-05,
      "loss": 2.1472,
      "num_input_tokens_seen": 389283840,
      "step": 990
    },
    {
      "epoch": 0.11292396977072948,
      "grad_norm": 0.5608601570129395,
      "learning_rate": 4.6688148943788046e-05,
      "loss": 2.0845,
      "num_input_tokens_seen": 391643136,
      "step": 996
    },
    {
      "epoch": 0.1136042346488664,
      "grad_norm": 0.7359477877616882,
      "learning_rate": 4.665234514858575e-05,
      "loss": 2.1426,
      "num_input_tokens_seen": 394002432,
      "step": 1002
    },
    {
      "epoch": 0.11428449952700333,
      "grad_norm": 0.6624149084091187,
      "learning_rate": 4.6616541353383456e-05,
      "loss": 2.1188,
      "num_input_tokens_seen": 396361728,
      "step": 1008
    },
    {
      "epoch": 0.11496476440514025,
      "grad_norm": 0.6561130285263062,
      "learning_rate": 4.658073755818117e-05,
      "loss": 2.1141,
      "num_input_tokens_seen": 398721024,
      "step": 1014
    },
    {
      "epoch": 0.11564502928327718,
      "grad_norm": 0.76801598072052,
      "learning_rate": 4.654493376297888e-05,
      "loss": 2.1074,
      "num_input_tokens_seen": 401080320,
      "step": 1020
    },
    {
      "epoch": 0.1163252941614141,
      "grad_norm": 0.7016099095344543,
      "learning_rate": 4.650912996777659e-05,
      "loss": 2.116,
      "num_input_tokens_seen": 403439616,
      "step": 1026
    },
    {
      "epoch": 0.11700555903955102,
      "grad_norm": 0.7845112681388855,
      "learning_rate": 4.6473326172574295e-05,
      "loss": 2.0639,
      "num_input_tokens_seen": 405798912,
      "step": 1032
    },
    {
      "epoch": 0.11768582391768795,
      "grad_norm": 0.7502654194831848,
      "learning_rate": 4.6437522377372007e-05,
      "loss": 2.0549,
      "num_input_tokens_seen": 408158208,
      "step": 1038
    },
    {
      "epoch": 0.11836608879582487,
      "grad_norm": 0.8195413947105408,
      "learning_rate": 4.640171858216971e-05,
      "loss": 2.1463,
      "num_input_tokens_seen": 410517504,
      "step": 1044
    },
    {
      "epoch": 0.1190463536739618,
      "grad_norm": 0.6572406888008118,
      "learning_rate": 4.6365914786967416e-05,
      "loss": 2.1043,
      "num_input_tokens_seen": 412876800,
      "step": 1050
    },
    {
      "epoch": 0.11972661855209872,
      "grad_norm": 0.6787090301513672,
      "learning_rate": 4.633011099176513e-05,
      "loss": 2.1287,
      "num_input_tokens_seen": 415236096,
      "step": 1056
    },
    {
      "epoch": 0.12040688343023564,
      "grad_norm": 0.6975082755088806,
      "learning_rate": 4.629430719656284e-05,
      "loss": 2.1439,
      "num_input_tokens_seen": 417595392,
      "step": 1062
    },
    {
      "epoch": 0.12108714830837257,
      "grad_norm": 1.1566354036331177,
      "learning_rate": 4.625850340136055e-05,
      "loss": 2.1331,
      "num_input_tokens_seen": 419954688,
      "step": 1068
    },
    {
      "epoch": 0.1217674131865095,
      "grad_norm": 0.804976224899292,
      "learning_rate": 4.6222699606158255e-05,
      "loss": 2.1842,
      "num_input_tokens_seen": 422313984,
      "step": 1074
    },
    {
      "epoch": 0.12244767806464642,
      "grad_norm": 0.7782629728317261,
      "learning_rate": 4.618689581095597e-05,
      "loss": 2.1258,
      "num_input_tokens_seen": 424673280,
      "step": 1080
    },
    {
      "epoch": 0.12312794294278334,
      "grad_norm": 0.7431383728981018,
      "learning_rate": 4.615109201575367e-05,
      "loss": 2.0759,
      "num_input_tokens_seen": 427032576,
      "step": 1086
    },
    {
      "epoch": 0.12380820782092027,
      "grad_norm": 0.6219275593757629,
      "learning_rate": 4.6115288220551377e-05,
      "loss": 2.1158,
      "num_input_tokens_seen": 429391872,
      "step": 1092
    },
    {
      "epoch": 0.12448847269905719,
      "grad_norm": 0.7471150755882263,
      "learning_rate": 4.607948442534909e-05,
      "loss": 2.1602,
      "num_input_tokens_seen": 431751168,
      "step": 1098
    },
    {
      "epoch": 0.12516873757719413,
      "grad_norm": 0.788198709487915,
      "learning_rate": 4.604368063014679e-05,
      "loss": 2.1178,
      "num_input_tokens_seen": 434110464,
      "step": 1104
    },
    {
      "epoch": 0.12584900245533104,
      "grad_norm": 0.7239183187484741,
      "learning_rate": 4.6007876834944504e-05,
      "loss": 2.1157,
      "num_input_tokens_seen": 436469760,
      "step": 1110
    },
    {
      "epoch": 0.12652926733346798,
      "grad_norm": 0.6211867332458496,
      "learning_rate": 4.5972073039742216e-05,
      "loss": 2.1705,
      "num_input_tokens_seen": 438829056,
      "step": 1116
    },
    {
      "epoch": 0.1272095322116049,
      "grad_norm": 0.7338197231292725,
      "learning_rate": 4.593626924453993e-05,
      "loss": 2.1271,
      "num_input_tokens_seen": 441188352,
      "step": 1122
    },
    {
      "epoch": 0.12788979708974182,
      "grad_norm": 0.7123642563819885,
      "learning_rate": 4.590046544933763e-05,
      "loss": 2.0573,
      "num_input_tokens_seen": 443547648,
      "step": 1128
    },
    {
      "epoch": 0.12857006196787873,
      "grad_norm": 0.648991048336029,
      "learning_rate": 4.586466165413534e-05,
      "loss": 2.1645,
      "num_input_tokens_seen": 445906944,
      "step": 1134
    },
    {
      "epoch": 0.12925032684601567,
      "grad_norm": 0.727215051651001,
      "learning_rate": 4.582885785893305e-05,
      "loss": 2.1009,
      "num_input_tokens_seen": 448266240,
      "step": 1140
    },
    {
      "epoch": 0.12993059172415258,
      "grad_norm": 0.7532079219818115,
      "learning_rate": 4.5793054063730753e-05,
      "loss": 2.1067,
      "num_input_tokens_seen": 450625536,
      "step": 1146
    },
    {
      "epoch": 0.13061085660228952,
      "grad_norm": 0.7537828683853149,
      "learning_rate": 4.5757250268528465e-05,
      "loss": 2.1201,
      "num_input_tokens_seen": 452984832,
      "step": 1152
    },
    {
      "epoch": 0.13129112148042643,
      "grad_norm": 0.7720354795455933,
      "learning_rate": 4.5721446473326176e-05,
      "loss": 2.1422,
      "num_input_tokens_seen": 455344128,
      "step": 1158
    },
    {
      "epoch": 0.13197138635856337,
      "grad_norm": 0.9617815613746643,
      "learning_rate": 4.568564267812389e-05,
      "loss": 2.1267,
      "num_input_tokens_seen": 457703424,
      "step": 1164
    },
    {
      "epoch": 0.13265165123670028,
      "grad_norm": 0.6180392503738403,
      "learning_rate": 4.564983888292159e-05,
      "loss": 2.1077,
      "num_input_tokens_seen": 460062720,
      "step": 1170
    },
    {
      "epoch": 0.13333191611483722,
      "grad_norm": 0.6402847170829773,
      "learning_rate": 4.56140350877193e-05,
      "loss": 2.084,
      "num_input_tokens_seen": 462422016,
      "step": 1176
    },
    {
      "epoch": 0.13401218099297413,
      "grad_norm": 0.727862536907196,
      "learning_rate": 4.557823129251701e-05,
      "loss": 2.1177,
      "num_input_tokens_seen": 464781312,
      "step": 1182
    },
    {
      "epoch": 0.13469244587111107,
      "grad_norm": 0.6989423036575317,
      "learning_rate": 4.5542427497314714e-05,
      "loss": 2.1041,
      "num_input_tokens_seen": 467140608,
      "step": 1188
    },
    {
      "epoch": 0.13537271074924798,
      "grad_norm": 0.8146799206733704,
      "learning_rate": 4.5506623702112425e-05,
      "loss": 2.0976,
      "num_input_tokens_seen": 469499904,
      "step": 1194
    },
    {
      "epoch": 0.13605297562738491,
      "grad_norm": 0.7785530686378479,
      "learning_rate": 4.547081990691014e-05,
      "loss": 2.1272,
      "num_input_tokens_seen": 471859200,
      "step": 1200
    },
    {
      "epoch": 0.13605297562738491,
      "eval_accuracy": 0.5698174603174603,
      "eval_loss": 2.109198808670044,
      "eval_runtime": 129.4137,
      "eval_samples_per_second": 3.091,
      "eval_steps_per_second": 1.035,
      "num_input_tokens_seen": 471859200,
      "step": 1200
    },
    {
      "epoch": 0.13673324050552182,
      "grad_norm": 0.6469578742980957,
      "learning_rate": 4.543501611170785e-05,
      "loss": 2.1522,
      "num_input_tokens_seen": 474218496,
      "step": 1206
    },
    {
      "epoch": 0.13741350538365876,
      "grad_norm": 1.0499253273010254,
      "learning_rate": 4.539921231650555e-05,
      "loss": 2.1576,
      "num_input_tokens_seen": 476577792,
      "step": 1212
    },
    {
      "epoch": 0.13809377026179567,
      "grad_norm": 0.6888744235038757,
      "learning_rate": 4.536340852130326e-05,
      "loss": 2.1386,
      "num_input_tokens_seen": 478937088,
      "step": 1218
    },
    {
      "epoch": 0.1387740351399326,
      "grad_norm": 0.6668254733085632,
      "learning_rate": 4.532760472610097e-05,
      "loss": 2.1211,
      "num_input_tokens_seen": 481296384,
      "step": 1224
    },
    {
      "epoch": 0.13945430001806955,
      "grad_norm": 0.5561350584030151,
      "learning_rate": 4.5291800930898674e-05,
      "loss": 2.056,
      "num_input_tokens_seen": 483655680,
      "step": 1230
    },
    {
      "epoch": 0.14013456489620646,
      "grad_norm": 0.6395593285560608,
      "learning_rate": 4.5255997135696386e-05,
      "loss": 2.1032,
      "num_input_tokens_seen": 486014976,
      "step": 1236
    },
    {
      "epoch": 0.1408148297743434,
      "grad_norm": 0.5906882882118225,
      "learning_rate": 4.522019334049409e-05,
      "loss": 2.1373,
      "num_input_tokens_seen": 488374272,
      "step": 1242
    },
    {
      "epoch": 0.1414950946524803,
      "grad_norm": 0.776069700717926,
      "learning_rate": 4.51843895452918e-05,
      "loss": 2.1563,
      "num_input_tokens_seen": 490733568,
      "step": 1248
    },
    {
      "epoch": 0.14217535953061725,
      "grad_norm": 0.6770499348640442,
      "learning_rate": 4.5148585750089514e-05,
      "loss": 2.1556,
      "num_input_tokens_seen": 493092864,
      "step": 1254
    },
    {
      "epoch": 0.14285562440875416,
      "grad_norm": 0.6341859698295593,
      "learning_rate": 4.511278195488722e-05,
      "loss": 2.16,
      "num_input_tokens_seen": 495452160,
      "step": 1260
    },
    {
      "epoch": 0.1435358892868911,
      "grad_norm": 0.6789543032646179,
      "learning_rate": 4.507697815968493e-05,
      "loss": 2.1314,
      "num_input_tokens_seen": 497811456,
      "step": 1266
    },
    {
      "epoch": 0.144216154165028,
      "grad_norm": 0.5745943784713745,
      "learning_rate": 4.5041174364482635e-05,
      "loss": 2.0845,
      "num_input_tokens_seen": 500170752,
      "step": 1272
    },
    {
      "epoch": 0.14489641904316494,
      "grad_norm": 0.6102567315101624,
      "learning_rate": 4.5005370569280346e-05,
      "loss": 2.0663,
      "num_input_tokens_seen": 502530048,
      "step": 1278
    },
    {
      "epoch": 0.14557668392130185,
      "grad_norm": 0.5677859783172607,
      "learning_rate": 4.496956677407805e-05,
      "loss": 2.1446,
      "num_input_tokens_seen": 504889344,
      "step": 1284
    },
    {
      "epoch": 0.1462569487994388,
      "grad_norm": 0.7098356485366821,
      "learning_rate": 4.493376297887576e-05,
      "loss": 2.076,
      "num_input_tokens_seen": 507248640,
      "step": 1290
    },
    {
      "epoch": 0.1469372136775757,
      "grad_norm": 0.7611458897590637,
      "learning_rate": 4.4897959183673474e-05,
      "loss": 2.0869,
      "num_input_tokens_seen": 509607936,
      "step": 1296
    },
    {
      "epoch": 0.14761747855571264,
      "grad_norm": 0.7817174196243286,
      "learning_rate": 4.486215538847118e-05,
      "loss": 2.1251,
      "num_input_tokens_seen": 511967232,
      "step": 1302
    },
    {
      "epoch": 0.14829774343384955,
      "grad_norm": 0.7138420343399048,
      "learning_rate": 4.482635159326889e-05,
      "loss": 2.1547,
      "num_input_tokens_seen": 514326528,
      "step": 1308
    },
    {
      "epoch": 0.1489780083119865,
      "grad_norm": 0.6586819887161255,
      "learning_rate": 4.4790547798066595e-05,
      "loss": 2.0944,
      "num_input_tokens_seen": 516685824,
      "step": 1314
    },
    {
      "epoch": 0.1496582731901234,
      "grad_norm": 0.7534651160240173,
      "learning_rate": 4.475474400286431e-05,
      "loss": 2.1,
      "num_input_tokens_seen": 519045120,
      "step": 1320
    },
    {
      "epoch": 0.15033853806826034,
      "grad_norm": 0.677528440952301,
      "learning_rate": 4.471894020766201e-05,
      "loss": 2.096,
      "num_input_tokens_seen": 521404416,
      "step": 1326
    },
    {
      "epoch": 0.15101880294639725,
      "grad_norm": 0.5919771790504456,
      "learning_rate": 4.468313641245972e-05,
      "loss": 2.1184,
      "num_input_tokens_seen": 523763712,
      "step": 1332
    },
    {
      "epoch": 0.15169906782453418,
      "grad_norm": 0.6883030533790588,
      "learning_rate": 4.464733261725743e-05,
      "loss": 2.118,
      "num_input_tokens_seen": 526123008,
      "step": 1338
    },
    {
      "epoch": 0.1523793327026711,
      "grad_norm": 0.7062236666679382,
      "learning_rate": 4.461152882205514e-05,
      "loss": 2.1439,
      "num_input_tokens_seen": 528482304,
      "step": 1344
    },
    {
      "epoch": 0.15305959758080803,
      "grad_norm": 0.6822494268417358,
      "learning_rate": 4.457572502685285e-05,
      "loss": 2.1023,
      "num_input_tokens_seen": 530841600,
      "step": 1350
    },
    {
      "epoch": 0.15373986245894494,
      "grad_norm": 0.6365748047828674,
      "learning_rate": 4.4539921231650556e-05,
      "loss": 2.0743,
      "num_input_tokens_seen": 533200896,
      "step": 1356
    },
    {
      "epoch": 0.15442012733708188,
      "grad_norm": 0.6446681022644043,
      "learning_rate": 4.450411743644827e-05,
      "loss": 2.0933,
      "num_input_tokens_seen": 535560192,
      "step": 1362
    },
    {
      "epoch": 0.1551003922152188,
      "grad_norm": 0.6867052912712097,
      "learning_rate": 4.446831364124597e-05,
      "loss": 2.1392,
      "num_input_tokens_seen": 537919488,
      "step": 1368
    },
    {
      "epoch": 0.15578065709335573,
      "grad_norm": 0.6548677086830139,
      "learning_rate": 4.4432509846043684e-05,
      "loss": 2.1549,
      "num_input_tokens_seen": 540278784,
      "step": 1374
    },
    {
      "epoch": 0.15646092197149264,
      "grad_norm": 0.660763144493103,
      "learning_rate": 4.439670605084139e-05,
      "loss": 2.111,
      "num_input_tokens_seen": 542638080,
      "step": 1380
    },
    {
      "epoch": 0.15714118684962958,
      "grad_norm": 0.7522821426391602,
      "learning_rate": 4.43609022556391e-05,
      "loss": 2.0979,
      "num_input_tokens_seen": 544997376,
      "step": 1386
    },
    {
      "epoch": 0.1578214517277665,
      "grad_norm": 0.7142075896263123,
      "learning_rate": 4.432509846043681e-05,
      "loss": 2.0947,
      "num_input_tokens_seen": 547356672,
      "step": 1392
    },
    {
      "epoch": 0.15850171660590343,
      "grad_norm": 0.684587836265564,
      "learning_rate": 4.4289294665234516e-05,
      "loss": 2.1263,
      "num_input_tokens_seen": 549715968,
      "step": 1398
    },
    {
      "epoch": 0.15918198148404034,
      "grad_norm": 0.62205970287323,
      "learning_rate": 4.425349087003223e-05,
      "loss": 2.0615,
      "num_input_tokens_seen": 552075264,
      "step": 1404
    },
    {
      "epoch": 0.15986224636217727,
      "grad_norm": 0.6591596603393555,
      "learning_rate": 4.421768707482993e-05,
      "loss": 2.1085,
      "num_input_tokens_seen": 554434560,
      "step": 1410
    },
    {
      "epoch": 0.16054251124031418,
      "grad_norm": 0.6393697261810303,
      "learning_rate": 4.4181883279627644e-05,
      "loss": 2.1273,
      "num_input_tokens_seen": 556793856,
      "step": 1416
    },
    {
      "epoch": 0.16122277611845112,
      "grad_norm": 0.7339461445808411,
      "learning_rate": 4.414607948442535e-05,
      "loss": 2.078,
      "num_input_tokens_seen": 559153152,
      "step": 1422
    },
    {
      "epoch": 0.16190304099658806,
      "grad_norm": 0.5903000235557556,
      "learning_rate": 4.411027568922306e-05,
      "loss": 2.0781,
      "num_input_tokens_seen": 561512448,
      "step": 1428
    },
    {
      "epoch": 0.16258330587472497,
      "grad_norm": 0.5981512069702148,
      "learning_rate": 4.407447189402077e-05,
      "loss": 2.0697,
      "num_input_tokens_seen": 563871744,
      "step": 1434
    },
    {
      "epoch": 0.1632635707528619,
      "grad_norm": 0.7107566595077515,
      "learning_rate": 4.403866809881848e-05,
      "loss": 2.1106,
      "num_input_tokens_seen": 566231040,
      "step": 1440
    },
    {
      "epoch": 0.16394383563099882,
      "grad_norm": 0.66408371925354,
      "learning_rate": 4.400286430361619e-05,
      "loss": 2.178,
      "num_input_tokens_seen": 568590336,
      "step": 1446
    },
    {
      "epoch": 0.16462410050913576,
      "grad_norm": 0.7157317399978638,
      "learning_rate": 4.396706050841389e-05,
      "loss": 2.0805,
      "num_input_tokens_seen": 570949632,
      "step": 1452
    },
    {
      "epoch": 0.16530436538727267,
      "grad_norm": 0.5517193078994751,
      "learning_rate": 4.3931256713211605e-05,
      "loss": 2.0886,
      "num_input_tokens_seen": 573308928,
      "step": 1458
    },
    {
      "epoch": 0.1659846302654096,
      "grad_norm": 0.6534057259559631,
      "learning_rate": 4.389545291800931e-05,
      "loss": 2.0757,
      "num_input_tokens_seen": 575668224,
      "step": 1464
    },
    {
      "epoch": 0.16666489514354652,
      "grad_norm": 0.6548903584480286,
      "learning_rate": 4.3859649122807014e-05,
      "loss": 2.061,
      "num_input_tokens_seen": 578027520,
      "step": 1470
    },
    {
      "epoch": 0.16734516002168345,
      "grad_norm": 0.7592008113861084,
      "learning_rate": 4.3823845327604726e-05,
      "loss": 2.1042,
      "num_input_tokens_seen": 580386816,
      "step": 1476
    },
    {
      "epoch": 0.16802542489982036,
      "grad_norm": 0.6569022536277771,
      "learning_rate": 4.378804153240244e-05,
      "loss": 2.1117,
      "num_input_tokens_seen": 582746112,
      "step": 1482
    },
    {
      "epoch": 0.1687056897779573,
      "grad_norm": 0.666001558303833,
      "learning_rate": 4.375223773720015e-05,
      "loss": 2.1153,
      "num_input_tokens_seen": 585105408,
      "step": 1488
    },
    {
      "epoch": 0.1693859546560942,
      "grad_norm": 0.726992666721344,
      "learning_rate": 4.3716433941997854e-05,
      "loss": 2.1045,
      "num_input_tokens_seen": 587464704,
      "step": 1494
    },
    {
      "epoch": 0.17006621953423115,
      "grad_norm": 0.7073400020599365,
      "learning_rate": 4.3680630146795565e-05,
      "loss": 2.107,
      "num_input_tokens_seen": 589824000,
      "step": 1500
    },
    {
      "epoch": 0.17074648441236806,
      "grad_norm": 0.7716240286827087,
      "learning_rate": 4.364482635159327e-05,
      "loss": 2.0693,
      "num_input_tokens_seen": 592183296,
      "step": 1506
    },
    {
      "epoch": 0.171426749290505,
      "grad_norm": 0.6214017271995544,
      "learning_rate": 4.3609022556390975e-05,
      "loss": 2.0959,
      "num_input_tokens_seen": 594542592,
      "step": 1512
    },
    {
      "epoch": 0.1721070141686419,
      "grad_norm": 0.6559828519821167,
      "learning_rate": 4.3573218761188686e-05,
      "loss": 2.0871,
      "num_input_tokens_seen": 596901888,
      "step": 1518
    },
    {
      "epoch": 0.17278727904677885,
      "grad_norm": 0.5939403176307678,
      "learning_rate": 4.35374149659864e-05,
      "loss": 2.09,
      "num_input_tokens_seen": 599261184,
      "step": 1524
    },
    {
      "epoch": 0.17346754392491576,
      "grad_norm": 0.680909276008606,
      "learning_rate": 4.350161117078411e-05,
      "loss": 2.0679,
      "num_input_tokens_seen": 601620480,
      "step": 1530
    },
    {
      "epoch": 0.1741478088030527,
      "grad_norm": 0.6251941919326782,
      "learning_rate": 4.3465807375581814e-05,
      "loss": 2.0517,
      "num_input_tokens_seen": 603979776,
      "step": 1536
    },
    {
      "epoch": 0.1748280736811896,
      "grad_norm": 0.7877122759819031,
      "learning_rate": 4.3430003580379526e-05,
      "loss": 2.1092,
      "num_input_tokens_seen": 606339072,
      "step": 1542
    },
    {
      "epoch": 0.17550833855932654,
      "grad_norm": 0.6591320037841797,
      "learning_rate": 4.339419978517723e-05,
      "loss": 2.1308,
      "num_input_tokens_seen": 608698368,
      "step": 1548
    },
    {
      "epoch": 0.17618860343746345,
      "grad_norm": 0.6894817352294922,
      "learning_rate": 4.3358395989974935e-05,
      "loss": 2.0316,
      "num_input_tokens_seen": 611057664,
      "step": 1554
    },
    {
      "epoch": 0.1768688683156004,
      "grad_norm": 0.6120206713676453,
      "learning_rate": 4.332259219477265e-05,
      "loss": 2.1528,
      "num_input_tokens_seen": 613416960,
      "step": 1560
    },
    {
      "epoch": 0.1775491331937373,
      "grad_norm": 0.6873424649238586,
      "learning_rate": 4.328678839957035e-05,
      "loss": 2.12,
      "num_input_tokens_seen": 615776256,
      "step": 1566
    },
    {
      "epoch": 0.17822939807187424,
      "grad_norm": 0.6133244037628174,
      "learning_rate": 4.325098460436807e-05,
      "loss": 2.104,
      "num_input_tokens_seen": 618135552,
      "step": 1572
    },
    {
      "epoch": 0.17890966295001115,
      "grad_norm": 0.5738610029220581,
      "learning_rate": 4.3215180809165775e-05,
      "loss": 2.0827,
      "num_input_tokens_seen": 620494848,
      "step": 1578
    },
    {
      "epoch": 0.1795899278281481,
      "grad_norm": 0.6590917706489563,
      "learning_rate": 4.3179377013963486e-05,
      "loss": 2.1426,
      "num_input_tokens_seen": 622854144,
      "step": 1584
    },
    {
      "epoch": 0.180270192706285,
      "grad_norm": 0.7815598249435425,
      "learning_rate": 4.314357321876119e-05,
      "loss": 2.0688,
      "num_input_tokens_seen": 625213440,
      "step": 1590
    },
    {
      "epoch": 0.18095045758442194,
      "grad_norm": 0.6743267774581909,
      "learning_rate": 4.3107769423558896e-05,
      "loss": 2.1243,
      "num_input_tokens_seen": 627572736,
      "step": 1596
    },
    {
      "epoch": 0.18140396750317989,
      "eval_accuracy": 0.5724584859584859,
      "eval_loss": 2.0929105281829834,
      "eval_runtime": 128.5597,
      "eval_samples_per_second": 3.111,
      "eval_steps_per_second": 1.042,
      "num_input_tokens_seen": 629145600,
      "step": 1600
    },
    {
      "epoch": 0.18163072246255885,
      "grad_norm": 0.7218141555786133,
      "learning_rate": 4.307196562835661e-05,
      "loss": 2.1026,
      "num_input_tokens_seen": 629932032,
      "step": 1602
    },
    {
      "epoch": 0.18231098734069578,
      "grad_norm": 0.5616850852966309,
      "learning_rate": 4.303616183315431e-05,
      "loss": 2.0563,
      "num_input_tokens_seen": 632291328,
      "step": 1608
    },
    {
      "epoch": 0.1829912522188327,
      "grad_norm": 0.8092398643493652,
      "learning_rate": 4.3000358037952024e-05,
      "loss": 2.1115,
      "num_input_tokens_seen": 634650624,
      "step": 1614
    },
    {
      "epoch": 0.18367151709696963,
      "grad_norm": 0.8262616395950317,
      "learning_rate": 4.2964554242749735e-05,
      "loss": 2.1083,
      "num_input_tokens_seen": 637009920,
      "step": 1620
    },
    {
      "epoch": 0.18435178197510654,
      "grad_norm": 0.6983737349510193,
      "learning_rate": 4.292875044754745e-05,
      "loss": 2.0547,
      "num_input_tokens_seen": 639369216,
      "step": 1626
    },
    {
      "epoch": 0.18503204685324348,
      "grad_norm": 0.7725507616996765,
      "learning_rate": 4.289294665234515e-05,
      "loss": 2.0215,
      "num_input_tokens_seen": 641728512,
      "step": 1632
    },
    {
      "epoch": 0.18571231173138042,
      "grad_norm": 0.6409133672714233,
      "learning_rate": 4.2857142857142856e-05,
      "loss": 2.131,
      "num_input_tokens_seen": 644087808,
      "step": 1638
    },
    {
      "epoch": 0.18639257660951733,
      "grad_norm": 0.7413092851638794,
      "learning_rate": 4.282133906194057e-05,
      "loss": 2.1055,
      "num_input_tokens_seen": 646447104,
      "step": 1644
    },
    {
      "epoch": 0.18707284148765427,
      "grad_norm": 0.6062273383140564,
      "learning_rate": 4.278553526673827e-05,
      "loss": 2.1227,
      "num_input_tokens_seen": 648806400,
      "step": 1650
    },
    {
      "epoch": 0.18775310636579118,
      "grad_norm": 0.5928088426589966,
      "learning_rate": 4.2749731471535984e-05,
      "loss": 2.0063,
      "num_input_tokens_seen": 651165696,
      "step": 1656
    },
    {
      "epoch": 0.18843337124392812,
      "grad_norm": 0.7456128001213074,
      "learning_rate": 4.2713927676333696e-05,
      "loss": 2.1229,
      "num_input_tokens_seen": 653524992,
      "step": 1662
    },
    {
      "epoch": 0.18911363612206503,
      "grad_norm": 0.634148359298706,
      "learning_rate": 4.267812388113141e-05,
      "loss": 2.0924,
      "num_input_tokens_seen": 655884288,
      "step": 1668
    },
    {
      "epoch": 0.18979390100020196,
      "grad_norm": 0.5960593223571777,
      "learning_rate": 4.264232008592911e-05,
      "loss": 2.0759,
      "num_input_tokens_seen": 658243584,
      "step": 1674
    },
    {
      "epoch": 0.19047416587833887,
      "grad_norm": 0.5249684453010559,
      "learning_rate": 4.260651629072682e-05,
      "loss": 2.1217,
      "num_input_tokens_seen": 660602880,
      "step": 1680
    },
    {
      "epoch": 0.1911544307564758,
      "grad_norm": 0.6345716118812561,
      "learning_rate": 4.257071249552453e-05,
      "loss": 2.0945,
      "num_input_tokens_seen": 662962176,
      "step": 1686
    },
    {
      "epoch": 0.19183469563461272,
      "grad_norm": 0.6189055442810059,
      "learning_rate": 4.253490870032223e-05,
      "loss": 2.1206,
      "num_input_tokens_seen": 665321472,
      "step": 1692
    },
    {
      "epoch": 0.19251496051274966,
      "grad_norm": 0.6294938325881958,
      "learning_rate": 4.2499104905119945e-05,
      "loss": 2.0698,
      "num_input_tokens_seen": 667680768,
      "step": 1698
    },
    {
      "epoch": 0.19319522539088657,
      "grad_norm": 0.6409788131713867,
      "learning_rate": 4.246330110991765e-05,
      "loss": 2.0606,
      "num_input_tokens_seen": 670040064,
      "step": 1704
    },
    {
      "epoch": 0.1938754902690235,
      "grad_norm": 0.7358625531196594,
      "learning_rate": 4.242749731471536e-05,
      "loss": 2.1144,
      "num_input_tokens_seen": 672399360,
      "step": 1710
    },
    {
      "epoch": 0.19455575514716042,
      "grad_norm": 0.6153339743614197,
      "learning_rate": 4.239169351951307e-05,
      "loss": 2.119,
      "num_input_tokens_seen": 674758656,
      "step": 1716
    },
    {
      "epoch": 0.19523602002529736,
      "grad_norm": 0.6902744174003601,
      "learning_rate": 4.235588972431078e-05,
      "loss": 2.0636,
      "num_input_tokens_seen": 677117952,
      "step": 1722
    },
    {
      "epoch": 0.19591628490343427,
      "grad_norm": 0.7145854830741882,
      "learning_rate": 4.232008592910849e-05,
      "loss": 2.0937,
      "num_input_tokens_seen": 679477248,
      "step": 1728
    },
    {
      "epoch": 0.1965965497815712,
      "grad_norm": 0.7076539397239685,
      "learning_rate": 4.2284282133906194e-05,
      "loss": 2.1325,
      "num_input_tokens_seen": 681836544,
      "step": 1734
    },
    {
      "epoch": 0.19727681465970812,
      "grad_norm": 0.6653849482536316,
      "learning_rate": 4.2248478338703905e-05,
      "loss": 2.1266,
      "num_input_tokens_seen": 684195840,
      "step": 1740
    },
    {
      "epoch": 0.19795707953784505,
      "grad_norm": 0.7376857399940491,
      "learning_rate": 4.221267454350161e-05,
      "loss": 2.1273,
      "num_input_tokens_seen": 686555136,
      "step": 1746
    },
    {
      "epoch": 0.19863734441598196,
      "grad_norm": 0.6721606254577637,
      "learning_rate": 4.217687074829932e-05,
      "loss": 2.0921,
      "num_input_tokens_seen": 688914432,
      "step": 1752
    },
    {
      "epoch": 0.1993176092941189,
      "grad_norm": 0.8767059445381165,
      "learning_rate": 4.214106695309703e-05,
      "loss": 2.1027,
      "num_input_tokens_seen": 691273728,
      "step": 1758
    },
    {
      "epoch": 0.1999978741722558,
      "grad_norm": 0.6245223879814148,
      "learning_rate": 4.210526315789474e-05,
      "loss": 2.083,
      "num_input_tokens_seen": 693633024,
      "step": 1764
    },
    {
      "epoch": 0.20067813905039275,
      "grad_norm": 0.6684584021568298,
      "learning_rate": 4.206945936269245e-05,
      "loss": 2.0892,
      "num_input_tokens_seen": 695992320,
      "step": 1770
    },
    {
      "epoch": 0.20135840392852966,
      "grad_norm": 0.676654577255249,
      "learning_rate": 4.2033655567490154e-05,
      "loss": 2.1068,
      "num_input_tokens_seen": 698351616,
      "step": 1776
    },
    {
      "epoch": 0.2020386688066666,
      "grad_norm": 0.5355855226516724,
      "learning_rate": 4.1997851772287866e-05,
      "loss": 2.0531,
      "num_input_tokens_seen": 700710912,
      "step": 1782
    },
    {
      "epoch": 0.2027189336848035,
      "grad_norm": 0.6555802226066589,
      "learning_rate": 4.196204797708557e-05,
      "loss": 2.0901,
      "num_input_tokens_seen": 703070208,
      "step": 1788
    },
    {
      "epoch": 0.20339919856294045,
      "grad_norm": 0.6298051476478577,
      "learning_rate": 4.192624418188328e-05,
      "loss": 2.0877,
      "num_input_tokens_seen": 705429504,
      "step": 1794
    },
    {
      "epoch": 0.20407946344107736,
      "grad_norm": 0.720937192440033,
      "learning_rate": 4.1890440386680994e-05,
      "loss": 2.108,
      "num_input_tokens_seen": 707788800,
      "step": 1800
    },
    {
      "epoch": 0.2047597283192143,
      "grad_norm": 0.7328784465789795,
      "learning_rate": 4.18546365914787e-05,
      "loss": 2.0899,
      "num_input_tokens_seen": 710148096,
      "step": 1806
    },
    {
      "epoch": 0.2054399931973512,
      "grad_norm": 0.6752752065658569,
      "learning_rate": 4.181883279627641e-05,
      "loss": 2.1424,
      "num_input_tokens_seen": 712507392,
      "step": 1812
    },
    {
      "epoch": 0.20612025807548814,
      "grad_norm": 0.7588052153587341,
      "learning_rate": 4.1783029001074115e-05,
      "loss": 2.134,
      "num_input_tokens_seen": 714866688,
      "step": 1818
    },
    {
      "epoch": 0.20680052295362505,
      "grad_norm": 0.6495354771614075,
      "learning_rate": 4.1747225205871826e-05,
      "loss": 2.1091,
      "num_input_tokens_seen": 717225984,
      "step": 1824
    },
    {
      "epoch": 0.207480787831762,
      "grad_norm": 0.6155287623405457,
      "learning_rate": 4.171142141066953e-05,
      "loss": 2.1057,
      "num_input_tokens_seen": 719585280,
      "step": 1830
    },
    {
      "epoch": 0.20816105270989893,
      "grad_norm": 0.5426910519599915,
      "learning_rate": 4.167561761546724e-05,
      "loss": 2.0465,
      "num_input_tokens_seen": 721944576,
      "step": 1836
    },
    {
      "epoch": 0.20884131758803584,
      "grad_norm": 0.6535930633544922,
      "learning_rate": 4.163981382026495e-05,
      "loss": 2.046,
      "num_input_tokens_seen": 724303872,
      "step": 1842
    },
    {
      "epoch": 0.20952158246617278,
      "grad_norm": 0.639935314655304,
      "learning_rate": 4.160401002506266e-05,
      "loss": 2.1035,
      "num_input_tokens_seen": 726663168,
      "step": 1848
    },
    {
      "epoch": 0.2102018473443097,
      "grad_norm": 0.5828704833984375,
      "learning_rate": 4.156820622986037e-05,
      "loss": 2.0643,
      "num_input_tokens_seen": 729022464,
      "step": 1854
    },
    {
      "epoch": 0.21088211222244663,
      "grad_norm": 0.579765796661377,
      "learning_rate": 4.1532402434658075e-05,
      "loss": 2.1099,
      "num_input_tokens_seen": 731381760,
      "step": 1860
    },
    {
      "epoch": 0.21156237710058354,
      "grad_norm": 0.6833761930465698,
      "learning_rate": 4.149659863945579e-05,
      "loss": 2.0967,
      "num_input_tokens_seen": 733741056,
      "step": 1866
    },
    {
      "epoch": 0.21224264197872048,
      "grad_norm": 0.6318493485450745,
      "learning_rate": 4.146079484425349e-05,
      "loss": 2.1049,
      "num_input_tokens_seen": 736100352,
      "step": 1872
    },
    {
      "epoch": 0.21292290685685739,
      "grad_norm": 0.6708328127861023,
      "learning_rate": 4.14249910490512e-05,
      "loss": 2.0954,
      "num_input_tokens_seen": 738459648,
      "step": 1878
    },
    {
      "epoch": 0.21360317173499432,
      "grad_norm": 0.6389116644859314,
      "learning_rate": 4.138918725384891e-05,
      "loss": 2.113,
      "num_input_tokens_seen": 740818944,
      "step": 1884
    },
    {
      "epoch": 0.21428343661313123,
      "grad_norm": 0.6693724393844604,
      "learning_rate": 4.135338345864662e-05,
      "loss": 2.0786,
      "num_input_tokens_seen": 743178240,
      "step": 1890
    },
    {
      "epoch": 0.21496370149126817,
      "grad_norm": 0.6880051493644714,
      "learning_rate": 4.131757966344433e-05,
      "loss": 2.101,
      "num_input_tokens_seen": 745537536,
      "step": 1896
    },
    {
      "epoch": 0.21564396636940508,
      "grad_norm": 0.7772538065910339,
      "learning_rate": 4.1281775868242036e-05,
      "loss": 2.0912,
      "num_input_tokens_seen": 747896832,
      "step": 1902
    },
    {
      "epoch": 0.21632423124754202,
      "grad_norm": 0.5820342898368835,
      "learning_rate": 4.124597207303975e-05,
      "loss": 2.0999,
      "num_input_tokens_seen": 750256128,
      "step": 1908
    },
    {
      "epoch": 0.21700449612567893,
      "grad_norm": 0.6889671087265015,
      "learning_rate": 4.121016827783745e-05,
      "loss": 2.1452,
      "num_input_tokens_seen": 752615424,
      "step": 1914
    },
    {
      "epoch": 0.21768476100381587,
      "grad_norm": 0.7460409998893738,
      "learning_rate": 4.1174364482635163e-05,
      "loss": 2.0545,
      "num_input_tokens_seen": 754974720,
      "step": 1920
    },
    {
      "epoch": 0.21836502588195278,
      "grad_norm": 0.6621735692024231,
      "learning_rate": 4.113856068743287e-05,
      "loss": 2.1114,
      "num_input_tokens_seen": 757334016,
      "step": 1926
    },
    {
      "epoch": 0.21904529076008972,
      "grad_norm": 0.6911535859107971,
      "learning_rate": 4.110275689223057e-05,
      "loss": 2.0746,
      "num_input_tokens_seen": 759693312,
      "step": 1932
    },
    {
      "epoch": 0.21972555563822663,
      "grad_norm": 0.7786504626274109,
      "learning_rate": 4.1066953097028285e-05,
      "loss": 2.1343,
      "num_input_tokens_seen": 762052608,
      "step": 1938
    },
    {
      "epoch": 0.22040582051636357,
      "grad_norm": 0.6110914349555969,
      "learning_rate": 4.1031149301825996e-05,
      "loss": 2.1723,
      "num_input_tokens_seen": 764411904,
      "step": 1944
    },
    {
      "epoch": 0.22108608539450048,
      "grad_norm": 0.7057865858078003,
      "learning_rate": 4.099534550662371e-05,
      "loss": 2.1187,
      "num_input_tokens_seen": 766771200,
      "step": 1950
    },
    {
      "epoch": 0.2217663502726374,
      "grad_norm": 0.6199769973754883,
      "learning_rate": 4.095954171142141e-05,
      "loss": 2.0733,
      "num_input_tokens_seen": 769130496,
      "step": 1956
    },
    {
      "epoch": 0.22244661515077432,
      "grad_norm": 0.7107540965080261,
      "learning_rate": 4.0923737916219124e-05,
      "loss": 2.0964,
      "num_input_tokens_seen": 771489792,
      "step": 1962
    },
    {
      "epoch": 0.22312688002891126,
      "grad_norm": 0.6034384369850159,
      "learning_rate": 4.088793412101683e-05,
      "loss": 2.1232,
      "num_input_tokens_seen": 773849088,
      "step": 1968
    },
    {
      "epoch": 0.22380714490704817,
      "grad_norm": 0.6471470594406128,
      "learning_rate": 4.0852130325814534e-05,
      "loss": 2.0799,
      "num_input_tokens_seen": 776208384,
      "step": 1974
    },
    {
      "epoch": 0.2244874097851851,
      "grad_norm": 0.6443119049072266,
      "learning_rate": 4.0816326530612245e-05,
      "loss": 2.0843,
      "num_input_tokens_seen": 778567680,
      "step": 1980
    },
    {
      "epoch": 0.22516767466332202,
      "grad_norm": 0.6607959866523743,
      "learning_rate": 4.0780522735409957e-05,
      "loss": 2.1408,
      "num_input_tokens_seen": 780926976,
      "step": 1986
    },
    {
      "epoch": 0.22584793954145896,
      "grad_norm": 0.6692774891853333,
      "learning_rate": 4.074471894020767e-05,
      "loss": 2.0871,
      "num_input_tokens_seen": 783286272,
      "step": 1992
    },
    {
      "epoch": 0.22652820441959587,
      "grad_norm": 0.7502838969230652,
      "learning_rate": 4.070891514500537e-05,
      "loss": 2.1021,
      "num_input_tokens_seen": 785645568,
      "step": 1998
    },
    {
      "epoch": 0.22675495937897486,
      "eval_accuracy": 0.5746526251526252,
      "eval_loss": 2.079448699951172,
      "eval_runtime": 129.4769,
      "eval_samples_per_second": 3.089,
      "eval_steps_per_second": 1.035,
      "num_input_tokens_seen": 786432000,
      "step": 2000
    },
    {
      "epoch": 0.2272084692977328,
      "grad_norm": 0.6747561693191528,
      "learning_rate": 4.0673111349803084e-05,
      "loss": 2.0141,
      "num_input_tokens_seen": 788004864,
      "step": 2004
    },
    {
      "epoch": 0.22788873417586972,
      "grad_norm": 0.6549056172370911,
      "learning_rate": 4.063730755460079e-05,
      "loss": 2.1014,
      "num_input_tokens_seen": 790364160,
      "step": 2010
    },
    {
      "epoch": 0.22856899905400666,
      "grad_norm": 0.7539930939674377,
      "learning_rate": 4.0601503759398494e-05,
      "loss": 2.1268,
      "num_input_tokens_seen": 792723456,
      "step": 2016
    },
    {
      "epoch": 0.22924926393214357,
      "grad_norm": 0.5937004089355469,
      "learning_rate": 4.0565699964196206e-05,
      "loss": 2.0426,
      "num_input_tokens_seen": 795082752,
      "step": 2022
    },
    {
      "epoch": 0.2299295288102805,
      "grad_norm": 0.5992699861526489,
      "learning_rate": 4.052989616899392e-05,
      "loss": 2.1089,
      "num_input_tokens_seen": 797442048,
      "step": 2028
    },
    {
      "epoch": 0.2306097936884174,
      "grad_norm": 0.5451076030731201,
      "learning_rate": 4.049409237379163e-05,
      "loss": 2.0499,
      "num_input_tokens_seen": 799801344,
      "step": 2034
    },
    {
      "epoch": 0.23129005856655435,
      "grad_norm": 0.5855215787887573,
      "learning_rate": 4.0458288578589333e-05,
      "loss": 2.0501,
      "num_input_tokens_seen": 802160640,
      "step": 2040
    },
    {
      "epoch": 0.2319703234446913,
      "grad_norm": 0.6797962784767151,
      "learning_rate": 4.0422484783387045e-05,
      "loss": 2.1079,
      "num_input_tokens_seen": 804519936,
      "step": 2046
    },
    {
      "epoch": 0.2326505883228282,
      "grad_norm": 0.5858785510063171,
      "learning_rate": 4.038668098818475e-05,
      "loss": 2.1117,
      "num_input_tokens_seen": 806879232,
      "step": 2052
    },
    {
      "epoch": 0.23333085320096514,
      "grad_norm": 0.6085060834884644,
      "learning_rate": 4.0350877192982455e-05,
      "loss": 2.0706,
      "num_input_tokens_seen": 809238528,
      "step": 2058
    },
    {
      "epoch": 0.23401111807910205,
      "grad_norm": 0.5851722359657288,
      "learning_rate": 4.0315073397780166e-05,
      "loss": 2.1303,
      "num_input_tokens_seen": 811597824,
      "step": 2064
    },
    {
      "epoch": 0.234691382957239,
      "grad_norm": 0.6054412722587585,
      "learning_rate": 4.027926960257787e-05,
      "loss": 2.1186,
      "num_input_tokens_seen": 813957120,
      "step": 2070
    },
    {
      "epoch": 0.2353716478353759,
      "grad_norm": 0.6723355054855347,
      "learning_rate": 4.024346580737558e-05,
      "loss": 2.0892,
      "num_input_tokens_seen": 816316416,
      "step": 2076
    },
    {
      "epoch": 0.23605191271351283,
      "grad_norm": 0.6768056154251099,
      "learning_rate": 4.0207662012173294e-05,
      "loss": 2.0591,
      "num_input_tokens_seen": 818675712,
      "step": 2082
    },
    {
      "epoch": 0.23673217759164975,
      "grad_norm": 0.5856552124023438,
      "learning_rate": 4.0171858216971005e-05,
      "loss": 2.0735,
      "num_input_tokens_seen": 821035008,
      "step": 2088
    },
    {
      "epoch": 0.23741244246978668,
      "grad_norm": 0.7292026281356812,
      "learning_rate": 4.013605442176871e-05,
      "loss": 2.0721,
      "num_input_tokens_seen": 823394304,
      "step": 2094
    },
    {
      "epoch": 0.2380927073479236,
      "grad_norm": 0.6172975301742554,
      "learning_rate": 4.0100250626566415e-05,
      "loss": 2.0728,
      "num_input_tokens_seen": 825753600,
      "step": 2100
    },
    {
      "epoch": 0.23877297222606053,
      "grad_norm": 0.7551843523979187,
      "learning_rate": 4.0064446831364127e-05,
      "loss": 2.1213,
      "num_input_tokens_seen": 828112896,
      "step": 2106
    },
    {
      "epoch": 0.23945323710419744,
      "grad_norm": 0.625471830368042,
      "learning_rate": 4.002864303616183e-05,
      "loss": 2.066,
      "num_input_tokens_seen": 830472192,
      "step": 2112
    },
    {
      "epoch": 0.24013350198233438,
      "grad_norm": 0.6531856656074524,
      "learning_rate": 3.999283924095954e-05,
      "loss": 2.0666,
      "num_input_tokens_seen": 832831488,
      "step": 2118
    },
    {
      "epoch": 0.2408137668604713,
      "grad_norm": 0.652446448802948,
      "learning_rate": 3.9957035445757254e-05,
      "loss": 2.1193,
      "num_input_tokens_seen": 835190784,
      "step": 2124
    },
    {
      "epoch": 0.24149403173860823,
      "grad_norm": 0.6203518509864807,
      "learning_rate": 3.9921231650554966e-05,
      "loss": 2.1025,
      "num_input_tokens_seen": 837550080,
      "step": 2130
    },
    {
      "epoch": 0.24217429661674514,
      "grad_norm": 0.6497722268104553,
      "learning_rate": 3.988542785535267e-05,
      "loss": 2.0418,
      "num_input_tokens_seen": 839909376,
      "step": 2136
    },
    {
      "epoch": 0.24285456149488208,
      "grad_norm": 0.661279559135437,
      "learning_rate": 3.9849624060150376e-05,
      "loss": 2.0558,
      "num_input_tokens_seen": 842268672,
      "step": 2142
    },
    {
      "epoch": 0.243534826373019,
      "grad_norm": 0.5917189717292786,
      "learning_rate": 3.981382026494809e-05,
      "loss": 2.1041,
      "num_input_tokens_seen": 844627968,
      "step": 2148
    },
    {
      "epoch": 0.24421509125115592,
      "grad_norm": 0.8539558053016663,
      "learning_rate": 3.977801646974579e-05,
      "loss": 2.1188,
      "num_input_tokens_seen": 846987264,
      "step": 2154
    },
    {
      "epoch": 0.24489535612929283,
      "grad_norm": 0.5865846276283264,
      "learning_rate": 3.97422126745435e-05,
      "loss": 2.1069,
      "num_input_tokens_seen": 849346560,
      "step": 2160
    },
    {
      "epoch": 0.24557562100742977,
      "grad_norm": 0.6616944670677185,
      "learning_rate": 3.970640887934121e-05,
      "loss": 2.0633,
      "num_input_tokens_seen": 851705856,
      "step": 2166
    },
    {
      "epoch": 0.24625588588556668,
      "grad_norm": 0.5569839477539062,
      "learning_rate": 3.9670605084138926e-05,
      "loss": 2.0857,
      "num_input_tokens_seen": 854065152,
      "step": 2172
    },
    {
      "epoch": 0.24693615076370362,
      "grad_norm": 0.5691688060760498,
      "learning_rate": 3.963480128893663e-05,
      "loss": 2.061,
      "num_input_tokens_seen": 856424448,
      "step": 2178
    },
    {
      "epoch": 0.24761641564184053,
      "grad_norm": 0.607754647731781,
      "learning_rate": 3.9598997493734336e-05,
      "loss": 2.1715,
      "num_input_tokens_seen": 858783744,
      "step": 2184
    },
    {
      "epoch": 0.24829668051997747,
      "grad_norm": 0.7856176495552063,
      "learning_rate": 3.956319369853205e-05,
      "loss": 2.0697,
      "num_input_tokens_seen": 861143040,
      "step": 2190
    },
    {
      "epoch": 0.24897694539811438,
      "grad_norm": 0.7349157333374023,
      "learning_rate": 3.952738990332975e-05,
      "loss": 2.1124,
      "num_input_tokens_seen": 863502336,
      "step": 2196
    },
    {
      "epoch": 0.24965721027625132,
      "grad_norm": 0.6067531108856201,
      "learning_rate": 3.9491586108127464e-05,
      "loss": 2.0844,
      "num_input_tokens_seen": 865861632,
      "step": 2202
    },
    {
      "epoch": 0.25033747515438826,
      "grad_norm": 0.6353740692138672,
      "learning_rate": 3.945578231292517e-05,
      "loss": 2.0714,
      "num_input_tokens_seen": 868220928,
      "step": 2208
    },
    {
      "epoch": 0.25101774003252514,
      "grad_norm": 0.6207152605056763,
      "learning_rate": 3.941997851772288e-05,
      "loss": 2.1135,
      "num_input_tokens_seen": 870580224,
      "step": 2214
    },
    {
      "epoch": 0.2516980049106621,
      "grad_norm": 0.6664757132530212,
      "learning_rate": 3.938417472252059e-05,
      "loss": 2.0755,
      "num_input_tokens_seen": 872939520,
      "step": 2220
    },
    {
      "epoch": 0.252378269788799,
      "grad_norm": 0.6741634011268616,
      "learning_rate": 3.9348370927318297e-05,
      "loss": 2.1249,
      "num_input_tokens_seen": 875298816,
      "step": 2226
    },
    {
      "epoch": 0.25305853466693595,
      "grad_norm": 0.7361227869987488,
      "learning_rate": 3.931256713211601e-05,
      "loss": 2.0656,
      "num_input_tokens_seen": 877658112,
      "step": 2232
    },
    {
      "epoch": 0.25373879954507284,
      "grad_norm": 0.864486038684845,
      "learning_rate": 3.927676333691371e-05,
      "loss": 2.0808,
      "num_input_tokens_seen": 880017408,
      "step": 2238
    },
    {
      "epoch": 0.2544190644232098,
      "grad_norm": 0.817509114742279,
      "learning_rate": 3.9240959541711424e-05,
      "loss": 2.0223,
      "num_input_tokens_seen": 882376704,
      "step": 2244
    },
    {
      "epoch": 0.2550993293013467,
      "grad_norm": 0.6295050382614136,
      "learning_rate": 3.920515574650913e-05,
      "loss": 2.1069,
      "num_input_tokens_seen": 884736000,
      "step": 2250
    },
    {
      "epoch": 0.25577959417948365,
      "grad_norm": 0.557656466960907,
      "learning_rate": 3.916935195130684e-05,
      "loss": 2.0621,
      "num_input_tokens_seen": 887095296,
      "step": 2256
    },
    {
      "epoch": 0.2564598590576206,
      "grad_norm": 0.5819247364997864,
      "learning_rate": 3.913354815610455e-05,
      "loss": 2.0804,
      "num_input_tokens_seen": 889454592,
      "step": 2262
    },
    {
      "epoch": 0.25714012393575747,
      "grad_norm": 0.6297056674957275,
      "learning_rate": 3.909774436090226e-05,
      "loss": 2.0566,
      "num_input_tokens_seen": 891813888,
      "step": 2268
    },
    {
      "epoch": 0.2578203888138944,
      "grad_norm": 0.6011530756950378,
      "learning_rate": 3.906194056569997e-05,
      "loss": 2.0731,
      "num_input_tokens_seen": 894173184,
      "step": 2274
    },
    {
      "epoch": 0.25850065369203135,
      "grad_norm": 0.5878785252571106,
      "learning_rate": 3.902613677049767e-05,
      "loss": 2.115,
      "num_input_tokens_seen": 896532480,
      "step": 2280
    },
    {
      "epoch": 0.2591809185701683,
      "grad_norm": 0.6470881104469299,
      "learning_rate": 3.8990332975295385e-05,
      "loss": 2.0653,
      "num_input_tokens_seen": 898891776,
      "step": 2286
    },
    {
      "epoch": 0.25986118344830517,
      "grad_norm": 0.6201193332672119,
      "learning_rate": 3.895452918009309e-05,
      "loss": 2.0936,
      "num_input_tokens_seen": 901251072,
      "step": 2292
    },
    {
      "epoch": 0.2605414483264421,
      "grad_norm": 0.5656684637069702,
      "learning_rate": 3.89187253848908e-05,
      "loss": 2.1008,
      "num_input_tokens_seen": 903610368,
      "step": 2298
    },
    {
      "epoch": 0.26122171320457904,
      "grad_norm": 0.5908628106117249,
      "learning_rate": 3.8882921589688506e-05,
      "loss": 2.0602,
      "num_input_tokens_seen": 905969664,
      "step": 2304
    },
    {
      "epoch": 0.261901978082716,
      "grad_norm": 0.660382866859436,
      "learning_rate": 3.884711779448622e-05,
      "loss": 2.0933,
      "num_input_tokens_seen": 908328960,
      "step": 2310
    },
    {
      "epoch": 0.26258224296085286,
      "grad_norm": 0.5603790283203125,
      "learning_rate": 3.881131399928393e-05,
      "loss": 2.0898,
      "num_input_tokens_seen": 910688256,
      "step": 2316
    },
    {
      "epoch": 0.2632625078389898,
      "grad_norm": 0.6598983407020569,
      "learning_rate": 3.8775510204081634e-05,
      "loss": 2.0715,
      "num_input_tokens_seen": 913047552,
      "step": 2322
    },
    {
      "epoch": 0.26394277271712674,
      "grad_norm": 0.5827348828315735,
      "learning_rate": 3.8739706408879345e-05,
      "loss": 2.1179,
      "num_input_tokens_seen": 915406848,
      "step": 2328
    },
    {
      "epoch": 0.2646230375952637,
      "grad_norm": 0.7159097194671631,
      "learning_rate": 3.870390261367705e-05,
      "loss": 2.0344,
      "num_input_tokens_seen": 917766144,
      "step": 2334
    },
    {
      "epoch": 0.26530330247340056,
      "grad_norm": 0.6752398014068604,
      "learning_rate": 3.866809881847476e-05,
      "loss": 2.0513,
      "num_input_tokens_seen": 920125440,
      "step": 2340
    },
    {
      "epoch": 0.2659835673515375,
      "grad_norm": 0.598101794719696,
      "learning_rate": 3.8632295023272466e-05,
      "loss": 2.0701,
      "num_input_tokens_seen": 922484736,
      "step": 2346
    },
    {
      "epoch": 0.26666383222967444,
      "grad_norm": 0.6286051273345947,
      "learning_rate": 3.859649122807018e-05,
      "loss": 2.0854,
      "num_input_tokens_seen": 924844032,
      "step": 2352
    },
    {
      "epoch": 0.2673440971078114,
      "grad_norm": 0.6396269202232361,
      "learning_rate": 3.856068743286789e-05,
      "loss": 2.1089,
      "num_input_tokens_seen": 927203328,
      "step": 2358
    },
    {
      "epoch": 0.26802436198594826,
      "grad_norm": 0.6398798823356628,
      "learning_rate": 3.8524883637665594e-05,
      "loss": 2.0501,
      "num_input_tokens_seen": 929562624,
      "step": 2364
    },
    {
      "epoch": 0.2687046268640852,
      "grad_norm": 0.6426295042037964,
      "learning_rate": 3.8489079842463306e-05,
      "loss": 2.0617,
      "num_input_tokens_seen": 931921920,
      "step": 2370
    },
    {
      "epoch": 0.26938489174222213,
      "grad_norm": 0.6402562856674194,
      "learning_rate": 3.845327604726101e-05,
      "loss": 2.0715,
      "num_input_tokens_seen": 934281216,
      "step": 2376
    },
    {
      "epoch": 0.27006515662035907,
      "grad_norm": 0.699862539768219,
      "learning_rate": 3.841747225205872e-05,
      "loss": 2.13,
      "num_input_tokens_seen": 936640512,
      "step": 2382
    },
    {
      "epoch": 0.27074542149849595,
      "grad_norm": 0.8998868465423584,
      "learning_rate": 3.838166845685643e-05,
      "loss": 2.1084,
      "num_input_tokens_seen": 938999808,
      "step": 2388
    },
    {
      "epoch": 0.2714256863766329,
      "grad_norm": 0.665034294128418,
      "learning_rate": 3.834586466165413e-05,
      "loss": 2.0959,
      "num_input_tokens_seen": 941359104,
      "step": 2394
    },
    {
      "epoch": 0.27210595125476983,
      "grad_norm": 0.745847225189209,
      "learning_rate": 3.831006086645185e-05,
      "loss": 2.0794,
      "num_input_tokens_seen": 943718400,
      "step": 2400
    },
    {
      "epoch": 0.27210595125476983,
      "eval_accuracy": 0.5762228327228327,
      "eval_loss": 2.068709135055542,
      "eval_runtime": 128.4911,
      "eval_samples_per_second": 3.113,
      "eval_steps_per_second": 1.043,
      "num_input_tokens_seen": 943718400,
      "step": 2400
    },
    {
      "epoch": 0.27278621613290677,
      "grad_norm": 0.6324106454849243,
      "learning_rate": 3.8274257071249555e-05,
      "loss": 2.0734,
      "num_input_tokens_seen": 946077696,
      "step": 2406
    },
    {
      "epoch": 0.27346648101104365,
      "grad_norm": 0.7810145020484924,
      "learning_rate": 3.8238453276047266e-05,
      "loss": 2.0681,
      "num_input_tokens_seen": 948436992,
      "step": 2412
    },
    {
      "epoch": 0.2741467458891806,
      "grad_norm": 0.6391826272010803,
      "learning_rate": 3.820264948084497e-05,
      "loss": 2.0964,
      "num_input_tokens_seen": 950796288,
      "step": 2418
    },
    {
      "epoch": 0.2748270107673175,
      "grad_norm": 0.6988577842712402,
      "learning_rate": 3.816684568564268e-05,
      "loss": 2.1252,
      "num_input_tokens_seen": 953155584,
      "step": 2424
    },
    {
      "epoch": 0.27550727564545446,
      "grad_norm": 0.5647233128547668,
      "learning_rate": 3.813104189044039e-05,
      "loss": 2.0881,
      "num_input_tokens_seen": 955514880,
      "step": 2430
    },
    {
      "epoch": 0.27618754052359135,
      "grad_norm": 0.5780855417251587,
      "learning_rate": 3.809523809523809e-05,
      "loss": 2.0835,
      "num_input_tokens_seen": 957874176,
      "step": 2436
    },
    {
      "epoch": 0.2768678054017283,
      "grad_norm": 0.6789732575416565,
      "learning_rate": 3.8059434300035804e-05,
      "loss": 2.0732,
      "num_input_tokens_seen": 960233472,
      "step": 2442
    },
    {
      "epoch": 0.2775480702798652,
      "grad_norm": 0.6763067245483398,
      "learning_rate": 3.8023630504833515e-05,
      "loss": 2.0457,
      "num_input_tokens_seen": 962592768,
      "step": 2448
    },
    {
      "epoch": 0.27822833515800216,
      "grad_norm": 0.5905190110206604,
      "learning_rate": 3.798782670963123e-05,
      "loss": 2.0186,
      "num_input_tokens_seen": 964952064,
      "step": 2454
    },
    {
      "epoch": 0.2789086000361391,
      "grad_norm": 0.6527414321899414,
      "learning_rate": 3.795202291442893e-05,
      "loss": 2.0841,
      "num_input_tokens_seen": 967311360,
      "step": 2460
    },
    {
      "epoch": 0.279588864914276,
      "grad_norm": 0.5765488743782043,
      "learning_rate": 3.791621911922664e-05,
      "loss": 2.0811,
      "num_input_tokens_seen": 969670656,
      "step": 2466
    },
    {
      "epoch": 0.2802691297924129,
      "grad_norm": 0.6708554625511169,
      "learning_rate": 3.788041532402435e-05,
      "loss": 2.0625,
      "num_input_tokens_seen": 972029952,
      "step": 2472
    },
    {
      "epoch": 0.28094939467054986,
      "grad_norm": 0.6201637983322144,
      "learning_rate": 3.784461152882205e-05,
      "loss": 2.1125,
      "num_input_tokens_seen": 974389248,
      "step": 2478
    },
    {
      "epoch": 0.2816296595486868,
      "grad_norm": 0.6302900314331055,
      "learning_rate": 3.7808807733619764e-05,
      "loss": 2.1199,
      "num_input_tokens_seen": 976748544,
      "step": 2484
    },
    {
      "epoch": 0.2823099244268237,
      "grad_norm": 0.7140418887138367,
      "learning_rate": 3.7773003938417476e-05,
      "loss": 2.1241,
      "num_input_tokens_seen": 979107840,
      "step": 2490
    },
    {
      "epoch": 0.2829901893049606,
      "grad_norm": 0.5913351774215698,
      "learning_rate": 3.773720014321519e-05,
      "loss": 2.0307,
      "num_input_tokens_seen": 981467136,
      "step": 2496
    },
    {
      "epoch": 0.28367045418309755,
      "grad_norm": 0.5941835045814514,
      "learning_rate": 3.770139634801289e-05,
      "loss": 2.069,
      "num_input_tokens_seen": 983826432,
      "step": 2502
    },
    {
      "epoch": 0.2843507190612345,
      "grad_norm": 0.6847456097602844,
      "learning_rate": 3.7665592552810604e-05,
      "loss": 2.0953,
      "num_input_tokens_seen": 986185728,
      "step": 2508
    },
    {
      "epoch": 0.2850309839393714,
      "grad_norm": 0.6352680325508118,
      "learning_rate": 3.762978875760831e-05,
      "loss": 2.0734,
      "num_input_tokens_seen": 988545024,
      "step": 2514
    },
    {
      "epoch": 0.2857112488175083,
      "grad_norm": 0.6623321771621704,
      "learning_rate": 3.759398496240601e-05,
      "loss": 2.0512,
      "num_input_tokens_seen": 990904320,
      "step": 2520
    },
    {
      "epoch": 0.28639151369564525,
      "grad_norm": 0.718250572681427,
      "learning_rate": 3.7558181167203725e-05,
      "loss": 2.0888,
      "num_input_tokens_seen": 993263616,
      "step": 2526
    },
    {
      "epoch": 0.2870717785737822,
      "grad_norm": 0.5607486367225647,
      "learning_rate": 3.752237737200143e-05,
      "loss": 2.1202,
      "num_input_tokens_seen": 995622912,
      "step": 2532
    },
    {
      "epoch": 0.28775204345191907,
      "grad_norm": 0.653218150138855,
      "learning_rate": 3.748657357679914e-05,
      "loss": 2.1099,
      "num_input_tokens_seen": 997982208,
      "step": 2538
    },
    {
      "epoch": 0.288432308330056,
      "grad_norm": 0.6100384593009949,
      "learning_rate": 3.745076978159685e-05,
      "loss": 2.0464,
      "num_input_tokens_seen": 1000341504,
      "step": 2544
    },
    {
      "epoch": 0.28911257320819295,
      "grad_norm": 0.6485652327537537,
      "learning_rate": 3.7414965986394564e-05,
      "loss": 2.0631,
      "num_input_tokens_seen": 1002700800,
      "step": 2550
    },
    {
      "epoch": 0.2897928380863299,
      "grad_norm": 0.6714969873428345,
      "learning_rate": 3.737916219119227e-05,
      "loss": 2.0325,
      "num_input_tokens_seen": 1005060096,
      "step": 2556
    },
    {
      "epoch": 0.29047310296446677,
      "grad_norm": 0.629289448261261,
      "learning_rate": 3.7343358395989974e-05,
      "loss": 2.0345,
      "num_input_tokens_seen": 1007419392,
      "step": 2562
    },
    {
      "epoch": 0.2911533678426037,
      "grad_norm": 0.6530044078826904,
      "learning_rate": 3.7307554600787685e-05,
      "loss": 2.1037,
      "num_input_tokens_seen": 1009778688,
      "step": 2568
    },
    {
      "epoch": 0.29183363272074064,
      "grad_norm": 0.6162053942680359,
      "learning_rate": 3.727175080558539e-05,
      "loss": 2.0594,
      "num_input_tokens_seen": 1012137984,
      "step": 2574
    },
    {
      "epoch": 0.2925138975988776,
      "grad_norm": 0.6271448731422424,
      "learning_rate": 3.72359470103831e-05,
      "loss": 2.0737,
      "num_input_tokens_seen": 1014497280,
      "step": 2580
    },
    {
      "epoch": 0.29319416247701446,
      "grad_norm": 0.5966920256614685,
      "learning_rate": 3.720014321518081e-05,
      "loss": 2.1086,
      "num_input_tokens_seen": 1016856576,
      "step": 2586
    },
    {
      "epoch": 0.2938744273551514,
      "grad_norm": 0.6952504515647888,
      "learning_rate": 3.7164339419978525e-05,
      "loss": 2.0835,
      "num_input_tokens_seen": 1019215872,
      "step": 2592
    },
    {
      "epoch": 0.29455469223328834,
      "grad_norm": 0.6622751951217651,
      "learning_rate": 3.712853562477623e-05,
      "loss": 2.1187,
      "num_input_tokens_seen": 1021575168,
      "step": 2598
    },
    {
      "epoch": 0.2952349571114253,
      "grad_norm": 0.7054808139801025,
      "learning_rate": 3.7092731829573934e-05,
      "loss": 2.101,
      "num_input_tokens_seen": 1023934464,
      "step": 2604
    },
    {
      "epoch": 0.29591522198956216,
      "grad_norm": 0.5338059663772583,
      "learning_rate": 3.7056928034371646e-05,
      "loss": 2.0577,
      "num_input_tokens_seen": 1026293760,
      "step": 2610
    },
    {
      "epoch": 0.2965954868676991,
      "grad_norm": 0.6121593117713928,
      "learning_rate": 3.702112423916935e-05,
      "loss": 2.0464,
      "num_input_tokens_seen": 1028653056,
      "step": 2616
    },
    {
      "epoch": 0.29727575174583604,
      "grad_norm": 0.6173185706138611,
      "learning_rate": 3.698532044396706e-05,
      "loss": 2.0741,
      "num_input_tokens_seen": 1031012352,
      "step": 2622
    },
    {
      "epoch": 0.297956016623973,
      "grad_norm": 0.5515555739402771,
      "learning_rate": 3.6949516648764774e-05,
      "loss": 2.0617,
      "num_input_tokens_seen": 1033371648,
      "step": 2628
    },
    {
      "epoch": 0.29863628150210986,
      "grad_norm": 0.6501288414001465,
      "learning_rate": 3.6913712853562485e-05,
      "loss": 2.1319,
      "num_input_tokens_seen": 1035730944,
      "step": 2634
    },
    {
      "epoch": 0.2993165463802468,
      "grad_norm": 0.6460755467414856,
      "learning_rate": 3.687790905836019e-05,
      "loss": 2.0581,
      "num_input_tokens_seen": 1038090240,
      "step": 2640
    },
    {
      "epoch": 0.29999681125838373,
      "grad_norm": 0.5400772094726562,
      "learning_rate": 3.6842105263157895e-05,
      "loss": 2.0937,
      "num_input_tokens_seen": 1040449536,
      "step": 2646
    },
    {
      "epoch": 0.30067707613652067,
      "grad_norm": 0.7050911784172058,
      "learning_rate": 3.6806301467955606e-05,
      "loss": 2.0414,
      "num_input_tokens_seen": 1042808832,
      "step": 2652
    },
    {
      "epoch": 0.3013573410146576,
      "grad_norm": 0.502206563949585,
      "learning_rate": 3.677049767275331e-05,
      "loss": 2.0569,
      "num_input_tokens_seen": 1045168128,
      "step": 2658
    },
    {
      "epoch": 0.3020376058927945,
      "grad_norm": 0.6481841206550598,
      "learning_rate": 3.673469387755102e-05,
      "loss": 2.0846,
      "num_input_tokens_seen": 1047527424,
      "step": 2664
    },
    {
      "epoch": 0.30271787077093143,
      "grad_norm": 0.6112203598022461,
      "learning_rate": 3.669889008234873e-05,
      "loss": 2.0746,
      "num_input_tokens_seen": 1049886720,
      "step": 2670
    },
    {
      "epoch": 0.30339813564906837,
      "grad_norm": 0.6601382493972778,
      "learning_rate": 3.666308628714644e-05,
      "loss": 2.052,
      "num_input_tokens_seen": 1052246016,
      "step": 2676
    },
    {
      "epoch": 0.3040784005272053,
      "grad_norm": 0.7059093713760376,
      "learning_rate": 3.662728249194415e-05,
      "loss": 2.046,
      "num_input_tokens_seen": 1054605312,
      "step": 2682
    },
    {
      "epoch": 0.3047586654053422,
      "grad_norm": 0.7588717341423035,
      "learning_rate": 3.6591478696741855e-05,
      "loss": 2.0597,
      "num_input_tokens_seen": 1056964608,
      "step": 2688
    },
    {
      "epoch": 0.3054389302834791,
      "grad_norm": 0.7248372435569763,
      "learning_rate": 3.655567490153957e-05,
      "loss": 2.0673,
      "num_input_tokens_seen": 1059323904,
      "step": 2694
    },
    {
      "epoch": 0.30611919516161606,
      "grad_norm": 0.581738293170929,
      "learning_rate": 3.651987110633727e-05,
      "loss": 2.084,
      "num_input_tokens_seen": 1061683200,
      "step": 2700
    },
    {
      "epoch": 0.306799460039753,
      "grad_norm": 0.5930314064025879,
      "learning_rate": 3.648406731113498e-05,
      "loss": 2.1012,
      "num_input_tokens_seen": 1064042496,
      "step": 2706
    },
    {
      "epoch": 0.3074797249178899,
      "grad_norm": 0.584109365940094,
      "learning_rate": 3.644826351593269e-05,
      "loss": 2.0744,
      "num_input_tokens_seen": 1066401792,
      "step": 2712
    },
    {
      "epoch": 0.3081599897960268,
      "grad_norm": 0.5961458086967468,
      "learning_rate": 3.64124597207304e-05,
      "loss": 2.0837,
      "num_input_tokens_seen": 1068761088,
      "step": 2718
    },
    {
      "epoch": 0.30884025467416376,
      "grad_norm": 0.6335872411727905,
      "learning_rate": 3.637665592552811e-05,
      "loss": 2.0681,
      "num_input_tokens_seen": 1071120384,
      "step": 2724
    },
    {
      "epoch": 0.3095205195523007,
      "grad_norm": 0.6117258071899414,
      "learning_rate": 3.6340852130325816e-05,
      "loss": 2.1143,
      "num_input_tokens_seen": 1073479680,
      "step": 2730
    },
    {
      "epoch": 0.3102007844304376,
      "grad_norm": 0.5619468688964844,
      "learning_rate": 3.630504833512353e-05,
      "loss": 2.0558,
      "num_input_tokens_seen": 1075838976,
      "step": 2736
    },
    {
      "epoch": 0.3108810493085745,
      "grad_norm": 0.555188000202179,
      "learning_rate": 3.626924453992123e-05,
      "loss": 2.0814,
      "num_input_tokens_seen": 1078198272,
      "step": 2742
    },
    {
      "epoch": 0.31156131418671146,
      "grad_norm": 0.5773251056671143,
      "learning_rate": 3.6233440744718944e-05,
      "loss": 2.0728,
      "num_input_tokens_seen": 1080557568,
      "step": 2748
    },
    {
      "epoch": 0.3122415790648484,
      "grad_norm": 0.6792175769805908,
      "learning_rate": 3.619763694951665e-05,
      "loss": 2.0708,
      "num_input_tokens_seen": 1082916864,
      "step": 2754
    },
    {
      "epoch": 0.3129218439429853,
      "grad_norm": 0.6672898530960083,
      "learning_rate": 3.616183315431436e-05,
      "loss": 2.0112,
      "num_input_tokens_seen": 1085276160,
      "step": 2760
    },
    {
      "epoch": 0.3136021088211222,
      "grad_norm": 0.6736769676208496,
      "learning_rate": 3.6126029359112065e-05,
      "loss": 2.0495,
      "num_input_tokens_seen": 1087635456,
      "step": 2766
    },
    {
      "epoch": 0.31428237369925915,
      "grad_norm": 0.6413402557373047,
      "learning_rate": 3.6090225563909776e-05,
      "loss": 1.9964,
      "num_input_tokens_seen": 1089994752,
      "step": 2772
    },
    {
      "epoch": 0.3149626385773961,
      "grad_norm": 0.5596314668655396,
      "learning_rate": 3.605442176870749e-05,
      "loss": 2.0394,
      "num_input_tokens_seen": 1092354048,
      "step": 2778
    },
    {
      "epoch": 0.315642903455533,
      "grad_norm": 0.5517847537994385,
      "learning_rate": 3.601861797350519e-05,
      "loss": 2.0687,
      "num_input_tokens_seen": 1094713344,
      "step": 2784
    },
    {
      "epoch": 0.3163231683336699,
      "grad_norm": 0.6080681085586548,
      "learning_rate": 3.5982814178302904e-05,
      "loss": 2.1019,
      "num_input_tokens_seen": 1097072640,
      "step": 2790
    },
    {
      "epoch": 0.31700343321180685,
      "grad_norm": 0.6057153344154358,
      "learning_rate": 3.594701038310061e-05,
      "loss": 2.0843,
      "num_input_tokens_seen": 1099431936,
      "step": 2796
    },
    {
      "epoch": 0.3174569431305648,
      "eval_accuracy": 0.5775622710622711,
      "eval_loss": 2.0592379570007324,
      "eval_runtime": 128.8803,
      "eval_samples_per_second": 3.104,
      "eval_steps_per_second": 1.04,
      "num_input_tokens_seen": 1101004800,
      "step": 2800
    },
    {
      "epoch": 0.3176836980899438,
      "grad_norm": 0.6708900332450867,
      "learning_rate": 3.591120658789832e-05,
      "loss": 2.1171,
      "num_input_tokens_seen": 1101791232,
      "step": 2802
    },
    {
      "epoch": 0.31836396296808067,
      "grad_norm": 0.5367056727409363,
      "learning_rate": 3.5875402792696025e-05,
      "loss": 2.0848,
      "num_input_tokens_seen": 1104150528,
      "step": 2808
    },
    {
      "epoch": 0.3190442278462176,
      "grad_norm": 0.6883641481399536,
      "learning_rate": 3.583959899749374e-05,
      "loss": 2.1015,
      "num_input_tokens_seen": 1106509824,
      "step": 2814
    },
    {
      "epoch": 0.31972449272435455,
      "grad_norm": 0.6446415781974792,
      "learning_rate": 3.580379520229145e-05,
      "loss": 2.079,
      "num_input_tokens_seen": 1108869120,
      "step": 2820
    },
    {
      "epoch": 0.3204047576024915,
      "grad_norm": 0.642508864402771,
      "learning_rate": 3.576799140708915e-05,
      "loss": 2.1132,
      "num_input_tokens_seen": 1111228416,
      "step": 2826
    },
    {
      "epoch": 0.32108502248062837,
      "grad_norm": 0.5669949054718018,
      "learning_rate": 3.5732187611886865e-05,
      "loss": 2.0901,
      "num_input_tokens_seen": 1113587712,
      "step": 2832
    },
    {
      "epoch": 0.3217652873587653,
      "grad_norm": 0.7657294869422913,
      "learning_rate": 3.569638381668457e-05,
      "loss": 2.0556,
      "num_input_tokens_seen": 1115947008,
      "step": 2838
    },
    {
      "epoch": 0.32244555223690224,
      "grad_norm": 0.7742637991905212,
      "learning_rate": 3.5660580021482274e-05,
      "loss": 2.0113,
      "num_input_tokens_seen": 1118306304,
      "step": 2844
    },
    {
      "epoch": 0.3231258171150392,
      "grad_norm": 0.7039967179298401,
      "learning_rate": 3.5624776226279986e-05,
      "loss": 2.079,
      "num_input_tokens_seen": 1120665600,
      "step": 2850
    },
    {
      "epoch": 0.3238060819931761,
      "grad_norm": 0.580337643623352,
      "learning_rate": 3.55889724310777e-05,
      "loss": 2.0946,
      "num_input_tokens_seen": 1123024896,
      "step": 2856
    },
    {
      "epoch": 0.324486346871313,
      "grad_norm": 0.5866253972053528,
      "learning_rate": 3.555316863587541e-05,
      "loss": 2.086,
      "num_input_tokens_seen": 1125384192,
      "step": 2862
    },
    {
      "epoch": 0.32516661174944994,
      "grad_norm": 0.5165377259254456,
      "learning_rate": 3.5517364840673114e-05,
      "loss": 2.0419,
      "num_input_tokens_seen": 1127743488,
      "step": 2868
    },
    {
      "epoch": 0.3258468766275869,
      "grad_norm": 0.5327121615409851,
      "learning_rate": 3.5481561045470825e-05,
      "loss": 2.064,
      "num_input_tokens_seen": 1130102784,
      "step": 2874
    },
    {
      "epoch": 0.3265271415057238,
      "grad_norm": 0.7180930972099304,
      "learning_rate": 3.544575725026853e-05,
      "loss": 1.9961,
      "num_input_tokens_seen": 1132462080,
      "step": 2880
    },
    {
      "epoch": 0.3272074063838607,
      "grad_norm": 0.5961750745773315,
      "learning_rate": 3.5409953455066235e-05,
      "loss": 2.031,
      "num_input_tokens_seen": 1134821376,
      "step": 2886
    },
    {
      "epoch": 0.32788767126199764,
      "grad_norm": 0.6628397107124329,
      "learning_rate": 3.5374149659863946e-05,
      "loss": 1.9875,
      "num_input_tokens_seen": 1137180672,
      "step": 2892
    },
    {
      "epoch": 0.3285679361401346,
      "grad_norm": 0.606051504611969,
      "learning_rate": 3.533834586466165e-05,
      "loss": 2.0553,
      "num_input_tokens_seen": 1139539968,
      "step": 2898
    },
    {
      "epoch": 0.3292482010182715,
      "grad_norm": 0.6407272219657898,
      "learning_rate": 3.530254206945936e-05,
      "loss": 2.0333,
      "num_input_tokens_seen": 1141899264,
      "step": 2904
    },
    {
      "epoch": 0.3299284658964084,
      "grad_norm": 0.5641146302223206,
      "learning_rate": 3.5266738274257074e-05,
      "loss": 2.1093,
      "num_input_tokens_seen": 1144258560,
      "step": 2910
    },
    {
      "epoch": 0.33060873077454533,
      "grad_norm": 0.6447109580039978,
      "learning_rate": 3.5230934479054786e-05,
      "loss": 2.0108,
      "num_input_tokens_seen": 1146617856,
      "step": 2916
    },
    {
      "epoch": 0.33128899565268227,
      "grad_norm": 0.6956091523170471,
      "learning_rate": 3.519513068385249e-05,
      "loss": 2.0884,
      "num_input_tokens_seen": 1148977152,
      "step": 2922
    },
    {
      "epoch": 0.3319692605308192,
      "grad_norm": 0.6706202626228333,
      "learning_rate": 3.5159326888650195e-05,
      "loss": 2.0462,
      "num_input_tokens_seen": 1151336448,
      "step": 2928
    },
    {
      "epoch": 0.3326495254089561,
      "grad_norm": 0.5899391174316406,
      "learning_rate": 3.512352309344791e-05,
      "loss": 2.0629,
      "num_input_tokens_seen": 1153695744,
      "step": 2934
    },
    {
      "epoch": 0.33332979028709303,
      "grad_norm": 0.695925772190094,
      "learning_rate": 3.508771929824561e-05,
      "loss": 2.0594,
      "num_input_tokens_seen": 1156055040,
      "step": 2940
    },
    {
      "epoch": 0.33401005516522997,
      "grad_norm": 0.5403394103050232,
      "learning_rate": 3.505191550304332e-05,
      "loss": 2.0885,
      "num_input_tokens_seen": 1158414336,
      "step": 2946
    },
    {
      "epoch": 0.3346903200433669,
      "grad_norm": 0.6385943293571472,
      "learning_rate": 3.5016111707841035e-05,
      "loss": 2.0986,
      "num_input_tokens_seen": 1160773632,
      "step": 2952
    },
    {
      "epoch": 0.3353705849215038,
      "grad_norm": 0.5981218218803406,
      "learning_rate": 3.4980307912638746e-05,
      "loss": 2.0232,
      "num_input_tokens_seen": 1163132928,
      "step": 2958
    },
    {
      "epoch": 0.3360508497996407,
      "grad_norm": 0.6498490571975708,
      "learning_rate": 3.494450411743645e-05,
      "loss": 2.0837,
      "num_input_tokens_seen": 1165492224,
      "step": 2964
    },
    {
      "epoch": 0.33673111467777767,
      "grad_norm": 0.5568425059318542,
      "learning_rate": 3.4908700322234156e-05,
      "loss": 2.0792,
      "num_input_tokens_seen": 1167851520,
      "step": 2970
    },
    {
      "epoch": 0.3374113795559146,
      "grad_norm": 0.5944088697433472,
      "learning_rate": 3.487289652703187e-05,
      "loss": 2.0658,
      "num_input_tokens_seen": 1170210816,
      "step": 2976
    },
    {
      "epoch": 0.3380916444340515,
      "grad_norm": 0.6015023589134216,
      "learning_rate": 3.483709273182957e-05,
      "loss": 2.0746,
      "num_input_tokens_seen": 1172570112,
      "step": 2982
    },
    {
      "epoch": 0.3387719093121884,
      "grad_norm": 0.783666729927063,
      "learning_rate": 3.4801288936627283e-05,
      "loss": 2.0295,
      "num_input_tokens_seen": 1174929408,
      "step": 2988
    },
    {
      "epoch": 0.33945217419032536,
      "grad_norm": 0.5756369829177856,
      "learning_rate": 3.476548514142499e-05,
      "loss": 2.0684,
      "num_input_tokens_seen": 1177288704,
      "step": 2994
    },
    {
      "epoch": 0.3401324390684623,
      "grad_norm": 0.6056890487670898,
      "learning_rate": 3.4729681346222707e-05,
      "loss": 2.0383,
      "num_input_tokens_seen": 1179648000,
      "step": 3000
    },
    {
      "epoch": 0.3408127039465992,
      "grad_norm": 0.8019888997077942,
      "learning_rate": 3.469387755102041e-05,
      "loss": 2.0801,
      "num_input_tokens_seen": 1182007296,
      "step": 3006
    },
    {
      "epoch": 0.3414929688247361,
      "grad_norm": 0.6044601202011108,
      "learning_rate": 3.4658073755818116e-05,
      "loss": 2.0798,
      "num_input_tokens_seen": 1184366592,
      "step": 3012
    },
    {
      "epoch": 0.34217323370287306,
      "grad_norm": 0.5998896360397339,
      "learning_rate": 3.462226996061583e-05,
      "loss": 2.0317,
      "num_input_tokens_seen": 1186725888,
      "step": 3018
    },
    {
      "epoch": 0.34285349858101,
      "grad_norm": 0.5555676221847534,
      "learning_rate": 3.458646616541353e-05,
      "loss": 1.9898,
      "num_input_tokens_seen": 1189085184,
      "step": 3024
    },
    {
      "epoch": 0.3435337634591469,
      "grad_norm": 0.5591822862625122,
      "learning_rate": 3.4550662370211244e-05,
      "loss": 2.0605,
      "num_input_tokens_seen": 1191444480,
      "step": 3030
    },
    {
      "epoch": 0.3442140283372838,
      "grad_norm": 0.6183376908302307,
      "learning_rate": 3.451485857500895e-05,
      "loss": 2.1107,
      "num_input_tokens_seen": 1193803776,
      "step": 3036
    },
    {
      "epoch": 0.34489429321542076,
      "grad_norm": 0.6081872582435608,
      "learning_rate": 3.447905477980666e-05,
      "loss": 2.0465,
      "num_input_tokens_seen": 1196163072,
      "step": 3042
    },
    {
      "epoch": 0.3455745580935577,
      "grad_norm": 0.5790855288505554,
      "learning_rate": 3.444325098460437e-05,
      "loss": 2.0326,
      "num_input_tokens_seen": 1198522368,
      "step": 3048
    },
    {
      "epoch": 0.34625482297169463,
      "grad_norm": 0.7046033143997192,
      "learning_rate": 3.440744718940208e-05,
      "loss": 2.0282,
      "num_input_tokens_seen": 1200881664,
      "step": 3054
    },
    {
      "epoch": 0.3469350878498315,
      "grad_norm": 0.6874545812606812,
      "learning_rate": 3.437164339419979e-05,
      "loss": 2.0915,
      "num_input_tokens_seen": 1203240960,
      "step": 3060
    },
    {
      "epoch": 0.34761535272796845,
      "grad_norm": 0.5742839574813843,
      "learning_rate": 3.433583959899749e-05,
      "loss": 2.097,
      "num_input_tokens_seen": 1205600256,
      "step": 3066
    },
    {
      "epoch": 0.3482956176061054,
      "grad_norm": 0.5930187702178955,
      "learning_rate": 3.4300035803795204e-05,
      "loss": 2.1049,
      "num_input_tokens_seen": 1207959552,
      "step": 3072
    },
    {
      "epoch": 0.34897588248424233,
      "grad_norm": 0.5856387615203857,
      "learning_rate": 3.426423200859291e-05,
      "loss": 2.0913,
      "num_input_tokens_seen": 1210318848,
      "step": 3078
    },
    {
      "epoch": 0.3496561473623792,
      "grad_norm": 0.6059959530830383,
      "learning_rate": 3.422842821339062e-05,
      "loss": 2.0664,
      "num_input_tokens_seen": 1212678144,
      "step": 3084
    },
    {
      "epoch": 0.35033641224051615,
      "grad_norm": 0.6338859796524048,
      "learning_rate": 3.419262441818833e-05,
      "loss": 2.0543,
      "num_input_tokens_seen": 1215037440,
      "step": 3090
    },
    {
      "epoch": 0.3510166771186531,
      "grad_norm": 0.6134727001190186,
      "learning_rate": 3.415682062298604e-05,
      "loss": 2.0758,
      "num_input_tokens_seen": 1217396736,
      "step": 3096
    },
    {
      "epoch": 0.35169694199679,
      "grad_norm": 0.7190840244293213,
      "learning_rate": 3.412101682778375e-05,
      "loss": 2.0468,
      "num_input_tokens_seen": 1219756032,
      "step": 3102
    },
    {
      "epoch": 0.3523772068749269,
      "grad_norm": 0.6040173768997192,
      "learning_rate": 3.4085213032581453e-05,
      "loss": 2.0888,
      "num_input_tokens_seen": 1222115328,
      "step": 3108
    },
    {
      "epoch": 0.35305747175306385,
      "grad_norm": 0.6416704058647156,
      "learning_rate": 3.4049409237379165e-05,
      "loss": 2.0423,
      "num_input_tokens_seen": 1224474624,
      "step": 3114
    },
    {
      "epoch": 0.3537377366312008,
      "grad_norm": 0.6157965064048767,
      "learning_rate": 3.401360544217687e-05,
      "loss": 2.0746,
      "num_input_tokens_seen": 1226833920,
      "step": 3120
    },
    {
      "epoch": 0.3544180015093377,
      "grad_norm": 0.6185963153839111,
      "learning_rate": 3.397780164697458e-05,
      "loss": 2.0451,
      "num_input_tokens_seen": 1229193216,
      "step": 3126
    },
    {
      "epoch": 0.3550982663874746,
      "grad_norm": 0.5963800549507141,
      "learning_rate": 3.3941997851772286e-05,
      "loss": 2.0392,
      "num_input_tokens_seen": 1231552512,
      "step": 3132
    },
    {
      "epoch": 0.35577853126561154,
      "grad_norm": 0.6368474960327148,
      "learning_rate": 3.390619405657e-05,
      "loss": 2.0505,
      "num_input_tokens_seen": 1233911808,
      "step": 3138
    },
    {
      "epoch": 0.3564587961437485,
      "grad_norm": 0.675567090511322,
      "learning_rate": 3.387039026136771e-05,
      "loss": 2.0833,
      "num_input_tokens_seen": 1236271104,
      "step": 3144
    },
    {
      "epoch": 0.3571390610218854,
      "grad_norm": 0.6852293014526367,
      "learning_rate": 3.3834586466165414e-05,
      "loss": 2.0318,
      "num_input_tokens_seen": 1238630400,
      "step": 3150
    },
    {
      "epoch": 0.3578193259000223,
      "grad_norm": 0.7064585089683533,
      "learning_rate": 3.3798782670963125e-05,
      "loss": 2.0657,
      "num_input_tokens_seen": 1240989696,
      "step": 3156
    },
    {
      "epoch": 0.35849959077815924,
      "grad_norm": 0.6410323977470398,
      "learning_rate": 3.376297887576083e-05,
      "loss": 2.079,
      "num_input_tokens_seen": 1243348992,
      "step": 3162
    },
    {
      "epoch": 0.3591798556562962,
      "grad_norm": 0.7537684440612793,
      "learning_rate": 3.372717508055854e-05,
      "loss": 2.0817,
      "num_input_tokens_seen": 1245708288,
      "step": 3168
    },
    {
      "epoch": 0.3598601205344331,
      "grad_norm": 0.7127799391746521,
      "learning_rate": 3.3691371285356247e-05,
      "loss": 2.0786,
      "num_input_tokens_seen": 1248067584,
      "step": 3174
    },
    {
      "epoch": 0.36054038541257,
      "grad_norm": 0.5921429991722107,
      "learning_rate": 3.365556749015396e-05,
      "loss": 2.094,
      "num_input_tokens_seen": 1250426880,
      "step": 3180
    },
    {
      "epoch": 0.36122065029070693,
      "grad_norm": 0.5365628600120544,
      "learning_rate": 3.361976369495167e-05,
      "loss": 2.0306,
      "num_input_tokens_seen": 1252786176,
      "step": 3186
    },
    {
      "epoch": 0.3619009151688439,
      "grad_norm": 0.591437816619873,
      "learning_rate": 3.3583959899749374e-05,
      "loss": 2.0486,
      "num_input_tokens_seen": 1255145472,
      "step": 3192
    },
    {
      "epoch": 0.3625811800469808,
      "grad_norm": 0.5986304879188538,
      "learning_rate": 3.3548156104547086e-05,
      "loss": 2.0571,
      "num_input_tokens_seen": 1257504768,
      "step": 3198
    },
    {
      "epoch": 0.36280793500635977,
      "eval_accuracy": 0.5792582417582418,
      "eval_loss": 2.0506937503814697,
      "eval_runtime": 129.3292,
      "eval_samples_per_second": 3.093,
      "eval_steps_per_second": 1.036,
      "num_input_tokens_seen": 1258291200,
      "step": 3200
    },
    {
      "epoch": 0.3632614449251177,
      "grad_norm": 0.6536886096000671,
      "learning_rate": 3.351235230934479e-05,
      "loss": 2.0306,
      "num_input_tokens_seen": 1259864064,
      "step": 3204
    },
    {
      "epoch": 0.36394170980325463,
      "grad_norm": 0.6367084980010986,
      "learning_rate": 3.34765485141425e-05,
      "loss": 2.0495,
      "num_input_tokens_seen": 1262223360,
      "step": 3210
    },
    {
      "epoch": 0.36462197468139157,
      "grad_norm": 0.5505596995353699,
      "learning_rate": 3.344074471894021e-05,
      "loss": 2.0235,
      "num_input_tokens_seen": 1264582656,
      "step": 3216
    },
    {
      "epoch": 0.3653022395595285,
      "grad_norm": 0.6911424398422241,
      "learning_rate": 3.340494092373791e-05,
      "loss": 2.0436,
      "num_input_tokens_seen": 1266941952,
      "step": 3222
    },
    {
      "epoch": 0.3659825044376654,
      "grad_norm": 0.8652951717376709,
      "learning_rate": 3.336913712853563e-05,
      "loss": 2.043,
      "num_input_tokens_seen": 1269301248,
      "step": 3228
    },
    {
      "epoch": 0.36666276931580233,
      "grad_norm": 0.7431092262268066,
      "learning_rate": 3.3333333333333335e-05,
      "loss": 2.0535,
      "num_input_tokens_seen": 1271660544,
      "step": 3234
    },
    {
      "epoch": 0.36734303419393927,
      "grad_norm": 0.5794050097465515,
      "learning_rate": 3.3297529538131046e-05,
      "loss": 2.0574,
      "num_input_tokens_seen": 1274019840,
      "step": 3240
    },
    {
      "epoch": 0.3680232990720762,
      "grad_norm": 0.6215260624885559,
      "learning_rate": 3.326172574292875e-05,
      "loss": 2.086,
      "num_input_tokens_seen": 1276379136,
      "step": 3246
    },
    {
      "epoch": 0.3687035639502131,
      "grad_norm": 0.5912430286407471,
      "learning_rate": 3.322592194772646e-05,
      "loss": 2.079,
      "num_input_tokens_seen": 1278738432,
      "step": 3252
    },
    {
      "epoch": 0.36938382882835,
      "grad_norm": 0.5438397526741028,
      "learning_rate": 3.319011815252417e-05,
      "loss": 2.0822,
      "num_input_tokens_seen": 1281097728,
      "step": 3258
    },
    {
      "epoch": 0.37006409370648696,
      "grad_norm": 0.585678219795227,
      "learning_rate": 3.315431435732187e-05,
      "loss": 2.0288,
      "num_input_tokens_seen": 1283457024,
      "step": 3264
    },
    {
      "epoch": 0.3707443585846239,
      "grad_norm": 0.6816807985305786,
      "learning_rate": 3.3118510562119584e-05,
      "loss": 2.0905,
      "num_input_tokens_seen": 1285816320,
      "step": 3270
    },
    {
      "epoch": 0.37142462346276084,
      "grad_norm": 0.6669751405715942,
      "learning_rate": 3.3082706766917295e-05,
      "loss": 2.0476,
      "num_input_tokens_seen": 1288175616,
      "step": 3276
    },
    {
      "epoch": 0.3721048883408977,
      "grad_norm": 0.6388877034187317,
      "learning_rate": 3.304690297171501e-05,
      "loss": 2.0814,
      "num_input_tokens_seen": 1290534912,
      "step": 3282
    },
    {
      "epoch": 0.37278515321903466,
      "grad_norm": 0.6471198797225952,
      "learning_rate": 3.301109917651271e-05,
      "loss": 2.0667,
      "num_input_tokens_seen": 1292894208,
      "step": 3288
    },
    {
      "epoch": 0.3734654180971716,
      "grad_norm": 0.5172976851463318,
      "learning_rate": 3.297529538131042e-05,
      "loss": 2.0514,
      "num_input_tokens_seen": 1295253504,
      "step": 3294
    },
    {
      "epoch": 0.37414568297530854,
      "grad_norm": 0.7585137486457825,
      "learning_rate": 3.293949158610813e-05,
      "loss": 2.0004,
      "num_input_tokens_seen": 1297612800,
      "step": 3300
    },
    {
      "epoch": 0.3748259478534454,
      "grad_norm": 0.5259309411048889,
      "learning_rate": 3.290368779090583e-05,
      "loss": 2.0757,
      "num_input_tokens_seen": 1299972096,
      "step": 3306
    },
    {
      "epoch": 0.37550621273158236,
      "grad_norm": 0.58619225025177,
      "learning_rate": 3.2867883995703544e-05,
      "loss": 2.0677,
      "num_input_tokens_seen": 1302331392,
      "step": 3312
    },
    {
      "epoch": 0.3761864776097193,
      "grad_norm": 0.5706315636634827,
      "learning_rate": 3.2832080200501256e-05,
      "loss": 2.0797,
      "num_input_tokens_seen": 1304690688,
      "step": 3318
    },
    {
      "epoch": 0.37686674248785623,
      "grad_norm": 0.5927962064743042,
      "learning_rate": 3.279627640529897e-05,
      "loss": 2.079,
      "num_input_tokens_seen": 1307049984,
      "step": 3324
    },
    {
      "epoch": 0.3775470073659931,
      "grad_norm": 0.6606913208961487,
      "learning_rate": 3.276047261009667e-05,
      "loss": 2.1193,
      "num_input_tokens_seen": 1309409280,
      "step": 3330
    },
    {
      "epoch": 0.37822727224413005,
      "grad_norm": 0.585796058177948,
      "learning_rate": 3.2724668814894384e-05,
      "loss": 2.0842,
      "num_input_tokens_seen": 1311768576,
      "step": 3336
    },
    {
      "epoch": 0.378907537122267,
      "grad_norm": 0.6631506681442261,
      "learning_rate": 3.268886501969209e-05,
      "loss": 2.055,
      "num_input_tokens_seen": 1314127872,
      "step": 3342
    },
    {
      "epoch": 0.37958780200040393,
      "grad_norm": 0.577156126499176,
      "learning_rate": 3.265306122448979e-05,
      "loss": 2.0251,
      "num_input_tokens_seen": 1316487168,
      "step": 3348
    },
    {
      "epoch": 0.3802680668785408,
      "grad_norm": 0.5798112154006958,
      "learning_rate": 3.2617257429287505e-05,
      "loss": 2.0066,
      "num_input_tokens_seen": 1318846464,
      "step": 3354
    },
    {
      "epoch": 0.38094833175667775,
      "grad_norm": 0.5928402543067932,
      "learning_rate": 3.258145363408521e-05,
      "loss": 2.0594,
      "num_input_tokens_seen": 1321205760,
      "step": 3360
    },
    {
      "epoch": 0.3816285966348147,
      "grad_norm": 0.5730792880058289,
      "learning_rate": 3.254564983888292e-05,
      "loss": 2.014,
      "num_input_tokens_seen": 1323565056,
      "step": 3366
    },
    {
      "epoch": 0.3823088615129516,
      "grad_norm": 0.606386661529541,
      "learning_rate": 3.250984604368063e-05,
      "loss": 2.0674,
      "num_input_tokens_seen": 1325924352,
      "step": 3372
    },
    {
      "epoch": 0.3829891263910885,
      "grad_norm": 0.6056506037712097,
      "learning_rate": 3.2474042248478344e-05,
      "loss": 2.0847,
      "num_input_tokens_seen": 1328283648,
      "step": 3378
    },
    {
      "epoch": 0.38366939126922545,
      "grad_norm": 0.547749936580658,
      "learning_rate": 3.243823845327605e-05,
      "loss": 2.0519,
      "num_input_tokens_seen": 1330642944,
      "step": 3384
    },
    {
      "epoch": 0.3843496561473624,
      "grad_norm": 0.5810631513595581,
      "learning_rate": 3.2402434658073754e-05,
      "loss": 2.0552,
      "num_input_tokens_seen": 1333002240,
      "step": 3390
    },
    {
      "epoch": 0.3850299210254993,
      "grad_norm": 0.7057521343231201,
      "learning_rate": 3.2366630862871465e-05,
      "loss": 2.1079,
      "num_input_tokens_seen": 1335361536,
      "step": 3396
    },
    {
      "epoch": 0.3857101859036362,
      "grad_norm": 0.6711981892585754,
      "learning_rate": 3.233082706766917e-05,
      "loss": 2.0651,
      "num_input_tokens_seen": 1337720832,
      "step": 3402
    },
    {
      "epoch": 0.38639045078177314,
      "grad_norm": 0.7233543992042542,
      "learning_rate": 3.229502327246688e-05,
      "loss": 2.05,
      "num_input_tokens_seen": 1340080128,
      "step": 3408
    },
    {
      "epoch": 0.3870707156599101,
      "grad_norm": 0.6906174421310425,
      "learning_rate": 3.225921947726459e-05,
      "loss": 2.0953,
      "num_input_tokens_seen": 1342439424,
      "step": 3414
    },
    {
      "epoch": 0.387750980538047,
      "grad_norm": 0.634935736656189,
      "learning_rate": 3.2223415682062305e-05,
      "loss": 2.0757,
      "num_input_tokens_seen": 1344798720,
      "step": 3420
    },
    {
      "epoch": 0.3884312454161839,
      "grad_norm": 0.6409153342247009,
      "learning_rate": 3.218761188686001e-05,
      "loss": 2.0493,
      "num_input_tokens_seen": 1347158016,
      "step": 3426
    },
    {
      "epoch": 0.38911151029432084,
      "grad_norm": 0.5605142116546631,
      "learning_rate": 3.2151808091657714e-05,
      "loss": 2.0471,
      "num_input_tokens_seen": 1349517312,
      "step": 3432
    },
    {
      "epoch": 0.3897917751724578,
      "grad_norm": 0.5918275117874146,
      "learning_rate": 3.2116004296455426e-05,
      "loss": 2.0703,
      "num_input_tokens_seen": 1351876608,
      "step": 3438
    },
    {
      "epoch": 0.3904720400505947,
      "grad_norm": 0.583743155002594,
      "learning_rate": 3.208020050125313e-05,
      "loss": 2.0535,
      "num_input_tokens_seen": 1354235904,
      "step": 3444
    },
    {
      "epoch": 0.3911523049287316,
      "grad_norm": 0.5591037273406982,
      "learning_rate": 3.204439670605084e-05,
      "loss": 2.0863,
      "num_input_tokens_seen": 1356595200,
      "step": 3450
    },
    {
      "epoch": 0.39183256980686854,
      "grad_norm": 0.5802523493766785,
      "learning_rate": 3.2008592910848554e-05,
      "loss": 2.1016,
      "num_input_tokens_seen": 1358954496,
      "step": 3456
    },
    {
      "epoch": 0.3925128346850055,
      "grad_norm": 0.5013401508331299,
      "learning_rate": 3.1972789115646265e-05,
      "loss": 2.0506,
      "num_input_tokens_seen": 1361313792,
      "step": 3462
    },
    {
      "epoch": 0.3931930995631424,
      "grad_norm": 0.6218020915985107,
      "learning_rate": 3.193698532044397e-05,
      "loss": 2.079,
      "num_input_tokens_seen": 1363673088,
      "step": 3468
    },
    {
      "epoch": 0.39387336444127935,
      "grad_norm": 0.591705858707428,
      "learning_rate": 3.1901181525241675e-05,
      "loss": 2.0478,
      "num_input_tokens_seen": 1366032384,
      "step": 3474
    },
    {
      "epoch": 0.39455362931941623,
      "grad_norm": 0.6699190139770508,
      "learning_rate": 3.1865377730039386e-05,
      "loss": 2.0473,
      "num_input_tokens_seen": 1368391680,
      "step": 3480
    },
    {
      "epoch": 0.39523389419755317,
      "grad_norm": 0.6555076241493225,
      "learning_rate": 3.182957393483709e-05,
      "loss": 2.0559,
      "num_input_tokens_seen": 1370750976,
      "step": 3486
    },
    {
      "epoch": 0.3959141590756901,
      "grad_norm": 0.7014250159263611,
      "learning_rate": 3.17937701396348e-05,
      "loss": 2.0714,
      "num_input_tokens_seen": 1373110272,
      "step": 3492
    },
    {
      "epoch": 0.39659442395382705,
      "grad_norm": 0.588550329208374,
      "learning_rate": 3.175796634443251e-05,
      "loss": 2.0885,
      "num_input_tokens_seen": 1375469568,
      "step": 3498
    },
    {
      "epoch": 0.39727468883196393,
      "grad_norm": 0.572462260723114,
      "learning_rate": 3.172216254923022e-05,
      "loss": 2.0506,
      "num_input_tokens_seen": 1377828864,
      "step": 3504
    },
    {
      "epoch": 0.39795495371010087,
      "grad_norm": 0.534345805644989,
      "learning_rate": 3.168635875402793e-05,
      "loss": 2.0648,
      "num_input_tokens_seen": 1380188160,
      "step": 3510
    },
    {
      "epoch": 0.3986352185882378,
      "grad_norm": 0.6382195949554443,
      "learning_rate": 3.1650554958825635e-05,
      "loss": 2.0084,
      "num_input_tokens_seen": 1382547456,
      "step": 3516
    },
    {
      "epoch": 0.39931548346637474,
      "grad_norm": 0.6456411480903625,
      "learning_rate": 3.161475116362335e-05,
      "loss": 2.0935,
      "num_input_tokens_seen": 1384906752,
      "step": 3522
    },
    {
      "epoch": 0.3999957483445116,
      "grad_norm": 0.6360987424850464,
      "learning_rate": 3.157894736842105e-05,
      "loss": 2.0757,
      "num_input_tokens_seen": 1387266048,
      "step": 3528
    },
    {
      "epoch": 0.40067601322264856,
      "grad_norm": 0.6245688199996948,
      "learning_rate": 3.154314357321876e-05,
      "loss": 2.0381,
      "num_input_tokens_seen": 1389625344,
      "step": 3534
    },
    {
      "epoch": 0.4013562781007855,
      "grad_norm": 0.6057738661766052,
      "learning_rate": 3.150733977801647e-05,
      "loss": 2.0865,
      "num_input_tokens_seen": 1391984640,
      "step": 3540
    },
    {
      "epoch": 0.40203654297892244,
      "grad_norm": 0.6015221476554871,
      "learning_rate": 3.147153598281418e-05,
      "loss": 2.0725,
      "num_input_tokens_seen": 1394343936,
      "step": 3546
    },
    {
      "epoch": 0.4027168078570593,
      "grad_norm": 0.6431640982627869,
      "learning_rate": 3.143573218761189e-05,
      "loss": 2.0358,
      "num_input_tokens_seen": 1396703232,
      "step": 3552
    },
    {
      "epoch": 0.40339707273519626,
      "grad_norm": 0.5379701256752014,
      "learning_rate": 3.1399928392409596e-05,
      "loss": 2.0898,
      "num_input_tokens_seen": 1399062528,
      "step": 3558
    },
    {
      "epoch": 0.4040773376133332,
      "grad_norm": 0.647147536277771,
      "learning_rate": 3.136412459720731e-05,
      "loss": 2.0025,
      "num_input_tokens_seen": 1401421824,
      "step": 3564
    },
    {
      "epoch": 0.40475760249147014,
      "grad_norm": 0.547764003276825,
      "learning_rate": 3.132832080200501e-05,
      "loss": 2.0452,
      "num_input_tokens_seen": 1403781120,
      "step": 3570
    },
    {
      "epoch": 0.405437867369607,
      "grad_norm": 0.7669888734817505,
      "learning_rate": 3.1292517006802724e-05,
      "loss": 2.0367,
      "num_input_tokens_seen": 1406140416,
      "step": 3576
    },
    {
      "epoch": 0.40611813224774396,
      "grad_norm": 0.5902658700942993,
      "learning_rate": 3.125671321160043e-05,
      "loss": 2.0263,
      "num_input_tokens_seen": 1408499712,
      "step": 3582
    },
    {
      "epoch": 0.4067983971258809,
      "grad_norm": 0.5572285056114197,
      "learning_rate": 3.122090941639814e-05,
      "loss": 2.0315,
      "num_input_tokens_seen": 1410859008,
      "step": 3588
    },
    {
      "epoch": 0.40747866200401783,
      "grad_norm": 0.58447265625,
      "learning_rate": 3.1185105621195845e-05,
      "loss": 2.1052,
      "num_input_tokens_seen": 1413218304,
      "step": 3594
    },
    {
      "epoch": 0.4081589268821547,
      "grad_norm": 0.5623412132263184,
      "learning_rate": 3.1149301825993556e-05,
      "loss": 2.0841,
      "num_input_tokens_seen": 1415577600,
      "step": 3600
    },
    {
      "epoch": 0.4081589268821547,
      "eval_accuracy": 0.5801733821733822,
      "eval_loss": 2.0434608459472656,
      "eval_runtime": 128.4268,
      "eval_samples_per_second": 3.115,
      "eval_steps_per_second": 1.043,
      "num_input_tokens_seen": 1415577600,
      "step": 3600
    },
    {
      "epoch": 0.40883919176029165,
      "grad_norm": 0.5253978371620178,
      "learning_rate": 3.111349803079127e-05,
      "loss": 2.04,
      "num_input_tokens_seen": 1417936896,
      "step": 3606
    },
    {
      "epoch": 0.4095194566384286,
      "grad_norm": 0.5712242722511292,
      "learning_rate": 3.107769423558897e-05,
      "loss": 2.0483,
      "num_input_tokens_seen": 1420296192,
      "step": 3612
    },
    {
      "epoch": 0.41019972151656553,
      "grad_norm": 0.5923311710357666,
      "learning_rate": 3.1041890440386684e-05,
      "loss": 2.0499,
      "num_input_tokens_seen": 1422655488,
      "step": 3618
    },
    {
      "epoch": 0.4108799863947024,
      "grad_norm": 0.8339553475379944,
      "learning_rate": 3.100608664518439e-05,
      "loss": 2.1001,
      "num_input_tokens_seen": 1425014784,
      "step": 3624
    },
    {
      "epoch": 0.41156025127283935,
      "grad_norm": 0.6857354044914246,
      "learning_rate": 3.09702828499821e-05,
      "loss": 1.9921,
      "num_input_tokens_seen": 1427374080,
      "step": 3630
    },
    {
      "epoch": 0.4122405161509763,
      "grad_norm": 0.6165304183959961,
      "learning_rate": 3.0934479054779805e-05,
      "loss": 2.0732,
      "num_input_tokens_seen": 1429733376,
      "step": 3636
    },
    {
      "epoch": 0.4129207810291132,
      "grad_norm": 0.528439998626709,
      "learning_rate": 3.089867525957752e-05,
      "loss": 2.0696,
      "num_input_tokens_seen": 1432092672,
      "step": 3642
    },
    {
      "epoch": 0.4136010459072501,
      "grad_norm": 0.5932063460350037,
      "learning_rate": 3.086287146437523e-05,
      "loss": 2.0249,
      "num_input_tokens_seen": 1434451968,
      "step": 3648
    },
    {
      "epoch": 0.41428131078538705,
      "grad_norm": 0.6371628046035767,
      "learning_rate": 3.082706766917293e-05,
      "loss": 2.0799,
      "num_input_tokens_seen": 1436811264,
      "step": 3654
    },
    {
      "epoch": 0.414961575663524,
      "grad_norm": 0.5642787218093872,
      "learning_rate": 3.0791263873970645e-05,
      "loss": 2.0326,
      "num_input_tokens_seen": 1439170560,
      "step": 3660
    },
    {
      "epoch": 0.4156418405416609,
      "grad_norm": 0.6325972080230713,
      "learning_rate": 3.075546007876835e-05,
      "loss": 2.0502,
      "num_input_tokens_seen": 1441529856,
      "step": 3666
    },
    {
      "epoch": 0.41632210541979786,
      "grad_norm": 0.557271420955658,
      "learning_rate": 3.071965628356606e-05,
      "loss": 2.0377,
      "num_input_tokens_seen": 1443889152,
      "step": 3672
    },
    {
      "epoch": 0.41700237029793474,
      "grad_norm": 0.5825797319412231,
      "learning_rate": 3.0683852488363766e-05,
      "loss": 2.0536,
      "num_input_tokens_seen": 1446248448,
      "step": 3678
    },
    {
      "epoch": 0.4176826351760717,
      "grad_norm": 0.6249643564224243,
      "learning_rate": 3.064804869316148e-05,
      "loss": 2.0838,
      "num_input_tokens_seen": 1448607744,
      "step": 3684
    },
    {
      "epoch": 0.4183629000542086,
      "grad_norm": 0.6836763024330139,
      "learning_rate": 3.061224489795919e-05,
      "loss": 2.0301,
      "num_input_tokens_seen": 1450967040,
      "step": 3690
    },
    {
      "epoch": 0.41904316493234556,
      "grad_norm": 0.5793729424476624,
      "learning_rate": 3.0576441102756894e-05,
      "loss": 2.0429,
      "num_input_tokens_seen": 1453326336,
      "step": 3696
    },
    {
      "epoch": 0.41972342981048244,
      "grad_norm": 0.6290580034255981,
      "learning_rate": 3.0540637307554605e-05,
      "loss": 2.0906,
      "num_input_tokens_seen": 1455685632,
      "step": 3702
    },
    {
      "epoch": 0.4204036946886194,
      "grad_norm": 0.6509286165237427,
      "learning_rate": 3.050483351235231e-05,
      "loss": 2.0252,
      "num_input_tokens_seen": 1458044928,
      "step": 3708
    },
    {
      "epoch": 0.4210839595667563,
      "grad_norm": 0.5808912515640259,
      "learning_rate": 3.046902971715002e-05,
      "loss": 2.0958,
      "num_input_tokens_seen": 1460404224,
      "step": 3714
    },
    {
      "epoch": 0.42176422444489325,
      "grad_norm": 0.6550482511520386,
      "learning_rate": 3.0433225921947726e-05,
      "loss": 2.0413,
      "num_input_tokens_seen": 1462763520,
      "step": 3720
    },
    {
      "epoch": 0.42244448932303014,
      "grad_norm": 0.6474577784538269,
      "learning_rate": 3.0397422126745434e-05,
      "loss": 2.0362,
      "num_input_tokens_seen": 1465122816,
      "step": 3726
    },
    {
      "epoch": 0.4231247542011671,
      "grad_norm": 0.6413889527320862,
      "learning_rate": 3.0361618331543146e-05,
      "loss": 2.0385,
      "num_input_tokens_seen": 1467482112,
      "step": 3732
    },
    {
      "epoch": 0.423805019079304,
      "grad_norm": 0.5291987061500549,
      "learning_rate": 3.032581453634085e-05,
      "loss": 2.0211,
      "num_input_tokens_seen": 1469841408,
      "step": 3738
    },
    {
      "epoch": 0.42448528395744095,
      "grad_norm": 0.5267509818077087,
      "learning_rate": 3.0290010741138562e-05,
      "loss": 2.0544,
      "num_input_tokens_seen": 1472200704,
      "step": 3744
    },
    {
      "epoch": 0.42516554883557783,
      "grad_norm": 0.5063323974609375,
      "learning_rate": 3.025420694593627e-05,
      "loss": 2.112,
      "num_input_tokens_seen": 1474560000,
      "step": 3750
    },
    {
      "epoch": 0.42584581371371477,
      "grad_norm": 0.5626435875892639,
      "learning_rate": 3.0218403150733982e-05,
      "loss": 2.0111,
      "num_input_tokens_seen": 1476919296,
      "step": 3756
    },
    {
      "epoch": 0.4265260785918517,
      "grad_norm": 0.5254883766174316,
      "learning_rate": 3.0182599355531687e-05,
      "loss": 2.0665,
      "num_input_tokens_seen": 1479278592,
      "step": 3762
    },
    {
      "epoch": 0.42720634346998865,
      "grad_norm": 0.6676201224327087,
      "learning_rate": 3.0146795560329395e-05,
      "loss": 2.0553,
      "num_input_tokens_seen": 1481637888,
      "step": 3768
    },
    {
      "epoch": 0.42788660834812553,
      "grad_norm": 0.618036150932312,
      "learning_rate": 3.0110991765127106e-05,
      "loss": 2.0896,
      "num_input_tokens_seen": 1483997184,
      "step": 3774
    },
    {
      "epoch": 0.42856687322626247,
      "grad_norm": 0.5902726054191589,
      "learning_rate": 3.007518796992481e-05,
      "loss": 2.0941,
      "num_input_tokens_seen": 1486356480,
      "step": 3780
    },
    {
      "epoch": 0.4292471381043994,
      "grad_norm": 0.6541236639022827,
      "learning_rate": 3.0039384174722523e-05,
      "loss": 2.0441,
      "num_input_tokens_seen": 1488715776,
      "step": 3786
    },
    {
      "epoch": 0.42992740298253634,
      "grad_norm": 0.6734746098518372,
      "learning_rate": 3.000358037952023e-05,
      "loss": 2.098,
      "num_input_tokens_seen": 1491075072,
      "step": 3792
    },
    {
      "epoch": 0.4306076678606732,
      "grad_norm": 0.690733015537262,
      "learning_rate": 2.9967776584317943e-05,
      "loss": 2.0626,
      "num_input_tokens_seen": 1493434368,
      "step": 3798
    },
    {
      "epoch": 0.43128793273881016,
      "grad_norm": 0.6429844498634338,
      "learning_rate": 2.9931972789115647e-05,
      "loss": 2.0556,
      "num_input_tokens_seen": 1495793664,
      "step": 3804
    },
    {
      "epoch": 0.4319681976169471,
      "grad_norm": 0.692583441734314,
      "learning_rate": 2.9896168993913355e-05,
      "loss": 2.041,
      "num_input_tokens_seen": 1498152960,
      "step": 3810
    },
    {
      "epoch": 0.43264846249508404,
      "grad_norm": 0.5887177586555481,
      "learning_rate": 2.9860365198711067e-05,
      "loss": 2.0964,
      "num_input_tokens_seen": 1500512256,
      "step": 3816
    },
    {
      "epoch": 0.4333287273732209,
      "grad_norm": 0.5106215476989746,
      "learning_rate": 2.9824561403508772e-05,
      "loss": 1.9808,
      "num_input_tokens_seen": 1502871552,
      "step": 3822
    },
    {
      "epoch": 0.43400899225135786,
      "grad_norm": 0.648137629032135,
      "learning_rate": 2.9788757608306483e-05,
      "loss": 2.0234,
      "num_input_tokens_seen": 1505230848,
      "step": 3828
    },
    {
      "epoch": 0.4346892571294948,
      "grad_norm": 0.5356113314628601,
      "learning_rate": 2.9752953813104188e-05,
      "loss": 2.0467,
      "num_input_tokens_seen": 1507590144,
      "step": 3834
    },
    {
      "epoch": 0.43536952200763174,
      "grad_norm": 0.5586897134780884,
      "learning_rate": 2.9717150017901903e-05,
      "loss": 2.0798,
      "num_input_tokens_seen": 1509949440,
      "step": 3840
    },
    {
      "epoch": 0.4360497868857686,
      "grad_norm": 0.5449038743972778,
      "learning_rate": 2.9681346222699608e-05,
      "loss": 2.074,
      "num_input_tokens_seen": 1512308736,
      "step": 3846
    },
    {
      "epoch": 0.43673005176390556,
      "grad_norm": 0.610542893409729,
      "learning_rate": 2.9645542427497313e-05,
      "loss": 2.0539,
      "num_input_tokens_seen": 1514668032,
      "step": 3852
    },
    {
      "epoch": 0.4374103166420425,
      "grad_norm": 0.591969907283783,
      "learning_rate": 2.9609738632295024e-05,
      "loss": 2.0768,
      "num_input_tokens_seen": 1517027328,
      "step": 3858
    },
    {
      "epoch": 0.43809058152017943,
      "grad_norm": 0.6223018765449524,
      "learning_rate": 2.9573934837092732e-05,
      "loss": 1.9882,
      "num_input_tokens_seen": 1519386624,
      "step": 3864
    },
    {
      "epoch": 0.43877084639831637,
      "grad_norm": 0.5089840292930603,
      "learning_rate": 2.9538131041890444e-05,
      "loss": 2.03,
      "num_input_tokens_seen": 1521745920,
      "step": 3870
    },
    {
      "epoch": 0.43945111127645325,
      "grad_norm": 0.6258916854858398,
      "learning_rate": 2.950232724668815e-05,
      "loss": 2.0287,
      "num_input_tokens_seen": 1524105216,
      "step": 3876
    },
    {
      "epoch": 0.4401313761545902,
      "grad_norm": 0.7169709205627441,
      "learning_rate": 2.946652345148586e-05,
      "loss": 2.0542,
      "num_input_tokens_seen": 1526464512,
      "step": 3882
    },
    {
      "epoch": 0.44081164103272713,
      "grad_norm": 0.7032943367958069,
      "learning_rate": 2.9430719656283568e-05,
      "loss": 2.0616,
      "num_input_tokens_seen": 1528823808,
      "step": 3888
    },
    {
      "epoch": 0.44149190591086407,
      "grad_norm": 0.7222307324409485,
      "learning_rate": 2.9394915861081273e-05,
      "loss": 2.0536,
      "num_input_tokens_seen": 1531183104,
      "step": 3894
    },
    {
      "epoch": 0.44217217078900095,
      "grad_norm": 0.6075944304466248,
      "learning_rate": 2.9359112065878985e-05,
      "loss": 2.0727,
      "num_input_tokens_seen": 1533542400,
      "step": 3900
    },
    {
      "epoch": 0.4428524356671379,
      "grad_norm": 0.5314520597457886,
      "learning_rate": 2.9323308270676693e-05,
      "loss": 2.0807,
      "num_input_tokens_seen": 1535901696,
      "step": 3906
    },
    {
      "epoch": 0.4435327005452748,
      "grad_norm": 0.5990427136421204,
      "learning_rate": 2.9287504475474404e-05,
      "loss": 2.0537,
      "num_input_tokens_seen": 1538260992,
      "step": 3912
    },
    {
      "epoch": 0.44421296542341177,
      "grad_norm": 0.6096120476722717,
      "learning_rate": 2.925170068027211e-05,
      "loss": 2.0997,
      "num_input_tokens_seen": 1540620288,
      "step": 3918
    },
    {
      "epoch": 0.44489323030154865,
      "grad_norm": 0.5830526351928711,
      "learning_rate": 2.921589688506982e-05,
      "loss": 2.0595,
      "num_input_tokens_seen": 1542979584,
      "step": 3924
    },
    {
      "epoch": 0.4455734951796856,
      "grad_norm": 0.5455676913261414,
      "learning_rate": 2.918009308986753e-05,
      "loss": 2.0565,
      "num_input_tokens_seen": 1545338880,
      "step": 3930
    },
    {
      "epoch": 0.4462537600578225,
      "grad_norm": 0.5473060011863708,
      "learning_rate": 2.9144289294665234e-05,
      "loss": 2.0598,
      "num_input_tokens_seen": 1547698176,
      "step": 3936
    },
    {
      "epoch": 0.44693402493595946,
      "grad_norm": 0.5502248406410217,
      "learning_rate": 2.9108485499462945e-05,
      "loss": 2.0327,
      "num_input_tokens_seen": 1550057472,
      "step": 3942
    },
    {
      "epoch": 0.44761428981409634,
      "grad_norm": 0.5692510008811951,
      "learning_rate": 2.907268170426065e-05,
      "loss": 2.0605,
      "num_input_tokens_seen": 1552416768,
      "step": 3948
    },
    {
      "epoch": 0.4482945546922333,
      "grad_norm": 0.5818192362785339,
      "learning_rate": 2.9036877909058365e-05,
      "loss": 2.058,
      "num_input_tokens_seen": 1554776064,
      "step": 3954
    },
    {
      "epoch": 0.4489748195703702,
      "grad_norm": 0.6013736128807068,
      "learning_rate": 2.900107411385607e-05,
      "loss": 2.0503,
      "num_input_tokens_seen": 1557135360,
      "step": 3960
    },
    {
      "epoch": 0.44965508444850716,
      "grad_norm": 0.5566754341125488,
      "learning_rate": 2.896527031865378e-05,
      "loss": 2.0796,
      "num_input_tokens_seen": 1559494656,
      "step": 3966
    },
    {
      "epoch": 0.45033534932664404,
      "grad_norm": 0.6082068085670471,
      "learning_rate": 2.8929466523451486e-05,
      "loss": 2.0633,
      "num_input_tokens_seen": 1561853952,
      "step": 3972
    },
    {
      "epoch": 0.451015614204781,
      "grad_norm": 0.5426793694496155,
      "learning_rate": 2.8893662728249194e-05,
      "loss": 2.0964,
      "num_input_tokens_seen": 1564213248,
      "step": 3978
    },
    {
      "epoch": 0.4516958790829179,
      "grad_norm": 0.549892246723175,
      "learning_rate": 2.8857858933046906e-05,
      "loss": 2.0454,
      "num_input_tokens_seen": 1566572544,
      "step": 3984
    },
    {
      "epoch": 0.45237614396105486,
      "grad_norm": 0.5879752039909363,
      "learning_rate": 2.882205513784461e-05,
      "loss": 2.0256,
      "num_input_tokens_seen": 1568931840,
      "step": 3990
    },
    {
      "epoch": 0.45305640883919174,
      "grad_norm": 0.6315425038337708,
      "learning_rate": 2.8786251342642322e-05,
      "loss": 2.0484,
      "num_input_tokens_seen": 1571291136,
      "step": 3996
    },
    {
      "epoch": 0.4535099187579497,
      "eval_accuracy": 0.5812625152625153,
      "eval_loss": 2.036273241043091,
      "eval_runtime": 128.5473,
      "eval_samples_per_second": 3.112,
      "eval_steps_per_second": 1.042,
      "num_input_tokens_seen": 1572864000,
      "step": 4000
    },
    {
      "epoch": 0.4537366737173287,
      "grad_norm": 0.5952754616737366,
      "learning_rate": 2.875044754744003e-05,
      "loss": 2.0647,
      "num_input_tokens_seen": 1573650432,
      "step": 4002
    },
    {
      "epoch": 0.4544169385954656,
      "grad_norm": 0.6178935766220093,
      "learning_rate": 2.871464375223774e-05,
      "loss": 2.0479,
      "num_input_tokens_seen": 1576009728,
      "step": 4008
    },
    {
      "epoch": 0.45509720347360255,
      "grad_norm": 0.5785337090492249,
      "learning_rate": 2.8678839957035446e-05,
      "loss": 2.0627,
      "num_input_tokens_seen": 1578369024,
      "step": 4014
    },
    {
      "epoch": 0.45577746835173943,
      "grad_norm": 0.7288320064544678,
      "learning_rate": 2.8643036161833155e-05,
      "loss": 2.0494,
      "num_input_tokens_seen": 1580728320,
      "step": 4020
    },
    {
      "epoch": 0.4564577332298764,
      "grad_norm": 0.5112663507461548,
      "learning_rate": 2.8607232366630866e-05,
      "loss": 2.0734,
      "num_input_tokens_seen": 1583087616,
      "step": 4026
    },
    {
      "epoch": 0.4571379981080133,
      "grad_norm": 0.6311584115028381,
      "learning_rate": 2.857142857142857e-05,
      "loss": 2.0358,
      "num_input_tokens_seen": 1585446912,
      "step": 4032
    },
    {
      "epoch": 0.45781826298615025,
      "grad_norm": 0.7229108214378357,
      "learning_rate": 2.8535624776226282e-05,
      "loss": 2.1127,
      "num_input_tokens_seen": 1587806208,
      "step": 4038
    },
    {
      "epoch": 0.45849852786428713,
      "grad_norm": 0.6722413301467896,
      "learning_rate": 2.849982098102399e-05,
      "loss": 2.0238,
      "num_input_tokens_seen": 1590165504,
      "step": 4044
    },
    {
      "epoch": 0.45917879274242407,
      "grad_norm": 0.5801773071289062,
      "learning_rate": 2.8464017185821702e-05,
      "loss": 2.0511,
      "num_input_tokens_seen": 1592524800,
      "step": 4050
    },
    {
      "epoch": 0.459859057620561,
      "grad_norm": 0.5483337044715881,
      "learning_rate": 2.8428213390619407e-05,
      "loss": 2.0307,
      "num_input_tokens_seen": 1594884096,
      "step": 4056
    },
    {
      "epoch": 0.46053932249869795,
      "grad_norm": 0.6021159887313843,
      "learning_rate": 2.839240959541711e-05,
      "loss": 2.0612,
      "num_input_tokens_seen": 1597243392,
      "step": 4062
    },
    {
      "epoch": 0.4612195873768348,
      "grad_norm": 0.6574224233627319,
      "learning_rate": 2.8356605800214827e-05,
      "loss": 2.1141,
      "num_input_tokens_seen": 1599602688,
      "step": 4068
    },
    {
      "epoch": 0.46189985225497177,
      "grad_norm": 0.6547892093658447,
      "learning_rate": 2.832080200501253e-05,
      "loss": 2.028,
      "num_input_tokens_seen": 1601961984,
      "step": 4074
    },
    {
      "epoch": 0.4625801171331087,
      "grad_norm": 0.5769033432006836,
      "learning_rate": 2.8284998209810243e-05,
      "loss": 2.0161,
      "num_input_tokens_seen": 1604321280,
      "step": 4080
    },
    {
      "epoch": 0.46326038201124564,
      "grad_norm": 0.5694014430046082,
      "learning_rate": 2.8249194414607948e-05,
      "loss": 2.0506,
      "num_input_tokens_seen": 1606680576,
      "step": 4086
    },
    {
      "epoch": 0.4639406468893826,
      "grad_norm": 0.522310733795166,
      "learning_rate": 2.821339061940566e-05,
      "loss": 2.0775,
      "num_input_tokens_seen": 1609039872,
      "step": 4092
    },
    {
      "epoch": 0.46462091176751946,
      "grad_norm": 0.5985013842582703,
      "learning_rate": 2.8177586824203367e-05,
      "loss": 2.0341,
      "num_input_tokens_seen": 1611399168,
      "step": 4098
    },
    {
      "epoch": 0.4653011766456564,
      "grad_norm": 0.6218437552452087,
      "learning_rate": 2.8141783029001072e-05,
      "loss": 2.0579,
      "num_input_tokens_seen": 1613758464,
      "step": 4104
    },
    {
      "epoch": 0.46598144152379334,
      "grad_norm": 0.6592255234718323,
      "learning_rate": 2.8105979233798784e-05,
      "loss": 2.0348,
      "num_input_tokens_seen": 1616117760,
      "step": 4110
    },
    {
      "epoch": 0.4666617064019303,
      "grad_norm": 0.583972692489624,
      "learning_rate": 2.8070175438596492e-05,
      "loss": 2.0909,
      "num_input_tokens_seen": 1618477056,
      "step": 4116
    },
    {
      "epoch": 0.46734197128006716,
      "grad_norm": 0.5974957346916199,
      "learning_rate": 2.8034371643394203e-05,
      "loss": 2.0778,
      "num_input_tokens_seen": 1620836352,
      "step": 4122
    },
    {
      "epoch": 0.4680222361582041,
      "grad_norm": 0.6519222855567932,
      "learning_rate": 2.7998567848191908e-05,
      "loss": 2.1053,
      "num_input_tokens_seen": 1623195648,
      "step": 4128
    },
    {
      "epoch": 0.46870250103634103,
      "grad_norm": 0.6389775276184082,
      "learning_rate": 2.796276405298962e-05,
      "loss": 2.0589,
      "num_input_tokens_seen": 1625554944,
      "step": 4134
    },
    {
      "epoch": 0.469382765914478,
      "grad_norm": 0.559096097946167,
      "learning_rate": 2.7926960257787328e-05,
      "loss": 2.0486,
      "num_input_tokens_seen": 1627914240,
      "step": 4140
    },
    {
      "epoch": 0.47006303079261486,
      "grad_norm": 0.6475938558578491,
      "learning_rate": 2.7891156462585033e-05,
      "loss": 2.0917,
      "num_input_tokens_seen": 1630273536,
      "step": 4146
    },
    {
      "epoch": 0.4707432956707518,
      "grad_norm": 0.5632593035697937,
      "learning_rate": 2.7855352667382744e-05,
      "loss": 2.1186,
      "num_input_tokens_seen": 1632632832,
      "step": 4152
    },
    {
      "epoch": 0.47142356054888873,
      "grad_norm": 0.6311493515968323,
      "learning_rate": 2.7819548872180452e-05,
      "loss": 2.0449,
      "num_input_tokens_seen": 1634992128,
      "step": 4158
    },
    {
      "epoch": 0.47210382542702567,
      "grad_norm": 0.5263134837150574,
      "learning_rate": 2.7783745076978164e-05,
      "loss": 2.0727,
      "num_input_tokens_seen": 1637351424,
      "step": 4164
    },
    {
      "epoch": 0.47278409030516255,
      "grad_norm": 0.6025407910346985,
      "learning_rate": 2.774794128177587e-05,
      "loss": 2.0727,
      "num_input_tokens_seen": 1639710720,
      "step": 4170
    },
    {
      "epoch": 0.4734643551832995,
      "grad_norm": 0.5921410322189331,
      "learning_rate": 2.771213748657358e-05,
      "loss": 2.0652,
      "num_input_tokens_seen": 1642070016,
      "step": 4176
    },
    {
      "epoch": 0.47414462006143643,
      "grad_norm": 0.631074845790863,
      "learning_rate": 2.767633369137129e-05,
      "loss": 2.0445,
      "num_input_tokens_seen": 1644429312,
      "step": 4182
    },
    {
      "epoch": 0.47482488493957337,
      "grad_norm": 0.6067950129508972,
      "learning_rate": 2.7640529896168993e-05,
      "loss": 2.0518,
      "num_input_tokens_seen": 1646788608,
      "step": 4188
    },
    {
      "epoch": 0.47550514981771025,
      "grad_norm": 0.7098994851112366,
      "learning_rate": 2.7604726100966705e-05,
      "loss": 2.0632,
      "num_input_tokens_seen": 1649147904,
      "step": 4194
    },
    {
      "epoch": 0.4761854146958472,
      "grad_norm": 0.59510338306427,
      "learning_rate": 2.756892230576441e-05,
      "loss": 2.0555,
      "num_input_tokens_seen": 1651507200,
      "step": 4200
    },
    {
      "epoch": 0.4768656795739841,
      "grad_norm": 0.5363790392875671,
      "learning_rate": 2.753311851056212e-05,
      "loss": 2.0648,
      "num_input_tokens_seen": 1653866496,
      "step": 4206
    },
    {
      "epoch": 0.47754594445212106,
      "grad_norm": 0.6022222638130188,
      "learning_rate": 2.749731471535983e-05,
      "loss": 2.0435,
      "num_input_tokens_seen": 1656225792,
      "step": 4212
    },
    {
      "epoch": 0.47822620933025795,
      "grad_norm": 0.6179582476615906,
      "learning_rate": 2.746151092015754e-05,
      "loss": 2.0574,
      "num_input_tokens_seen": 1658585088,
      "step": 4218
    },
    {
      "epoch": 0.4789064742083949,
      "grad_norm": 0.5979219079017639,
      "learning_rate": 2.7425707124955245e-05,
      "loss": 2.0891,
      "num_input_tokens_seen": 1660944384,
      "step": 4224
    },
    {
      "epoch": 0.4795867390865318,
      "grad_norm": 0.5890262722969055,
      "learning_rate": 2.7389903329752954e-05,
      "loss": 2.0579,
      "num_input_tokens_seen": 1663303680,
      "step": 4230
    },
    {
      "epoch": 0.48026700396466876,
      "grad_norm": 0.5914406776428223,
      "learning_rate": 2.7354099534550665e-05,
      "loss": 2.0666,
      "num_input_tokens_seen": 1665662976,
      "step": 4236
    },
    {
      "epoch": 0.48094726884280564,
      "grad_norm": 0.5765048861503601,
      "learning_rate": 2.731829573934837e-05,
      "loss": 2.0057,
      "num_input_tokens_seen": 1668022272,
      "step": 4242
    },
    {
      "epoch": 0.4816275337209426,
      "grad_norm": 0.5583755970001221,
      "learning_rate": 2.728249194414608e-05,
      "loss": 2.0303,
      "num_input_tokens_seen": 1670381568,
      "step": 4248
    },
    {
      "epoch": 0.4823077985990795,
      "grad_norm": 0.5724276900291443,
      "learning_rate": 2.724668814894379e-05,
      "loss": 2.0575,
      "num_input_tokens_seen": 1672740864,
      "step": 4254
    },
    {
      "epoch": 0.48298806347721646,
      "grad_norm": 0.6578513979911804,
      "learning_rate": 2.72108843537415e-05,
      "loss": 2.0213,
      "num_input_tokens_seen": 1675100160,
      "step": 4260
    },
    {
      "epoch": 0.48366832835535334,
      "grad_norm": 0.6713804602622986,
      "learning_rate": 2.7175080558539206e-05,
      "loss": 2.0428,
      "num_input_tokens_seen": 1677459456,
      "step": 4266
    },
    {
      "epoch": 0.4843485932334903,
      "grad_norm": 0.5634715557098389,
      "learning_rate": 2.7139276763336914e-05,
      "loss": 2.0461,
      "num_input_tokens_seen": 1679818752,
      "step": 4272
    },
    {
      "epoch": 0.4850288581116272,
      "grad_norm": 0.6080957055091858,
      "learning_rate": 2.7103472968134626e-05,
      "loss": 2.1146,
      "num_input_tokens_seen": 1682178048,
      "step": 4278
    },
    {
      "epoch": 0.48570912298976415,
      "grad_norm": 0.5606207251548767,
      "learning_rate": 2.706766917293233e-05,
      "loss": 2.0456,
      "num_input_tokens_seen": 1684537344,
      "step": 4284
    },
    {
      "epoch": 0.4863893878679011,
      "grad_norm": 0.6365392208099365,
      "learning_rate": 2.7031865377730042e-05,
      "loss": 2.0354,
      "num_input_tokens_seen": 1686896640,
      "step": 4290
    },
    {
      "epoch": 0.487069652746038,
      "grad_norm": 0.6958995461463928,
      "learning_rate": 2.699606158252775e-05,
      "loss": 2.0047,
      "num_input_tokens_seen": 1689255936,
      "step": 4296
    },
    {
      "epoch": 0.4877499176241749,
      "grad_norm": 0.7712015509605408,
      "learning_rate": 2.6960257787325462e-05,
      "loss": 2.0329,
      "num_input_tokens_seen": 1691615232,
      "step": 4302
    },
    {
      "epoch": 0.48843018250231185,
      "grad_norm": 0.5757302045822144,
      "learning_rate": 2.6924453992123166e-05,
      "loss": 2.0256,
      "num_input_tokens_seen": 1693974528,
      "step": 4308
    },
    {
      "epoch": 0.4891104473804488,
      "grad_norm": 0.5976963639259338,
      "learning_rate": 2.688865019692087e-05,
      "loss": 2.0844,
      "num_input_tokens_seen": 1696333824,
      "step": 4314
    },
    {
      "epoch": 0.48979071225858567,
      "grad_norm": 0.5346413254737854,
      "learning_rate": 2.6852846401718583e-05,
      "loss": 2.0371,
      "num_input_tokens_seen": 1698693120,
      "step": 4320
    },
    {
      "epoch": 0.4904709771367226,
      "grad_norm": 0.5894768238067627,
      "learning_rate": 2.681704260651629e-05,
      "loss": 2.0424,
      "num_input_tokens_seen": 1701052416,
      "step": 4326
    },
    {
      "epoch": 0.49115124201485955,
      "grad_norm": 0.5185033679008484,
      "learning_rate": 2.6781238811314003e-05,
      "loss": 2.0221,
      "num_input_tokens_seen": 1703411712,
      "step": 4332
    },
    {
      "epoch": 0.4918315068929965,
      "grad_norm": 0.708967924118042,
      "learning_rate": 2.6745435016111707e-05,
      "loss": 2.0596,
      "num_input_tokens_seen": 1705771008,
      "step": 4338
    },
    {
      "epoch": 0.49251177177113337,
      "grad_norm": 0.539934515953064,
      "learning_rate": 2.670963122090942e-05,
      "loss": 2.0724,
      "num_input_tokens_seen": 1708130304,
      "step": 4344
    },
    {
      "epoch": 0.4931920366492703,
      "grad_norm": 0.536572277545929,
      "learning_rate": 2.6673827425707127e-05,
      "loss": 2.0064,
      "num_input_tokens_seen": 1710489600,
      "step": 4350
    },
    {
      "epoch": 0.49387230152740724,
      "grad_norm": 0.6322241425514221,
      "learning_rate": 2.6638023630504832e-05,
      "loss": 2.0661,
      "num_input_tokens_seen": 1712848896,
      "step": 4356
    },
    {
      "epoch": 0.4945525664055442,
      "grad_norm": 0.6483719348907471,
      "learning_rate": 2.6602219835302543e-05,
      "loss": 2.0301,
      "num_input_tokens_seen": 1715208192,
      "step": 4362
    },
    {
      "epoch": 0.49523283128368106,
      "grad_norm": 0.7183097004890442,
      "learning_rate": 2.656641604010025e-05,
      "loss": 2.0372,
      "num_input_tokens_seen": 1717567488,
      "step": 4368
    },
    {
      "epoch": 0.495913096161818,
      "grad_norm": 0.5163341760635376,
      "learning_rate": 2.6530612244897963e-05,
      "loss": 2.0536,
      "num_input_tokens_seen": 1719926784,
      "step": 4374
    },
    {
      "epoch": 0.49659336103995494,
      "grad_norm": 0.5748982429504395,
      "learning_rate": 2.6494808449695668e-05,
      "loss": 2.0573,
      "num_input_tokens_seen": 1722286080,
      "step": 4380
    },
    {
      "epoch": 0.4972736259180919,
      "grad_norm": 0.5292128324508667,
      "learning_rate": 2.645900465449338e-05,
      "loss": 2.0675,
      "num_input_tokens_seen": 1724645376,
      "step": 4386
    },
    {
      "epoch": 0.49795389079622876,
      "grad_norm": 0.5424016714096069,
      "learning_rate": 2.6423200859291087e-05,
      "loss": 2.0624,
      "num_input_tokens_seen": 1727004672,
      "step": 4392
    },
    {
      "epoch": 0.4986341556743657,
      "grad_norm": 0.5220805406570435,
      "learning_rate": 2.6387397064088792e-05,
      "loss": 2.0199,
      "num_input_tokens_seen": 1729363968,
      "step": 4398
    },
    {
      "epoch": 0.49886091063374466,
      "eval_accuracy": 0.5820293040293041,
      "eval_loss": 2.0314505100250244,
      "eval_runtime": 129.9151,
      "eval_samples_per_second": 3.079,
      "eval_steps_per_second": 1.031,
      "num_input_tokens_seen": 1730150400,
      "step": 4400
    },
    {
      "epoch": 0.49931442055250264,
      "grad_norm": 0.5268684029579163,
      "learning_rate": 2.6351593268886504e-05,
      "loss": 2.0301,
      "num_input_tokens_seen": 1731723264,
      "step": 4404
    },
    {
      "epoch": 0.4999946854306396,
      "grad_norm": 0.53367018699646,
      "learning_rate": 2.6315789473684212e-05,
      "loss": 2.0371,
      "num_input_tokens_seen": 1734082560,
      "step": 4410
    },
    {
      "epoch": 0.5006749503087765,
      "grad_norm": 0.6249188184738159,
      "learning_rate": 2.6279985678481924e-05,
      "loss": 2.0451,
      "num_input_tokens_seen": 1736441856,
      "step": 4416
    },
    {
      "epoch": 0.5013552151869134,
      "grad_norm": 0.5434116125106812,
      "learning_rate": 2.6244181883279628e-05,
      "loss": 2.0524,
      "num_input_tokens_seen": 1738801152,
      "step": 4422
    },
    {
      "epoch": 0.5020354800650503,
      "grad_norm": 0.6205160021781921,
      "learning_rate": 2.620837808807734e-05,
      "loss": 2.0484,
      "num_input_tokens_seen": 1741160448,
      "step": 4428
    },
    {
      "epoch": 0.5027157449431873,
      "grad_norm": 0.6665350198745728,
      "learning_rate": 2.6172574292875045e-05,
      "loss": 2.0277,
      "num_input_tokens_seen": 1743519744,
      "step": 4434
    },
    {
      "epoch": 0.5033960098213242,
      "grad_norm": 0.6074947714805603,
      "learning_rate": 2.6136770497672753e-05,
      "loss": 1.9797,
      "num_input_tokens_seen": 1745879040,
      "step": 4440
    },
    {
      "epoch": 0.5040762746994611,
      "grad_norm": 0.801179051399231,
      "learning_rate": 2.6100966702470464e-05,
      "loss": 2.0997,
      "num_input_tokens_seen": 1748238336,
      "step": 4446
    },
    {
      "epoch": 0.504756539577598,
      "grad_norm": 0.6840958595275879,
      "learning_rate": 2.606516290726817e-05,
      "loss": 2.0205,
      "num_input_tokens_seen": 1750597632,
      "step": 4452
    },
    {
      "epoch": 0.5054368044557349,
      "grad_norm": 0.6576579809188843,
      "learning_rate": 2.602935911206588e-05,
      "loss": 2.0203,
      "num_input_tokens_seen": 1752956928,
      "step": 4458
    },
    {
      "epoch": 0.5061170693338719,
      "grad_norm": 0.6868447065353394,
      "learning_rate": 2.599355531686359e-05,
      "loss": 1.9909,
      "num_input_tokens_seen": 1755316224,
      "step": 4464
    },
    {
      "epoch": 0.5067973342120088,
      "grad_norm": 0.5453672409057617,
      "learning_rate": 2.59577515216613e-05,
      "loss": 2.006,
      "num_input_tokens_seen": 1757675520,
      "step": 4470
    },
    {
      "epoch": 0.5074775990901457,
      "grad_norm": 0.6682925224304199,
      "learning_rate": 2.5921947726459005e-05,
      "loss": 2.0254,
      "num_input_tokens_seen": 1760034816,
      "step": 4476
    },
    {
      "epoch": 0.5081578639682827,
      "grad_norm": 0.5425339937210083,
      "learning_rate": 2.5886143931256713e-05,
      "loss": 2.0437,
      "num_input_tokens_seen": 1762394112,
      "step": 4482
    },
    {
      "epoch": 0.5088381288464195,
      "grad_norm": 0.5697811245918274,
      "learning_rate": 2.5850340136054425e-05,
      "loss": 2.0491,
      "num_input_tokens_seen": 1764753408,
      "step": 4488
    },
    {
      "epoch": 0.5095183937245565,
      "grad_norm": 0.5228165984153748,
      "learning_rate": 2.581453634085213e-05,
      "loss": 2.0265,
      "num_input_tokens_seen": 1767112704,
      "step": 4494
    },
    {
      "epoch": 0.5101986586026934,
      "grad_norm": 0.5687726736068726,
      "learning_rate": 2.577873254564984e-05,
      "loss": 2.0485,
      "num_input_tokens_seen": 1769472000,
      "step": 4500
    },
    {
      "epoch": 0.5108789234808303,
      "grad_norm": 0.5901363492012024,
      "learning_rate": 2.574292875044755e-05,
      "loss": 2.0407,
      "num_input_tokens_seen": 1771831296,
      "step": 4506
    },
    {
      "epoch": 0.5115591883589673,
      "grad_norm": 0.585297703742981,
      "learning_rate": 2.570712495524526e-05,
      "loss": 2.0564,
      "num_input_tokens_seen": 1774190592,
      "step": 4512
    },
    {
      "epoch": 0.5122394532371042,
      "grad_norm": 0.5718687772750854,
      "learning_rate": 2.5671321160042966e-05,
      "loss": 2.0269,
      "num_input_tokens_seen": 1776549888,
      "step": 4518
    },
    {
      "epoch": 0.5129197181152412,
      "grad_norm": 0.5592496991157532,
      "learning_rate": 2.5635517364840674e-05,
      "loss": 2.038,
      "num_input_tokens_seen": 1778909184,
      "step": 4524
    },
    {
      "epoch": 0.5135999829933781,
      "grad_norm": 0.5649601817131042,
      "learning_rate": 2.5599713569638385e-05,
      "loss": 2.0191,
      "num_input_tokens_seen": 1781268480,
      "step": 4530
    },
    {
      "epoch": 0.5142802478715149,
      "grad_norm": 0.5326777696609497,
      "learning_rate": 2.556390977443609e-05,
      "loss": 2.0632,
      "num_input_tokens_seen": 1783627776,
      "step": 4536
    },
    {
      "epoch": 0.5149605127496519,
      "grad_norm": 0.6131651401519775,
      "learning_rate": 2.55281059792338e-05,
      "loss": 2.0646,
      "num_input_tokens_seen": 1785987072,
      "step": 4542
    },
    {
      "epoch": 0.5156407776277888,
      "grad_norm": 0.6253523230552673,
      "learning_rate": 2.5492302184031506e-05,
      "loss": 2.023,
      "num_input_tokens_seen": 1788346368,
      "step": 4548
    },
    {
      "epoch": 0.5163210425059257,
      "grad_norm": 0.5869733095169067,
      "learning_rate": 2.545649838882922e-05,
      "loss": 2.0196,
      "num_input_tokens_seen": 1790705664,
      "step": 4554
    },
    {
      "epoch": 0.5170013073840627,
      "grad_norm": 0.6161871552467346,
      "learning_rate": 2.5420694593626926e-05,
      "loss": 2.0352,
      "num_input_tokens_seen": 1793064960,
      "step": 4560
    },
    {
      "epoch": 0.5176815722621996,
      "grad_norm": 0.5765447020530701,
      "learning_rate": 2.538489079842463e-05,
      "loss": 2.0604,
      "num_input_tokens_seen": 1795424256,
      "step": 4566
    },
    {
      "epoch": 0.5183618371403366,
      "grad_norm": 0.5514522194862366,
      "learning_rate": 2.5349087003222342e-05,
      "loss": 2.0117,
      "num_input_tokens_seen": 1797783552,
      "step": 4572
    },
    {
      "epoch": 0.5190421020184735,
      "grad_norm": 0.6634048223495483,
      "learning_rate": 2.531328320802005e-05,
      "loss": 2.0526,
      "num_input_tokens_seen": 1800142848,
      "step": 4578
    },
    {
      "epoch": 0.5197223668966103,
      "grad_norm": 0.5515666604042053,
      "learning_rate": 2.5277479412817762e-05,
      "loss": 2.0145,
      "num_input_tokens_seen": 1802502144,
      "step": 4584
    },
    {
      "epoch": 0.5204026317747473,
      "grad_norm": 0.5209513902664185,
      "learning_rate": 2.5241675617615467e-05,
      "loss": 2.0392,
      "num_input_tokens_seen": 1804861440,
      "step": 4590
    },
    {
      "epoch": 0.5210828966528842,
      "grad_norm": 0.586448609828949,
      "learning_rate": 2.520587182241318e-05,
      "loss": 2.0467,
      "num_input_tokens_seen": 1807220736,
      "step": 4596
    },
    {
      "epoch": 0.5217631615310211,
      "grad_norm": 0.6192159652709961,
      "learning_rate": 2.5170068027210887e-05,
      "loss": 2.0113,
      "num_input_tokens_seen": 1809580032,
      "step": 4602
    },
    {
      "epoch": 0.5224434264091581,
      "grad_norm": 0.5666912794113159,
      "learning_rate": 2.513426423200859e-05,
      "loss": 2.0656,
      "num_input_tokens_seen": 1811939328,
      "step": 4608
    },
    {
      "epoch": 0.523123691287295,
      "grad_norm": 0.553439199924469,
      "learning_rate": 2.5098460436806303e-05,
      "loss": 2.0829,
      "num_input_tokens_seen": 1814298624,
      "step": 4614
    },
    {
      "epoch": 0.523803956165432,
      "grad_norm": 0.5798554420471191,
      "learning_rate": 2.506265664160401e-05,
      "loss": 2.0018,
      "num_input_tokens_seen": 1816657920,
      "step": 4620
    },
    {
      "epoch": 0.5244842210435688,
      "grad_norm": 0.5392002463340759,
      "learning_rate": 2.5026852846401723e-05,
      "loss": 2.0356,
      "num_input_tokens_seen": 1819017216,
      "step": 4626
    },
    {
      "epoch": 0.5251644859217057,
      "grad_norm": 0.5326321721076965,
      "learning_rate": 2.4991049051199427e-05,
      "loss": 2.0293,
      "num_input_tokens_seen": 1821376512,
      "step": 4632
    },
    {
      "epoch": 0.5258447507998427,
      "grad_norm": 0.5811095237731934,
      "learning_rate": 2.4955245255997136e-05,
      "loss": 2.0293,
      "num_input_tokens_seen": 1823735808,
      "step": 4638
    },
    {
      "epoch": 0.5265250156779796,
      "grad_norm": 0.6148865222930908,
      "learning_rate": 2.4919441460794847e-05,
      "loss": 2.0708,
      "num_input_tokens_seen": 1826095104,
      "step": 4644
    },
    {
      "epoch": 0.5272052805561165,
      "grad_norm": 0.552721381187439,
      "learning_rate": 2.4883637665592555e-05,
      "loss": 2.0677,
      "num_input_tokens_seen": 1828454400,
      "step": 4650
    },
    {
      "epoch": 0.5278855454342535,
      "grad_norm": 0.7011052966117859,
      "learning_rate": 2.4847833870390263e-05,
      "loss": 2.0427,
      "num_input_tokens_seen": 1830813696,
      "step": 4656
    },
    {
      "epoch": 0.5285658103123904,
      "grad_norm": 0.698103129863739,
      "learning_rate": 2.4812030075187968e-05,
      "loss": 2.0446,
      "num_input_tokens_seen": 1833172992,
      "step": 4662
    },
    {
      "epoch": 0.5292460751905274,
      "grad_norm": 0.6698234677314758,
      "learning_rate": 2.477622627998568e-05,
      "loss": 1.989,
      "num_input_tokens_seen": 1835532288,
      "step": 4668
    },
    {
      "epoch": 0.5299263400686642,
      "grad_norm": 0.686160683631897,
      "learning_rate": 2.4740422484783388e-05,
      "loss": 2.0177,
      "num_input_tokens_seen": 1837891584,
      "step": 4674
    },
    {
      "epoch": 0.5306066049468011,
      "grad_norm": 0.7087785601615906,
      "learning_rate": 2.4704618689581096e-05,
      "loss": 1.9913,
      "num_input_tokens_seen": 1840250880,
      "step": 4680
    },
    {
      "epoch": 0.5312868698249381,
      "grad_norm": 0.7636250257492065,
      "learning_rate": 2.4668814894378804e-05,
      "loss": 2.0415,
      "num_input_tokens_seen": 1842610176,
      "step": 4686
    },
    {
      "epoch": 0.531967134703075,
      "grad_norm": 0.6679571270942688,
      "learning_rate": 2.4633011099176516e-05,
      "loss": 2.0405,
      "num_input_tokens_seen": 1844969472,
      "step": 4692
    },
    {
      "epoch": 0.532647399581212,
      "grad_norm": 0.6184023022651672,
      "learning_rate": 2.4597207303974224e-05,
      "loss": 2.0398,
      "num_input_tokens_seen": 1847328768,
      "step": 4698
    },
    {
      "epoch": 0.5333276644593489,
      "grad_norm": 0.6215579509735107,
      "learning_rate": 2.456140350877193e-05,
      "loss": 2.0421,
      "num_input_tokens_seen": 1849688064,
      "step": 4704
    },
    {
      "epoch": 0.5340079293374858,
      "grad_norm": 0.6236794590950012,
      "learning_rate": 2.452559971356964e-05,
      "loss": 2.0267,
      "num_input_tokens_seen": 1852047360,
      "step": 4710
    },
    {
      "epoch": 0.5346881942156227,
      "grad_norm": 0.5402464270591736,
      "learning_rate": 2.448979591836735e-05,
      "loss": 2.0491,
      "num_input_tokens_seen": 1854406656,
      "step": 4716
    },
    {
      "epoch": 0.5353684590937596,
      "grad_norm": 0.6620278358459473,
      "learning_rate": 2.4453992123165057e-05,
      "loss": 2.0231,
      "num_input_tokens_seen": 1856765952,
      "step": 4722
    },
    {
      "epoch": 0.5360487239718965,
      "grad_norm": 0.6001939177513123,
      "learning_rate": 2.4418188327962765e-05,
      "loss": 2.07,
      "num_input_tokens_seen": 1859125248,
      "step": 4728
    },
    {
      "epoch": 0.5367289888500335,
      "grad_norm": 0.5543425679206848,
      "learning_rate": 2.4382384532760473e-05,
      "loss": 2.0106,
      "num_input_tokens_seen": 1861484544,
      "step": 4734
    },
    {
      "epoch": 0.5374092537281704,
      "grad_norm": 0.4775249660015106,
      "learning_rate": 2.4346580737558184e-05,
      "loss": 2.0754,
      "num_input_tokens_seen": 1863843840,
      "step": 4740
    },
    {
      "epoch": 0.5380895186063074,
      "grad_norm": 0.5671461224555969,
      "learning_rate": 2.431077694235589e-05,
      "loss": 2.0448,
      "num_input_tokens_seen": 1866203136,
      "step": 4746
    },
    {
      "epoch": 0.5387697834844443,
      "grad_norm": 0.6002800464630127,
      "learning_rate": 2.4274973147153597e-05,
      "loss": 2.0081,
      "num_input_tokens_seen": 1868562432,
      "step": 4752
    },
    {
      "epoch": 0.5394500483625811,
      "grad_norm": 0.5340938568115234,
      "learning_rate": 2.423916935195131e-05,
      "loss": 2.0068,
      "num_input_tokens_seen": 1870921728,
      "step": 4758
    },
    {
      "epoch": 0.5401303132407181,
      "grad_norm": 0.550006628036499,
      "learning_rate": 2.4203365556749017e-05,
      "loss": 2.0779,
      "num_input_tokens_seen": 1873281024,
      "step": 4764
    },
    {
      "epoch": 0.540810578118855,
      "grad_norm": 0.6014347672462463,
      "learning_rate": 2.4167561761546725e-05,
      "loss": 2.0408,
      "num_input_tokens_seen": 1875640320,
      "step": 4770
    },
    {
      "epoch": 0.5414908429969919,
      "grad_norm": 0.6230180859565735,
      "learning_rate": 2.4131757966344433e-05,
      "loss": 2.0508,
      "num_input_tokens_seen": 1877999616,
      "step": 4776
    },
    {
      "epoch": 0.5421711078751289,
      "grad_norm": 0.570754885673523,
      "learning_rate": 2.4095954171142145e-05,
      "loss": 2.0594,
      "num_input_tokens_seen": 1880358912,
      "step": 4782
    },
    {
      "epoch": 0.5428513727532658,
      "grad_norm": 0.5309892892837524,
      "learning_rate": 2.406015037593985e-05,
      "loss": 2.0985,
      "num_input_tokens_seen": 1882718208,
      "step": 4788
    },
    {
      "epoch": 0.5435316376314028,
      "grad_norm": 0.6809681057929993,
      "learning_rate": 2.4024346580737558e-05,
      "loss": 2.0498,
      "num_input_tokens_seen": 1885077504,
      "step": 4794
    },
    {
      "epoch": 0.5442119025095397,
      "grad_norm": 0.5176597237586975,
      "learning_rate": 2.3988542785535266e-05,
      "loss": 2.0361,
      "num_input_tokens_seen": 1887436800,
      "step": 4800
    },
    {
      "epoch": 0.5442119025095397,
      "eval_accuracy": 0.582943833943834,
      "eval_loss": 2.0261168479919434,
      "eval_runtime": 128.4528,
      "eval_samples_per_second": 3.114,
      "eval_steps_per_second": 1.043,
      "num_input_tokens_seen": 1887436800,
      "step": 4800
    },
    {
      "epoch": 0.5448921673876765,
      "grad_norm": 0.6304104924201965,
      "learning_rate": 2.3952738990332978e-05,
      "loss": 2.051,
      "num_input_tokens_seen": 1889796096,
      "step": 4806
    },
    {
      "epoch": 0.5455724322658135,
      "grad_norm": 0.6736240983009338,
      "learning_rate": 2.3916935195130686e-05,
      "loss": 2.0604,
      "num_input_tokens_seen": 1892155392,
      "step": 4812
    },
    {
      "epoch": 0.5462526971439504,
      "grad_norm": 0.6046845316886902,
      "learning_rate": 2.3881131399928394e-05,
      "loss": 2.0382,
      "num_input_tokens_seen": 1894514688,
      "step": 4818
    },
    {
      "epoch": 0.5469329620220873,
      "grad_norm": 0.6192537546157837,
      "learning_rate": 2.3845327604726102e-05,
      "loss": 2.017,
      "num_input_tokens_seen": 1896873984,
      "step": 4824
    },
    {
      "epoch": 0.5476132269002243,
      "grad_norm": 0.6411442160606384,
      "learning_rate": 2.380952380952381e-05,
      "loss": 2.0302,
      "num_input_tokens_seen": 1899233280,
      "step": 4830
    },
    {
      "epoch": 0.5482934917783612,
      "grad_norm": 0.5721175670623779,
      "learning_rate": 2.377372001432152e-05,
      "loss": 2.0338,
      "num_input_tokens_seen": 1901592576,
      "step": 4836
    },
    {
      "epoch": 0.5489737566564982,
      "grad_norm": 0.5743176937103271,
      "learning_rate": 2.3737916219119226e-05,
      "loss": 2.0426,
      "num_input_tokens_seen": 1903951872,
      "step": 4842
    },
    {
      "epoch": 0.549654021534635,
      "grad_norm": 0.5680631995201111,
      "learning_rate": 2.3702112423916935e-05,
      "loss": 1.9743,
      "num_input_tokens_seen": 1906311168,
      "step": 4848
    },
    {
      "epoch": 0.5503342864127719,
      "grad_norm": 0.5353610515594482,
      "learning_rate": 2.3666308628714646e-05,
      "loss": 2.0359,
      "num_input_tokens_seen": 1908670464,
      "step": 4854
    },
    {
      "epoch": 0.5510145512909089,
      "grad_norm": 0.5486804842948914,
      "learning_rate": 2.3630504833512354e-05,
      "loss": 2.0598,
      "num_input_tokens_seen": 1911029760,
      "step": 4860
    },
    {
      "epoch": 0.5516948161690458,
      "grad_norm": 0.5187994241714478,
      "learning_rate": 2.3594701038310063e-05,
      "loss": 2.0122,
      "num_input_tokens_seen": 1913389056,
      "step": 4866
    },
    {
      "epoch": 0.5523750810471827,
      "grad_norm": 0.5575273036956787,
      "learning_rate": 2.355889724310777e-05,
      "loss": 1.9224,
      "num_input_tokens_seen": 1915748352,
      "step": 4872
    },
    {
      "epoch": 0.5530553459253197,
      "grad_norm": 0.5445749163627625,
      "learning_rate": 2.352309344790548e-05,
      "loss": 2.0599,
      "num_input_tokens_seen": 1918107648,
      "step": 4878
    },
    {
      "epoch": 0.5537356108034566,
      "grad_norm": 0.555401086807251,
      "learning_rate": 2.3487289652703187e-05,
      "loss": 1.9883,
      "num_input_tokens_seen": 1920466944,
      "step": 4884
    },
    {
      "epoch": 0.5544158756815936,
      "grad_norm": 0.6415968537330627,
      "learning_rate": 2.3451485857500895e-05,
      "loss": 2.0529,
      "num_input_tokens_seen": 1922826240,
      "step": 4890
    },
    {
      "epoch": 0.5550961405597304,
      "grad_norm": 0.5108083486557007,
      "learning_rate": 2.3415682062298607e-05,
      "loss": 2.0445,
      "num_input_tokens_seen": 1925185536,
      "step": 4896
    },
    {
      "epoch": 0.5557764054378673,
      "grad_norm": 0.5858399868011475,
      "learning_rate": 2.3379878267096315e-05,
      "loss": 2.0457,
      "num_input_tokens_seen": 1927544832,
      "step": 4902
    },
    {
      "epoch": 0.5564566703160043,
      "grad_norm": 0.5217518210411072,
      "learning_rate": 2.3344074471894023e-05,
      "loss": 2.091,
      "num_input_tokens_seen": 1929904128,
      "step": 4908
    },
    {
      "epoch": 0.5571369351941412,
      "grad_norm": 0.596930980682373,
      "learning_rate": 2.3308270676691728e-05,
      "loss": 1.9999,
      "num_input_tokens_seen": 1932263424,
      "step": 4914
    },
    {
      "epoch": 0.5578172000722782,
      "grad_norm": 0.5927145481109619,
      "learning_rate": 2.327246688148944e-05,
      "loss": 2.0268,
      "num_input_tokens_seen": 1934622720,
      "step": 4920
    },
    {
      "epoch": 0.5584974649504151,
      "grad_norm": 0.5516043305397034,
      "learning_rate": 2.3236663086287147e-05,
      "loss": 1.9878,
      "num_input_tokens_seen": 1936982016,
      "step": 4926
    },
    {
      "epoch": 0.559177729828552,
      "grad_norm": 0.627019464969635,
      "learning_rate": 2.3200859291084856e-05,
      "loss": 2.0346,
      "num_input_tokens_seen": 1939341312,
      "step": 4932
    },
    {
      "epoch": 0.559857994706689,
      "grad_norm": 0.5447899699211121,
      "learning_rate": 2.3165055495882564e-05,
      "loss": 2.0513,
      "num_input_tokens_seen": 1941700608,
      "step": 4938
    },
    {
      "epoch": 0.5605382595848258,
      "grad_norm": 0.5802628397941589,
      "learning_rate": 2.3129251700680275e-05,
      "loss": 2.0973,
      "num_input_tokens_seen": 1944059904,
      "step": 4944
    },
    {
      "epoch": 0.5612185244629627,
      "grad_norm": 0.5924973487854004,
      "learning_rate": 2.3093447905477984e-05,
      "loss": 2.0682,
      "num_input_tokens_seen": 1946419200,
      "step": 4950
    },
    {
      "epoch": 0.5618987893410997,
      "grad_norm": 0.7050002813339233,
      "learning_rate": 2.3057644110275688e-05,
      "loss": 2.0724,
      "num_input_tokens_seen": 1948778496,
      "step": 4956
    },
    {
      "epoch": 0.5625790542192366,
      "grad_norm": 0.5495327711105347,
      "learning_rate": 2.3021840315073396e-05,
      "loss": 1.9644,
      "num_input_tokens_seen": 1951137792,
      "step": 4962
    },
    {
      "epoch": 0.5632593190973736,
      "grad_norm": 0.5360766649246216,
      "learning_rate": 2.2986036519871108e-05,
      "loss": 1.9898,
      "num_input_tokens_seen": 1953497088,
      "step": 4968
    },
    {
      "epoch": 0.5639395839755105,
      "grad_norm": 0.5336543321609497,
      "learning_rate": 2.2950232724668816e-05,
      "loss": 2.0032,
      "num_input_tokens_seen": 1955856384,
      "step": 4974
    },
    {
      "epoch": 0.5646198488536474,
      "grad_norm": 0.6477164626121521,
      "learning_rate": 2.2914428929466524e-05,
      "loss": 2.0446,
      "num_input_tokens_seen": 1958215680,
      "step": 4980
    },
    {
      "epoch": 0.5653001137317843,
      "grad_norm": 0.6914204955101013,
      "learning_rate": 2.2878625134264232e-05,
      "loss": 2.0031,
      "num_input_tokens_seen": 1960574976,
      "step": 4986
    },
    {
      "epoch": 0.5659803786099212,
      "grad_norm": 0.6375141143798828,
      "learning_rate": 2.2842821339061944e-05,
      "loss": 2.0626,
      "num_input_tokens_seen": 1962934272,
      "step": 4992
    },
    {
      "epoch": 0.5666606434880581,
      "grad_norm": 0.6484731435775757,
      "learning_rate": 2.280701754385965e-05,
      "loss": 1.9985,
      "num_input_tokens_seen": 1965293568,
      "step": 4998
    },
    {
      "epoch": 0.5673409083661951,
      "grad_norm": 0.6331252455711365,
      "learning_rate": 2.2771213748657357e-05,
      "loss": 2.0994,
      "num_input_tokens_seen": 1967652864,
      "step": 5004
    },
    {
      "epoch": 0.568021173244332,
      "grad_norm": 0.5034027695655823,
      "learning_rate": 2.273540995345507e-05,
      "loss": 2.0355,
      "num_input_tokens_seen": 1970012160,
      "step": 5010
    },
    {
      "epoch": 0.568701438122469,
      "grad_norm": 0.5032246708869934,
      "learning_rate": 2.2699606158252777e-05,
      "loss": 2.0454,
      "num_input_tokens_seen": 1972371456,
      "step": 5016
    },
    {
      "epoch": 0.5693817030006059,
      "grad_norm": 0.6073436737060547,
      "learning_rate": 2.2663802363050485e-05,
      "loss": 2.0395,
      "num_input_tokens_seen": 1974730752,
      "step": 5022
    },
    {
      "epoch": 0.5700619678787427,
      "grad_norm": 0.5456060767173767,
      "learning_rate": 2.2627998567848193e-05,
      "loss": 2.0063,
      "num_input_tokens_seen": 1977090048,
      "step": 5028
    },
    {
      "epoch": 0.5707422327568797,
      "grad_norm": 0.505669891834259,
      "learning_rate": 2.25921947726459e-05,
      "loss": 1.9756,
      "num_input_tokens_seen": 1979449344,
      "step": 5034
    },
    {
      "epoch": 0.5714224976350166,
      "grad_norm": 0.4892086088657379,
      "learning_rate": 2.255639097744361e-05,
      "loss": 2.0305,
      "num_input_tokens_seen": 1981808640,
      "step": 5040
    },
    {
      "epoch": 0.5721027625131535,
      "grad_norm": 0.5138855576515198,
      "learning_rate": 2.2520587182241317e-05,
      "loss": 2.0669,
      "num_input_tokens_seen": 1984167936,
      "step": 5046
    },
    {
      "epoch": 0.5727830273912905,
      "grad_norm": 0.5779445767402649,
      "learning_rate": 2.2484783387039026e-05,
      "loss": 2.0237,
      "num_input_tokens_seen": 1986527232,
      "step": 5052
    },
    {
      "epoch": 0.5734632922694274,
      "grad_norm": 0.6262017488479614,
      "learning_rate": 2.2448979591836737e-05,
      "loss": 2.0587,
      "num_input_tokens_seen": 1988886528,
      "step": 5058
    },
    {
      "epoch": 0.5741435571475644,
      "grad_norm": 0.5465866923332214,
      "learning_rate": 2.2413175796634445e-05,
      "loss": 2.0295,
      "num_input_tokens_seen": 1991245824,
      "step": 5064
    },
    {
      "epoch": 0.5748238220257013,
      "grad_norm": 0.653732419013977,
      "learning_rate": 2.2377372001432153e-05,
      "loss": 2.0325,
      "num_input_tokens_seen": 1993605120,
      "step": 5070
    },
    {
      "epoch": 0.5755040869038381,
      "grad_norm": 0.5579174160957336,
      "learning_rate": 2.234156820622986e-05,
      "loss": 2.0289,
      "num_input_tokens_seen": 1995964416,
      "step": 5076
    },
    {
      "epoch": 0.5761843517819751,
      "grad_norm": 0.5739534497261047,
      "learning_rate": 2.230576441102757e-05,
      "loss": 2.0592,
      "num_input_tokens_seen": 1998323712,
      "step": 5082
    },
    {
      "epoch": 0.576864616660112,
      "grad_norm": 0.5563738346099854,
      "learning_rate": 2.2269960615825278e-05,
      "loss": 2.0624,
      "num_input_tokens_seen": 2000683008,
      "step": 5088
    },
    {
      "epoch": 0.577544881538249,
      "grad_norm": 0.6019315719604492,
      "learning_rate": 2.2234156820622986e-05,
      "loss": 2.0466,
      "num_input_tokens_seen": 2003042304,
      "step": 5094
    },
    {
      "epoch": 0.5782251464163859,
      "grad_norm": 0.7558180689811707,
      "learning_rate": 2.2198353025420694e-05,
      "loss": 2.0494,
      "num_input_tokens_seen": 2005401600,
      "step": 5100
    },
    {
      "epoch": 0.5789054112945228,
      "grad_norm": 0.7054827213287354,
      "learning_rate": 2.2162549230218406e-05,
      "loss": 2.0022,
      "num_input_tokens_seen": 2007760896,
      "step": 5106
    },
    {
      "epoch": 0.5795856761726598,
      "grad_norm": 0.5728718042373657,
      "learning_rate": 2.2126745435016114e-05,
      "loss": 2.0443,
      "num_input_tokens_seen": 2010120192,
      "step": 5112
    },
    {
      "epoch": 0.5802659410507967,
      "grad_norm": 0.6196462512016296,
      "learning_rate": 2.2090941639813822e-05,
      "loss": 2.0502,
      "num_input_tokens_seen": 2012479488,
      "step": 5118
    },
    {
      "epoch": 0.5809462059289335,
      "grad_norm": 0.5134831070899963,
      "learning_rate": 2.205513784461153e-05,
      "loss": 1.9629,
      "num_input_tokens_seen": 2014838784,
      "step": 5124
    },
    {
      "epoch": 0.5816264708070705,
      "grad_norm": 0.5899059176445007,
      "learning_rate": 2.201933404940924e-05,
      "loss": 2.0479,
      "num_input_tokens_seen": 2017198080,
      "step": 5130
    },
    {
      "epoch": 0.5823067356852074,
      "grad_norm": 0.5743027329444885,
      "learning_rate": 2.1983530254206947e-05,
      "loss": 2.0633,
      "num_input_tokens_seen": 2019557376,
      "step": 5136
    },
    {
      "epoch": 0.5829870005633444,
      "grad_norm": 0.6599460244178772,
      "learning_rate": 2.1947726459004655e-05,
      "loss": 2.0429,
      "num_input_tokens_seen": 2021916672,
      "step": 5142
    },
    {
      "epoch": 0.5836672654414813,
      "grad_norm": 0.5353802442550659,
      "learning_rate": 2.1911922663802363e-05,
      "loss": 2.0422,
      "num_input_tokens_seen": 2024275968,
      "step": 5148
    },
    {
      "epoch": 0.5843475303196182,
      "grad_norm": 0.6173189282417297,
      "learning_rate": 2.1876118868600074e-05,
      "loss": 2.0345,
      "num_input_tokens_seen": 2026635264,
      "step": 5154
    },
    {
      "epoch": 0.5850277951977552,
      "grad_norm": 0.5757061839103699,
      "learning_rate": 2.1840315073397783e-05,
      "loss": 2.061,
      "num_input_tokens_seen": 2028994560,
      "step": 5160
    },
    {
      "epoch": 0.585708060075892,
      "grad_norm": 0.537259042263031,
      "learning_rate": 2.1804511278195487e-05,
      "loss": 2.067,
      "num_input_tokens_seen": 2031353856,
      "step": 5166
    },
    {
      "epoch": 0.5863883249540289,
      "grad_norm": 0.6066441535949707,
      "learning_rate": 2.17687074829932e-05,
      "loss": 2.0059,
      "num_input_tokens_seen": 2033713152,
      "step": 5172
    },
    {
      "epoch": 0.5870685898321659,
      "grad_norm": 0.5652830600738525,
      "learning_rate": 2.1732903687790907e-05,
      "loss": 2.0117,
      "num_input_tokens_seen": 2036072448,
      "step": 5178
    },
    {
      "epoch": 0.5877488547103028,
      "grad_norm": 0.5732890367507935,
      "learning_rate": 2.1697099892588615e-05,
      "loss": 2.0529,
      "num_input_tokens_seen": 2038431744,
      "step": 5184
    },
    {
      "epoch": 0.5884291195884398,
      "grad_norm": 0.5537346601486206,
      "learning_rate": 2.1661296097386323e-05,
      "loss": 2.0331,
      "num_input_tokens_seen": 2040791040,
      "step": 5190
    },
    {
      "epoch": 0.5891093844665767,
      "grad_norm": 0.5528678894042969,
      "learning_rate": 2.1625492302184035e-05,
      "loss": 2.057,
      "num_input_tokens_seen": 2043150336,
      "step": 5196
    },
    {
      "epoch": 0.5895628943853346,
      "eval_accuracy": 0.5838162393162393,
      "eval_loss": 2.0207207202911377,
      "eval_runtime": 128.1654,
      "eval_samples_per_second": 3.121,
      "eval_steps_per_second": 1.046,
      "num_input_tokens_seen": 2044723200,
      "step": 5200
    },
    {
      "epoch": 0.5897896493447136,
      "grad_norm": 0.6346768140792847,
      "learning_rate": 2.1589688506981743e-05,
      "loss": 2.0408,
      "num_input_tokens_seen": 2045509632,
      "step": 5202
    },
    {
      "epoch": 0.5904699142228506,
      "grad_norm": 0.64287930727005,
      "learning_rate": 2.1553884711779448e-05,
      "loss": 1.9892,
      "num_input_tokens_seen": 2047868928,
      "step": 5208
    },
    {
      "epoch": 0.5911501791009874,
      "grad_norm": 0.5813894271850586,
      "learning_rate": 2.1518080916577156e-05,
      "loss": 2.041,
      "num_input_tokens_seen": 2050228224,
      "step": 5214
    },
    {
      "epoch": 0.5918304439791243,
      "grad_norm": 0.5855168104171753,
      "learning_rate": 2.1482277121374868e-05,
      "loss": 1.9966,
      "num_input_tokens_seen": 2052587520,
      "step": 5220
    },
    {
      "epoch": 0.5925107088572613,
      "grad_norm": 0.5594427585601807,
      "learning_rate": 2.1446473326172576e-05,
      "loss": 2.0597,
      "num_input_tokens_seen": 2054946816,
      "step": 5226
    },
    {
      "epoch": 0.5931909737353982,
      "grad_norm": 0.5417963266372681,
      "learning_rate": 2.1410669530970284e-05,
      "loss": 2.0369,
      "num_input_tokens_seen": 2057306112,
      "step": 5232
    },
    {
      "epoch": 0.5938712386135352,
      "grad_norm": 0.5939909815788269,
      "learning_rate": 2.1374865735767992e-05,
      "loss": 2.0407,
      "num_input_tokens_seen": 2059665408,
      "step": 5238
    },
    {
      "epoch": 0.5945515034916721,
      "grad_norm": 0.5187436938285828,
      "learning_rate": 2.1339061940565704e-05,
      "loss": 2.0203,
      "num_input_tokens_seen": 2062024704,
      "step": 5244
    },
    {
      "epoch": 0.595231768369809,
      "grad_norm": 0.5559435486793518,
      "learning_rate": 2.130325814536341e-05,
      "loss": 1.9577,
      "num_input_tokens_seen": 2064384000,
      "step": 5250
    },
    {
      "epoch": 0.595912033247946,
      "grad_norm": 0.5728279948234558,
      "learning_rate": 2.1267454350161117e-05,
      "loss": 1.9924,
      "num_input_tokens_seen": 2066743296,
      "step": 5256
    },
    {
      "epoch": 0.5965922981260828,
      "grad_norm": 0.5480873584747314,
      "learning_rate": 2.1231650554958825e-05,
      "loss": 2.0437,
      "num_input_tokens_seen": 2069102592,
      "step": 5262
    },
    {
      "epoch": 0.5972725630042197,
      "grad_norm": 0.5689738392829895,
      "learning_rate": 2.1195846759756536e-05,
      "loss": 2.0233,
      "num_input_tokens_seen": 2071461888,
      "step": 5268
    },
    {
      "epoch": 0.5979528278823567,
      "grad_norm": 0.5396390557289124,
      "learning_rate": 2.1160042964554244e-05,
      "loss": 2.0224,
      "num_input_tokens_seen": 2073821184,
      "step": 5274
    },
    {
      "epoch": 0.5986330927604936,
      "grad_norm": 0.6151924133300781,
      "learning_rate": 2.1124239169351953e-05,
      "loss": 2.0475,
      "num_input_tokens_seen": 2076180480,
      "step": 5280
    },
    {
      "epoch": 0.5993133576386306,
      "grad_norm": 0.5532135367393494,
      "learning_rate": 2.108843537414966e-05,
      "loss": 2.0383,
      "num_input_tokens_seen": 2078539776,
      "step": 5286
    },
    {
      "epoch": 0.5999936225167675,
      "grad_norm": 0.5925424695014954,
      "learning_rate": 2.105263157894737e-05,
      "loss": 2.001,
      "num_input_tokens_seen": 2080899072,
      "step": 5292
    },
    {
      "epoch": 0.6006738873949043,
      "grad_norm": 0.5219939947128296,
      "learning_rate": 2.1016827783745077e-05,
      "loss": 2.0261,
      "num_input_tokens_seen": 2083258368,
      "step": 5298
    },
    {
      "epoch": 0.6013541522730413,
      "grad_norm": 0.5546817779541016,
      "learning_rate": 2.0981023988542785e-05,
      "loss": 2.0535,
      "num_input_tokens_seen": 2085617664,
      "step": 5304
    },
    {
      "epoch": 0.6020344171511782,
      "grad_norm": 0.5580465793609619,
      "learning_rate": 2.0945220193340497e-05,
      "loss": 2.0498,
      "num_input_tokens_seen": 2087976960,
      "step": 5310
    },
    {
      "epoch": 0.6027146820293152,
      "grad_norm": 0.5796703696250916,
      "learning_rate": 2.0909416398138205e-05,
      "loss": 2.0512,
      "num_input_tokens_seen": 2090336256,
      "step": 5316
    },
    {
      "epoch": 0.6033949469074521,
      "grad_norm": 0.6007897257804871,
      "learning_rate": 2.0873612602935913e-05,
      "loss": 2.0236,
      "num_input_tokens_seen": 2092695552,
      "step": 5322
    },
    {
      "epoch": 0.604075211785589,
      "grad_norm": 0.5929319262504578,
      "learning_rate": 2.083780880773362e-05,
      "loss": 2.0342,
      "num_input_tokens_seen": 2095054848,
      "step": 5328
    },
    {
      "epoch": 0.604755476663726,
      "grad_norm": 0.6018472909927368,
      "learning_rate": 2.080200501253133e-05,
      "loss": 1.9576,
      "num_input_tokens_seen": 2097414144,
      "step": 5334
    },
    {
      "epoch": 0.6054357415418629,
      "grad_norm": 0.546468198299408,
      "learning_rate": 2.0766201217329038e-05,
      "loss": 2.0191,
      "num_input_tokens_seen": 2099773440,
      "step": 5340
    },
    {
      "epoch": 0.6061160064199997,
      "grad_norm": 0.5679252743721008,
      "learning_rate": 2.0730397422126746e-05,
      "loss": 2.0272,
      "num_input_tokens_seen": 2102132736,
      "step": 5346
    },
    {
      "epoch": 0.6067962712981367,
      "grad_norm": 0.5521571040153503,
      "learning_rate": 2.0694593626924454e-05,
      "loss": 2.0423,
      "num_input_tokens_seen": 2104492032,
      "step": 5352
    },
    {
      "epoch": 0.6074765361762736,
      "grad_norm": 0.597798228263855,
      "learning_rate": 2.0658789831722165e-05,
      "loss": 2.0251,
      "num_input_tokens_seen": 2106851328,
      "step": 5358
    },
    {
      "epoch": 0.6081568010544106,
      "grad_norm": 0.557311475276947,
      "learning_rate": 2.0622986036519874e-05,
      "loss": 2.0391,
      "num_input_tokens_seen": 2109210624,
      "step": 5364
    },
    {
      "epoch": 0.6088370659325475,
      "grad_norm": 0.6349292397499084,
      "learning_rate": 2.0587182241317582e-05,
      "loss": 2.0279,
      "num_input_tokens_seen": 2111569920,
      "step": 5370
    },
    {
      "epoch": 0.6095173308106844,
      "grad_norm": 0.5559099912643433,
      "learning_rate": 2.0551378446115287e-05,
      "loss": 2.01,
      "num_input_tokens_seen": 2113929216,
      "step": 5376
    },
    {
      "epoch": 0.6101975956888214,
      "grad_norm": 0.6606104969978333,
      "learning_rate": 2.0515574650912998e-05,
      "loss": 2.058,
      "num_input_tokens_seen": 2116288512,
      "step": 5382
    },
    {
      "epoch": 0.6108778605669583,
      "grad_norm": 0.5794185996055603,
      "learning_rate": 2.0479770855710706e-05,
      "loss": 2.0456,
      "num_input_tokens_seen": 2118647808,
      "step": 5388
    },
    {
      "epoch": 0.6115581254450951,
      "grad_norm": 0.5368028879165649,
      "learning_rate": 2.0443967060508414e-05,
      "loss": 2.003,
      "num_input_tokens_seen": 2121007104,
      "step": 5394
    },
    {
      "epoch": 0.6122383903232321,
      "grad_norm": 0.6016758680343628,
      "learning_rate": 2.0408163265306123e-05,
      "loss": 2.0776,
      "num_input_tokens_seen": 2123366400,
      "step": 5400
    },
    {
      "epoch": 0.612918655201369,
      "grad_norm": 0.5522080659866333,
      "learning_rate": 2.0372359470103834e-05,
      "loss": 2.0433,
      "num_input_tokens_seen": 2125725696,
      "step": 5406
    },
    {
      "epoch": 0.613598920079506,
      "grad_norm": 0.622534990310669,
      "learning_rate": 2.0336555674901542e-05,
      "loss": 2.0225,
      "num_input_tokens_seen": 2128084992,
      "step": 5412
    },
    {
      "epoch": 0.6142791849576429,
      "grad_norm": 0.5342540144920349,
      "learning_rate": 2.0300751879699247e-05,
      "loss": 2.0334,
      "num_input_tokens_seen": 2130444288,
      "step": 5418
    },
    {
      "epoch": 0.6149594498357798,
      "grad_norm": 0.5722180604934692,
      "learning_rate": 2.026494808449696e-05,
      "loss": 2.0581,
      "num_input_tokens_seen": 2132803584,
      "step": 5424
    },
    {
      "epoch": 0.6156397147139168,
      "grad_norm": 0.6203873157501221,
      "learning_rate": 2.0229144289294667e-05,
      "loss": 2.0202,
      "num_input_tokens_seen": 2135162880,
      "step": 5430
    },
    {
      "epoch": 0.6163199795920536,
      "grad_norm": 0.5414242148399353,
      "learning_rate": 2.0193340494092375e-05,
      "loss": 2.0302,
      "num_input_tokens_seen": 2137522176,
      "step": 5436
    },
    {
      "epoch": 0.6170002444701905,
      "grad_norm": 0.6533239483833313,
      "learning_rate": 2.0157536698890083e-05,
      "loss": 2.046,
      "num_input_tokens_seen": 2139881472,
      "step": 5442
    },
    {
      "epoch": 0.6176805093483275,
      "grad_norm": 0.647675096988678,
      "learning_rate": 2.012173290368779e-05,
      "loss": 2.0384,
      "num_input_tokens_seen": 2142240768,
      "step": 5448
    },
    {
      "epoch": 0.6183607742264644,
      "grad_norm": 0.7028170228004456,
      "learning_rate": 2.0085929108485503e-05,
      "loss": 2.0393,
      "num_input_tokens_seen": 2144600064,
      "step": 5454
    },
    {
      "epoch": 0.6190410391046014,
      "grad_norm": 0.6044926047325134,
      "learning_rate": 2.0050125313283208e-05,
      "loss": 2.0437,
      "num_input_tokens_seen": 2146959360,
      "step": 5460
    },
    {
      "epoch": 0.6197213039827383,
      "grad_norm": 0.5385059714317322,
      "learning_rate": 2.0014321518080916e-05,
      "loss": 2.016,
      "num_input_tokens_seen": 2149318656,
      "step": 5466
    },
    {
      "epoch": 0.6204015688608752,
      "grad_norm": 0.6397769451141357,
      "learning_rate": 1.9978517722878627e-05,
      "loss": 2.0065,
      "num_input_tokens_seen": 2151677952,
      "step": 5472
    },
    {
      "epoch": 0.6210818337390122,
      "grad_norm": 0.6114969253540039,
      "learning_rate": 1.9942713927676335e-05,
      "loss": 2.0456,
      "num_input_tokens_seen": 2154037248,
      "step": 5478
    },
    {
      "epoch": 0.621762098617149,
      "grad_norm": 0.585610568523407,
      "learning_rate": 1.9906910132474044e-05,
      "loss": 2.0395,
      "num_input_tokens_seen": 2156396544,
      "step": 5484
    },
    {
      "epoch": 0.6224423634952859,
      "grad_norm": 0.5144538879394531,
      "learning_rate": 1.987110633727175e-05,
      "loss": 2.0605,
      "num_input_tokens_seen": 2158755840,
      "step": 5490
    },
    {
      "epoch": 0.6231226283734229,
      "grad_norm": 0.5797079205513,
      "learning_rate": 1.9835302542069463e-05,
      "loss": 2.0206,
      "num_input_tokens_seen": 2161115136,
      "step": 5496
    },
    {
      "epoch": 0.6238028932515598,
      "grad_norm": 0.49237367510795593,
      "learning_rate": 1.9799498746867168e-05,
      "loss": 1.9534,
      "num_input_tokens_seen": 2163474432,
      "step": 5502
    },
    {
      "epoch": 0.6244831581296968,
      "grad_norm": 0.5623591542243958,
      "learning_rate": 1.9763694951664876e-05,
      "loss": 2.0229,
      "num_input_tokens_seen": 2165833728,
      "step": 5508
    },
    {
      "epoch": 0.6251634230078337,
      "grad_norm": 0.5550060868263245,
      "learning_rate": 1.9727891156462584e-05,
      "loss": 2.0442,
      "num_input_tokens_seen": 2168193024,
      "step": 5514
    },
    {
      "epoch": 0.6258436878859706,
      "grad_norm": 0.5482363104820251,
      "learning_rate": 1.9692087361260296e-05,
      "loss": 2.0418,
      "num_input_tokens_seen": 2170552320,
      "step": 5520
    },
    {
      "epoch": 0.6265239527641076,
      "grad_norm": 0.612348198890686,
      "learning_rate": 1.9656283566058004e-05,
      "loss": 1.9943,
      "num_input_tokens_seen": 2172911616,
      "step": 5526
    },
    {
      "epoch": 0.6272042176422444,
      "grad_norm": 0.5311436057090759,
      "learning_rate": 1.9620479770855712e-05,
      "loss": 2.0369,
      "num_input_tokens_seen": 2175270912,
      "step": 5532
    },
    {
      "epoch": 0.6278844825203814,
      "grad_norm": 0.5449828505516052,
      "learning_rate": 1.958467597565342e-05,
      "loss": 2.0169,
      "num_input_tokens_seen": 2177630208,
      "step": 5538
    },
    {
      "epoch": 0.6285647473985183,
      "grad_norm": 0.5630024671554565,
      "learning_rate": 1.954887218045113e-05,
      "loss": 2.0441,
      "num_input_tokens_seen": 2179989504,
      "step": 5544
    },
    {
      "epoch": 0.6292450122766552,
      "grad_norm": 0.5129250288009644,
      "learning_rate": 1.9513068385248837e-05,
      "loss": 1.9904,
      "num_input_tokens_seen": 2182348800,
      "step": 5550
    },
    {
      "epoch": 0.6299252771547922,
      "grad_norm": 0.6263514161109924,
      "learning_rate": 1.9477264590046545e-05,
      "loss": 2.0084,
      "num_input_tokens_seen": 2184708096,
      "step": 5556
    },
    {
      "epoch": 0.6306055420329291,
      "grad_norm": 0.5702618360519409,
      "learning_rate": 1.9441460794844253e-05,
      "loss": 2.0487,
      "num_input_tokens_seen": 2187067392,
      "step": 5562
    },
    {
      "epoch": 0.631285806911066,
      "grad_norm": 0.6130457520484924,
      "learning_rate": 1.9405656999641965e-05,
      "loss": 2.047,
      "num_input_tokens_seen": 2189426688,
      "step": 5568
    },
    {
      "epoch": 0.6319660717892029,
      "grad_norm": 0.5357660055160522,
      "learning_rate": 1.9369853204439673e-05,
      "loss": 1.9605,
      "num_input_tokens_seen": 2191785984,
      "step": 5574
    },
    {
      "epoch": 0.6326463366673398,
      "grad_norm": 0.515099287033081,
      "learning_rate": 1.933404940923738e-05,
      "loss": 1.9558,
      "num_input_tokens_seen": 2194145280,
      "step": 5580
    },
    {
      "epoch": 0.6333266015454768,
      "grad_norm": 0.5823177695274353,
      "learning_rate": 1.929824561403509e-05,
      "loss": 2.0505,
      "num_input_tokens_seen": 2196504576,
      "step": 5586
    },
    {
      "epoch": 0.6340068664236137,
      "grad_norm": 0.5302935838699341,
      "learning_rate": 1.9262441818832797e-05,
      "loss": 2.0165,
      "num_input_tokens_seen": 2198863872,
      "step": 5592
    },
    {
      "epoch": 0.6346871313017506,
      "grad_norm": 0.6928517818450928,
      "learning_rate": 1.9226638023630505e-05,
      "loss": 2.0234,
      "num_input_tokens_seen": 2201223168,
      "step": 5598
    },
    {
      "epoch": 0.6349138862611295,
      "eval_accuracy": 0.5844572649572649,
      "eval_loss": 2.0162546634674072,
      "eval_runtime": 129.1053,
      "eval_samples_per_second": 3.098,
      "eval_steps_per_second": 1.038,
      "num_input_tokens_seen": 2202009600,
      "step": 5600
    },
    {
      "epoch": 0.6353673961798876,
      "grad_norm": 0.6656593084335327,
      "learning_rate": 1.9190834228428213e-05,
      "loss": 2.0049,
      "num_input_tokens_seen": 2203582464,
      "step": 5604
    },
    {
      "epoch": 0.6360476610580245,
      "grad_norm": 0.5688000917434692,
      "learning_rate": 1.9155030433225925e-05,
      "loss": 2.0513,
      "num_input_tokens_seen": 2205941760,
      "step": 5610
    },
    {
      "epoch": 0.6367279259361613,
      "grad_norm": 0.5396568179130554,
      "learning_rate": 1.9119226638023633e-05,
      "loss": 2.0563,
      "num_input_tokens_seen": 2208301056,
      "step": 5616
    },
    {
      "epoch": 0.6374081908142983,
      "grad_norm": 0.6275331974029541,
      "learning_rate": 1.908342284282134e-05,
      "loss": 2.0474,
      "num_input_tokens_seen": 2210660352,
      "step": 5622
    },
    {
      "epoch": 0.6380884556924352,
      "grad_norm": 0.53306645154953,
      "learning_rate": 1.9047619047619046e-05,
      "loss": 2.0287,
      "num_input_tokens_seen": 2213019648,
      "step": 5628
    },
    {
      "epoch": 0.6387687205705722,
      "grad_norm": 0.5248289704322815,
      "learning_rate": 1.9011815252416758e-05,
      "loss": 1.9989,
      "num_input_tokens_seen": 2215378944,
      "step": 5634
    },
    {
      "epoch": 0.6394489854487091,
      "grad_norm": 0.5750051140785217,
      "learning_rate": 1.8976011457214466e-05,
      "loss": 2.103,
      "num_input_tokens_seen": 2217738240,
      "step": 5640
    },
    {
      "epoch": 0.640129250326846,
      "grad_norm": 0.6214660406112671,
      "learning_rate": 1.8940207662012174e-05,
      "loss": 2.0476,
      "num_input_tokens_seen": 2220097536,
      "step": 5646
    },
    {
      "epoch": 0.640809515204983,
      "grad_norm": 0.6341087222099304,
      "learning_rate": 1.8904403866809882e-05,
      "loss": 2.0424,
      "num_input_tokens_seen": 2222456832,
      "step": 5652
    },
    {
      "epoch": 0.6414897800831199,
      "grad_norm": 0.5591261386871338,
      "learning_rate": 1.8868600071607594e-05,
      "loss": 2.0624,
      "num_input_tokens_seen": 2224816128,
      "step": 5658
    },
    {
      "epoch": 0.6421700449612567,
      "grad_norm": 0.538550615310669,
      "learning_rate": 1.8832796276405302e-05,
      "loss": 2.0207,
      "num_input_tokens_seen": 2227175424,
      "step": 5664
    },
    {
      "epoch": 0.6428503098393937,
      "grad_norm": 0.5393409729003906,
      "learning_rate": 1.8796992481203007e-05,
      "loss": 2.0775,
      "num_input_tokens_seen": 2229534720,
      "step": 5670
    },
    {
      "epoch": 0.6435305747175306,
      "grad_norm": 0.6216705441474915,
      "learning_rate": 1.8761188686000715e-05,
      "loss": 2.0119,
      "num_input_tokens_seen": 2231894016,
      "step": 5676
    },
    {
      "epoch": 0.6442108395956676,
      "grad_norm": 0.7083945274353027,
      "learning_rate": 1.8725384890798426e-05,
      "loss": 2.0221,
      "num_input_tokens_seen": 2234253312,
      "step": 5682
    },
    {
      "epoch": 0.6448911044738045,
      "grad_norm": 0.6334338784217834,
      "learning_rate": 1.8689581095596134e-05,
      "loss": 2.025,
      "num_input_tokens_seen": 2236612608,
      "step": 5688
    },
    {
      "epoch": 0.6455713693519414,
      "grad_norm": 0.8451031446456909,
      "learning_rate": 1.8653777300393843e-05,
      "loss": 2.0488,
      "num_input_tokens_seen": 2238971904,
      "step": 5694
    },
    {
      "epoch": 0.6462516342300784,
      "grad_norm": 0.6180372834205627,
      "learning_rate": 1.861797350519155e-05,
      "loss": 2.0468,
      "num_input_tokens_seen": 2241331200,
      "step": 5700
    },
    {
      "epoch": 0.6469318991082152,
      "grad_norm": 0.5460434556007385,
      "learning_rate": 1.8582169709989262e-05,
      "loss": 2.0523,
      "num_input_tokens_seen": 2243690496,
      "step": 5706
    },
    {
      "epoch": 0.6476121639863522,
      "grad_norm": 0.54164719581604,
      "learning_rate": 1.8546365914786967e-05,
      "loss": 2.0406,
      "num_input_tokens_seen": 2246049792,
      "step": 5712
    },
    {
      "epoch": 0.6482924288644891,
      "grad_norm": 0.5062336921691895,
      "learning_rate": 1.8510562119584675e-05,
      "loss": 2.0353,
      "num_input_tokens_seen": 2248409088,
      "step": 5718
    },
    {
      "epoch": 0.648972693742626,
      "grad_norm": 0.5514745712280273,
      "learning_rate": 1.8474758324382387e-05,
      "loss": 2.0479,
      "num_input_tokens_seen": 2250768384,
      "step": 5724
    },
    {
      "epoch": 0.649652958620763,
      "grad_norm": 0.6137591600418091,
      "learning_rate": 1.8438954529180095e-05,
      "loss": 2.0144,
      "num_input_tokens_seen": 2253127680,
      "step": 5730
    },
    {
      "epoch": 0.6503332234988999,
      "grad_norm": 0.6638593077659607,
      "learning_rate": 1.8403150733977803e-05,
      "loss": 2.0213,
      "num_input_tokens_seen": 2255486976,
      "step": 5736
    },
    {
      "epoch": 0.6510134883770368,
      "grad_norm": 0.5813100337982178,
      "learning_rate": 1.836734693877551e-05,
      "loss": 1.9889,
      "num_input_tokens_seen": 2257846272,
      "step": 5742
    },
    {
      "epoch": 0.6516937532551738,
      "grad_norm": 0.5840685963630676,
      "learning_rate": 1.833154314357322e-05,
      "loss": 1.9623,
      "num_input_tokens_seen": 2260205568,
      "step": 5748
    },
    {
      "epoch": 0.6523740181333106,
      "grad_norm": 0.6277685761451721,
      "learning_rate": 1.8295739348370928e-05,
      "loss": 2.0894,
      "num_input_tokens_seen": 2262564864,
      "step": 5754
    },
    {
      "epoch": 0.6530542830114476,
      "grad_norm": 0.5178935527801514,
      "learning_rate": 1.8259935553168636e-05,
      "loss": 2.0359,
      "num_input_tokens_seen": 2264924160,
      "step": 5760
    },
    {
      "epoch": 0.6537345478895845,
      "grad_norm": 0.5926587581634521,
      "learning_rate": 1.8224131757966344e-05,
      "loss": 1.9869,
      "num_input_tokens_seen": 2267283456,
      "step": 5766
    },
    {
      "epoch": 0.6544148127677214,
      "grad_norm": 0.5860345959663391,
      "learning_rate": 1.8188327962764055e-05,
      "loss": 2.0953,
      "num_input_tokens_seen": 2269642752,
      "step": 5772
    },
    {
      "epoch": 0.6550950776458584,
      "grad_norm": 0.5178937315940857,
      "learning_rate": 1.8152524167561764e-05,
      "loss": 2.0017,
      "num_input_tokens_seen": 2272002048,
      "step": 5778
    },
    {
      "epoch": 0.6557753425239953,
      "grad_norm": 0.5575287938117981,
      "learning_rate": 1.8116720372359472e-05,
      "loss": 1.9847,
      "num_input_tokens_seen": 2274361344,
      "step": 5784
    },
    {
      "epoch": 0.6564556074021322,
      "grad_norm": 0.7367034554481506,
      "learning_rate": 1.808091657715718e-05,
      "loss": 2.0555,
      "num_input_tokens_seen": 2276720640,
      "step": 5790
    },
    {
      "epoch": 0.6571358722802692,
      "grad_norm": 0.5715209245681763,
      "learning_rate": 1.8045112781954888e-05,
      "loss": 2.0645,
      "num_input_tokens_seen": 2279079936,
      "step": 5796
    },
    {
      "epoch": 0.657816137158406,
      "grad_norm": 0.5563541054725647,
      "learning_rate": 1.8009308986752596e-05,
      "loss": 1.9926,
      "num_input_tokens_seen": 2281439232,
      "step": 5802
    },
    {
      "epoch": 0.658496402036543,
      "grad_norm": 0.6194490194320679,
      "learning_rate": 1.7973505191550304e-05,
      "loss": 2.0258,
      "num_input_tokens_seen": 2283798528,
      "step": 5808
    },
    {
      "epoch": 0.6591766669146799,
      "grad_norm": 0.548372209072113,
      "learning_rate": 1.7937701396348013e-05,
      "loss": 2.0432,
      "num_input_tokens_seen": 2286157824,
      "step": 5814
    },
    {
      "epoch": 0.6598569317928168,
      "grad_norm": 0.5206018090248108,
      "learning_rate": 1.7901897601145724e-05,
      "loss": 2.0205,
      "num_input_tokens_seen": 2288517120,
      "step": 5820
    },
    {
      "epoch": 0.6605371966709538,
      "grad_norm": 0.5887606739997864,
      "learning_rate": 1.7866093805943432e-05,
      "loss": 2.0464,
      "num_input_tokens_seen": 2290876416,
      "step": 5826
    },
    {
      "epoch": 0.6612174615490907,
      "grad_norm": 0.5260190367698669,
      "learning_rate": 1.7830290010741137e-05,
      "loss": 2.0031,
      "num_input_tokens_seen": 2293235712,
      "step": 5832
    },
    {
      "epoch": 0.6618977264272276,
      "grad_norm": 0.5165619850158691,
      "learning_rate": 1.779448621553885e-05,
      "loss": 2.0114,
      "num_input_tokens_seen": 2295595008,
      "step": 5838
    },
    {
      "epoch": 0.6625779913053645,
      "grad_norm": 0.5297482013702393,
      "learning_rate": 1.7758682420336557e-05,
      "loss": 2.0397,
      "num_input_tokens_seen": 2297954304,
      "step": 5844
    },
    {
      "epoch": 0.6632582561835014,
      "grad_norm": 0.5319347977638245,
      "learning_rate": 1.7722878625134265e-05,
      "loss": 1.9881,
      "num_input_tokens_seen": 2300313600,
      "step": 5850
    },
    {
      "epoch": 0.6639385210616384,
      "grad_norm": 0.5887789726257324,
      "learning_rate": 1.7687074829931973e-05,
      "loss": 2.0377,
      "num_input_tokens_seen": 2302672896,
      "step": 5856
    },
    {
      "epoch": 0.6646187859397753,
      "grad_norm": 0.5922223925590515,
      "learning_rate": 1.765127103472968e-05,
      "loss": 2.0109,
      "num_input_tokens_seen": 2305032192,
      "step": 5862
    },
    {
      "epoch": 0.6652990508179122,
      "grad_norm": 0.5542311072349548,
      "learning_rate": 1.7615467239527393e-05,
      "loss": 2.0284,
      "num_input_tokens_seen": 2307391488,
      "step": 5868
    },
    {
      "epoch": 0.6659793156960492,
      "grad_norm": 0.5875877141952515,
      "learning_rate": 1.7579663444325098e-05,
      "loss": 1.9765,
      "num_input_tokens_seen": 2309750784,
      "step": 5874
    },
    {
      "epoch": 0.6666595805741861,
      "grad_norm": 0.5613130927085876,
      "learning_rate": 1.7543859649122806e-05,
      "loss": 2.0177,
      "num_input_tokens_seen": 2312110080,
      "step": 5880
    },
    {
      "epoch": 0.6673398454523229,
      "grad_norm": 0.6007198691368103,
      "learning_rate": 1.7508055853920517e-05,
      "loss": 2.0009,
      "num_input_tokens_seen": 2314469376,
      "step": 5886
    },
    {
      "epoch": 0.6680201103304599,
      "grad_norm": 0.5905076861381531,
      "learning_rate": 1.7472252058718225e-05,
      "loss": 2.0161,
      "num_input_tokens_seen": 2316828672,
      "step": 5892
    },
    {
      "epoch": 0.6687003752085968,
      "grad_norm": 0.5711119771003723,
      "learning_rate": 1.7436448263515934e-05,
      "loss": 2.0024,
      "num_input_tokens_seen": 2319187968,
      "step": 5898
    },
    {
      "epoch": 0.6693806400867338,
      "grad_norm": 0.5723757147789001,
      "learning_rate": 1.7400644468313642e-05,
      "loss": 2.0639,
      "num_input_tokens_seen": 2321547264,
      "step": 5904
    },
    {
      "epoch": 0.6700609049648707,
      "grad_norm": 0.6024678349494934,
      "learning_rate": 1.7364840673111353e-05,
      "loss": 1.9558,
      "num_input_tokens_seen": 2323906560,
      "step": 5910
    },
    {
      "epoch": 0.6707411698430076,
      "grad_norm": 0.5753939151763916,
      "learning_rate": 1.7329036877909058e-05,
      "loss": 2.066,
      "num_input_tokens_seen": 2326265856,
      "step": 5916
    },
    {
      "epoch": 0.6714214347211446,
      "grad_norm": 0.6269899606704712,
      "learning_rate": 1.7293233082706766e-05,
      "loss": 1.9689,
      "num_input_tokens_seen": 2328625152,
      "step": 5922
    },
    {
      "epoch": 0.6721016995992815,
      "grad_norm": 0.5666351318359375,
      "learning_rate": 1.7257429287504474e-05,
      "loss": 1.9687,
      "num_input_tokens_seen": 2330984448,
      "step": 5928
    },
    {
      "epoch": 0.6727819644774184,
      "grad_norm": 0.5650635957717896,
      "learning_rate": 1.7221625492302186e-05,
      "loss": 2.0503,
      "num_input_tokens_seen": 2333343744,
      "step": 5934
    },
    {
      "epoch": 0.6734622293555553,
      "grad_norm": 0.5674002766609192,
      "learning_rate": 1.7185821697099894e-05,
      "loss": 2.0113,
      "num_input_tokens_seen": 2335703040,
      "step": 5940
    },
    {
      "epoch": 0.6741424942336922,
      "grad_norm": 0.5696431398391724,
      "learning_rate": 1.7150017901897602e-05,
      "loss": 2.0004,
      "num_input_tokens_seen": 2338062336,
      "step": 5946
    },
    {
      "epoch": 0.6748227591118292,
      "grad_norm": 0.5952620506286621,
      "learning_rate": 1.711421410669531e-05,
      "loss": 2.0284,
      "num_input_tokens_seen": 2340421632,
      "step": 5952
    },
    {
      "epoch": 0.6755030239899661,
      "grad_norm": 0.5755632519721985,
      "learning_rate": 1.707841031149302e-05,
      "loss": 2.0401,
      "num_input_tokens_seen": 2342780928,
      "step": 5958
    },
    {
      "epoch": 0.676183288868103,
      "grad_norm": 0.5462335348129272,
      "learning_rate": 1.7042606516290727e-05,
      "loss": 2.0531,
      "num_input_tokens_seen": 2345140224,
      "step": 5964
    },
    {
      "epoch": 0.67686355374624,
      "grad_norm": 0.5699030756950378,
      "learning_rate": 1.7006802721088435e-05,
      "loss": 2.0432,
      "num_input_tokens_seen": 2347499520,
      "step": 5970
    },
    {
      "epoch": 0.6775438186243768,
      "grad_norm": 0.546146035194397,
      "learning_rate": 1.6970998925886143e-05,
      "loss": 2.0535,
      "num_input_tokens_seen": 2349858816,
      "step": 5976
    },
    {
      "epoch": 0.6782240835025138,
      "grad_norm": 0.5467692613601685,
      "learning_rate": 1.6935195130683855e-05,
      "loss": 2.054,
      "num_input_tokens_seen": 2352218112,
      "step": 5982
    },
    {
      "epoch": 0.6789043483806507,
      "grad_norm": 0.5051277875900269,
      "learning_rate": 1.6899391335481563e-05,
      "loss": 2.0584,
      "num_input_tokens_seen": 2354577408,
      "step": 5988
    },
    {
      "epoch": 0.6795846132587876,
      "grad_norm": 0.5340428352355957,
      "learning_rate": 1.686358754027927e-05,
      "loss": 2.0183,
      "num_input_tokens_seen": 2356936704,
      "step": 5994
    },
    {
      "epoch": 0.6802648781369246,
      "grad_norm": 0.5289435386657715,
      "learning_rate": 1.682778374507698e-05,
      "loss": 2.073,
      "num_input_tokens_seen": 2359296000,
      "step": 6000
    },
    {
      "epoch": 0.6802648781369246,
      "eval_accuracy": 0.5850433455433456,
      "eval_loss": 2.012032985687256,
      "eval_runtime": 128.1029,
      "eval_samples_per_second": 3.122,
      "eval_steps_per_second": 1.046,
      "num_input_tokens_seen": 2359296000,
      "step": 6000
    },
    {
      "epoch": 0.6809451430150615,
      "grad_norm": 0.5148223638534546,
      "learning_rate": 1.6791979949874687e-05,
      "loss": 2.0406,
      "num_input_tokens_seen": 2361655296,
      "step": 6006
    },
    {
      "epoch": 0.6816254078931984,
      "grad_norm": 0.5186204314231873,
      "learning_rate": 1.6756176154672395e-05,
      "loss": 2.0097,
      "num_input_tokens_seen": 2364014592,
      "step": 6012
    },
    {
      "epoch": 0.6823056727713354,
      "grad_norm": 0.5499780774116516,
      "learning_rate": 1.6720372359470104e-05,
      "loss": 1.9898,
      "num_input_tokens_seen": 2366373888,
      "step": 6018
    },
    {
      "epoch": 0.6829859376494722,
      "grad_norm": 0.5377045273780823,
      "learning_rate": 1.6684568564267815e-05,
      "loss": 2.0034,
      "num_input_tokens_seen": 2368733184,
      "step": 6024
    },
    {
      "epoch": 0.6836662025276092,
      "grad_norm": 0.6097836494445801,
      "learning_rate": 1.6648764769065523e-05,
      "loss": 2.048,
      "num_input_tokens_seen": 2371092480,
      "step": 6030
    },
    {
      "epoch": 0.6843464674057461,
      "grad_norm": 0.5289618968963623,
      "learning_rate": 1.661296097386323e-05,
      "loss": 2.0785,
      "num_input_tokens_seen": 2373451776,
      "step": 6036
    },
    {
      "epoch": 0.685026732283883,
      "grad_norm": 0.522239089012146,
      "learning_rate": 1.6577157178660936e-05,
      "loss": 2.0472,
      "num_input_tokens_seen": 2375811072,
      "step": 6042
    },
    {
      "epoch": 0.68570699716202,
      "grad_norm": 0.5830532908439636,
      "learning_rate": 1.6541353383458648e-05,
      "loss": 1.9969,
      "num_input_tokens_seen": 2378170368,
      "step": 6048
    },
    {
      "epoch": 0.6863872620401569,
      "grad_norm": 0.5812861919403076,
      "learning_rate": 1.6505549588256356e-05,
      "loss": 2.0162,
      "num_input_tokens_seen": 2380529664,
      "step": 6054
    },
    {
      "epoch": 0.6870675269182938,
      "grad_norm": 0.607001543045044,
      "learning_rate": 1.6469745793054064e-05,
      "loss": 1.977,
      "num_input_tokens_seen": 2382888960,
      "step": 6060
    },
    {
      "epoch": 0.6877477917964308,
      "grad_norm": 0.5279623866081238,
      "learning_rate": 1.6433941997851772e-05,
      "loss": 2.0245,
      "num_input_tokens_seen": 2385248256,
      "step": 6066
    },
    {
      "epoch": 0.6884280566745676,
      "grad_norm": 0.49770334362983704,
      "learning_rate": 1.6398138202649484e-05,
      "loss": 2.0936,
      "num_input_tokens_seen": 2387607552,
      "step": 6072
    },
    {
      "epoch": 0.6891083215527046,
      "grad_norm": 0.5788572430610657,
      "learning_rate": 1.6362334407447192e-05,
      "loss": 2.0201,
      "num_input_tokens_seen": 2389966848,
      "step": 6078
    },
    {
      "epoch": 0.6897885864308415,
      "grad_norm": 0.5910390019416809,
      "learning_rate": 1.6326530612244897e-05,
      "loss": 2.0595,
      "num_input_tokens_seen": 2392326144,
      "step": 6084
    },
    {
      "epoch": 0.6904688513089784,
      "grad_norm": 0.5049883127212524,
      "learning_rate": 1.6290726817042605e-05,
      "loss": 2.0315,
      "num_input_tokens_seen": 2394685440,
      "step": 6090
    },
    {
      "epoch": 0.6911491161871154,
      "grad_norm": 0.6210893988609314,
      "learning_rate": 1.6254923021840316e-05,
      "loss": 2.0042,
      "num_input_tokens_seen": 2397044736,
      "step": 6096
    },
    {
      "epoch": 0.6918293810652523,
      "grad_norm": 0.5483914017677307,
      "learning_rate": 1.6219119226638025e-05,
      "loss": 1.9958,
      "num_input_tokens_seen": 2399404032,
      "step": 6102
    },
    {
      "epoch": 0.6925096459433893,
      "grad_norm": 0.5364962220191956,
      "learning_rate": 1.6183315431435733e-05,
      "loss": 2.0369,
      "num_input_tokens_seen": 2401763328,
      "step": 6108
    },
    {
      "epoch": 0.6931899108215261,
      "grad_norm": 0.5008904933929443,
      "learning_rate": 1.614751163623344e-05,
      "loss": 2.0351,
      "num_input_tokens_seen": 2404122624,
      "step": 6114
    },
    {
      "epoch": 0.693870175699663,
      "grad_norm": 0.5553967356681824,
      "learning_rate": 1.6111707841031152e-05,
      "loss": 2.0215,
      "num_input_tokens_seen": 2406481920,
      "step": 6120
    },
    {
      "epoch": 0.6945504405778,
      "grad_norm": 0.5240505337715149,
      "learning_rate": 1.6075904045828857e-05,
      "loss": 2.0129,
      "num_input_tokens_seen": 2408841216,
      "step": 6126
    },
    {
      "epoch": 0.6952307054559369,
      "grad_norm": 0.5032373070716858,
      "learning_rate": 1.6040100250626565e-05,
      "loss": 2.003,
      "num_input_tokens_seen": 2411200512,
      "step": 6132
    },
    {
      "epoch": 0.6959109703340738,
      "grad_norm": 0.5194136500358582,
      "learning_rate": 1.6004296455424277e-05,
      "loss": 1.9717,
      "num_input_tokens_seen": 2413559808,
      "step": 6138
    },
    {
      "epoch": 0.6965912352122108,
      "grad_norm": 0.6916829943656921,
      "learning_rate": 1.5968492660221985e-05,
      "loss": 2.0228,
      "num_input_tokens_seen": 2415919104,
      "step": 6144
    },
    {
      "epoch": 0.6972715000903477,
      "grad_norm": 0.5243424773216248,
      "learning_rate": 1.5932688865019693e-05,
      "loss": 2.0121,
      "num_input_tokens_seen": 2418278400,
      "step": 6150
    },
    {
      "epoch": 0.6979517649684847,
      "grad_norm": 0.6381689310073853,
      "learning_rate": 1.58968850698174e-05,
      "loss": 2.0556,
      "num_input_tokens_seen": 2420637696,
      "step": 6156
    },
    {
      "epoch": 0.6986320298466215,
      "grad_norm": 0.537339448928833,
      "learning_rate": 1.586108127461511e-05,
      "loss": 1.9974,
      "num_input_tokens_seen": 2422996992,
      "step": 6162
    },
    {
      "epoch": 0.6993122947247584,
      "grad_norm": 0.5361027717590332,
      "learning_rate": 1.5825277479412818e-05,
      "loss": 2.0205,
      "num_input_tokens_seen": 2425356288,
      "step": 6168
    },
    {
      "epoch": 0.6999925596028954,
      "grad_norm": 0.5492175817489624,
      "learning_rate": 1.5789473684210526e-05,
      "loss": 2.0168,
      "num_input_tokens_seen": 2427715584,
      "step": 6174
    },
    {
      "epoch": 0.7006728244810323,
      "grad_norm": 0.5616779923439026,
      "learning_rate": 1.5753669889008234e-05,
      "loss": 2.0008,
      "num_input_tokens_seen": 2430074880,
      "step": 6180
    },
    {
      "epoch": 0.7013530893591692,
      "grad_norm": 0.5484799146652222,
      "learning_rate": 1.5717866093805946e-05,
      "loss": 1.9296,
      "num_input_tokens_seen": 2432434176,
      "step": 6186
    },
    {
      "epoch": 0.7020333542373062,
      "grad_norm": 0.6379416584968567,
      "learning_rate": 1.5682062298603654e-05,
      "loss": 2.0134,
      "num_input_tokens_seen": 2434793472,
      "step": 6192
    },
    {
      "epoch": 0.7027136191154431,
      "grad_norm": 0.582015872001648,
      "learning_rate": 1.5646258503401362e-05,
      "loss": 2.04,
      "num_input_tokens_seen": 2437152768,
      "step": 6198
    },
    {
      "epoch": 0.70339388399358,
      "grad_norm": 0.545238196849823,
      "learning_rate": 1.561045470819907e-05,
      "loss": 2.0462,
      "num_input_tokens_seen": 2439512064,
      "step": 6204
    },
    {
      "epoch": 0.7040741488717169,
      "grad_norm": 0.6547414660453796,
      "learning_rate": 1.5574650912996778e-05,
      "loss": 2.0875,
      "num_input_tokens_seen": 2441871360,
      "step": 6210
    },
    {
      "epoch": 0.7047544137498538,
      "grad_norm": 0.5639871954917908,
      "learning_rate": 1.5538847117794486e-05,
      "loss": 2.0379,
      "num_input_tokens_seen": 2444230656,
      "step": 6216
    },
    {
      "epoch": 0.7054346786279908,
      "grad_norm": 0.5656554698944092,
      "learning_rate": 1.5503043322592194e-05,
      "loss": 2.0478,
      "num_input_tokens_seen": 2446589952,
      "step": 6222
    },
    {
      "epoch": 0.7061149435061277,
      "grad_norm": 0.5386386513710022,
      "learning_rate": 1.5467239527389903e-05,
      "loss": 2.0567,
      "num_input_tokens_seen": 2448949248,
      "step": 6228
    },
    {
      "epoch": 0.7067952083842646,
      "grad_norm": 0.5181793570518494,
      "learning_rate": 1.5431435732187614e-05,
      "loss": 2.0285,
      "num_input_tokens_seen": 2451308544,
      "step": 6234
    },
    {
      "epoch": 0.7074754732624016,
      "grad_norm": 0.5418627858161926,
      "learning_rate": 1.5395631936985322e-05,
      "loss": 2.0252,
      "num_input_tokens_seen": 2453667840,
      "step": 6240
    },
    {
      "epoch": 0.7081557381405384,
      "grad_norm": 0.5028561353683472,
      "learning_rate": 1.535982814178303e-05,
      "loss": 2.0651,
      "num_input_tokens_seen": 2456027136,
      "step": 6246
    },
    {
      "epoch": 0.7088360030186754,
      "grad_norm": 0.5279743075370789,
      "learning_rate": 1.532402434658074e-05,
      "loss": 1.9913,
      "num_input_tokens_seen": 2458386432,
      "step": 6252
    },
    {
      "epoch": 0.7095162678968123,
      "grad_norm": 0.5399214029312134,
      "learning_rate": 1.5288220551378447e-05,
      "loss": 2.0098,
      "num_input_tokens_seen": 2460745728,
      "step": 6258
    },
    {
      "epoch": 0.7101965327749492,
      "grad_norm": 0.5421512722969055,
      "learning_rate": 1.5252416756176155e-05,
      "loss": 2.0065,
      "num_input_tokens_seen": 2463105024,
      "step": 6264
    },
    {
      "epoch": 0.7108767976530862,
      "grad_norm": 0.5487905740737915,
      "learning_rate": 1.5216612960973863e-05,
      "loss": 2.0431,
      "num_input_tokens_seen": 2465464320,
      "step": 6270
    },
    {
      "epoch": 0.7115570625312231,
      "grad_norm": 0.5177443623542786,
      "learning_rate": 1.5180809165771573e-05,
      "loss": 2.032,
      "num_input_tokens_seen": 2467823616,
      "step": 6276
    },
    {
      "epoch": 0.71223732740936,
      "grad_norm": 0.5425601601600647,
      "learning_rate": 1.5145005370569281e-05,
      "loss": 2.0493,
      "num_input_tokens_seen": 2470182912,
      "step": 6282
    },
    {
      "epoch": 0.712917592287497,
      "grad_norm": 0.5033071041107178,
      "learning_rate": 1.5109201575366991e-05,
      "loss": 1.9629,
      "num_input_tokens_seen": 2472542208,
      "step": 6288
    },
    {
      "epoch": 0.7135978571656338,
      "grad_norm": 0.5855656862258911,
      "learning_rate": 1.5073397780164697e-05,
      "loss": 1.9704,
      "num_input_tokens_seen": 2474901504,
      "step": 6294
    },
    {
      "epoch": 0.7142781220437708,
      "grad_norm": 0.5889589786529541,
      "learning_rate": 1.5037593984962406e-05,
      "loss": 1.9958,
      "num_input_tokens_seen": 2477260800,
      "step": 6300
    },
    {
      "epoch": 0.7149583869219077,
      "grad_norm": 0.5564432740211487,
      "learning_rate": 1.5001790189760115e-05,
      "loss": 2.017,
      "num_input_tokens_seen": 2479620096,
      "step": 6306
    },
    {
      "epoch": 0.7156386518000446,
      "grad_norm": 0.5233476161956787,
      "learning_rate": 1.4965986394557824e-05,
      "loss": 2.0426,
      "num_input_tokens_seen": 2481979392,
      "step": 6312
    },
    {
      "epoch": 0.7163189166781816,
      "grad_norm": 0.5455360412597656,
      "learning_rate": 1.4930182599355533e-05,
      "loss": 1.9938,
      "num_input_tokens_seen": 2484338688,
      "step": 6318
    },
    {
      "epoch": 0.7169991815563185,
      "grad_norm": 0.4952971935272217,
      "learning_rate": 1.4894378804153242e-05,
      "loss": 1.9942,
      "num_input_tokens_seen": 2486697984,
      "step": 6324
    },
    {
      "epoch": 0.7176794464344555,
      "grad_norm": 0.5228383541107178,
      "learning_rate": 1.4858575008950952e-05,
      "loss": 1.9894,
      "num_input_tokens_seen": 2489057280,
      "step": 6330
    },
    {
      "epoch": 0.7183597113125924,
      "grad_norm": 0.5237627029418945,
      "learning_rate": 1.4822771213748656e-05,
      "loss": 2.0579,
      "num_input_tokens_seen": 2491416576,
      "step": 6336
    },
    {
      "epoch": 0.7190399761907292,
      "grad_norm": 0.541063666343689,
      "learning_rate": 1.4786967418546366e-05,
      "loss": 2.0231,
      "num_input_tokens_seen": 2493775872,
      "step": 6342
    },
    {
      "epoch": 0.7197202410688662,
      "grad_norm": 0.5005678534507751,
      "learning_rate": 1.4751163623344074e-05,
      "loss": 2.0143,
      "num_input_tokens_seen": 2496135168,
      "step": 6348
    },
    {
      "epoch": 0.7204005059470031,
      "grad_norm": 0.5186320543289185,
      "learning_rate": 1.4715359828141784e-05,
      "loss": 2.0299,
      "num_input_tokens_seen": 2498494464,
      "step": 6354
    },
    {
      "epoch": 0.72108077082514,
      "grad_norm": 0.5344519019126892,
      "learning_rate": 1.4679556032939492e-05,
      "loss": 2.0408,
      "num_input_tokens_seen": 2500853760,
      "step": 6360
    },
    {
      "epoch": 0.721761035703277,
      "grad_norm": 0.5525063276290894,
      "learning_rate": 1.4643752237737202e-05,
      "loss": 2.0227,
      "num_input_tokens_seen": 2503213056,
      "step": 6366
    },
    {
      "epoch": 0.7224413005814139,
      "grad_norm": 0.5622419118881226,
      "learning_rate": 1.460794844253491e-05,
      "loss": 2.0103,
      "num_input_tokens_seen": 2505572352,
      "step": 6372
    },
    {
      "epoch": 0.7231215654595509,
      "grad_norm": 0.5473782420158386,
      "learning_rate": 1.4572144647332617e-05,
      "loss": 2.0163,
      "num_input_tokens_seen": 2507931648,
      "step": 6378
    },
    {
      "epoch": 0.7238018303376877,
      "grad_norm": 0.5566105246543884,
      "learning_rate": 1.4536340852130325e-05,
      "loss": 2.0512,
      "num_input_tokens_seen": 2510290944,
      "step": 6384
    },
    {
      "epoch": 0.7244820952158246,
      "grad_norm": 0.5519588589668274,
      "learning_rate": 1.4500537056928035e-05,
      "loss": 2.0518,
      "num_input_tokens_seen": 2512650240,
      "step": 6390
    },
    {
      "epoch": 0.7251623600939616,
      "grad_norm": 0.6528738737106323,
      "learning_rate": 1.4464733261725743e-05,
      "loss": 2.058,
      "num_input_tokens_seen": 2515009536,
      "step": 6396
    },
    {
      "epoch": 0.7256158700127195,
      "eval_accuracy": 0.5862222222222222,
      "eval_loss": 2.0074377059936523,
      "eval_runtime": 129.8788,
      "eval_samples_per_second": 3.08,
      "eval_steps_per_second": 1.032,
      "num_input_tokens_seen": 2516582400,
      "step": 6400
    },
    {
      "epoch": 0.7258426249720985,
      "grad_norm": 0.5393079519271851,
      "learning_rate": 1.4428929466523453e-05,
      "loss": 1.9774,
      "num_input_tokens_seen": 2517368832,
      "step": 6402
    },
    {
      "epoch": 0.7265228898502354,
      "grad_norm": 0.6304501295089722,
      "learning_rate": 1.4393125671321161e-05,
      "loss": 2.0694,
      "num_input_tokens_seen": 2519728128,
      "step": 6408
    },
    {
      "epoch": 0.7272031547283724,
      "grad_norm": 0.5596165060997009,
      "learning_rate": 1.435732187611887e-05,
      "loss": 2.0378,
      "num_input_tokens_seen": 2522087424,
      "step": 6414
    },
    {
      "epoch": 0.7278834196065093,
      "grad_norm": 0.5285012125968933,
      "learning_rate": 1.4321518080916577e-05,
      "loss": 2.0108,
      "num_input_tokens_seen": 2524446720,
      "step": 6420
    },
    {
      "epoch": 0.7285636844846463,
      "grad_norm": 0.5212527513504028,
      "learning_rate": 1.4285714285714285e-05,
      "loss": 2.0467,
      "num_input_tokens_seen": 2526806016,
      "step": 6426
    },
    {
      "epoch": 0.7292439493627831,
      "grad_norm": 0.5333656072616577,
      "learning_rate": 1.4249910490511995e-05,
      "loss": 2.0218,
      "num_input_tokens_seen": 2529165312,
      "step": 6432
    },
    {
      "epoch": 0.72992421424092,
      "grad_norm": 0.5523655414581299,
      "learning_rate": 1.4214106695309703e-05,
      "loss": 1.9989,
      "num_input_tokens_seen": 2531524608,
      "step": 6438
    },
    {
      "epoch": 0.730604479119057,
      "grad_norm": 0.5648514032363892,
      "learning_rate": 1.4178302900107413e-05,
      "loss": 2.0348,
      "num_input_tokens_seen": 2533883904,
      "step": 6444
    },
    {
      "epoch": 0.7312847439971939,
      "grad_norm": 0.5992633700370789,
      "learning_rate": 1.4142499104905121e-05,
      "loss": 2.0292,
      "num_input_tokens_seen": 2536243200,
      "step": 6450
    },
    {
      "epoch": 0.7319650088753308,
      "grad_norm": 0.5971994400024414,
      "learning_rate": 1.410669530970283e-05,
      "loss": 1.9372,
      "num_input_tokens_seen": 2538602496,
      "step": 6456
    },
    {
      "epoch": 0.7326452737534678,
      "grad_norm": 0.5448790192604065,
      "learning_rate": 1.4070891514500536e-05,
      "loss": 2.0675,
      "num_input_tokens_seen": 2540961792,
      "step": 6462
    },
    {
      "epoch": 0.7333255386316047,
      "grad_norm": 0.542102038860321,
      "learning_rate": 1.4035087719298246e-05,
      "loss": 2.0221,
      "num_input_tokens_seen": 2543321088,
      "step": 6468
    },
    {
      "epoch": 0.7340058035097417,
      "grad_norm": 0.5358943939208984,
      "learning_rate": 1.3999283924095954e-05,
      "loss": 1.9774,
      "num_input_tokens_seen": 2545680384,
      "step": 6474
    },
    {
      "epoch": 0.7346860683878785,
      "grad_norm": 0.532248318195343,
      "learning_rate": 1.3963480128893664e-05,
      "loss": 2.0362,
      "num_input_tokens_seen": 2548039680,
      "step": 6480
    },
    {
      "epoch": 0.7353663332660154,
      "grad_norm": 0.52365642786026,
      "learning_rate": 1.3927676333691372e-05,
      "loss": 2.0386,
      "num_input_tokens_seen": 2550398976,
      "step": 6486
    },
    {
      "epoch": 0.7360465981441524,
      "grad_norm": 0.5019295811653137,
      "learning_rate": 1.3891872538489082e-05,
      "loss": 2.0007,
      "num_input_tokens_seen": 2552758272,
      "step": 6492
    },
    {
      "epoch": 0.7367268630222893,
      "grad_norm": 0.5861442685127258,
      "learning_rate": 1.385606874328679e-05,
      "loss": 2.0565,
      "num_input_tokens_seen": 2555117568,
      "step": 6498
    },
    {
      "epoch": 0.7374071279004262,
      "grad_norm": 0.5421295762062073,
      "learning_rate": 1.3820264948084497e-05,
      "loss": 2.0346,
      "num_input_tokens_seen": 2557476864,
      "step": 6504
    },
    {
      "epoch": 0.7380873927785632,
      "grad_norm": 0.5109795331954956,
      "learning_rate": 1.3784461152882205e-05,
      "loss": 2.0375,
      "num_input_tokens_seen": 2559836160,
      "step": 6510
    },
    {
      "epoch": 0.7387676576567,
      "grad_norm": 0.5438470840454102,
      "learning_rate": 1.3748657357679915e-05,
      "loss": 2.041,
      "num_input_tokens_seen": 2562195456,
      "step": 6516
    },
    {
      "epoch": 0.739447922534837,
      "grad_norm": 0.568148672580719,
      "learning_rate": 1.3712853562477623e-05,
      "loss": 2.0456,
      "num_input_tokens_seen": 2564554752,
      "step": 6522
    },
    {
      "epoch": 0.7401281874129739,
      "grad_norm": 0.5753766298294067,
      "learning_rate": 1.3677049767275333e-05,
      "loss": 2.0265,
      "num_input_tokens_seen": 2566914048,
      "step": 6528
    },
    {
      "epoch": 0.7408084522911108,
      "grad_norm": 0.5368342399597168,
      "learning_rate": 1.364124597207304e-05,
      "loss": 2.0367,
      "num_input_tokens_seen": 2569273344,
      "step": 6534
    },
    {
      "epoch": 0.7414887171692478,
      "grad_norm": 0.5538693070411682,
      "learning_rate": 1.360544217687075e-05,
      "loss": 2.0138,
      "num_input_tokens_seen": 2571632640,
      "step": 6540
    },
    {
      "epoch": 0.7421689820473847,
      "grad_norm": 0.5635451674461365,
      "learning_rate": 1.3569638381668457e-05,
      "loss": 1.9975,
      "num_input_tokens_seen": 2573991936,
      "step": 6546
    },
    {
      "epoch": 0.7428492469255217,
      "grad_norm": 0.6103095412254333,
      "learning_rate": 1.3533834586466165e-05,
      "loss": 2.0166,
      "num_input_tokens_seen": 2576351232,
      "step": 6552
    },
    {
      "epoch": 0.7435295118036586,
      "grad_norm": 0.576130211353302,
      "learning_rate": 1.3498030791263875e-05,
      "loss": 2.0627,
      "num_input_tokens_seen": 2578710528,
      "step": 6558
    },
    {
      "epoch": 0.7442097766817954,
      "grad_norm": 0.5822626948356628,
      "learning_rate": 1.3462226996061583e-05,
      "loss": 2.0108,
      "num_input_tokens_seen": 2581069824,
      "step": 6564
    },
    {
      "epoch": 0.7448900415599324,
      "grad_norm": 0.5234280824661255,
      "learning_rate": 1.3426423200859291e-05,
      "loss": 1.9447,
      "num_input_tokens_seen": 2583429120,
      "step": 6570
    },
    {
      "epoch": 0.7455703064380693,
      "grad_norm": 0.544247031211853,
      "learning_rate": 1.3390619405657001e-05,
      "loss": 1.9903,
      "num_input_tokens_seen": 2585788416,
      "step": 6576
    },
    {
      "epoch": 0.7462505713162062,
      "grad_norm": 0.5101417899131775,
      "learning_rate": 1.335481561045471e-05,
      "loss": 2.0365,
      "num_input_tokens_seen": 2588147712,
      "step": 6582
    },
    {
      "epoch": 0.7469308361943432,
      "grad_norm": 0.498687744140625,
      "learning_rate": 1.3319011815252416e-05,
      "loss": 2.0617,
      "num_input_tokens_seen": 2590507008,
      "step": 6588
    },
    {
      "epoch": 0.7476111010724801,
      "grad_norm": 0.49293607473373413,
      "learning_rate": 1.3283208020050126e-05,
      "loss": 2.0262,
      "num_input_tokens_seen": 2592866304,
      "step": 6594
    },
    {
      "epoch": 0.7482913659506171,
      "grad_norm": 0.544154703617096,
      "learning_rate": 1.3247404224847834e-05,
      "loss": 2.0151,
      "num_input_tokens_seen": 2595225600,
      "step": 6600
    },
    {
      "epoch": 0.748971630828754,
      "grad_norm": 0.5422555208206177,
      "learning_rate": 1.3211600429645544e-05,
      "loss": 2.0348,
      "num_input_tokens_seen": 2597584896,
      "step": 6606
    },
    {
      "epoch": 0.7496518957068908,
      "grad_norm": 0.5072320699691772,
      "learning_rate": 1.3175796634443252e-05,
      "loss": 2.0011,
      "num_input_tokens_seen": 2599944192,
      "step": 6612
    },
    {
      "epoch": 0.7503321605850278,
      "grad_norm": 0.6141318678855896,
      "learning_rate": 1.3139992839240962e-05,
      "loss": 2.043,
      "num_input_tokens_seen": 2602303488,
      "step": 6618
    },
    {
      "epoch": 0.7510124254631647,
      "grad_norm": 0.5565091967582703,
      "learning_rate": 1.310418904403867e-05,
      "loss": 2.0446,
      "num_input_tokens_seen": 2604662784,
      "step": 6624
    },
    {
      "epoch": 0.7516926903413016,
      "grad_norm": 0.5500200986862183,
      "learning_rate": 1.3068385248836376e-05,
      "loss": 2.0254,
      "num_input_tokens_seen": 2607022080,
      "step": 6630
    },
    {
      "epoch": 0.7523729552194386,
      "grad_norm": 0.6047897338867188,
      "learning_rate": 1.3032581453634085e-05,
      "loss": 2.0415,
      "num_input_tokens_seen": 2609381376,
      "step": 6636
    },
    {
      "epoch": 0.7530532200975755,
      "grad_norm": 0.6070099472999573,
      "learning_rate": 1.2996777658431794e-05,
      "loss": 2.0615,
      "num_input_tokens_seen": 2611740672,
      "step": 6642
    },
    {
      "epoch": 0.7537334849757125,
      "grad_norm": 0.525489866733551,
      "learning_rate": 1.2960973863229503e-05,
      "loss": 2.0465,
      "num_input_tokens_seen": 2614099968,
      "step": 6648
    },
    {
      "epoch": 0.7544137498538493,
      "grad_norm": 0.4968653917312622,
      "learning_rate": 1.2925170068027212e-05,
      "loss": 1.9749,
      "num_input_tokens_seen": 2616459264,
      "step": 6654
    },
    {
      "epoch": 0.7550940147319862,
      "grad_norm": 0.5281318426132202,
      "learning_rate": 1.288936627282492e-05,
      "loss": 1.9575,
      "num_input_tokens_seen": 2618818560,
      "step": 6660
    },
    {
      "epoch": 0.7557742796101232,
      "grad_norm": 0.5236896872520447,
      "learning_rate": 1.285356247762263e-05,
      "loss": 2.0634,
      "num_input_tokens_seen": 2621177856,
      "step": 6666
    },
    {
      "epoch": 0.7564545444882601,
      "grad_norm": 0.6024266481399536,
      "learning_rate": 1.2817758682420337e-05,
      "loss": 1.9841,
      "num_input_tokens_seen": 2623537152,
      "step": 6672
    },
    {
      "epoch": 0.757134809366397,
      "grad_norm": 0.5235931277275085,
      "learning_rate": 1.2781954887218045e-05,
      "loss": 1.9866,
      "num_input_tokens_seen": 2625896448,
      "step": 6678
    },
    {
      "epoch": 0.757815074244534,
      "grad_norm": 0.5041958093643188,
      "learning_rate": 1.2746151092015753e-05,
      "loss": 2.0075,
      "num_input_tokens_seen": 2628255744,
      "step": 6684
    },
    {
      "epoch": 0.7584953391226709,
      "grad_norm": 0.5709572434425354,
      "learning_rate": 1.2710347296813463e-05,
      "loss": 2.0231,
      "num_input_tokens_seen": 2630615040,
      "step": 6690
    },
    {
      "epoch": 0.7591756040008079,
      "grad_norm": 0.5276849269866943,
      "learning_rate": 1.2674543501611171e-05,
      "loss": 2.0314,
      "num_input_tokens_seen": 2632974336,
      "step": 6696
    },
    {
      "epoch": 0.7598558688789447,
      "grad_norm": 0.5111777186393738,
      "learning_rate": 1.2638739706408881e-05,
      "loss": 2.0542,
      "num_input_tokens_seen": 2635333632,
      "step": 6702
    },
    {
      "epoch": 0.7605361337570816,
      "grad_norm": 0.5633344650268555,
      "learning_rate": 1.260293591120659e-05,
      "loss": 2.0438,
      "num_input_tokens_seen": 2637692928,
      "step": 6708
    },
    {
      "epoch": 0.7612163986352186,
      "grad_norm": 0.5294421315193176,
      "learning_rate": 1.2567132116004296e-05,
      "loss": 2.0113,
      "num_input_tokens_seen": 2640052224,
      "step": 6714
    },
    {
      "epoch": 0.7618966635133555,
      "grad_norm": 0.5252106189727783,
      "learning_rate": 1.2531328320802006e-05,
      "loss": 1.9799,
      "num_input_tokens_seen": 2642411520,
      "step": 6720
    },
    {
      "epoch": 0.7625769283914925,
      "grad_norm": 0.5746698379516602,
      "learning_rate": 1.2495524525599714e-05,
      "loss": 2.0742,
      "num_input_tokens_seen": 2644770816,
      "step": 6726
    },
    {
      "epoch": 0.7632571932696294,
      "grad_norm": 0.5127720236778259,
      "learning_rate": 1.2459720730397424e-05,
      "loss": 1.9997,
      "num_input_tokens_seen": 2647130112,
      "step": 6732
    },
    {
      "epoch": 0.7639374581477663,
      "grad_norm": 0.654504120349884,
      "learning_rate": 1.2423916935195132e-05,
      "loss": 2.0319,
      "num_input_tokens_seen": 2649489408,
      "step": 6738
    },
    {
      "epoch": 0.7646177230259033,
      "grad_norm": 0.5886629819869995,
      "learning_rate": 1.238811313999284e-05,
      "loss": 2.0316,
      "num_input_tokens_seen": 2651848704,
      "step": 6744
    },
    {
      "epoch": 0.7652979879040401,
      "grad_norm": 0.6034631133079529,
      "learning_rate": 1.2352309344790548e-05,
      "loss": 2.0575,
      "num_input_tokens_seen": 2654208000,
      "step": 6750
    },
    {
      "epoch": 0.765978252782177,
      "grad_norm": 0.5659487247467041,
      "learning_rate": 1.2316505549588258e-05,
      "loss": 2.0641,
      "num_input_tokens_seen": 2656567296,
      "step": 6756
    },
    {
      "epoch": 0.766658517660314,
      "grad_norm": 0.5753200650215149,
      "learning_rate": 1.2280701754385964e-05,
      "loss": 2.0554,
      "num_input_tokens_seen": 2658926592,
      "step": 6762
    },
    {
      "epoch": 0.7673387825384509,
      "grad_norm": 0.553452730178833,
      "learning_rate": 1.2244897959183674e-05,
      "loss": 2.0957,
      "num_input_tokens_seen": 2661285888,
      "step": 6768
    },
    {
      "epoch": 0.7680190474165879,
      "grad_norm": 0.5258597731590271,
      "learning_rate": 1.2209094163981382e-05,
      "loss": 2.0221,
      "num_input_tokens_seen": 2663645184,
      "step": 6774
    },
    {
      "epoch": 0.7686993122947248,
      "grad_norm": 0.5694190859794617,
      "learning_rate": 1.2173290368779092e-05,
      "loss": 2.0153,
      "num_input_tokens_seen": 2666004480,
      "step": 6780
    },
    {
      "epoch": 0.7693795771728617,
      "grad_norm": 0.5532529354095459,
      "learning_rate": 1.2137486573576799e-05,
      "loss": 2.0087,
      "num_input_tokens_seen": 2668363776,
      "step": 6786
    },
    {
      "epoch": 0.7700598420509986,
      "grad_norm": 0.5136593580245972,
      "learning_rate": 1.2101682778374509e-05,
      "loss": 2.0324,
      "num_input_tokens_seen": 2670723072,
      "step": 6792
    },
    {
      "epoch": 0.7707401069291355,
      "grad_norm": 0.5418703556060791,
      "learning_rate": 1.2065878983172217e-05,
      "loss": 2.0253,
      "num_input_tokens_seen": 2673082368,
      "step": 6798
    },
    {
      "epoch": 0.7709668618885145,
      "eval_accuracy": 0.5866208791208791,
      "eval_loss": 2.00406551361084,
      "eval_runtime": 129.6133,
      "eval_samples_per_second": 3.086,
      "eval_steps_per_second": 1.034,
      "num_input_tokens_seen": 2673868800,
      "step": 6800
    },
    {
      "epoch": 0.7714203718072724,
      "grad_norm": 0.6343456506729126,
      "learning_rate": 1.2030075187969925e-05,
      "loss": 2.0459,
      "num_input_tokens_seen": 2675441664,
      "step": 6804
    },
    {
      "epoch": 0.7721006366854094,
      "grad_norm": 0.5664966702461243,
      "learning_rate": 1.1994271392767633e-05,
      "loss": 2.0402,
      "num_input_tokens_seen": 2677800960,
      "step": 6810
    },
    {
      "epoch": 0.7727809015635463,
      "grad_norm": 0.5292795300483704,
      "learning_rate": 1.1958467597565343e-05,
      "loss": 2.0636,
      "num_input_tokens_seen": 2680160256,
      "step": 6816
    },
    {
      "epoch": 0.7734611664416833,
      "grad_norm": 0.5384446978569031,
      "learning_rate": 1.1922663802363051e-05,
      "loss": 2.0319,
      "num_input_tokens_seen": 2682519552,
      "step": 6822
    },
    {
      "epoch": 0.7741414313198202,
      "grad_norm": 0.6125785112380981,
      "learning_rate": 1.188686000716076e-05,
      "loss": 2.0176,
      "num_input_tokens_seen": 2684878848,
      "step": 6828
    },
    {
      "epoch": 0.774821696197957,
      "grad_norm": 0.5301167368888855,
      "learning_rate": 1.1851056211958467e-05,
      "loss": 2.0285,
      "num_input_tokens_seen": 2687238144,
      "step": 6834
    },
    {
      "epoch": 0.775501961076094,
      "grad_norm": 0.5614597201347351,
      "learning_rate": 1.1815252416756177e-05,
      "loss": 2.0672,
      "num_input_tokens_seen": 2689597440,
      "step": 6840
    },
    {
      "epoch": 0.7761822259542309,
      "grad_norm": 0.5375152826309204,
      "learning_rate": 1.1779448621553885e-05,
      "loss": 1.9599,
      "num_input_tokens_seen": 2691956736,
      "step": 6846
    },
    {
      "epoch": 0.7768624908323678,
      "grad_norm": 0.5689718127250671,
      "learning_rate": 1.1743644826351593e-05,
      "loss": 2.0173,
      "num_input_tokens_seen": 2694316032,
      "step": 6852
    },
    {
      "epoch": 0.7775427557105048,
      "grad_norm": 0.5268839597702026,
      "learning_rate": 1.1707841031149303e-05,
      "loss": 2.0727,
      "num_input_tokens_seen": 2696675328,
      "step": 6858
    },
    {
      "epoch": 0.7782230205886417,
      "grad_norm": 0.5965040326118469,
      "learning_rate": 1.1672037235947012e-05,
      "loss": 2.0151,
      "num_input_tokens_seen": 2699034624,
      "step": 6864
    },
    {
      "epoch": 0.7789032854667787,
      "grad_norm": 0.5147624611854553,
      "learning_rate": 1.163623344074472e-05,
      "loss": 1.9906,
      "num_input_tokens_seen": 2701393920,
      "step": 6870
    },
    {
      "epoch": 0.7795835503449156,
      "grad_norm": 0.5790501832962036,
      "learning_rate": 1.1600429645542428e-05,
      "loss": 1.959,
      "num_input_tokens_seen": 2703753216,
      "step": 6876
    },
    {
      "epoch": 0.7802638152230524,
      "grad_norm": 0.5348291993141174,
      "learning_rate": 1.1564625850340138e-05,
      "loss": 2.025,
      "num_input_tokens_seen": 2706112512,
      "step": 6882
    },
    {
      "epoch": 0.7809440801011894,
      "grad_norm": 0.5875257849693298,
      "learning_rate": 1.1528822055137844e-05,
      "loss": 2.0391,
      "num_input_tokens_seen": 2708471808,
      "step": 6888
    },
    {
      "epoch": 0.7816243449793263,
      "grad_norm": 0.5611306428909302,
      "learning_rate": 1.1493018259935554e-05,
      "loss": 2.0412,
      "num_input_tokens_seen": 2710831104,
      "step": 6894
    },
    {
      "epoch": 0.7823046098574632,
      "grad_norm": 0.6583240628242493,
      "learning_rate": 1.1457214464733262e-05,
      "loss": 2.0196,
      "num_input_tokens_seen": 2713190400,
      "step": 6900
    },
    {
      "epoch": 0.7829848747356002,
      "grad_norm": 0.5052137970924377,
      "learning_rate": 1.1421410669530972e-05,
      "loss": 1.978,
      "num_input_tokens_seen": 2715549696,
      "step": 6906
    },
    {
      "epoch": 0.7836651396137371,
      "grad_norm": 0.5078434348106384,
      "learning_rate": 1.1385606874328678e-05,
      "loss": 1.9985,
      "num_input_tokens_seen": 2717908992,
      "step": 6912
    },
    {
      "epoch": 0.7843454044918741,
      "grad_norm": 0.5650710463523865,
      "learning_rate": 1.1349803079126388e-05,
      "loss": 2.0562,
      "num_input_tokens_seen": 2720268288,
      "step": 6918
    },
    {
      "epoch": 0.785025669370011,
      "grad_norm": 0.5435272455215454,
      "learning_rate": 1.1313999283924096e-05,
      "loss": 1.969,
      "num_input_tokens_seen": 2722627584,
      "step": 6924
    },
    {
      "epoch": 0.7857059342481478,
      "grad_norm": 0.5620574951171875,
      "learning_rate": 1.1278195488721805e-05,
      "loss": 2.0299,
      "num_input_tokens_seen": 2724986880,
      "step": 6930
    },
    {
      "epoch": 0.7863861991262848,
      "grad_norm": 0.5396995544433594,
      "learning_rate": 1.1242391693519513e-05,
      "loss": 2.0016,
      "num_input_tokens_seen": 2727346176,
      "step": 6936
    },
    {
      "epoch": 0.7870664640044217,
      "grad_norm": 0.5387789011001587,
      "learning_rate": 1.1206587898317223e-05,
      "loss": 1.9991,
      "num_input_tokens_seen": 2729705472,
      "step": 6942
    },
    {
      "epoch": 0.7877467288825587,
      "grad_norm": 0.5884684920310974,
      "learning_rate": 1.117078410311493e-05,
      "loss": 2.0051,
      "num_input_tokens_seen": 2732064768,
      "step": 6948
    },
    {
      "epoch": 0.7884269937606956,
      "grad_norm": 0.5044008493423462,
      "learning_rate": 1.1134980307912639e-05,
      "loss": 2.0211,
      "num_input_tokens_seen": 2734424064,
      "step": 6954
    },
    {
      "epoch": 0.7891072586388325,
      "grad_norm": 0.5228249430656433,
      "learning_rate": 1.1099176512710347e-05,
      "loss": 2.0181,
      "num_input_tokens_seen": 2736783360,
      "step": 6960
    },
    {
      "epoch": 0.7897875235169695,
      "grad_norm": 0.5564016103744507,
      "learning_rate": 1.1063372717508057e-05,
      "loss": 1.9769,
      "num_input_tokens_seen": 2739142656,
      "step": 6966
    },
    {
      "epoch": 0.7904677883951063,
      "grad_norm": 0.505305826663971,
      "learning_rate": 1.1027568922305765e-05,
      "loss": 2.013,
      "num_input_tokens_seen": 2741501952,
      "step": 6972
    },
    {
      "epoch": 0.7911480532732432,
      "grad_norm": 0.5639991760253906,
      "learning_rate": 1.0991765127103473e-05,
      "loss": 2.0399,
      "num_input_tokens_seen": 2743861248,
      "step": 6978
    },
    {
      "epoch": 0.7918283181513802,
      "grad_norm": 0.583869218826294,
      "learning_rate": 1.0955961331901181e-05,
      "loss": 2.0013,
      "num_input_tokens_seen": 2746220544,
      "step": 6984
    },
    {
      "epoch": 0.7925085830295171,
      "grad_norm": 0.538934051990509,
      "learning_rate": 1.0920157536698891e-05,
      "loss": 1.9875,
      "num_input_tokens_seen": 2748579840,
      "step": 6990
    },
    {
      "epoch": 0.7931888479076541,
      "grad_norm": 0.5135723948478699,
      "learning_rate": 1.08843537414966e-05,
      "loss": 1.9953,
      "num_input_tokens_seen": 2750939136,
      "step": 6996
    },
    {
      "epoch": 0.793869112785791,
      "grad_norm": 0.4978064298629761,
      "learning_rate": 1.0848549946294308e-05,
      "loss": 2.0216,
      "num_input_tokens_seen": 2753298432,
      "step": 7002
    },
    {
      "epoch": 0.7945493776639279,
      "grad_norm": 0.5002549886703491,
      "learning_rate": 1.0812746151092017e-05,
      "loss": 2.0746,
      "num_input_tokens_seen": 2755657728,
      "step": 7008
    },
    {
      "epoch": 0.7952296425420649,
      "grad_norm": 0.5456427335739136,
      "learning_rate": 1.0776942355889724e-05,
      "loss": 1.9826,
      "num_input_tokens_seen": 2758017024,
      "step": 7014
    },
    {
      "epoch": 0.7959099074202017,
      "grad_norm": 0.5168840885162354,
      "learning_rate": 1.0741138560687434e-05,
      "loss": 1.9527,
      "num_input_tokens_seen": 2760376320,
      "step": 7020
    },
    {
      "epoch": 0.7965901722983386,
      "grad_norm": 0.6147148013114929,
      "learning_rate": 1.0705334765485142e-05,
      "loss": 1.9762,
      "num_input_tokens_seen": 2762735616,
      "step": 7026
    },
    {
      "epoch": 0.7972704371764756,
      "grad_norm": 0.5876660346984863,
      "learning_rate": 1.0669530970282852e-05,
      "loss": 1.9757,
      "num_input_tokens_seen": 2765094912,
      "step": 7032
    },
    {
      "epoch": 0.7979507020546125,
      "grad_norm": 0.5405025482177734,
      "learning_rate": 1.0633727175080558e-05,
      "loss": 2.0329,
      "num_input_tokens_seen": 2767454208,
      "step": 7038
    },
    {
      "epoch": 0.7986309669327495,
      "grad_norm": 0.5711649656295776,
      "learning_rate": 1.0597923379878268e-05,
      "loss": 2.0332,
      "num_input_tokens_seen": 2769813504,
      "step": 7044
    },
    {
      "epoch": 0.7993112318108864,
      "grad_norm": 0.5035630464553833,
      "learning_rate": 1.0562119584675976e-05,
      "loss": 1.9839,
      "num_input_tokens_seen": 2772172800,
      "step": 7050
    },
    {
      "epoch": 0.7999914966890233,
      "grad_norm": 0.6048845052719116,
      "learning_rate": 1.0526315789473684e-05,
      "loss": 2.0051,
      "num_input_tokens_seen": 2774532096,
      "step": 7056
    },
    {
      "epoch": 0.8006717615671602,
      "grad_norm": 0.528458297252655,
      "learning_rate": 1.0490511994271393e-05,
      "loss": 2.0181,
      "num_input_tokens_seen": 2776891392,
      "step": 7062
    },
    {
      "epoch": 0.8013520264452971,
      "grad_norm": 0.5959348678588867,
      "learning_rate": 1.0454708199069102e-05,
      "loss": 2.0368,
      "num_input_tokens_seen": 2779250688,
      "step": 7068
    },
    {
      "epoch": 0.802032291323434,
      "grad_norm": 0.6448953151702881,
      "learning_rate": 1.041890440386681e-05,
      "loss": 2.0584,
      "num_input_tokens_seen": 2781609984,
      "step": 7074
    },
    {
      "epoch": 0.802712556201571,
      "grad_norm": 0.5180519223213196,
      "learning_rate": 1.0383100608664519e-05,
      "loss": 1.9999,
      "num_input_tokens_seen": 2783969280,
      "step": 7080
    },
    {
      "epoch": 0.8033928210797079,
      "grad_norm": 0.5477824807167053,
      "learning_rate": 1.0347296813462227e-05,
      "loss": 2.0164,
      "num_input_tokens_seen": 2786328576,
      "step": 7086
    },
    {
      "epoch": 0.8040730859578449,
      "grad_norm": 0.5789219737052917,
      "learning_rate": 1.0311493018259937e-05,
      "loss": 2.0155,
      "num_input_tokens_seen": 2788687872,
      "step": 7092
    },
    {
      "epoch": 0.8047533508359818,
      "grad_norm": 0.5404716730117798,
      "learning_rate": 1.0275689223057643e-05,
      "loss": 1.9827,
      "num_input_tokens_seen": 2791047168,
      "step": 7098
    },
    {
      "epoch": 0.8054336157141186,
      "grad_norm": 0.583008885383606,
      "learning_rate": 1.0239885427855353e-05,
      "loss": 2.0253,
      "num_input_tokens_seen": 2793406464,
      "step": 7104
    },
    {
      "epoch": 0.8061138805922556,
      "grad_norm": 0.5732628703117371,
      "learning_rate": 1.0204081632653061e-05,
      "loss": 2.0036,
      "num_input_tokens_seen": 2795765760,
      "step": 7110
    },
    {
      "epoch": 0.8067941454703925,
      "grad_norm": 0.48751312494277954,
      "learning_rate": 1.0168277837450771e-05,
      "loss": 1.997,
      "num_input_tokens_seen": 2798125056,
      "step": 7116
    },
    {
      "epoch": 0.8074744103485294,
      "grad_norm": 0.4976810812950134,
      "learning_rate": 1.013247404224848e-05,
      "loss": 1.9776,
      "num_input_tokens_seen": 2800484352,
      "step": 7122
    },
    {
      "epoch": 0.8081546752266664,
      "grad_norm": 0.5391010642051697,
      "learning_rate": 1.0096670247046187e-05,
      "loss": 2.03,
      "num_input_tokens_seen": 2802843648,
      "step": 7128
    },
    {
      "epoch": 0.8088349401048033,
      "grad_norm": 0.5493925213813782,
      "learning_rate": 1.0060866451843896e-05,
      "loss": 2.0477,
      "num_input_tokens_seen": 2805202944,
      "step": 7134
    },
    {
      "epoch": 0.8095152049829403,
      "grad_norm": 0.544150173664093,
      "learning_rate": 1.0025062656641604e-05,
      "loss": 1.9951,
      "num_input_tokens_seen": 2807562240,
      "step": 7140
    },
    {
      "epoch": 0.8101954698610772,
      "grad_norm": 0.48092713952064514,
      "learning_rate": 9.989258861439314e-06,
      "loss": 2.017,
      "num_input_tokens_seen": 2809921536,
      "step": 7146
    },
    {
      "epoch": 0.810875734739214,
      "grad_norm": 0.5483365058898926,
      "learning_rate": 9.953455066237022e-06,
      "loss": 1.9781,
      "num_input_tokens_seen": 2812280832,
      "step": 7152
    },
    {
      "epoch": 0.811555999617351,
      "grad_norm": 0.5313854813575745,
      "learning_rate": 9.917651271034732e-06,
      "loss": 2.0425,
      "num_input_tokens_seen": 2814640128,
      "step": 7158
    },
    {
      "epoch": 0.8122362644954879,
      "grad_norm": 0.4918869137763977,
      "learning_rate": 9.881847475832438e-06,
      "loss": 2.0208,
      "num_input_tokens_seen": 2816999424,
      "step": 7164
    },
    {
      "epoch": 0.8129165293736249,
      "grad_norm": 0.5176813006401062,
      "learning_rate": 9.846043680630148e-06,
      "loss": 1.9843,
      "num_input_tokens_seen": 2819358720,
      "step": 7170
    },
    {
      "epoch": 0.8135967942517618,
      "grad_norm": 0.5130747556686401,
      "learning_rate": 9.810239885427856e-06,
      "loss": 1.9857,
      "num_input_tokens_seen": 2821718016,
      "step": 7176
    },
    {
      "epoch": 0.8142770591298987,
      "grad_norm": 0.5297340750694275,
      "learning_rate": 9.774436090225564e-06,
      "loss": 1.9911,
      "num_input_tokens_seen": 2824077312,
      "step": 7182
    },
    {
      "epoch": 0.8149573240080357,
      "grad_norm": 0.5061428546905518,
      "learning_rate": 9.738632295023272e-06,
      "loss": 1.9687,
      "num_input_tokens_seen": 2826436608,
      "step": 7188
    },
    {
      "epoch": 0.8156375888861725,
      "grad_norm": 0.5404644012451172,
      "learning_rate": 9.702828499820982e-06,
      "loss": 1.9658,
      "num_input_tokens_seen": 2828795904,
      "step": 7194
    },
    {
      "epoch": 0.8163178537643094,
      "grad_norm": 0.5056130886077881,
      "learning_rate": 9.66702470461869e-06,
      "loss": 1.995,
      "num_input_tokens_seen": 2831155200,
      "step": 7200
    },
    {
      "epoch": 0.8163178537643094,
      "eval_accuracy": 0.5872002442002442,
      "eval_loss": 2.000960350036621,
      "eval_runtime": 128.4298,
      "eval_samples_per_second": 3.115,
      "eval_steps_per_second": 1.043,
      "num_input_tokens_seen": 2831155200,
      "step": 7200
    },
    {
      "epoch": 0.8169981186424464,
      "grad_norm": 0.5106950402259827,
      "learning_rate": 9.631220909416399e-06,
      "loss": 2.0265,
      "num_input_tokens_seen": 2833514496,
      "step": 7206
    },
    {
      "epoch": 0.8176783835205833,
      "grad_norm": 0.5333806276321411,
      "learning_rate": 9.595417114214107e-06,
      "loss": 1.9495,
      "num_input_tokens_seen": 2835873792,
      "step": 7212
    },
    {
      "epoch": 0.8183586483987203,
      "grad_norm": 0.5510848164558411,
      "learning_rate": 9.559613319011817e-06,
      "loss": 2.0107,
      "num_input_tokens_seen": 2838233088,
      "step": 7218
    },
    {
      "epoch": 0.8190389132768572,
      "grad_norm": 0.5609148144721985,
      "learning_rate": 9.523809523809523e-06,
      "loss": 2.0433,
      "num_input_tokens_seen": 2840592384,
      "step": 7224
    },
    {
      "epoch": 0.8197191781549941,
      "grad_norm": 0.5448800921440125,
      "learning_rate": 9.488005728607233e-06,
      "loss": 1.9898,
      "num_input_tokens_seen": 2842951680,
      "step": 7230
    },
    {
      "epoch": 0.8203994430331311,
      "grad_norm": 0.5326699018478394,
      "learning_rate": 9.452201933404941e-06,
      "loss": 1.9797,
      "num_input_tokens_seen": 2845310976,
      "step": 7236
    },
    {
      "epoch": 0.8210797079112679,
      "grad_norm": 0.5335074663162231,
      "learning_rate": 9.416398138202651e-06,
      "loss": 2.0008,
      "num_input_tokens_seen": 2847670272,
      "step": 7242
    },
    {
      "epoch": 0.8217599727894048,
      "grad_norm": 0.49363961815834045,
      "learning_rate": 9.380594343000357e-06,
      "loss": 1.9962,
      "num_input_tokens_seen": 2850029568,
      "step": 7248
    },
    {
      "epoch": 0.8224402376675418,
      "grad_norm": 0.5354363918304443,
      "learning_rate": 9.344790547798067e-06,
      "loss": 2.0384,
      "num_input_tokens_seen": 2852388864,
      "step": 7254
    },
    {
      "epoch": 0.8231205025456787,
      "grad_norm": 0.5777958631515503,
      "learning_rate": 9.308986752595775e-06,
      "loss": 1.9839,
      "num_input_tokens_seen": 2854748160,
      "step": 7260
    },
    {
      "epoch": 0.8238007674238157,
      "grad_norm": 0.5475658178329468,
      "learning_rate": 9.273182957393484e-06,
      "loss": 1.9714,
      "num_input_tokens_seen": 2857107456,
      "step": 7266
    },
    {
      "epoch": 0.8244810323019526,
      "grad_norm": 0.5318132638931274,
      "learning_rate": 9.237379162191193e-06,
      "loss": 1.9882,
      "num_input_tokens_seen": 2859466752,
      "step": 7272
    },
    {
      "epoch": 0.8251612971800895,
      "grad_norm": 0.5123252272605896,
      "learning_rate": 9.201575366988902e-06,
      "loss": 2.0005,
      "num_input_tokens_seen": 2861826048,
      "step": 7278
    },
    {
      "epoch": 0.8258415620582265,
      "grad_norm": 0.5346453785896301,
      "learning_rate": 9.16577157178661e-06,
      "loss": 1.9623,
      "num_input_tokens_seen": 2864185344,
      "step": 7284
    },
    {
      "epoch": 0.8265218269363633,
      "grad_norm": 0.5490689277648926,
      "learning_rate": 9.129967776584318e-06,
      "loss": 2.0012,
      "num_input_tokens_seen": 2866544640,
      "step": 7290
    },
    {
      "epoch": 0.8272020918145002,
      "grad_norm": 0.5043258666992188,
      "learning_rate": 9.094163981382028e-06,
      "loss": 1.9961,
      "num_input_tokens_seen": 2868903936,
      "step": 7296
    },
    {
      "epoch": 0.8278823566926372,
      "grad_norm": 0.5261684060096741,
      "learning_rate": 9.058360186179736e-06,
      "loss": 2.0281,
      "num_input_tokens_seen": 2871263232,
      "step": 7302
    },
    {
      "epoch": 0.8285626215707741,
      "grad_norm": 0.503143846988678,
      "learning_rate": 9.022556390977444e-06,
      "loss": 1.9774,
      "num_input_tokens_seen": 2873622528,
      "step": 7308
    },
    {
      "epoch": 0.8292428864489111,
      "grad_norm": 0.548707127571106,
      "learning_rate": 8.986752595775152e-06,
      "loss": 1.9829,
      "num_input_tokens_seen": 2875981824,
      "step": 7314
    },
    {
      "epoch": 0.829923151327048,
      "grad_norm": 0.5377416610717773,
      "learning_rate": 8.950948800572862e-06,
      "loss": 2.002,
      "num_input_tokens_seen": 2878341120,
      "step": 7320
    },
    {
      "epoch": 0.8306034162051849,
      "grad_norm": 0.5520649552345276,
      "learning_rate": 8.915145005370569e-06,
      "loss": 1.9893,
      "num_input_tokens_seen": 2880700416,
      "step": 7326
    },
    {
      "epoch": 0.8312836810833218,
      "grad_norm": 0.6141591668128967,
      "learning_rate": 8.879341210168278e-06,
      "loss": 2.0882,
      "num_input_tokens_seen": 2883059712,
      "step": 7332
    },
    {
      "epoch": 0.8319639459614587,
      "grad_norm": 0.5497307181358337,
      "learning_rate": 8.843537414965987e-06,
      "loss": 2.0063,
      "num_input_tokens_seen": 2885419008,
      "step": 7338
    },
    {
      "epoch": 0.8326442108395957,
      "grad_norm": 0.5077412724494934,
      "learning_rate": 8.807733619763696e-06,
      "loss": 2.0364,
      "num_input_tokens_seen": 2887778304,
      "step": 7344
    },
    {
      "epoch": 0.8333244757177326,
      "grad_norm": 0.5644519925117493,
      "learning_rate": 8.771929824561403e-06,
      "loss": 2.0403,
      "num_input_tokens_seen": 2890137600,
      "step": 7350
    },
    {
      "epoch": 0.8340047405958695,
      "grad_norm": 0.5899609327316284,
      "learning_rate": 8.736126029359113e-06,
      "loss": 2.0182,
      "num_input_tokens_seen": 2892496896,
      "step": 7356
    },
    {
      "epoch": 0.8346850054740065,
      "grad_norm": 0.5211791396141052,
      "learning_rate": 8.700322234156821e-06,
      "loss": 2.0668,
      "num_input_tokens_seen": 2894856192,
      "step": 7362
    },
    {
      "epoch": 0.8353652703521434,
      "grad_norm": 0.5184838771820068,
      "learning_rate": 8.664518438954529e-06,
      "loss": 2.0001,
      "num_input_tokens_seen": 2897215488,
      "step": 7368
    },
    {
      "epoch": 0.8360455352302802,
      "grad_norm": 0.49509575963020325,
      "learning_rate": 8.628714643752237e-06,
      "loss": 1.9863,
      "num_input_tokens_seen": 2899574784,
      "step": 7374
    },
    {
      "epoch": 0.8367258001084172,
      "grad_norm": 0.6435425877571106,
      "learning_rate": 8.592910848549947e-06,
      "loss": 2.0189,
      "num_input_tokens_seen": 2901934080,
      "step": 7380
    },
    {
      "epoch": 0.8374060649865541,
      "grad_norm": 0.6035661697387695,
      "learning_rate": 8.557107053347655e-06,
      "loss": 2.0365,
      "num_input_tokens_seen": 2904293376,
      "step": 7386
    },
    {
      "epoch": 0.8380863298646911,
      "grad_norm": 0.5593310594558716,
      "learning_rate": 8.521303258145363e-06,
      "loss": 2.0101,
      "num_input_tokens_seen": 2906652672,
      "step": 7392
    },
    {
      "epoch": 0.838766594742828,
      "grad_norm": 0.5158206820487976,
      "learning_rate": 8.485499462943072e-06,
      "loss": 2.0323,
      "num_input_tokens_seen": 2909011968,
      "step": 7398
    },
    {
      "epoch": 0.8394468596209649,
      "grad_norm": 0.519759476184845,
      "learning_rate": 8.449695667740781e-06,
      "loss": 2.0185,
      "num_input_tokens_seen": 2911371264,
      "step": 7404
    },
    {
      "epoch": 0.8401271244991019,
      "grad_norm": 0.5219857096672058,
      "learning_rate": 8.41389187253849e-06,
      "loss": 2.0214,
      "num_input_tokens_seen": 2913730560,
      "step": 7410
    },
    {
      "epoch": 0.8408073893772388,
      "grad_norm": 0.5320020914077759,
      "learning_rate": 8.378088077336198e-06,
      "loss": 2.0125,
      "num_input_tokens_seen": 2916089856,
      "step": 7416
    },
    {
      "epoch": 0.8414876542553756,
      "grad_norm": 0.5405346751213074,
      "learning_rate": 8.342284282133908e-06,
      "loss": 1.9639,
      "num_input_tokens_seen": 2918449152,
      "step": 7422
    },
    {
      "epoch": 0.8421679191335126,
      "grad_norm": 0.5031660199165344,
      "learning_rate": 8.306480486931616e-06,
      "loss": 1.9817,
      "num_input_tokens_seen": 2920808448,
      "step": 7428
    },
    {
      "epoch": 0.8428481840116495,
      "grad_norm": 0.5186684727668762,
      "learning_rate": 8.270676691729324e-06,
      "loss": 2.0954,
      "num_input_tokens_seen": 2923167744,
      "step": 7434
    },
    {
      "epoch": 0.8435284488897865,
      "grad_norm": 0.5321431756019592,
      "learning_rate": 8.234872896527032e-06,
      "loss": 2.0269,
      "num_input_tokens_seen": 2925527040,
      "step": 7440
    },
    {
      "epoch": 0.8442087137679234,
      "grad_norm": 0.49513474106788635,
      "learning_rate": 8.199069101324742e-06,
      "loss": 1.9744,
      "num_input_tokens_seen": 2927886336,
      "step": 7446
    },
    {
      "epoch": 0.8448889786460603,
      "grad_norm": 0.5057438015937805,
      "learning_rate": 8.163265306122448e-06,
      "loss": 1.986,
      "num_input_tokens_seen": 2930245632,
      "step": 7452
    },
    {
      "epoch": 0.8455692435241973,
      "grad_norm": 0.5168727040290833,
      "learning_rate": 8.127461510920158e-06,
      "loss": 2.0049,
      "num_input_tokens_seen": 2932604928,
      "step": 7458
    },
    {
      "epoch": 0.8462495084023341,
      "grad_norm": 0.584082841873169,
      "learning_rate": 8.091657715717866e-06,
      "loss": 2.0321,
      "num_input_tokens_seen": 2934964224,
      "step": 7464
    },
    {
      "epoch": 0.846929773280471,
      "grad_norm": 0.49962136149406433,
      "learning_rate": 8.055853920515576e-06,
      "loss": 2.0121,
      "num_input_tokens_seen": 2937323520,
      "step": 7470
    },
    {
      "epoch": 0.847610038158608,
      "grad_norm": 0.5198308825492859,
      "learning_rate": 8.020050125313283e-06,
      "loss": 2.0272,
      "num_input_tokens_seen": 2939682816,
      "step": 7476
    },
    {
      "epoch": 0.8482903030367449,
      "grad_norm": 0.5608158707618713,
      "learning_rate": 7.984246330110993e-06,
      "loss": 2.0204,
      "num_input_tokens_seen": 2942042112,
      "step": 7482
    },
    {
      "epoch": 0.8489705679148819,
      "grad_norm": 0.5206415057182312,
      "learning_rate": 7.9484425349087e-06,
      "loss": 1.9897,
      "num_input_tokens_seen": 2944401408,
      "step": 7488
    },
    {
      "epoch": 0.8496508327930188,
      "grad_norm": 0.4968629777431488,
      "learning_rate": 7.912638739706409e-06,
      "loss": 2.0773,
      "num_input_tokens_seen": 2946760704,
      "step": 7494
    },
    {
      "epoch": 0.8503310976711557,
      "grad_norm": 0.4873516857624054,
      "learning_rate": 7.876834944504117e-06,
      "loss": 1.9779,
      "num_input_tokens_seen": 2949120000,
      "step": 7500
    },
    {
      "epoch": 0.8510113625492927,
      "grad_norm": 0.5486623644828796,
      "learning_rate": 7.841031149301827e-06,
      "loss": 1.957,
      "num_input_tokens_seen": 2951479296,
      "step": 7506
    },
    {
      "epoch": 0.8516916274274295,
      "grad_norm": 0.6163302659988403,
      "learning_rate": 7.805227354099535e-06,
      "loss": 1.9882,
      "num_input_tokens_seen": 2953838592,
      "step": 7512
    },
    {
      "epoch": 0.8523718923055664,
      "grad_norm": 0.5529779195785522,
      "learning_rate": 7.769423558897243e-06,
      "loss": 2.0252,
      "num_input_tokens_seen": 2956197888,
      "step": 7518
    },
    {
      "epoch": 0.8530521571837034,
      "grad_norm": 0.5484551787376404,
      "learning_rate": 7.733619763694951e-06,
      "loss": 2.0415,
      "num_input_tokens_seen": 2958557184,
      "step": 7524
    },
    {
      "epoch": 0.8537324220618403,
      "grad_norm": 0.49321115016937256,
      "learning_rate": 7.697815968492661e-06,
      "loss": 2.0534,
      "num_input_tokens_seen": 2960916480,
      "step": 7530
    },
    {
      "epoch": 0.8544126869399773,
      "grad_norm": 0.4970216751098633,
      "learning_rate": 7.66201217329037e-06,
      "loss": 2.0491,
      "num_input_tokens_seen": 2963275776,
      "step": 7536
    },
    {
      "epoch": 0.8550929518181142,
      "grad_norm": 0.6006478667259216,
      "learning_rate": 7.6262083780880775e-06,
      "loss": 2.0457,
      "num_input_tokens_seen": 2965635072,
      "step": 7542
    },
    {
      "epoch": 0.8557732166962511,
      "grad_norm": 0.5233898162841797,
      "learning_rate": 7.5904045828857865e-06,
      "loss": 2.047,
      "num_input_tokens_seen": 2967994368,
      "step": 7548
    },
    {
      "epoch": 0.856453481574388,
      "grad_norm": 0.5446822047233582,
      "learning_rate": 7.5546007876834955e-06,
      "loss": 2.0136,
      "num_input_tokens_seen": 2970353664,
      "step": 7554
    },
    {
      "epoch": 0.8571337464525249,
      "grad_norm": 0.5539310574531555,
      "learning_rate": 7.518796992481203e-06,
      "loss": 1.9784,
      "num_input_tokens_seen": 2972712960,
      "step": 7560
    },
    {
      "epoch": 0.8578140113306619,
      "grad_norm": 0.5015861988067627,
      "learning_rate": 7.482993197278912e-06,
      "loss": 1.9579,
      "num_input_tokens_seen": 2975072256,
      "step": 7566
    },
    {
      "epoch": 0.8584942762087988,
      "grad_norm": 0.4794093072414398,
      "learning_rate": 7.447189402076621e-06,
      "loss": 2.0009,
      "num_input_tokens_seen": 2977431552,
      "step": 7572
    },
    {
      "epoch": 0.8591745410869357,
      "grad_norm": 0.5329228639602661,
      "learning_rate": 7.411385606874328e-06,
      "loss": 2.0169,
      "num_input_tokens_seen": 2979790848,
      "step": 7578
    },
    {
      "epoch": 0.8598548059650727,
      "grad_norm": 0.4937734305858612,
      "learning_rate": 7.375581811672037e-06,
      "loss": 2.0231,
      "num_input_tokens_seen": 2982150144,
      "step": 7584
    },
    {
      "epoch": 0.8605350708432096,
      "grad_norm": 0.5106194615364075,
      "learning_rate": 7.339778016469746e-06,
      "loss": 2.0039,
      "num_input_tokens_seen": 2984509440,
      "step": 7590
    },
    {
      "epoch": 0.8612153357213465,
      "grad_norm": 0.5017894506454468,
      "learning_rate": 7.303974221267455e-06,
      "loss": 1.9735,
      "num_input_tokens_seen": 2986868736,
      "step": 7596
    },
    {
      "epoch": 0.8616688456401045,
      "eval_accuracy": 0.587537851037851,
      "eval_loss": 1.9987263679504395,
      "eval_runtime": 129.4571,
      "eval_samples_per_second": 3.09,
      "eval_steps_per_second": 1.035,
      "num_input_tokens_seen": 2988441600,
      "step": 7600
    },
    {
      "epoch": 0.8618956005994834,
      "grad_norm": 0.5046854019165039,
      "learning_rate": 7.2681704260651625e-06,
      "loss": 2.0324,
      "num_input_tokens_seen": 2989228032,
      "step": 7602
    },
    {
      "epoch": 0.8625758654776203,
      "grad_norm": 0.541846513748169,
      "learning_rate": 7.2323666308628715e-06,
      "loss": 2.0062,
      "num_input_tokens_seen": 2991587328,
      "step": 7608
    },
    {
      "epoch": 0.8632561303557573,
      "grad_norm": 0.4783530533313751,
      "learning_rate": 7.1965628356605805e-06,
      "loss": 2.0239,
      "num_input_tokens_seen": 2993946624,
      "step": 7614
    },
    {
      "epoch": 0.8639363952338942,
      "grad_norm": 0.587407648563385,
      "learning_rate": 7.160759040458289e-06,
      "loss": 2.0063,
      "num_input_tokens_seen": 2996305920,
      "step": 7620
    },
    {
      "epoch": 0.8646166601120311,
      "grad_norm": 0.5383691191673279,
      "learning_rate": 7.124955245255998e-06,
      "loss": 2.03,
      "num_input_tokens_seen": 2998665216,
      "step": 7626
    },
    {
      "epoch": 0.8652969249901681,
      "grad_norm": 0.5405200719833374,
      "learning_rate": 7.089151450053707e-06,
      "loss": 2.0637,
      "num_input_tokens_seen": 3001024512,
      "step": 7632
    },
    {
      "epoch": 0.865977189868305,
      "grad_norm": 0.4942198395729065,
      "learning_rate": 7.053347654851415e-06,
      "loss": 1.9617,
      "num_input_tokens_seen": 3003383808,
      "step": 7638
    },
    {
      "epoch": 0.8666574547464418,
      "grad_norm": 0.5435467958450317,
      "learning_rate": 7.017543859649123e-06,
      "loss": 2.0243,
      "num_input_tokens_seen": 3005743104,
      "step": 7644
    },
    {
      "epoch": 0.8673377196245788,
      "grad_norm": 0.48755842447280884,
      "learning_rate": 6.981740064446832e-06,
      "loss": 1.9578,
      "num_input_tokens_seen": 3008102400,
      "step": 7650
    },
    {
      "epoch": 0.8680179845027157,
      "grad_norm": 0.4815945625305176,
      "learning_rate": 6.945936269244541e-06,
      "loss": 1.9798,
      "num_input_tokens_seen": 3010461696,
      "step": 7656
    },
    {
      "epoch": 0.8686982493808527,
      "grad_norm": 0.5009135007858276,
      "learning_rate": 6.910132474042248e-06,
      "loss": 2.0082,
      "num_input_tokens_seen": 3012820992,
      "step": 7662
    },
    {
      "epoch": 0.8693785142589896,
      "grad_norm": 0.492590069770813,
      "learning_rate": 6.874328678839957e-06,
      "loss": 2.0236,
      "num_input_tokens_seen": 3015180288,
      "step": 7668
    },
    {
      "epoch": 0.8700587791371265,
      "grad_norm": 0.4939536452293396,
      "learning_rate": 6.838524883637666e-06,
      "loss": 1.9894,
      "num_input_tokens_seen": 3017539584,
      "step": 7674
    },
    {
      "epoch": 0.8707390440152635,
      "grad_norm": 0.5177844166755676,
      "learning_rate": 6.802721088435375e-06,
      "loss": 2.0053,
      "num_input_tokens_seen": 3019898880,
      "step": 7680
    },
    {
      "epoch": 0.8714193088934004,
      "grad_norm": 0.5024730563163757,
      "learning_rate": 6.766917293233083e-06,
      "loss": 1.9954,
      "num_input_tokens_seen": 3022258176,
      "step": 7686
    },
    {
      "epoch": 0.8720995737715372,
      "grad_norm": 0.5295082330703735,
      "learning_rate": 6.731113498030792e-06,
      "loss": 2.0063,
      "num_input_tokens_seen": 3024617472,
      "step": 7692
    },
    {
      "epoch": 0.8727798386496742,
      "grad_norm": 0.5884028673171997,
      "learning_rate": 6.695309702828501e-06,
      "loss": 1.9762,
      "num_input_tokens_seen": 3026976768,
      "step": 7698
    },
    {
      "epoch": 0.8734601035278111,
      "grad_norm": 0.510733425617218,
      "learning_rate": 6.659505907626208e-06,
      "loss": 2.0053,
      "num_input_tokens_seen": 3029336064,
      "step": 7704
    },
    {
      "epoch": 0.8741403684059481,
      "grad_norm": 0.49165260791778564,
      "learning_rate": 6.623702112423917e-06,
      "loss": 1.9905,
      "num_input_tokens_seen": 3031695360,
      "step": 7710
    },
    {
      "epoch": 0.874820633284085,
      "grad_norm": 0.5171453356742859,
      "learning_rate": 6.587898317221626e-06,
      "loss": 1.9589,
      "num_input_tokens_seen": 3034054656,
      "step": 7716
    },
    {
      "epoch": 0.8755008981622219,
      "grad_norm": 0.5841086506843567,
      "learning_rate": 6.552094522019335e-06,
      "loss": 2.013,
      "num_input_tokens_seen": 3036413952,
      "step": 7722
    },
    {
      "epoch": 0.8761811630403589,
      "grad_norm": 0.5813525915145874,
      "learning_rate": 6.516290726817042e-06,
      "loss": 1.9854,
      "num_input_tokens_seen": 3038773248,
      "step": 7728
    },
    {
      "epoch": 0.8768614279184958,
      "grad_norm": 0.5193366408348083,
      "learning_rate": 6.480486931614751e-06,
      "loss": 2.0316,
      "num_input_tokens_seen": 3041132544,
      "step": 7734
    },
    {
      "epoch": 0.8775416927966327,
      "grad_norm": 0.5028855800628662,
      "learning_rate": 6.44468313641246e-06,
      "loss": 1.9995,
      "num_input_tokens_seen": 3043491840,
      "step": 7740
    },
    {
      "epoch": 0.8782219576747696,
      "grad_norm": 0.5069683194160461,
      "learning_rate": 6.4088793412101684e-06,
      "loss": 1.9518,
      "num_input_tokens_seen": 3045851136,
      "step": 7746
    },
    {
      "epoch": 0.8789022225529065,
      "grad_norm": 0.4742577373981476,
      "learning_rate": 6.373075546007877e-06,
      "loss": 2.0423,
      "num_input_tokens_seen": 3048210432,
      "step": 7752
    },
    {
      "epoch": 0.8795824874310435,
      "grad_norm": 0.528330385684967,
      "learning_rate": 6.337271750805586e-06,
      "loss": 2.0014,
      "num_input_tokens_seen": 3050569728,
      "step": 7758
    },
    {
      "epoch": 0.8802627523091804,
      "grad_norm": 0.47722598910331726,
      "learning_rate": 6.301467955603295e-06,
      "loss": 2.0389,
      "num_input_tokens_seen": 3052929024,
      "step": 7764
    },
    {
      "epoch": 0.8809430171873173,
      "grad_norm": 0.5158604383468628,
      "learning_rate": 6.265664160401003e-06,
      "loss": 2.032,
      "num_input_tokens_seen": 3055288320,
      "step": 7770
    },
    {
      "epoch": 0.8816232820654543,
      "grad_norm": 0.555617094039917,
      "learning_rate": 6.229860365198712e-06,
      "loss": 2.0911,
      "num_input_tokens_seen": 3057647616,
      "step": 7776
    },
    {
      "epoch": 0.8823035469435911,
      "grad_norm": 0.5554957389831543,
      "learning_rate": 6.19405656999642e-06,
      "loss": 1.9768,
      "num_input_tokens_seen": 3060006912,
      "step": 7782
    },
    {
      "epoch": 0.8829838118217281,
      "grad_norm": 0.5055182576179504,
      "learning_rate": 6.158252774794129e-06,
      "loss": 1.9987,
      "num_input_tokens_seen": 3062366208,
      "step": 7788
    },
    {
      "epoch": 0.883664076699865,
      "grad_norm": 0.5182470083236694,
      "learning_rate": 6.122448979591837e-06,
      "loss": 2.0091,
      "num_input_tokens_seen": 3064725504,
      "step": 7794
    },
    {
      "epoch": 0.8843443415780019,
      "grad_norm": 0.507174551486969,
      "learning_rate": 6.086645184389546e-06,
      "loss": 1.9631,
      "num_input_tokens_seen": 3067084800,
      "step": 7800
    },
    {
      "epoch": 0.8850246064561389,
      "grad_norm": 0.46559634804725647,
      "learning_rate": 6.050841389187254e-06,
      "loss": 2.0352,
      "num_input_tokens_seen": 3069444096,
      "step": 7806
    },
    {
      "epoch": 0.8857048713342758,
      "grad_norm": 0.5257137417793274,
      "learning_rate": 6.015037593984962e-06,
      "loss": 1.9883,
      "num_input_tokens_seen": 3071803392,
      "step": 7812
    },
    {
      "epoch": 0.8863851362124127,
      "grad_norm": 0.4962034225463867,
      "learning_rate": 5.9792337987826714e-06,
      "loss": 2.0039,
      "num_input_tokens_seen": 3074162688,
      "step": 7818
    },
    {
      "epoch": 0.8870654010905497,
      "grad_norm": 0.5294592380523682,
      "learning_rate": 5.94343000358038e-06,
      "loss": 1.9959,
      "num_input_tokens_seen": 3076521984,
      "step": 7824
    },
    {
      "epoch": 0.8877456659686865,
      "grad_norm": 0.5304044485092163,
      "learning_rate": 5.907626208378089e-06,
      "loss": 1.9609,
      "num_input_tokens_seen": 3078881280,
      "step": 7830
    },
    {
      "epoch": 0.8884259308468235,
      "grad_norm": 0.5610164403915405,
      "learning_rate": 5.871822413175797e-06,
      "loss": 2.0117,
      "num_input_tokens_seen": 3081240576,
      "step": 7836
    },
    {
      "epoch": 0.8891061957249604,
      "grad_norm": 0.5142529010772705,
      "learning_rate": 5.836018617973506e-06,
      "loss": 2.0373,
      "num_input_tokens_seen": 3083599872,
      "step": 7842
    },
    {
      "epoch": 0.8897864606030973,
      "grad_norm": 0.49102193117141724,
      "learning_rate": 5.800214822771214e-06,
      "loss": 2.0585,
      "num_input_tokens_seen": 3085959168,
      "step": 7848
    },
    {
      "epoch": 0.8904667254812343,
      "grad_norm": 0.5983024835586548,
      "learning_rate": 5.764411027568922e-06,
      "loss": 2.025,
      "num_input_tokens_seen": 3088318464,
      "step": 7854
    },
    {
      "epoch": 0.8911469903593712,
      "grad_norm": 0.5602377653121948,
      "learning_rate": 5.728607232366631e-06,
      "loss": 2.0028,
      "num_input_tokens_seen": 3090677760,
      "step": 7860
    },
    {
      "epoch": 0.891827255237508,
      "grad_norm": 0.4956376552581787,
      "learning_rate": 5.692803437164339e-06,
      "loss": 2.0413,
      "num_input_tokens_seen": 3093037056,
      "step": 7866
    },
    {
      "epoch": 0.892507520115645,
      "grad_norm": 0.46066755056381226,
      "learning_rate": 5.656999641962048e-06,
      "loss": 2.0162,
      "num_input_tokens_seen": 3095396352,
      "step": 7872
    },
    {
      "epoch": 0.8931877849937819,
      "grad_norm": 0.48907607793807983,
      "learning_rate": 5.621195846759756e-06,
      "loss": 1.9745,
      "num_input_tokens_seen": 3097755648,
      "step": 7878
    },
    {
      "epoch": 0.8938680498719189,
      "grad_norm": 0.4798557758331299,
      "learning_rate": 5.585392051557465e-06,
      "loss": 2.0045,
      "num_input_tokens_seen": 3100114944,
      "step": 7884
    },
    {
      "epoch": 0.8945483147500558,
      "grad_norm": 0.523992657661438,
      "learning_rate": 5.5495882563551736e-06,
      "loss": 2.0096,
      "num_input_tokens_seen": 3102474240,
      "step": 7890
    },
    {
      "epoch": 0.8952285796281927,
      "grad_norm": 0.48234423995018005,
      "learning_rate": 5.5137844611528826e-06,
      "loss": 1.9822,
      "num_input_tokens_seen": 3104833536,
      "step": 7896
    },
    {
      "epoch": 0.8959088445063297,
      "grad_norm": 0.51031494140625,
      "learning_rate": 5.477980665950591e-06,
      "loss": 2.0232,
      "num_input_tokens_seen": 3107192832,
      "step": 7902
    },
    {
      "epoch": 0.8965891093844666,
      "grad_norm": 0.5131000876426697,
      "learning_rate": 5.4421768707483e-06,
      "loss": 2.0059,
      "num_input_tokens_seen": 3109552128,
      "step": 7908
    },
    {
      "epoch": 0.8972693742626034,
      "grad_norm": 0.510401725769043,
      "learning_rate": 5.406373075546009e-06,
      "loss": 1.966,
      "num_input_tokens_seen": 3111911424,
      "step": 7914
    },
    {
      "epoch": 0.8979496391407404,
      "grad_norm": 0.541610062122345,
      "learning_rate": 5.370569280343717e-06,
      "loss": 1.9652,
      "num_input_tokens_seen": 3114270720,
      "step": 7920
    },
    {
      "epoch": 0.8986299040188773,
      "grad_norm": 0.5096346735954285,
      "learning_rate": 5.334765485141426e-06,
      "loss": 1.9736,
      "num_input_tokens_seen": 3116630016,
      "step": 7926
    },
    {
      "epoch": 0.8993101688970143,
      "grad_norm": 0.5285272002220154,
      "learning_rate": 5.298961689939134e-06,
      "loss": 1.9764,
      "num_input_tokens_seen": 3118989312,
      "step": 7932
    },
    {
      "epoch": 0.8999904337751512,
      "grad_norm": 0.4984615743160248,
      "learning_rate": 5.263157894736842e-06,
      "loss": 2.0364,
      "num_input_tokens_seen": 3121348608,
      "step": 7938
    },
    {
      "epoch": 0.9006706986532881,
      "grad_norm": 0.517405092716217,
      "learning_rate": 5.227354099534551e-06,
      "loss": 1.9954,
      "num_input_tokens_seen": 3123707904,
      "step": 7944
    },
    {
      "epoch": 0.9013509635314251,
      "grad_norm": 0.5145347118377686,
      "learning_rate": 5.191550304332259e-06,
      "loss": 2.0138,
      "num_input_tokens_seen": 3126067200,
      "step": 7950
    },
    {
      "epoch": 0.902031228409562,
      "grad_norm": 0.5413515567779541,
      "learning_rate": 5.155746509129968e-06,
      "loss": 1.9974,
      "num_input_tokens_seen": 3128426496,
      "step": 7956
    },
    {
      "epoch": 0.902711493287699,
      "grad_norm": 0.5247104167938232,
      "learning_rate": 5.1199427139276766e-06,
      "loss": 2.0054,
      "num_input_tokens_seen": 3130785792,
      "step": 7962
    },
    {
      "epoch": 0.9033917581658358,
      "grad_norm": 0.5259600281715393,
      "learning_rate": 5.0841389187253856e-06,
      "loss": 1.9812,
      "num_input_tokens_seen": 3133145088,
      "step": 7968
    },
    {
      "epoch": 0.9040720230439727,
      "grad_norm": 0.537581205368042,
      "learning_rate": 5.048335123523094e-06,
      "loss": 2.0135,
      "num_input_tokens_seen": 3135504384,
      "step": 7974
    },
    {
      "epoch": 0.9047522879221097,
      "grad_norm": 0.5331296920776367,
      "learning_rate": 5.012531328320802e-06,
      "loss": 2.0023,
      "num_input_tokens_seen": 3137863680,
      "step": 7980
    },
    {
      "epoch": 0.9054325528002466,
      "grad_norm": 0.5150538086891174,
      "learning_rate": 4.976727533118511e-06,
      "loss": 2.046,
      "num_input_tokens_seen": 3140222976,
      "step": 7986
    },
    {
      "epoch": 0.9061128176783835,
      "grad_norm": 0.5423092842102051,
      "learning_rate": 4.940923737916219e-06,
      "loss": 2.0323,
      "num_input_tokens_seen": 3142582272,
      "step": 7992
    },
    {
      "epoch": 0.9067930825565205,
      "grad_norm": 0.5528409481048584,
      "learning_rate": 4.905119942713928e-06,
      "loss": 1.9799,
      "num_input_tokens_seen": 3144941568,
      "step": 7998
    },
    {
      "epoch": 0.9070198375158994,
      "eval_accuracy": 0.5879627594627594,
      "eval_loss": 1.996025800704956,
      "eval_runtime": 129.4235,
      "eval_samples_per_second": 3.091,
      "eval_steps_per_second": 1.035,
      "num_input_tokens_seen": 3145728000,
      "step": 8000
    },
    {
      "epoch": 0.9074733474346574,
      "grad_norm": 0.4775083661079407,
      "learning_rate": 4.869316147511636e-06,
      "loss": 2.0185,
      "num_input_tokens_seen": 3147300864,
      "step": 8004
    },
    {
      "epoch": 0.9081536123127943,
      "grad_norm": 0.5261006355285645,
      "learning_rate": 4.833512352309345e-06,
      "loss": 1.9824,
      "num_input_tokens_seen": 3149660160,
      "step": 8010
    },
    {
      "epoch": 0.9088338771909312,
      "grad_norm": 0.4982771575450897,
      "learning_rate": 4.797708557107053e-06,
      "loss": 2.0035,
      "num_input_tokens_seen": 3152019456,
      "step": 8016
    },
    {
      "epoch": 0.9095141420690681,
      "grad_norm": 0.5401104092597961,
      "learning_rate": 4.7619047619047615e-06,
      "loss": 1.9991,
      "num_input_tokens_seen": 3154378752,
      "step": 8022
    },
    {
      "epoch": 0.9101944069472051,
      "grad_norm": 0.4819372594356537,
      "learning_rate": 4.7261009667024705e-06,
      "loss": 2.0375,
      "num_input_tokens_seen": 3156738048,
      "step": 8028
    },
    {
      "epoch": 0.910874671825342,
      "grad_norm": 0.51005619764328,
      "learning_rate": 4.690297171500179e-06,
      "loss": 2.0353,
      "num_input_tokens_seen": 3159097344,
      "step": 8034
    },
    {
      "epoch": 0.9115549367034789,
      "grad_norm": 0.49865275621414185,
      "learning_rate": 4.654493376297888e-06,
      "loss": 2.0177,
      "num_input_tokens_seen": 3161456640,
      "step": 8040
    },
    {
      "epoch": 0.9122352015816159,
      "grad_norm": 0.4954957962036133,
      "learning_rate": 4.618689581095597e-06,
      "loss": 2.0235,
      "num_input_tokens_seen": 3163815936,
      "step": 8046
    },
    {
      "epoch": 0.9129154664597527,
      "grad_norm": 0.48068705201148987,
      "learning_rate": 4.582885785893305e-06,
      "loss": 2.0415,
      "num_input_tokens_seen": 3166175232,
      "step": 8052
    },
    {
      "epoch": 0.9135957313378897,
      "grad_norm": 0.5091089606285095,
      "learning_rate": 4.547081990691014e-06,
      "loss": 2.0128,
      "num_input_tokens_seen": 3168534528,
      "step": 8058
    },
    {
      "epoch": 0.9142759962160266,
      "grad_norm": 0.48053333163261414,
      "learning_rate": 4.511278195488722e-06,
      "loss": 2.1089,
      "num_input_tokens_seen": 3170893824,
      "step": 8064
    },
    {
      "epoch": 0.9149562610941635,
      "grad_norm": 0.506682276725769,
      "learning_rate": 4.475474400286431e-06,
      "loss": 1.9918,
      "num_input_tokens_seen": 3173253120,
      "step": 8070
    },
    {
      "epoch": 0.9156365259723005,
      "grad_norm": 0.47464847564697266,
      "learning_rate": 4.439670605084139e-06,
      "loss": 2.0194,
      "num_input_tokens_seen": 3175612416,
      "step": 8076
    },
    {
      "epoch": 0.9163167908504374,
      "grad_norm": 0.4886178970336914,
      "learning_rate": 4.403866809881848e-06,
      "loss": 2.0147,
      "num_input_tokens_seen": 3177971712,
      "step": 8082
    },
    {
      "epoch": 0.9169970557285743,
      "grad_norm": 0.5083957314491272,
      "learning_rate": 4.368063014679556e-06,
      "loss": 1.9979,
      "num_input_tokens_seen": 3180331008,
      "step": 8088
    },
    {
      "epoch": 0.9176773206067113,
      "grad_norm": 0.5344352126121521,
      "learning_rate": 4.3322592194772645e-06,
      "loss": 2.0719,
      "num_input_tokens_seen": 3182690304,
      "step": 8094
    },
    {
      "epoch": 0.9183575854848481,
      "grad_norm": 0.4968712627887726,
      "learning_rate": 4.2964554242749735e-06,
      "loss": 1.987,
      "num_input_tokens_seen": 3185049600,
      "step": 8100
    },
    {
      "epoch": 0.9190378503629851,
      "grad_norm": 0.5581889748573303,
      "learning_rate": 4.260651629072682e-06,
      "loss": 2.0171,
      "num_input_tokens_seen": 3187408896,
      "step": 8106
    },
    {
      "epoch": 0.919718115241122,
      "grad_norm": 0.5023228526115417,
      "learning_rate": 4.224847833870391e-06,
      "loss": 1.9605,
      "num_input_tokens_seen": 3189768192,
      "step": 8112
    },
    {
      "epoch": 0.9203983801192589,
      "grad_norm": 0.5072777271270752,
      "learning_rate": 4.189044038668099e-06,
      "loss": 2.0555,
      "num_input_tokens_seen": 3192127488,
      "step": 8118
    },
    {
      "epoch": 0.9210786449973959,
      "grad_norm": 0.501773476600647,
      "learning_rate": 4.153240243465808e-06,
      "loss": 2.0703,
      "num_input_tokens_seen": 3194486784,
      "step": 8124
    },
    {
      "epoch": 0.9217589098755328,
      "grad_norm": 0.5245522856712341,
      "learning_rate": 4.117436448263516e-06,
      "loss": 2.0284,
      "num_input_tokens_seen": 3196846080,
      "step": 8130
    },
    {
      "epoch": 0.9224391747536697,
      "grad_norm": 0.5125513672828674,
      "learning_rate": 4.081632653061224e-06,
      "loss": 1.9894,
      "num_input_tokens_seen": 3199205376,
      "step": 8136
    },
    {
      "epoch": 0.9231194396318066,
      "grad_norm": 0.5277597904205322,
      "learning_rate": 4.045828857858933e-06,
      "loss": 1.9765,
      "num_input_tokens_seen": 3201564672,
      "step": 8142
    },
    {
      "epoch": 0.9237997045099435,
      "grad_norm": 0.48302364349365234,
      "learning_rate": 4.010025062656641e-06,
      "loss": 1.9909,
      "num_input_tokens_seen": 3203923968,
      "step": 8148
    },
    {
      "epoch": 0.9244799693880805,
      "grad_norm": 0.4815656244754791,
      "learning_rate": 3.97422126745435e-06,
      "loss": 2.069,
      "num_input_tokens_seen": 3206283264,
      "step": 8154
    },
    {
      "epoch": 0.9251602342662174,
      "grad_norm": 0.4820353090763092,
      "learning_rate": 3.9384174722520585e-06,
      "loss": 1.9816,
      "num_input_tokens_seen": 3208642560,
      "step": 8160
    },
    {
      "epoch": 0.9258404991443543,
      "grad_norm": 0.4983651041984558,
      "learning_rate": 3.9026136770497675e-06,
      "loss": 2.0272,
      "num_input_tokens_seen": 3211001856,
      "step": 8166
    },
    {
      "epoch": 0.9265207640224913,
      "grad_norm": 0.4833485186100006,
      "learning_rate": 3.866809881847476e-06,
      "loss": 2.0169,
      "num_input_tokens_seen": 3213361152,
      "step": 8172
    },
    {
      "epoch": 0.9272010289006282,
      "grad_norm": 0.5084331631660461,
      "learning_rate": 3.831006086645185e-06,
      "loss": 1.9514,
      "num_input_tokens_seen": 3215720448,
      "step": 8178
    },
    {
      "epoch": 0.9278812937787652,
      "grad_norm": 0.5215640068054199,
      "learning_rate": 3.7952022914428932e-06,
      "loss": 2.0084,
      "num_input_tokens_seen": 3218079744,
      "step": 8184
    },
    {
      "epoch": 0.928561558656902,
      "grad_norm": 0.48457303643226624,
      "learning_rate": 3.7593984962406014e-06,
      "loss": 1.99,
      "num_input_tokens_seen": 3220439040,
      "step": 8190
    },
    {
      "epoch": 0.9292418235350389,
      "grad_norm": 0.4908931851387024,
      "learning_rate": 3.7235947010383104e-06,
      "loss": 2.031,
      "num_input_tokens_seen": 3222798336,
      "step": 8196
    },
    {
      "epoch": 0.9299220884131759,
      "grad_norm": 0.486664354801178,
      "learning_rate": 3.6877909058360186e-06,
      "loss": 2.0522,
      "num_input_tokens_seen": 3225157632,
      "step": 8202
    },
    {
      "epoch": 0.9306023532913128,
      "grad_norm": 0.5011295676231384,
      "learning_rate": 3.6519871106337276e-06,
      "loss": 1.9818,
      "num_input_tokens_seen": 3227516928,
      "step": 8208
    },
    {
      "epoch": 0.9312826181694497,
      "grad_norm": 0.5124307870864868,
      "learning_rate": 3.6161833154314357e-06,
      "loss": 2.0587,
      "num_input_tokens_seen": 3229876224,
      "step": 8214
    },
    {
      "epoch": 0.9319628830475867,
      "grad_norm": 0.5010582804679871,
      "learning_rate": 3.5803795202291443e-06,
      "loss": 2.0345,
      "num_input_tokens_seen": 3232235520,
      "step": 8220
    },
    {
      "epoch": 0.9326431479257236,
      "grad_norm": 0.5208165645599365,
      "learning_rate": 3.5445757250268533e-06,
      "loss": 1.9941,
      "num_input_tokens_seen": 3234594816,
      "step": 8226
    },
    {
      "epoch": 0.9333234128038606,
      "grad_norm": 0.5112361311912537,
      "learning_rate": 3.5087719298245615e-06,
      "loss": 1.9566,
      "num_input_tokens_seen": 3236954112,
      "step": 8232
    },
    {
      "epoch": 0.9340036776819974,
      "grad_norm": 0.48557788133621216,
      "learning_rate": 3.4729681346222705e-06,
      "loss": 1.9702,
      "num_input_tokens_seen": 3239313408,
      "step": 8238
    },
    {
      "epoch": 0.9346839425601343,
      "grad_norm": 0.5145829319953918,
      "learning_rate": 3.4371643394199786e-06,
      "loss": 2.0183,
      "num_input_tokens_seen": 3241672704,
      "step": 8244
    },
    {
      "epoch": 0.9353642074382713,
      "grad_norm": 0.44660866260528564,
      "learning_rate": 3.4013605442176877e-06,
      "loss": 2.0032,
      "num_input_tokens_seen": 3244032000,
      "step": 8250
    },
    {
      "epoch": 0.9360444723164082,
      "grad_norm": 0.5104228258132935,
      "learning_rate": 3.365556749015396e-06,
      "loss": 2.0313,
      "num_input_tokens_seen": 3246391296,
      "step": 8256
    },
    {
      "epoch": 0.9367247371945451,
      "grad_norm": 0.5160300731658936,
      "learning_rate": 3.329752953813104e-06,
      "loss": 1.9679,
      "num_input_tokens_seen": 3248750592,
      "step": 8262
    },
    {
      "epoch": 0.9374050020726821,
      "grad_norm": 0.4720374643802643,
      "learning_rate": 3.293949158610813e-06,
      "loss": 1.9988,
      "num_input_tokens_seen": 3251109888,
      "step": 8268
    },
    {
      "epoch": 0.938085266950819,
      "grad_norm": 0.4732125699520111,
      "learning_rate": 3.258145363408521e-06,
      "loss": 2.0359,
      "num_input_tokens_seen": 3253469184,
      "step": 8274
    },
    {
      "epoch": 0.938765531828956,
      "grad_norm": 0.4820111095905304,
      "learning_rate": 3.22234156820623e-06,
      "loss": 1.9772,
      "num_input_tokens_seen": 3255828480,
      "step": 8280
    },
    {
      "epoch": 0.9394457967070928,
      "grad_norm": 0.48187270760536194,
      "learning_rate": 3.1865377730039383e-06,
      "loss": 1.9989,
      "num_input_tokens_seen": 3258187776,
      "step": 8286
    },
    {
      "epoch": 0.9401260615852297,
      "grad_norm": 0.47333669662475586,
      "learning_rate": 3.1507339778016473e-06,
      "loss": 1.9811,
      "num_input_tokens_seen": 3260547072,
      "step": 8292
    },
    {
      "epoch": 0.9408063264633667,
      "grad_norm": 0.5094246864318848,
      "learning_rate": 3.114930182599356e-06,
      "loss": 1.9739,
      "num_input_tokens_seen": 3262906368,
      "step": 8298
    },
    {
      "epoch": 0.9414865913415036,
      "grad_norm": 0.5325969457626343,
      "learning_rate": 3.0791263873970645e-06,
      "loss": 2.015,
      "num_input_tokens_seen": 3265265664,
      "step": 8304
    },
    {
      "epoch": 0.9421668562196405,
      "grad_norm": 0.4827982485294342,
      "learning_rate": 3.043322592194773e-06,
      "loss": 1.9949,
      "num_input_tokens_seen": 3267624960,
      "step": 8310
    },
    {
      "epoch": 0.9428471210977775,
      "grad_norm": 0.4823977053165436,
      "learning_rate": 3.007518796992481e-06,
      "loss": 1.9807,
      "num_input_tokens_seen": 3269984256,
      "step": 8316
    },
    {
      "epoch": 0.9435273859759143,
      "grad_norm": 0.4721021354198456,
      "learning_rate": 2.97171500179019e-06,
      "loss": 1.9597,
      "num_input_tokens_seen": 3272343552,
      "step": 8322
    },
    {
      "epoch": 0.9442076508540513,
      "grad_norm": 0.4703858494758606,
      "learning_rate": 2.9359112065878984e-06,
      "loss": 1.9861,
      "num_input_tokens_seen": 3274702848,
      "step": 8328
    },
    {
      "epoch": 0.9448879157321882,
      "grad_norm": 0.5197435021400452,
      "learning_rate": 2.900107411385607e-06,
      "loss": 2.0625,
      "num_input_tokens_seen": 3277062144,
      "step": 8334
    },
    {
      "epoch": 0.9455681806103251,
      "grad_norm": 0.47608399391174316,
      "learning_rate": 2.8643036161833155e-06,
      "loss": 2.0277,
      "num_input_tokens_seen": 3279421440,
      "step": 8340
    },
    {
      "epoch": 0.9462484454884621,
      "grad_norm": 0.5438135266304016,
      "learning_rate": 2.828499820981024e-06,
      "loss": 1.9903,
      "num_input_tokens_seen": 3281780736,
      "step": 8346
    },
    {
      "epoch": 0.946928710366599,
      "grad_norm": 0.48217347264289856,
      "learning_rate": 2.7926960257787327e-06,
      "loss": 2.0009,
      "num_input_tokens_seen": 3284140032,
      "step": 8352
    },
    {
      "epoch": 0.947608975244736,
      "grad_norm": 0.47104737162590027,
      "learning_rate": 2.7568922305764413e-06,
      "loss": 2.0084,
      "num_input_tokens_seen": 3286499328,
      "step": 8358
    },
    {
      "epoch": 0.9482892401228729,
      "grad_norm": 0.5058236718177795,
      "learning_rate": 2.72108843537415e-06,
      "loss": 1.9667,
      "num_input_tokens_seen": 3288858624,
      "step": 8364
    },
    {
      "epoch": 0.9489695050010097,
      "grad_norm": 0.4855674207210541,
      "learning_rate": 2.6852846401718585e-06,
      "loss": 1.9953,
      "num_input_tokens_seen": 3291217920,
      "step": 8370
    },
    {
      "epoch": 0.9496497698791467,
      "grad_norm": 0.49368613958358765,
      "learning_rate": 2.649480844969567e-06,
      "loss": 2.0019,
      "num_input_tokens_seen": 3293577216,
      "step": 8376
    },
    {
      "epoch": 0.9503300347572836,
      "grad_norm": 0.4895451068878174,
      "learning_rate": 2.6136770497672756e-06,
      "loss": 2.0552,
      "num_input_tokens_seen": 3295936512,
      "step": 8382
    },
    {
      "epoch": 0.9510102996354205,
      "grad_norm": 0.4846164882183075,
      "learning_rate": 2.577873254564984e-06,
      "loss": 2.0175,
      "num_input_tokens_seen": 3298295808,
      "step": 8388
    },
    {
      "epoch": 0.9516905645135575,
      "grad_norm": 0.4728488028049469,
      "learning_rate": 2.5420694593626928e-06,
      "loss": 2.0314,
      "num_input_tokens_seen": 3300655104,
      "step": 8394
    },
    {
      "epoch": 0.9523708293916944,
      "grad_norm": 0.47742366790771484,
      "learning_rate": 2.506265664160401e-06,
      "loss": 2.0056,
      "num_input_tokens_seen": 3303014400,
      "step": 8400
    },
    {
      "epoch": 0.9523708293916944,
      "eval_accuracy": 0.5882161172161172,
      "eval_loss": 1.9941824674606323,
      "eval_runtime": 129.6127,
      "eval_samples_per_second": 3.086,
      "eval_steps_per_second": 1.034,
      "num_input_tokens_seen": 3303014400,
      "step": 8400
    },
    {
      "epoch": 0.9530510942698314,
      "grad_norm": 0.49103352427482605,
      "learning_rate": 2.4704618689581095e-06,
      "loss": 2.0074,
      "num_input_tokens_seen": 3305373696,
      "step": 8406
    },
    {
      "epoch": 0.9537313591479682,
      "grad_norm": 0.47667092084884644,
      "learning_rate": 2.434658073755818e-06,
      "loss": 2.0055,
      "num_input_tokens_seen": 3307732992,
      "step": 8412
    },
    {
      "epoch": 0.9544116240261051,
      "grad_norm": 0.5088315606117249,
      "learning_rate": 2.3988542785535267e-06,
      "loss": 2.0492,
      "num_input_tokens_seen": 3310092288,
      "step": 8418
    },
    {
      "epoch": 0.9550918889042421,
      "grad_norm": 0.5331157445907593,
      "learning_rate": 2.3630504833512353e-06,
      "loss": 1.991,
      "num_input_tokens_seen": 3312451584,
      "step": 8424
    },
    {
      "epoch": 0.955772153782379,
      "grad_norm": 0.4914342164993286,
      "learning_rate": 2.327246688148944e-06,
      "loss": 2.05,
      "num_input_tokens_seen": 3314810880,
      "step": 8430
    },
    {
      "epoch": 0.9564524186605159,
      "grad_norm": 0.5580516457557678,
      "learning_rate": 2.2914428929466524e-06,
      "loss": 2.0284,
      "num_input_tokens_seen": 3317170176,
      "step": 8436
    },
    {
      "epoch": 0.9571326835386529,
      "grad_norm": 0.5167604088783264,
      "learning_rate": 2.255639097744361e-06,
      "loss": 1.9835,
      "num_input_tokens_seen": 3319529472,
      "step": 8442
    },
    {
      "epoch": 0.9578129484167898,
      "grad_norm": 0.46328479051589966,
      "learning_rate": 2.2198353025420696e-06,
      "loss": 2.0001,
      "num_input_tokens_seen": 3321888768,
      "step": 8448
    },
    {
      "epoch": 0.9584932132949268,
      "grad_norm": 0.489848256111145,
      "learning_rate": 2.184031507339778e-06,
      "loss": 1.9874,
      "num_input_tokens_seen": 3324248064,
      "step": 8454
    },
    {
      "epoch": 0.9591734781730636,
      "grad_norm": 0.4731234312057495,
      "learning_rate": 2.1482277121374868e-06,
      "loss": 2.0577,
      "num_input_tokens_seen": 3326607360,
      "step": 8460
    },
    {
      "epoch": 0.9598537430512005,
      "grad_norm": 0.46996498107910156,
      "learning_rate": 2.1124239169351953e-06,
      "loss": 1.958,
      "num_input_tokens_seen": 3328966656,
      "step": 8466
    },
    {
      "epoch": 0.9605340079293375,
      "grad_norm": 0.4455466866493225,
      "learning_rate": 2.076620121732904e-06,
      "loss": 2.0721,
      "num_input_tokens_seen": 3331325952,
      "step": 8472
    },
    {
      "epoch": 0.9612142728074744,
      "grad_norm": 0.483164519071579,
      "learning_rate": 2.040816326530612e-06,
      "loss": 1.997,
      "num_input_tokens_seen": 3333685248,
      "step": 8478
    },
    {
      "epoch": 0.9618945376856113,
      "grad_norm": 0.46224308013916016,
      "learning_rate": 2.0050125313283207e-06,
      "loss": 1.9534,
      "num_input_tokens_seen": 3336044544,
      "step": 8484
    },
    {
      "epoch": 0.9625748025637483,
      "grad_norm": 0.5407201647758484,
      "learning_rate": 1.9692087361260292e-06,
      "loss": 2.0635,
      "num_input_tokens_seen": 3338403840,
      "step": 8490
    },
    {
      "epoch": 0.9632550674418852,
      "grad_norm": 0.49724259972572327,
      "learning_rate": 1.933404940923738e-06,
      "loss": 2.0165,
      "num_input_tokens_seen": 3340763136,
      "step": 8496
    },
    {
      "epoch": 0.9639353323200222,
      "grad_norm": 0.4704829156398773,
      "learning_rate": 1.8976011457214466e-06,
      "loss": 1.995,
      "num_input_tokens_seen": 3343122432,
      "step": 8502
    },
    {
      "epoch": 0.964615597198159,
      "grad_norm": 0.4864175319671631,
      "learning_rate": 1.8617973505191552e-06,
      "loss": 2.0195,
      "num_input_tokens_seen": 3345481728,
      "step": 8508
    },
    {
      "epoch": 0.9652958620762959,
      "grad_norm": 0.5042557120323181,
      "learning_rate": 1.8259935553168638e-06,
      "loss": 1.9928,
      "num_input_tokens_seen": 3347841024,
      "step": 8514
    },
    {
      "epoch": 0.9659761269544329,
      "grad_norm": 0.5622674822807312,
      "learning_rate": 1.7901897601145722e-06,
      "loss": 2.0166,
      "num_input_tokens_seen": 3350200320,
      "step": 8520
    },
    {
      "epoch": 0.9666563918325698,
      "grad_norm": 0.4886009395122528,
      "learning_rate": 1.7543859649122807e-06,
      "loss": 2.0512,
      "num_input_tokens_seen": 3352559616,
      "step": 8526
    },
    {
      "epoch": 0.9673366567107067,
      "grad_norm": 0.48748981952667236,
      "learning_rate": 1.7185821697099893e-06,
      "loss": 2.0336,
      "num_input_tokens_seen": 3354918912,
      "step": 8532
    },
    {
      "epoch": 0.9680169215888437,
      "grad_norm": 0.4899289608001709,
      "learning_rate": 1.682778374507698e-06,
      "loss": 2.0008,
      "num_input_tokens_seen": 3357278208,
      "step": 8538
    },
    {
      "epoch": 0.9686971864669806,
      "grad_norm": 0.465916246175766,
      "learning_rate": 1.6469745793054065e-06,
      "loss": 1.9239,
      "num_input_tokens_seen": 3359637504,
      "step": 8544
    },
    {
      "epoch": 0.9693774513451175,
      "grad_norm": 0.5022467374801636,
      "learning_rate": 1.611170784103115e-06,
      "loss": 2.0017,
      "num_input_tokens_seen": 3361996800,
      "step": 8550
    },
    {
      "epoch": 0.9700577162232544,
      "grad_norm": 0.47663870453834534,
      "learning_rate": 1.5753669889008237e-06,
      "loss": 1.9944,
      "num_input_tokens_seen": 3364356096,
      "step": 8556
    },
    {
      "epoch": 0.9707379811013913,
      "grad_norm": 0.48725882172584534,
      "learning_rate": 1.5395631936985322e-06,
      "loss": 1.9945,
      "num_input_tokens_seen": 3366715392,
      "step": 8562
    },
    {
      "epoch": 0.9714182459795283,
      "grad_norm": 0.47763851284980774,
      "learning_rate": 1.5037593984962406e-06,
      "loss": 2.0526,
      "num_input_tokens_seen": 3369074688,
      "step": 8568
    },
    {
      "epoch": 0.9720985108576652,
      "grad_norm": 0.4931076467037201,
      "learning_rate": 1.4679556032939492e-06,
      "loss": 1.9821,
      "num_input_tokens_seen": 3371433984,
      "step": 8574
    },
    {
      "epoch": 0.9727787757358022,
      "grad_norm": 0.4717552363872528,
      "learning_rate": 1.4321518080916578e-06,
      "loss": 1.9392,
      "num_input_tokens_seen": 3373793280,
      "step": 8580
    },
    {
      "epoch": 0.9734590406139391,
      "grad_norm": 0.46910974383354187,
      "learning_rate": 1.3963480128893664e-06,
      "loss": 2.061,
      "num_input_tokens_seen": 3376152576,
      "step": 8586
    },
    {
      "epoch": 0.974139305492076,
      "grad_norm": 0.4669153690338135,
      "learning_rate": 1.360544217687075e-06,
      "loss": 2.0235,
      "num_input_tokens_seen": 3378511872,
      "step": 8592
    },
    {
      "epoch": 0.9748195703702129,
      "grad_norm": 0.49458202719688416,
      "learning_rate": 1.3247404224847835e-06,
      "loss": 1.9982,
      "num_input_tokens_seen": 3380871168,
      "step": 8598
    },
    {
      "epoch": 0.9754998352483498,
      "grad_norm": 0.4920654892921448,
      "learning_rate": 1.288936627282492e-06,
      "loss": 2.0098,
      "num_input_tokens_seen": 3383230464,
      "step": 8604
    },
    {
      "epoch": 0.9761801001264867,
      "grad_norm": 0.46870675683021545,
      "learning_rate": 1.2531328320802005e-06,
      "loss": 2.0151,
      "num_input_tokens_seen": 3385589760,
      "step": 8610
    },
    {
      "epoch": 0.9768603650046237,
      "grad_norm": 0.4873650372028351,
      "learning_rate": 1.217329036877909e-06,
      "loss": 2.0151,
      "num_input_tokens_seen": 3387949056,
      "step": 8616
    },
    {
      "epoch": 0.9775406298827606,
      "grad_norm": 0.4861888587474823,
      "learning_rate": 1.1815252416756176e-06,
      "loss": 2.0329,
      "num_input_tokens_seen": 3390308352,
      "step": 8622
    },
    {
      "epoch": 0.9782208947608976,
      "grad_norm": 0.48227134346961975,
      "learning_rate": 1.1457214464733262e-06,
      "loss": 2.049,
      "num_input_tokens_seen": 3392667648,
      "step": 8628
    },
    {
      "epoch": 0.9789011596390345,
      "grad_norm": 0.5111281871795654,
      "learning_rate": 1.1099176512710348e-06,
      "loss": 2.0235,
      "num_input_tokens_seen": 3395026944,
      "step": 8634
    },
    {
      "epoch": 0.9795814245171713,
      "grad_norm": 0.4849562644958496,
      "learning_rate": 1.0741138560687434e-06,
      "loss": 2.043,
      "num_input_tokens_seen": 3397386240,
      "step": 8640
    },
    {
      "epoch": 0.9802616893953083,
      "grad_norm": 0.461967408657074,
      "learning_rate": 1.038310060866452e-06,
      "loss": 2.0346,
      "num_input_tokens_seen": 3399745536,
      "step": 8646
    },
    {
      "epoch": 0.9809419542734452,
      "grad_norm": 0.5269701480865479,
      "learning_rate": 1.0025062656641603e-06,
      "loss": 1.9499,
      "num_input_tokens_seen": 3402104832,
      "step": 8652
    },
    {
      "epoch": 0.9816222191515821,
      "grad_norm": 0.4462730586528778,
      "learning_rate": 9.66702470461869e-07,
      "loss": 1.9948,
      "num_input_tokens_seen": 3404464128,
      "step": 8658
    },
    {
      "epoch": 0.9823024840297191,
      "grad_norm": 0.459370493888855,
      "learning_rate": 9.308986752595776e-07,
      "loss": 2.0511,
      "num_input_tokens_seen": 3406823424,
      "step": 8664
    },
    {
      "epoch": 0.982982748907856,
      "grad_norm": 0.49241387844085693,
      "learning_rate": 8.950948800572861e-07,
      "loss": 1.994,
      "num_input_tokens_seen": 3409182720,
      "step": 8670
    },
    {
      "epoch": 0.983663013785993,
      "grad_norm": 0.4557535648345947,
      "learning_rate": 8.592910848549947e-07,
      "loss": 2.0506,
      "num_input_tokens_seen": 3411542016,
      "step": 8676
    },
    {
      "epoch": 0.9843432786641299,
      "grad_norm": 0.48074275255203247,
      "learning_rate": 8.234872896527032e-07,
      "loss": 1.946,
      "num_input_tokens_seen": 3413901312,
      "step": 8682
    },
    {
      "epoch": 0.9850235435422667,
      "grad_norm": 0.4807458221912384,
      "learning_rate": 7.876834944504118e-07,
      "loss": 1.9977,
      "num_input_tokens_seen": 3416260608,
      "step": 8688
    },
    {
      "epoch": 0.9857038084204037,
      "grad_norm": 0.4791664183139801,
      "learning_rate": 7.518796992481203e-07,
      "loss": 1.9519,
      "num_input_tokens_seen": 3418619904,
      "step": 8694
    },
    {
      "epoch": 0.9863840732985406,
      "grad_norm": 0.45667803287506104,
      "learning_rate": 7.160759040458289e-07,
      "loss": 2.0047,
      "num_input_tokens_seen": 3420979200,
      "step": 8700
    },
    {
      "epoch": 0.9870643381766775,
      "grad_norm": 0.456066370010376,
      "learning_rate": 6.802721088435375e-07,
      "loss": 2.023,
      "num_input_tokens_seen": 3423338496,
      "step": 8706
    },
    {
      "epoch": 0.9877446030548145,
      "grad_norm": 0.49028295278549194,
      "learning_rate": 6.44468313641246e-07,
      "loss": 2.0506,
      "num_input_tokens_seen": 3425697792,
      "step": 8712
    },
    {
      "epoch": 0.9884248679329514,
      "grad_norm": 0.4853602647781372,
      "learning_rate": 6.086645184389545e-07,
      "loss": 2.0127,
      "num_input_tokens_seen": 3428057088,
      "step": 8718
    },
    {
      "epoch": 0.9891051328110884,
      "grad_norm": 0.4771934449672699,
      "learning_rate": 5.728607232366631e-07,
      "loss": 2.0125,
      "num_input_tokens_seen": 3430416384,
      "step": 8724
    },
    {
      "epoch": 0.9897853976892252,
      "grad_norm": 0.47227999567985535,
      "learning_rate": 5.370569280343717e-07,
      "loss": 1.9608,
      "num_input_tokens_seen": 3432775680,
      "step": 8730
    },
    {
      "epoch": 0.9904656625673621,
      "grad_norm": 0.5044968128204346,
      "learning_rate": 5.012531328320802e-07,
      "loss": 2.0495,
      "num_input_tokens_seen": 3435134976,
      "step": 8736
    },
    {
      "epoch": 0.9911459274454991,
      "grad_norm": 0.47824859619140625,
      "learning_rate": 4.654493376297888e-07,
      "loss": 2.0122,
      "num_input_tokens_seen": 3437494272,
      "step": 8742
    },
    {
      "epoch": 0.991826192323636,
      "grad_norm": 0.4707111120223999,
      "learning_rate": 4.2964554242749733e-07,
      "loss": 2.0036,
      "num_input_tokens_seen": 3439853568,
      "step": 8748
    },
    {
      "epoch": 0.992506457201773,
      "grad_norm": 0.47407931089401245,
      "learning_rate": 3.938417472252059e-07,
      "loss": 2.0537,
      "num_input_tokens_seen": 3442212864,
      "step": 8754
    },
    {
      "epoch": 0.9931867220799099,
      "grad_norm": 0.46975448727607727,
      "learning_rate": 3.5803795202291444e-07,
      "loss": 1.9721,
      "num_input_tokens_seen": 3444572160,
      "step": 8760
    },
    {
      "epoch": 0.9938669869580468,
      "grad_norm": 0.46711423993110657,
      "learning_rate": 3.22234156820623e-07,
      "loss": 2.0284,
      "num_input_tokens_seen": 3446931456,
      "step": 8766
    },
    {
      "epoch": 0.9945472518361838,
      "grad_norm": 0.4574568271636963,
      "learning_rate": 2.8643036161833155e-07,
      "loss": 1.9764,
      "num_input_tokens_seen": 3449290752,
      "step": 8772
    },
    {
      "epoch": 0.9952275167143206,
      "grad_norm": 0.4745030105113983,
      "learning_rate": 2.506265664160401e-07,
      "loss": 2.0551,
      "num_input_tokens_seen": 3451650048,
      "step": 8778
    },
    {
      "epoch": 0.9959077815924575,
      "grad_norm": 0.48132795095443726,
      "learning_rate": 2.1482277121374867e-07,
      "loss": 1.9993,
      "num_input_tokens_seen": 3454009344,
      "step": 8784
    },
    {
      "epoch": 0.9965880464705945,
      "grad_norm": 0.4754565954208374,
      "learning_rate": 1.7901897601145722e-07,
      "loss": 2.0276,
      "num_input_tokens_seen": 3456368640,
      "step": 8790
    },
    {
      "epoch": 0.9972683113487314,
      "grad_norm": 0.4709925949573517,
      "learning_rate": 1.4321518080916578e-07,
      "loss": 1.9961,
      "num_input_tokens_seen": 3458727936,
      "step": 8796
    },
    {
      "epoch": 0.9977218212674893,
      "eval_accuracy": 0.5884273504273504,
      "eval_loss": 1.992612361907959,
      "eval_runtime": 129.0731,
      "eval_samples_per_second": 3.099,
      "eval_steps_per_second": 1.038,
      "num_input_tokens_seen": 3460300800,
      "step": 8800
    },
    {
      "epoch": 0.9979485762268684,
      "grad_norm": 0.4582703709602356,
      "learning_rate": 1.0741138560687433e-07,
      "loss": 2.0105,
      "num_input_tokens_seen": 3461087232,
      "step": 8802
    },
    {
      "epoch": 0.9986288411050053,
      "grad_norm": 0.4576333463191986,
      "learning_rate": 7.160759040458289e-08,
      "loss": 1.974,
      "num_input_tokens_seen": 3463446528,
      "step": 8808
    },
    {
      "epoch": 0.9993091059831422,
      "grad_norm": 0.46073076128959656,
      "learning_rate": 3.5803795202291444e-08,
      "loss": 2.0213,
      "num_input_tokens_seen": 3465805824,
      "step": 8814
    },
    {
      "epoch": 0.9999893708612791,
      "grad_norm": 0.48334258794784546,
      "learning_rate": 0.0,
      "loss": 1.9662,
      "num_input_tokens_seen": 3468165120,
      "step": 8820
    },
    {
      "epoch": 0.9999893708612791,
      "num_input_tokens_seen": 3468165120,
      "step": 8820,
      "total_flos": 4.540784328132526e+18,
      "train_loss": 2.065564124978859,
      "train_runtime": 98524.0638,
      "train_samples_per_second": 8.594,
      "train_steps_per_second": 0.09
    }
  ],
  "logging_steps": 6,
  "max_steps": 8820,
  "num_input_tokens_seen": 3468165120,
  "num_train_epochs": 1,
  "save_steps": 200,
  "total_flos": 4.540784328132526e+18,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}