{
  "best_metric": 0.823376476764679,
  "best_model_checkpoint": "./gte-small-pairscore/checkpoint-38500",
  "epoch": 2.4142471938295604,
  "eval_steps": 100,
  "global_step": 38500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.006270771932024832,
      "grad_norm": 8.922538757324219,
      "learning_rate": 3.135287662643047e-07,
      "loss": 6.3669,
      "step": 100
    },
    {
      "epoch": 0.006270771932024832,
      "eval_loss": 6.6512651443481445,
      "eval_runtime": 499.3604,
      "eval_samples_per_second": 255.471,
      "eval_steps_per_second": 7.984,
      "step": 100
    },
    {
      "epoch": 0.012541543864049664,
      "grad_norm": 8.918222427368164,
      "learning_rate": 6.270575325286094e-07,
      "loss": 6.1795,
      "step": 200
    },
    {
      "epoch": 0.012541543864049664,
      "eval_loss": 6.254122734069824,
      "eval_runtime": 501.3941,
      "eval_samples_per_second": 254.435,
      "eval_steps_per_second": 7.952,
      "step": 200
    },
    {
      "epoch": 0.018812315796074498,
      "grad_norm": 10.144318580627441,
      "learning_rate": 9.405862987929143e-07,
      "loss": 5.893,
      "step": 300
    },
    {
      "epoch": 0.018812315796074498,
      "eval_loss": 5.773278713226318,
      "eval_runtime": 495.3793,
      "eval_samples_per_second": 257.524,
      "eval_steps_per_second": 8.048,
      "step": 300
    },
    {
      "epoch": 0.025083087728099328,
      "grad_norm": 9.239725112915039,
      "learning_rate": 1.2541150650572189e-06,
      "loss": 5.5099,
      "step": 400
    },
    {
      "epoch": 0.025083087728099328,
      "eval_loss": 5.362614154815674,
      "eval_runtime": 502.6963,
      "eval_samples_per_second": 253.776,
      "eval_steps_per_second": 7.931,
      "step": 400
    },
    {
      "epoch": 0.03135385966012416,
      "grad_norm": 9.863190650939941,
      "learning_rate": 1.5676438313215239e-06,
      "loss": 5.1589,
      "step": 500
    },
    {
      "epoch": 0.03135385966012416,
      "eval_loss": 4.990196228027344,
      "eval_runtime": 497.9208,
      "eval_samples_per_second": 256.209,
      "eval_steps_per_second": 8.007,
      "step": 500
    },
    {
      "epoch": 0.037624631592148995,
      "grad_norm": 13.765459060668945,
      "learning_rate": 1.8811725975858286e-06,
      "loss": 4.8599,
      "step": 600
    },
    {
      "epoch": 0.037624631592148995,
      "eval_loss": 4.652267932891846,
      "eval_runtime": 502.9499,
      "eval_samples_per_second": 253.648,
      "eval_steps_per_second": 7.927,
      "step": 600
    },
    {
      "epoch": 0.04389540352417383,
      "grad_norm": 12.12948226928711,
      "learning_rate": 2.1915660761874904e-06,
      "loss": 4.6075,
      "step": 700
    },
    {
      "epoch": 0.04389540352417383,
      "eval_loss": 4.423278331756592,
      "eval_runtime": 500.0391,
      "eval_samples_per_second": 255.124,
      "eval_steps_per_second": 7.973,
      "step": 700
    },
    {
      "epoch": 0.050166175456198656,
      "grad_norm": 19.26013946533203,
      "learning_rate": 2.505094842451795e-06,
      "loss": 4.3831,
      "step": 800
    },
    {
      "epoch": 0.050166175456198656,
      "eval_loss": 4.243069171905518,
      "eval_runtime": 502.9493,
      "eval_samples_per_second": 253.648,
      "eval_steps_per_second": 7.927,
      "step": 800
    },
    {
      "epoch": 0.05643694738822349,
      "grad_norm": 15.950737953186035,
      "learning_rate": 2.8186236087161e-06,
      "loss": 4.1737,
      "step": 900
    },
    {
      "epoch": 0.05643694738822349,
      "eval_loss": 4.134955883026123,
      "eval_runtime": 500.339,
      "eval_samples_per_second": 254.971,
      "eval_steps_per_second": 7.969,
      "step": 900
    },
    {
      "epoch": 0.06270771932024832,
      "grad_norm": 22.265525817871094,
      "learning_rate": 3.1290170873177617e-06,
      "loss": 4.0266,
      "step": 1000
    },
    {
      "epoch": 0.06270771932024832,
      "eval_loss": 4.0326995849609375,
      "eval_runtime": 498.5852,
      "eval_samples_per_second": 255.868,
      "eval_steps_per_second": 7.997,
      "step": 1000
    },
    {
      "epoch": 0.06897849125227315,
      "grad_norm": 25.777463912963867,
      "learning_rate": 3.4425458535820665e-06,
      "loss": 3.9526,
      "step": 1100
    },
    {
      "epoch": 0.06897849125227315,
      "eval_loss": 3.928138256072998,
      "eval_runtime": 500.7885,
      "eval_samples_per_second": 254.742,
      "eval_steps_per_second": 7.961,
      "step": 1100
    },
    {
      "epoch": 0.07524926318429799,
      "grad_norm": 23.928476333618164,
      "learning_rate": 3.756074619846371e-06,
      "loss": 3.8773,
      "step": 1200
    },
    {
      "epoch": 0.07524926318429799,
      "eval_loss": 3.873471260070801,
      "eval_runtime": 500.5002,
      "eval_samples_per_second": 254.889,
      "eval_steps_per_second": 7.966,
      "step": 1200
    },
    {
      "epoch": 0.08152003511632282,
      "grad_norm": 33.25246810913086,
      "learning_rate": 4.069603386110676e-06,
      "loss": 3.7856,
      "step": 1300
    },
    {
      "epoch": 0.08152003511632282,
      "eval_loss": 3.777860164642334,
      "eval_runtime": 502.3139,
      "eval_samples_per_second": 253.969,
      "eval_steps_per_second": 7.937,
      "step": 1300
    },
    {
      "epoch": 0.08779080704834766,
      "grad_norm": 29.081541061401367,
      "learning_rate": 4.383132152374981e-06,
      "loss": 3.5994,
      "step": 1400
    },
    {
      "epoch": 0.08779080704834766,
      "eval_loss": 3.705378532409668,
      "eval_runtime": 500.945,
      "eval_samples_per_second": 254.663,
      "eval_steps_per_second": 7.959,
      "step": 1400
    },
    {
      "epoch": 0.09406157898037248,
      "grad_norm": 32.77998352050781,
      "learning_rate": 4.696660918639286e-06,
      "loss": 3.7067,
      "step": 1500
    },
    {
      "epoch": 0.09406157898037248,
      "eval_loss": 3.615516185760498,
      "eval_runtime": 495.8157,
      "eval_samples_per_second": 257.297,
      "eval_steps_per_second": 8.041,
      "step": 1500
    },
    {
      "epoch": 0.10033235091239731,
      "grad_norm": 80.04820251464844,
      "learning_rate": 5.01018968490359e-06,
      "loss": 3.5471,
      "step": 1600
    },
    {
      "epoch": 0.10033235091239731,
      "eval_loss": 3.57977032661438,
      "eval_runtime": 494.2912,
      "eval_samples_per_second": 258.091,
      "eval_steps_per_second": 8.066,
      "step": 1600
    },
    {
      "epoch": 0.10660312284442215,
      "grad_norm": 32.79664611816406,
      "learning_rate": 5.323718451167895e-06,
      "loss": 3.6679,
      "step": 1700
    },
    {
      "epoch": 0.10660312284442215,
      "eval_loss": 3.4653944969177246,
      "eval_runtime": 487.8092,
      "eval_samples_per_second": 261.52,
      "eval_steps_per_second": 8.173,
      "step": 1700
    },
    {
      "epoch": 0.11287389477644698,
      "grad_norm": 52.47648620605469,
      "learning_rate": 5.6372472174322e-06,
      "loss": 3.4484,
      "step": 1800
    },
    {
      "epoch": 0.11287389477644698,
      "eval_loss": 3.4174623489379883,
      "eval_runtime": 488.4427,
      "eval_samples_per_second": 261.181,
      "eval_steps_per_second": 8.163,
      "step": 1800
    },
    {
      "epoch": 0.11914466670847182,
      "grad_norm": 56.593727111816406,
      "learning_rate": 5.947640696033862e-06,
      "loss": 3.377,
      "step": 1900
    },
    {
      "epoch": 0.11914466670847182,
      "eval_loss": 3.412893056869507,
      "eval_runtime": 487.7362,
      "eval_samples_per_second": 261.559,
      "eval_steps_per_second": 8.175,
      "step": 1900
    },
    {
      "epoch": 0.12541543864049665,
      "grad_norm": 47.65892028808594,
      "learning_rate": 6.2611694622981665e-06,
      "loss": 3.4259,
      "step": 2000
    },
    {
      "epoch": 0.12541543864049665,
      "eval_loss": 3.3347389698028564,
      "eval_runtime": 485.6244,
      "eval_samples_per_second": 262.697,
      "eval_steps_per_second": 8.21,
      "step": 2000
    },
    {
      "epoch": 0.13168621057252147,
      "grad_norm": 46.80497741699219,
      "learning_rate": 6.574698228562471e-06,
      "loss": 3.4832,
      "step": 2100
    },
    {
      "epoch": 0.13168621057252147,
      "eval_loss": 3.2113163471221924,
      "eval_runtime": 485.3601,
      "eval_samples_per_second": 262.84,
      "eval_steps_per_second": 8.215,
      "step": 2100
    },
    {
      "epoch": 0.1379569825045463,
      "grad_norm": 61.08994674682617,
      "learning_rate": 6.888226994826775e-06,
      "loss": 3.3043,
      "step": 2200
    },
    {
      "epoch": 0.1379569825045463,
      "eval_loss": 3.164067268371582,
      "eval_runtime": 486.9272,
      "eval_samples_per_second": 261.994,
      "eval_steps_per_second": 8.188,
      "step": 2200
    },
    {
      "epoch": 0.14422775443657115,
      "grad_norm": 54.029170989990234,
      "learning_rate": 7.201755761091081e-06,
      "loss": 3.2344,
      "step": 2300
    },
    {
      "epoch": 0.14422775443657115,
      "eval_loss": 3.1528868675231934,
      "eval_runtime": 485.6647,
      "eval_samples_per_second": 262.675,
      "eval_steps_per_second": 8.209,
      "step": 2300
    },
    {
      "epoch": 0.15049852636859598,
      "grad_norm": 51.89152526855469,
      "learning_rate": 7.5152845273553855e-06,
      "loss": 3.1238,
      "step": 2400
    },
    {
      "epoch": 0.15049852636859598,
      "eval_loss": 3.2577104568481445,
      "eval_runtime": 483.4268,
      "eval_samples_per_second": 263.891,
      "eval_steps_per_second": 8.247,
      "step": 2400
    },
    {
      "epoch": 0.1567692983006208,
      "grad_norm": 42.53623962402344,
      "learning_rate": 7.828813293619691e-06,
      "loss": 3.1456,
      "step": 2500
    },
    {
      "epoch": 0.1567692983006208,
      "eval_loss": 3.067770481109619,
      "eval_runtime": 483.4427,
      "eval_samples_per_second": 263.882,
      "eval_steps_per_second": 8.247,
      "step": 2500
    },
    {
      "epoch": 0.16304007023264563,
      "grad_norm": 40.32865905761719,
      "learning_rate": 8.142342059883996e-06,
      "loss": 3.0223,
      "step": 2600
    },
    {
      "epoch": 0.16304007023264563,
      "eval_loss": 3.000631332397461,
      "eval_runtime": 490.1586,
      "eval_samples_per_second": 260.267,
      "eval_steps_per_second": 8.134,
      "step": 2600
    },
    {
      "epoch": 0.16931084216467046,
      "grad_norm": 52.34198760986328,
      "learning_rate": 8.4558708261483e-06,
      "loss": 3.2046,
      "step": 2700
    },
    {
      "epoch": 0.16931084216467046,
      "eval_loss": 2.9682161808013916,
      "eval_runtime": 501.7817,
      "eval_samples_per_second": 254.238,
      "eval_steps_per_second": 7.946,
      "step": 2700
    },
    {
      "epoch": 0.17558161409669532,
      "grad_norm": 54.570518493652344,
      "learning_rate": 8.766264304749962e-06,
      "loss": 3.0866,
      "step": 2800
    },
    {
      "epoch": 0.17558161409669532,
      "eval_loss": 3.0524070262908936,
      "eval_runtime": 492.0201,
      "eval_samples_per_second": 259.282,
      "eval_steps_per_second": 8.103,
      "step": 2800
    },
    {
      "epoch": 0.18185238602872014,
      "grad_norm": 91.97798156738281,
      "learning_rate": 9.079793071014266e-06,
      "loss": 2.9271,
      "step": 2900
    },
    {
      "epoch": 0.18185238602872014,
      "eval_loss": 3.057253122329712,
      "eval_runtime": 483.8055,
      "eval_samples_per_second": 263.684,
      "eval_steps_per_second": 8.241,
      "step": 2900
    },
    {
      "epoch": 0.18812315796074497,
      "grad_norm": 72.72432708740234,
      "learning_rate": 9.393321837278571e-06,
      "loss": 2.7692,
      "step": 3000
    },
    {
      "epoch": 0.18812315796074497,
      "eval_loss": 3.0557968616485596,
      "eval_runtime": 481.3118,
      "eval_samples_per_second": 265.051,
      "eval_steps_per_second": 8.284,
      "step": 3000
    },
    {
      "epoch": 0.1943939298927698,
      "grad_norm": 66.55966186523438,
      "learning_rate": 9.706850603542876e-06,
      "loss": 3.1498,
      "step": 3100
    },
    {
      "epoch": 0.1943939298927698,
      "eval_loss": 2.786630153656006,
      "eval_runtime": 470.7517,
      "eval_samples_per_second": 270.996,
      "eval_steps_per_second": 8.469,
      "step": 3100
    },
    {
      "epoch": 0.20066470182479462,
      "grad_norm": 60.73588180541992,
      "learning_rate": 1.002037936980718e-05,
      "loss": 3.0683,
      "step": 3200
    },
    {
      "epoch": 0.20066470182479462,
      "eval_loss": 2.847790002822876,
      "eval_runtime": 479.7323,
      "eval_samples_per_second": 265.923,
      "eval_steps_per_second": 8.311,
      "step": 3200
    },
    {
      "epoch": 0.20693547375681948,
      "grad_norm": 138.51925659179688,
      "learning_rate": 1.0333908136071484e-05,
      "loss": 2.5776,
      "step": 3300
    },
    {
      "epoch": 0.20693547375681948,
      "eval_loss": 2.9458932876586914,
      "eval_runtime": 476.173,
      "eval_samples_per_second": 267.911,
      "eval_steps_per_second": 8.373,
      "step": 3300
    },
    {
      "epoch": 0.2132062456888443,
      "grad_norm": 44.883033752441406,
      "learning_rate": 1.064743690233579e-05,
      "loss": 2.9394,
      "step": 3400
    },
    {
      "epoch": 0.2132062456888443,
      "eval_loss": 2.7133240699768066,
      "eval_runtime": 484.1605,
      "eval_samples_per_second": 263.491,
      "eval_steps_per_second": 8.235,
      "step": 3400
    },
    {
      "epoch": 0.21947701762086913,
      "grad_norm": 62.664493560791016,
      "learning_rate": 1.0960965668600095e-05,
      "loss": 2.6996,
      "step": 3500
    },
    {
      "epoch": 0.21947701762086913,
      "eval_loss": 2.8582112789154053,
      "eval_runtime": 486.4854,
      "eval_samples_per_second": 262.232,
      "eval_steps_per_second": 8.196,
      "step": 3500
    },
    {
      "epoch": 0.22574778955289396,
      "grad_norm": 121.68364715576172,
      "learning_rate": 1.12744944348644e-05,
      "loss": 2.569,
      "step": 3600
    },
    {
      "epoch": 0.22574778955289396,
      "eval_loss": 2.8092362880706787,
      "eval_runtime": 488.2917,
      "eval_samples_per_second": 261.262,
      "eval_steps_per_second": 8.165,
      "step": 3600
    },
    {
      "epoch": 0.23201856148491878,
      "grad_norm": 62.47746658325195,
      "learning_rate": 1.1588023201128705e-05,
      "loss": 2.6535,
      "step": 3700
    },
    {
      "epoch": 0.23201856148491878,
      "eval_loss": 2.7977445125579834,
      "eval_runtime": 489.6066,
      "eval_samples_per_second": 260.56,
      "eval_steps_per_second": 8.143,
      "step": 3700
    },
    {
      "epoch": 0.23828933341694364,
      "grad_norm": 61.19312286376953,
      "learning_rate": 1.1901551967393011e-05,
      "loss": 2.6679,
      "step": 3800
    },
    {
      "epoch": 0.23828933341694364,
      "eval_loss": 2.8578476905822754,
      "eval_runtime": 490.8833,
      "eval_samples_per_second": 259.883,
      "eval_steps_per_second": 8.122,
      "step": 3800
    },
    {
      "epoch": 0.24456010534896847,
      "grad_norm": 52.05066680908203,
      "learning_rate": 1.2215080733657314e-05,
      "loss": 2.592,
      "step": 3900
    },
    {
      "epoch": 0.24456010534896847,
      "eval_loss": 2.8251442909240723,
      "eval_runtime": 487.5816,
      "eval_samples_per_second": 261.642,
      "eval_steps_per_second": 8.177,
      "step": 3900
    },
    {
      "epoch": 0.2508308772809933,
      "grad_norm": 72.0737533569336,
      "learning_rate": 1.2525474212258977e-05,
      "loss": 2.4931,
      "step": 4000
    },
    {
      "epoch": 0.2508308772809933,
      "eval_loss": 2.5975987911224365,
      "eval_runtime": 483.614,
      "eval_samples_per_second": 263.789,
      "eval_steps_per_second": 8.244,
      "step": 4000
    },
    {
      "epoch": 0.25710164921301815,
      "grad_norm": 142.94813537597656,
      "learning_rate": 1.283900297852328e-05,
      "loss": 2.3012,
      "step": 4100
    },
    {
      "epoch": 0.25710164921301815,
      "eval_loss": 2.926022529602051,
      "eval_runtime": 482.5775,
      "eval_samples_per_second": 264.355,
      "eval_steps_per_second": 8.262,
      "step": 4100
    },
    {
      "epoch": 0.26337242114504295,
      "grad_norm": 188.10948181152344,
      "learning_rate": 1.3152531744787585e-05,
      "loss": 2.4728,
      "step": 4200
    },
    {
      "epoch": 0.26337242114504295,
      "eval_loss": 2.7869389057159424,
      "eval_runtime": 484.6597,
      "eval_samples_per_second": 263.22,
      "eval_steps_per_second": 8.226,
      "step": 4200
    },
    {
      "epoch": 0.2696431930770678,
      "grad_norm": 88.77122497558594,
      "learning_rate": 1.3466060511051891e-05,
      "loss": 2.4391,
      "step": 4300
    },
    {
      "epoch": 0.2696431930770678,
      "eval_loss": 2.898672580718994,
      "eval_runtime": 488.7638,
      "eval_samples_per_second": 261.009,
      "eval_steps_per_second": 8.157,
      "step": 4300
    },
    {
      "epoch": 0.2759139650090926,
      "grad_norm": 24.550174713134766,
      "learning_rate": 1.3779589277316194e-05,
      "loss": 2.3825,
      "step": 4400
    },
    {
      "epoch": 0.2759139650090926,
      "eval_loss": 2.7803783416748047,
      "eval_runtime": 479.1092,
      "eval_samples_per_second": 266.269,
      "eval_steps_per_second": 8.322,
      "step": 4400
    },
    {
      "epoch": 0.28218473694111745,
      "grad_norm": 262.1357727050781,
      "learning_rate": 1.40931180435805e-05,
      "loss": 2.6257,
      "step": 4500
    },
    {
      "epoch": 0.28218473694111745,
      "eval_loss": 2.8308775424957275,
      "eval_runtime": 481.1992,
      "eval_samples_per_second": 265.113,
      "eval_steps_per_second": 8.286,
      "step": 4500
    },
    {
      "epoch": 0.2884555088731423,
      "grad_norm": 106.33345794677734,
      "learning_rate": 1.4406646809844804e-05,
      "loss": 2.4304,
      "step": 4600
    },
    {
      "epoch": 0.2884555088731423,
      "eval_loss": 3.241865873336792,
      "eval_runtime": 480.8967,
      "eval_samples_per_second": 265.279,
      "eval_steps_per_second": 8.291,
      "step": 4600
    },
    {
      "epoch": 0.2947262808051671,
      "grad_norm": 24.162464141845703,
      "learning_rate": 1.472017557610911e-05,
      "loss": 3.0246,
      "step": 4700
    },
    {
      "epoch": 0.2947262808051671,
      "eval_loss": 2.5731775760650635,
      "eval_runtime": 478.865,
      "eval_samples_per_second": 266.405,
      "eval_steps_per_second": 8.326,
      "step": 4700
    },
    {
      "epoch": 0.30099705273719196,
      "grad_norm": 89.0951919555664,
      "learning_rate": 1.5033704342373415e-05,
      "loss": 2.6894,
      "step": 4800
    },
    {
      "epoch": 0.30099705273719196,
      "eval_loss": 2.8057522773742676,
      "eval_runtime": 469.6303,
      "eval_samples_per_second": 271.643,
      "eval_steps_per_second": 8.49,
      "step": 4800
    },
    {
      "epoch": 0.30726782466921676,
      "grad_norm": 10.197610855102539,
      "learning_rate": 1.5347233108637716e-05,
      "loss": 2.5333,
      "step": 4900
    },
    {
      "epoch": 0.30726782466921676,
      "eval_loss": 2.4581992626190186,
      "eval_runtime": 480.2298,
      "eval_samples_per_second": 265.648,
      "eval_steps_per_second": 8.302,
      "step": 4900
    },
    {
      "epoch": 0.3135385966012416,
      "grad_norm": 10.737910270690918,
      "learning_rate": 1.5660761874902023e-05,
      "loss": 2.3268,
      "step": 5000
    },
    {
      "epoch": 0.3135385966012416,
      "eval_loss": 2.8622071743011475,
      "eval_runtime": 477.9553,
      "eval_samples_per_second": 266.912,
      "eval_steps_per_second": 8.342,
      "step": 5000
    },
    {
      "epoch": 0.31980936853326647,
      "grad_norm": 107.68405151367188,
      "learning_rate": 1.597429064116633e-05,
      "loss": 2.6996,
      "step": 5100
    },
    {
      "epoch": 0.31980936853326647,
      "eval_loss": 2.751514196395874,
      "eval_runtime": 479.8929,
      "eval_samples_per_second": 265.834,
      "eval_steps_per_second": 8.308,
      "step": 5100
    },
    {
      "epoch": 0.32608014046529127,
      "grad_norm": 137.2300567626953,
      "learning_rate": 1.6287819407430632e-05,
      "loss": 2.8175,
      "step": 5200
    },
    {
      "epoch": 0.32608014046529127,
      "eval_loss": 2.5842323303222656,
      "eval_runtime": 473.9066,
      "eval_samples_per_second": 269.192,
      "eval_steps_per_second": 8.413,
      "step": 5200
    },
    {
      "epoch": 0.3323509123973161,
      "grad_norm": 30.23833465576172,
      "learning_rate": 1.660134817369494e-05,
      "loss": 2.1244,
      "step": 5300
    },
    {
      "epoch": 0.3323509123973161,
      "eval_loss": 2.725175380706787,
      "eval_runtime": 479.3619,
      "eval_samples_per_second": 266.129,
      "eval_steps_per_second": 8.317,
      "step": 5300
    },
    {
      "epoch": 0.3386216843293409,
      "grad_norm": 66.7165756225586,
      "learning_rate": 1.6914876939959242e-05,
      "loss": 2.7331,
      "step": 5400
    },
    {
      "epoch": 0.3386216843293409,
      "eval_loss": 2.5052876472473145,
      "eval_runtime": 482.2091,
      "eval_samples_per_second": 264.557,
      "eval_steps_per_second": 8.268,
      "step": 5400
    },
    {
      "epoch": 0.3448924562613658,
      "grad_norm": 20.616701126098633,
      "learning_rate": 1.722840570622355e-05,
      "loss": 2.3226,
      "step": 5500
    },
    {
      "epoch": 0.3448924562613658,
      "eval_loss": 2.2429914474487305,
      "eval_runtime": 483.8758,
      "eval_samples_per_second": 263.646,
      "eval_steps_per_second": 8.24,
      "step": 5500
    },
    {
      "epoch": 0.35116322819339063,
      "grad_norm": 10.704608917236328,
      "learning_rate": 1.754193447248785e-05,
      "loss": 2.0706,
      "step": 5600
    },
    {
      "epoch": 0.35116322819339063,
      "eval_loss": 2.6055426597595215,
      "eval_runtime": 481.5222,
      "eval_samples_per_second": 264.935,
      "eval_steps_per_second": 8.28,
      "step": 5600
    },
    {
      "epoch": 0.35743400012541543,
      "grad_norm": 116.87510681152344,
      "learning_rate": 1.7852327951089514e-05,
      "loss": 2.2461,
      "step": 5700
    },
    {
      "epoch": 0.35743400012541543,
      "eval_loss": 2.894943952560425,
      "eval_runtime": 482.8194,
      "eval_samples_per_second": 264.223,
      "eval_steps_per_second": 8.258,
      "step": 5700
    },
    {
      "epoch": 0.3637047720574403,
      "grad_norm": 75.6421890258789,
      "learning_rate": 1.8165856717353817e-05,
      "loss": 2.6365,
      "step": 5800
    },
    {
      "epoch": 0.3637047720574403,
      "eval_loss": 2.5271661281585693,
      "eval_runtime": 486.8779,
      "eval_samples_per_second": 262.021,
      "eval_steps_per_second": 8.189,
      "step": 5800
    },
    {
      "epoch": 0.3699755439894651,
      "grad_norm": 25.05718231201172,
      "learning_rate": 1.8479385483618124e-05,
      "loss": 2.7119,
      "step": 5900
    },
    {
      "epoch": 0.3699755439894651,
      "eval_loss": 2.433084011077881,
      "eval_runtime": 486.349,
      "eval_samples_per_second": 262.305,
      "eval_steps_per_second": 8.198,
      "step": 5900
    },
    {
      "epoch": 0.37624631592148994,
      "grad_norm": 88.68294525146484,
      "learning_rate": 1.8792914249882427e-05,
      "loss": 2.6146,
      "step": 6000
    },
    {
      "epoch": 0.37624631592148994,
      "eval_loss": 2.385845899581909,
      "eval_runtime": 485.6975,
      "eval_samples_per_second": 262.657,
      "eval_steps_per_second": 8.209,
      "step": 6000
    },
    {
      "epoch": 0.3825170878535148,
      "grad_norm": 185.446533203125,
      "learning_rate": 1.9106443016146733e-05,
      "loss": 2.1998,
      "step": 6100
    },
    {
      "epoch": 0.3825170878535148,
      "eval_loss": 2.6891462802886963,
      "eval_runtime": 488.7846,
      "eval_samples_per_second": 260.998,
      "eval_steps_per_second": 8.157,
      "step": 6100
    },
    {
      "epoch": 0.3887878597855396,
      "grad_norm": 105.49547576904297,
      "learning_rate": 1.9419971782411036e-05,
      "loss": 2.5076,
      "step": 6200
    },
    {
      "epoch": 0.3887878597855396,
      "eval_loss": 2.3827390670776367,
      "eval_runtime": 493.7693,
      "eval_samples_per_second": 258.364,
      "eval_steps_per_second": 8.075,
      "step": 6200
    },
    {
      "epoch": 0.39505863171756445,
      "grad_norm": 20.25705909729004,
      "learning_rate": 1.9733500548675343e-05,
      "loss": 2.5244,
      "step": 6300
    },
    {
      "epoch": 0.39505863171756445,
      "eval_loss": 2.6522157192230225,
      "eval_runtime": 500.1844,
      "eval_samples_per_second": 255.05,
      "eval_steps_per_second": 7.971,
      "step": 6300
    },
    {
      "epoch": 0.40132940364958924,
      "grad_norm": 1.7094597816467285,
      "learning_rate": 1.9994774338518353e-05,
      "loss": 2.0613,
      "step": 6400
    },
    {
      "epoch": 0.40132940364958924,
      "eval_loss": 2.4750421047210693,
      "eval_runtime": 501.9454,
      "eval_samples_per_second": 254.155,
      "eval_steps_per_second": 7.943,
      "step": 6400
    },
    {
      "epoch": 0.4076001755816141,
      "grad_norm": 2.9270060062408447,
      "learning_rate": 1.995993659530736e-05,
      "loss": 2.465,
      "step": 6500
    },
    {
      "epoch": 0.4076001755816141,
      "eval_loss": 2.525411367416382,
      "eval_runtime": 501.3359,
      "eval_samples_per_second": 254.464,
      "eval_steps_per_second": 7.953,
      "step": 6500
    },
    {
      "epoch": 0.41387094751363895,
      "grad_norm": 95.53108215332031,
      "learning_rate": 1.9925098852096362e-05,
      "loss": 2.3201,
      "step": 6600
    },
    {
      "epoch": 0.41387094751363895,
      "eval_loss": 2.2248587608337402,
      "eval_runtime": 495.8221,
      "eval_samples_per_second": 257.294,
      "eval_steps_per_second": 8.041,
      "step": 6600
    },
    {
      "epoch": 0.42014171944566375,
      "grad_norm": 19.441762924194336,
      "learning_rate": 1.9890261108885365e-05,
      "loss": 2.234,
      "step": 6700
    },
    {
      "epoch": 0.42014171944566375,
      "eval_loss": 2.5168297290802,
      "eval_runtime": 497.6361,
      "eval_samples_per_second": 256.356,
      "eval_steps_per_second": 8.012,
      "step": 6700
    },
    {
      "epoch": 0.4264124913776886,
      "grad_norm": 13.225996017456055,
      "learning_rate": 1.985542336567437e-05,
      "loss": 2.1277,
      "step": 6800
    },
    {
      "epoch": 0.4264124913776886,
      "eval_loss": 2.5358171463012695,
      "eval_runtime": 498.1476,
      "eval_samples_per_second": 256.093,
      "eval_steps_per_second": 8.004,
      "step": 6800
    },
    {
      "epoch": 0.4326832633097134,
      "grad_norm": 103.2215347290039,
      "learning_rate": 1.9820585622463378e-05,
      "loss": 2.3801,
      "step": 6900
    },
    {
      "epoch": 0.4326832633097134,
      "eval_loss": 2.4991824626922607,
      "eval_runtime": 500.8539,
      "eval_samples_per_second": 254.709,
      "eval_steps_per_second": 7.96,
      "step": 6900
    },
    {
      "epoch": 0.43895403524173826,
      "grad_norm": 97.55316925048828,
      "learning_rate": 1.9785747879252384e-05,
      "loss": 2.1443,
      "step": 7000
    },
    {
      "epoch": 0.43895403524173826,
      "eval_loss": 2.4043357372283936,
      "eval_runtime": 499.124,
      "eval_samples_per_second": 255.592,
      "eval_steps_per_second": 7.988,
      "step": 7000
    },
    {
      "epoch": 0.4452248071737631,
      "grad_norm": 233.4646759033203,
      "learning_rate": 1.9750910136041387e-05,
      "loss": 1.9136,
      "step": 7100
    },
    {
      "epoch": 0.4452248071737631,
      "eval_loss": 2.3874008655548096,
      "eval_runtime": 497.0926,
      "eval_samples_per_second": 256.636,
      "eval_steps_per_second": 8.021,
      "step": 7100
    },
    {
      "epoch": 0.4514955791057879,
      "grad_norm": 111.59117889404297,
      "learning_rate": 1.9716072392830394e-05,
      "loss": 2.3067,
      "step": 7200
    },
    {
      "epoch": 0.4514955791057879,
      "eval_loss": 2.647474765777588,
      "eval_runtime": 497.6919,
      "eval_samples_per_second": 256.327,
      "eval_steps_per_second": 8.011,
      "step": 7200
    },
    {
      "epoch": 0.45776635103781277,
      "grad_norm": 156.6864776611328,
      "learning_rate": 1.96812346496194e-05,
      "loss": 2.1464,
      "step": 7300
    },
    {
      "epoch": 0.45776635103781277,
      "eval_loss": 2.4704177379608154,
      "eval_runtime": 500.9739,
      "eval_samples_per_second": 254.648,
      "eval_steps_per_second": 7.958,
      "step": 7300
    },
    {
      "epoch": 0.46403712296983757,
      "grad_norm": 22.16613006591797,
      "learning_rate": 1.9646396906408406e-05,
      "loss": 2.2151,
      "step": 7400
    },
    {
      "epoch": 0.46403712296983757,
      "eval_loss": 2.519892692565918,
      "eval_runtime": 501.5459,
      "eval_samples_per_second": 254.358,
      "eval_steps_per_second": 7.949,
      "step": 7400
    },
    {
      "epoch": 0.4703078949018624,
      "grad_norm": 251.9285125732422,
      "learning_rate": 1.961155916319741e-05,
      "loss": 2.4653,
      "step": 7500
    },
    {
      "epoch": 0.4703078949018624,
      "eval_loss": 2.529334545135498,
      "eval_runtime": 497.5167,
      "eval_samples_per_second": 256.418,
      "eval_steps_per_second": 8.014,
      "step": 7500
    },
    {
      "epoch": 0.4765786668338873,
      "grad_norm": 222.22967529296875,
      "learning_rate": 1.9576721419986416e-05,
      "loss": 2.4425,
      "step": 7600
    },
    {
      "epoch": 0.4765786668338873,
      "eval_loss": 2.126385450363159,
      "eval_runtime": 501.9759,
      "eval_samples_per_second": 254.14,
      "eval_steps_per_second": 7.943,
      "step": 7600
    },
    {
      "epoch": 0.4828494387659121,
      "grad_norm": 135.4093780517578,
      "learning_rate": 1.954188367677542e-05,
      "loss": 2.3138,
      "step": 7700
    },
    {
      "epoch": 0.4828494387659121,
      "eval_loss": 2.18104887008667,
      "eval_runtime": 499.0397,
      "eval_samples_per_second": 255.635,
      "eval_steps_per_second": 7.989,
      "step": 7700
    },
    {
      "epoch": 0.48912021069793693,
      "grad_norm": 16.642980575561523,
      "learning_rate": 1.9507045933564425e-05,
      "loss": 2.247,
      "step": 7800
    },
    {
      "epoch": 0.48912021069793693,
      "eval_loss": 2.1403872966766357,
      "eval_runtime": 487.5913,
      "eval_samples_per_second": 261.637,
      "eval_steps_per_second": 8.177,
      "step": 7800
    },
    {
      "epoch": 0.49539098262996173,
      "grad_norm": 163.52439880371094,
      "learning_rate": 1.947220819035343e-05,
      "loss": 2.1621,
      "step": 7900
    },
    {
      "epoch": 0.49539098262996173,
      "eval_loss": 2.2122886180877686,
      "eval_runtime": 498.6473,
      "eval_samples_per_second": 255.836,
      "eval_steps_per_second": 7.996,
      "step": 7900
    },
    {
      "epoch": 0.5016617545619866,
      "grad_norm": 0.11034490168094635,
      "learning_rate": 1.9437370447142438e-05,
      "loss": 2.1338,
      "step": 8000
    },
    {
      "epoch": 0.5016617545619866,
      "eval_loss": 2.5108418464660645,
      "eval_runtime": 497.4577,
      "eval_samples_per_second": 256.448,
      "eval_steps_per_second": 8.015,
      "step": 8000
    },
    {
      "epoch": 0.5079325264940114,
      "grad_norm": 73.57258605957031,
      "learning_rate": 1.940253270393144e-05,
      "loss": 2.1846,
      "step": 8100
    },
    {
      "epoch": 0.5079325264940114,
      "eval_loss": 2.149299383163452,
      "eval_runtime": 500.0715,
      "eval_samples_per_second": 255.108,
      "eval_steps_per_second": 7.973,
      "step": 8100
    },
    {
      "epoch": 0.5142032984260363,
      "grad_norm": 71.24880981445312,
      "learning_rate": 1.9367694960720447e-05,
      "loss": 2.1167,
      "step": 8200
    },
    {
      "epoch": 0.5142032984260363,
      "eval_loss": 2.287858486175537,
      "eval_runtime": 500.8627,
      "eval_samples_per_second": 254.705,
      "eval_steps_per_second": 7.96,
      "step": 8200
    },
    {
      "epoch": 0.520474070358061,
      "grad_norm": 138.7628936767578,
      "learning_rate": 1.933285721750945e-05,
      "loss": 2.2143,
      "step": 8300
    },
    {
      "epoch": 0.520474070358061,
      "eval_loss": 2.1663804054260254,
      "eval_runtime": 501.8798,
      "eval_samples_per_second": 254.188,
      "eval_steps_per_second": 7.944,
      "step": 8300
    },
    {
      "epoch": 0.5267448422900859,
      "grad_norm": 17.088781356811523,
      "learning_rate": 1.9298019474298456e-05,
      "loss": 2.3152,
      "step": 8400
    },
    {
      "epoch": 0.5267448422900859,
      "eval_loss": 2.1071760654449463,
      "eval_runtime": 495.7183,
      "eval_samples_per_second": 257.348,
      "eval_steps_per_second": 8.043,
      "step": 8400
    },
    {
      "epoch": 0.5330156142221107,
      "grad_norm": 267.6972351074219,
      "learning_rate": 1.9263181731087462e-05,
      "loss": 1.7618,
      "step": 8500
    },
    {
      "epoch": 0.5330156142221107,
      "eval_loss": 2.032350540161133,
      "eval_runtime": 498.1752,
      "eval_samples_per_second": 256.079,
      "eval_steps_per_second": 8.003,
      "step": 8500
    },
    {
      "epoch": 0.5392863861541356,
      "grad_norm": 117.72229766845703,
      "learning_rate": 1.922834398787647e-05,
      "loss": 2.0777,
      "step": 8600
    },
    {
      "epoch": 0.5392863861541356,
      "eval_loss": 2.4468319416046143,
      "eval_runtime": 495.2364,
      "eval_samples_per_second": 257.598,
      "eval_steps_per_second": 8.051,
      "step": 8600
    },
    {
      "epoch": 0.5455571580861605,
      "grad_norm": 1.1375752687454224,
      "learning_rate": 1.9193506244665472e-05,
      "loss": 2.1573,
      "step": 8700
    },
    {
      "epoch": 0.5455571580861605,
      "eval_loss": 2.2053027153015137,
      "eval_runtime": 485.0279,
      "eval_samples_per_second": 263.02,
      "eval_steps_per_second": 8.22,
      "step": 8700
    },
    {
      "epoch": 0.5518279300181852,
      "grad_norm": 244.1565704345703,
      "learning_rate": 1.9158668501454478e-05,
      "loss": 1.9831,
      "step": 8800
    },
    {
      "epoch": 0.5518279300181852,
      "eval_loss": 2.3276798725128174,
      "eval_runtime": 499.4822,
      "eval_samples_per_second": 255.409,
      "eval_steps_per_second": 7.982,
      "step": 8800
    },
    {
      "epoch": 0.55809870195021,
      "grad_norm": 69.60086059570312,
      "learning_rate": 1.912383075824348e-05,
      "loss": 1.9083,
      "step": 8900
    },
    {
      "epoch": 0.55809870195021,
      "eval_loss": 1.9949347972869873,
      "eval_runtime": 495.1776,
      "eval_samples_per_second": 257.629,
      "eval_steps_per_second": 8.052,
      "step": 8900
    },
    {
      "epoch": 0.5643694738822349,
      "grad_norm": 1.5420753955841064,
      "learning_rate": 1.9088993015032487e-05,
      "loss": 1.932,
      "step": 9000
    },
    {
      "epoch": 0.5643694738822349,
      "eval_loss": 1.9848002195358276,
      "eval_runtime": 498.1194,
      "eval_samples_per_second": 256.107,
      "eval_steps_per_second": 8.004,
      "step": 9000
    },
    {
      "epoch": 0.5706402458142598,
      "grad_norm": 9.46451473236084,
      "learning_rate": 1.9054155271821494e-05,
      "loss": 2.3223,
      "step": 9100
    },
    {
      "epoch": 0.5706402458142598,
      "eval_loss": 1.9191622734069824,
      "eval_runtime": 495.6516,
      "eval_samples_per_second": 257.382,
      "eval_steps_per_second": 8.044,
      "step": 9100
    },
    {
      "epoch": 0.5769110177462846,
      "grad_norm": 22.84164047241211,
      "learning_rate": 1.90193175286105e-05,
      "loss": 1.7583,
      "step": 9200
    },
    {
      "epoch": 0.5769110177462846,
      "eval_loss": 2.0066075325012207,
      "eval_runtime": 497.8537,
      "eval_samples_per_second": 256.244,
      "eval_steps_per_second": 8.008,
      "step": 9200
    },
    {
      "epoch": 0.5831817896783094,
      "grad_norm": 3.343338966369629,
      "learning_rate": 1.8984479785399503e-05,
      "loss": 1.6394,
      "step": 9300
    },
    {
      "epoch": 0.5831817896783094,
      "eval_loss": 2.0322048664093018,
      "eval_runtime": 485.1706,
      "eval_samples_per_second": 262.943,
      "eval_steps_per_second": 8.218,
      "step": 9300
    },
    {
      "epoch": 0.5894525616103342,
      "grad_norm": 13.116720199584961,
      "learning_rate": 1.894964204218851e-05,
      "loss": 1.973,
      "step": 9400
    },
    {
      "epoch": 0.5894525616103342,
      "eval_loss": 2.100987195968628,
      "eval_runtime": 492.3424,
      "eval_samples_per_second": 259.112,
      "eval_steps_per_second": 8.098,
      "step": 9400
    },
    {
      "epoch": 0.5957233335423591,
      "grad_norm": 136.55160522460938,
      "learning_rate": 1.8914804298977512e-05,
      "loss": 2.2377,
      "step": 9500
    },
    {
      "epoch": 0.5957233335423591,
      "eval_loss": 2.11759090423584,
      "eval_runtime": 495.0098,
      "eval_samples_per_second": 257.716,
      "eval_steps_per_second": 8.054,
      "step": 9500
    },
    {
      "epoch": 0.6019941054743839,
      "grad_norm": 18.554906845092773,
      "learning_rate": 1.887996655576652e-05,
      "loss": 2.2269,
      "step": 9600
    },
    {
      "epoch": 0.6019941054743839,
      "eval_loss": 2.002722978591919,
      "eval_runtime": 498.3286,
      "eval_samples_per_second": 256.0,
      "eval_steps_per_second": 8.001,
      "step": 9600
    },
    {
      "epoch": 0.6082648774064088,
      "grad_norm": 118.95328521728516,
      "learning_rate": 1.8845477189987635e-05,
      "loss": 1.971,
      "step": 9700
    },
    {
      "epoch": 0.6082648774064088,
      "eval_loss": 1.9329177141189575,
      "eval_runtime": 493.8369,
      "eval_samples_per_second": 258.328,
      "eval_steps_per_second": 8.074,
      "step": 9700
    },
    {
      "epoch": 0.6145356493384335,
      "grad_norm": 0.6365923285484314,
      "learning_rate": 1.881063944677664e-05,
      "loss": 1.8982,
      "step": 9800
    },
    {
      "epoch": 0.6145356493384335,
      "eval_loss": 1.9797492027282715,
      "eval_runtime": 496.6699,
      "eval_samples_per_second": 256.855,
      "eval_steps_per_second": 8.027,
      "step": 9800
    },
    {
      "epoch": 0.6208064212704584,
      "grad_norm": 88.75743865966797,
      "learning_rate": 1.8775801703565644e-05,
      "loss": 2.2853,
      "step": 9900
    },
    {
      "epoch": 0.6208064212704584,
      "eval_loss": 1.8433477878570557,
      "eval_runtime": 502.8332,
      "eval_samples_per_second": 253.706,
      "eval_steps_per_second": 7.929,
      "step": 9900
    },
    {
      "epoch": 0.6270771932024832,
      "grad_norm": 2.4320499897003174,
      "learning_rate": 1.874096396035465e-05,
      "loss": 1.6657,
      "step": 10000
    },
    {
      "epoch": 0.6270771932024832,
      "eval_loss": 2.0090935230255127,
      "eval_runtime": 487.5525,
      "eval_samples_per_second": 261.658,
      "eval_steps_per_second": 8.178,
      "step": 10000
    },
    {
      "epoch": 0.6333479651345081,
      "grad_norm": 94.46017456054688,
      "learning_rate": 1.8706126217143653e-05,
      "loss": 2.0732,
      "step": 10100
    },
    {
      "epoch": 0.6333479651345081,
      "eval_loss": 1.7602357864379883,
      "eval_runtime": 476.6373,
      "eval_samples_per_second": 267.65,
      "eval_steps_per_second": 8.365,
      "step": 10100
    },
    {
      "epoch": 0.6396187370665329,
      "grad_norm": 186.80111694335938,
      "learning_rate": 1.867128847393266e-05,
      "loss": 1.6951,
      "step": 10200
    },
    {
      "epoch": 0.6396187370665329,
      "eval_loss": 1.8849464654922485,
      "eval_runtime": 494.2546,
      "eval_samples_per_second": 258.11,
      "eval_steps_per_second": 8.067,
      "step": 10200
    },
    {
      "epoch": 0.6458895089985577,
      "grad_norm": 175.21151733398438,
      "learning_rate": 1.8636450730721666e-05,
      "loss": 1.6548,
      "step": 10300
    },
    {
      "epoch": 0.6458895089985577,
      "eval_loss": 2.0065879821777344,
      "eval_runtime": 492.3572,
      "eval_samples_per_second": 259.105,
      "eval_steps_per_second": 8.098,
      "step": 10300
    },
    {
      "epoch": 0.6521602809305825,
      "grad_norm": 1.4941706657409668,
      "learning_rate": 1.8601612987510672e-05,
      "loss": 1.7187,
      "step": 10400
    },
    {
      "epoch": 0.6521602809305825,
      "eval_loss": 1.9644232988357544,
      "eval_runtime": 502.7154,
      "eval_samples_per_second": 253.766,
      "eval_steps_per_second": 7.931,
      "step": 10400
    },
    {
      "epoch": 0.6584310528626074,
      "grad_norm": 2.646362543106079,
      "learning_rate": 1.8566775244299675e-05,
      "loss": 2.1948,
      "step": 10500
    },
    {
      "epoch": 0.6584310528626074,
      "eval_loss": 1.8391690254211426,
      "eval_runtime": 478.8123,
      "eval_samples_per_second": 266.434,
      "eval_steps_per_second": 8.327,
      "step": 10500
    },
    {
      "epoch": 0.6647018247946322,
      "grad_norm": 47.12744140625,
      "learning_rate": 1.8531937501088682e-05,
      "loss": 1.9756,
      "step": 10600
    },
    {
      "epoch": 0.6647018247946322,
      "eval_loss": 1.8404371738433838,
      "eval_runtime": 487.2993,
      "eval_samples_per_second": 261.794,
      "eval_steps_per_second": 8.182,
      "step": 10600
    },
    {
      "epoch": 0.6709725967266571,
      "grad_norm": 0.8185029029846191,
      "learning_rate": 1.8497099757877685e-05,
      "loss": 1.7644,
      "step": 10700
    },
    {
      "epoch": 0.6709725967266571,
      "eval_loss": 1.910104751586914,
      "eval_runtime": 487.8167,
      "eval_samples_per_second": 261.516,
      "eval_steps_per_second": 8.173,
      "step": 10700
    },
    {
      "epoch": 0.6772433686586818,
      "grad_norm": 115.93226623535156,
      "learning_rate": 1.846226201466669e-05,
      "loss": 1.6295,
      "step": 10800
    },
    {
      "epoch": 0.6772433686586818,
      "eval_loss": 1.943991780281067,
      "eval_runtime": 489.7195,
      "eval_samples_per_second": 260.5,
      "eval_steps_per_second": 8.141,
      "step": 10800
    },
    {
      "epoch": 0.6835141405907067,
      "grad_norm": 112.30680084228516,
      "learning_rate": 1.8427772648887807e-05,
      "loss": 1.7687,
      "step": 10900
    },
    {
      "epoch": 0.6835141405907067,
      "eval_loss": 1.903131127357483,
      "eval_runtime": 492.5747,
      "eval_samples_per_second": 258.99,
      "eval_steps_per_second": 8.094,
      "step": 10900
    },
    {
      "epoch": 0.6897849125227316,
      "grad_norm": 105.42852783203125,
      "learning_rate": 1.839293490567681e-05,
      "loss": 1.8203,
      "step": 11000
    },
    {
      "epoch": 0.6897849125227316,
      "eval_loss": 1.9650237560272217,
      "eval_runtime": 495.7922,
      "eval_samples_per_second": 257.309,
      "eval_steps_per_second": 8.042,
      "step": 11000
    },
    {
      "epoch": 0.6960556844547564,
      "grad_norm": 143.69154357910156,
      "learning_rate": 1.8358097162465817e-05,
      "loss": 2.3055,
      "step": 11100
    },
    {
      "epoch": 0.6960556844547564,
      "eval_loss": 1.8432321548461914,
      "eval_runtime": 494.4248,
      "eval_samples_per_second": 258.021,
      "eval_steps_per_second": 8.064,
      "step": 11100
    },
    {
      "epoch": 0.7023264563867813,
      "grad_norm": 55.0260009765625,
      "learning_rate": 1.8323259419254823e-05,
      "loss": 1.8294,
      "step": 11200
    },
    {
      "epoch": 0.7023264563867813,
      "eval_loss": 1.7363530397415161,
      "eval_runtime": 498.3754,
      "eval_samples_per_second": 255.976,
      "eval_steps_per_second": 8.0,
      "step": 11200
    },
    {
      "epoch": 0.708597228318806,
      "grad_norm": 20.01657485961914,
      "learning_rate": 1.828842167604383e-05,
      "loss": 2.0026,
      "step": 11300
    },
    {
      "epoch": 0.708597228318806,
      "eval_loss": 1.789391279220581,
      "eval_runtime": 487.8486,
      "eval_samples_per_second": 261.499,
      "eval_steps_per_second": 8.173,
      "step": 11300
    },
    {
      "epoch": 0.7148680002508309,
      "grad_norm": 103.39813232421875,
      "learning_rate": 1.8253583932832832e-05,
      "loss": 1.9916,
      "step": 11400
    },
    {
      "epoch": 0.7148680002508309,
      "eval_loss": 1.8342993259429932,
      "eval_runtime": 493.6206,
      "eval_samples_per_second": 258.441,
      "eval_steps_per_second": 8.077,
      "step": 11400
    },
    {
      "epoch": 0.7211387721828557,
      "grad_norm": 24.854759216308594,
      "learning_rate": 1.821874618962184e-05,
      "loss": 1.8698,
      "step": 11500
    },
    {
      "epoch": 0.7211387721828557,
      "eval_loss": 1.807905673980713,
      "eval_runtime": 494.1372,
      "eval_samples_per_second": 258.171,
      "eval_steps_per_second": 8.069,
      "step": 11500
    },
    {
      "epoch": 0.7274095441148806,
      "grad_norm": 2.62512469291687,
      "learning_rate": 1.818390844641084e-05,
      "loss": 1.5213,
      "step": 11600
    },
    {
      "epoch": 0.7274095441148806,
      "eval_loss": 1.684904932975769,
      "eval_runtime": 492.1644,
      "eval_samples_per_second": 259.206,
      "eval_steps_per_second": 8.101,
      "step": 11600
    },
    {
      "epoch": 0.7336803160469054,
      "grad_norm": 68.22614288330078,
      "learning_rate": 1.8149070703199848e-05,
      "loss": 1.7462,
      "step": 11700
    },
    {
      "epoch": 0.7336803160469054,
      "eval_loss": 1.732839822769165,
      "eval_runtime": 502.4559,
      "eval_samples_per_second": 253.897,
      "eval_steps_per_second": 7.935,
      "step": 11700
    },
    {
      "epoch": 0.7399510879789302,
      "grad_norm": 54.836814880371094,
      "learning_rate": 1.8114232959988854e-05,
      "loss": 1.3519,
      "step": 11800
    },
    {
      "epoch": 0.7399510879789302,
      "eval_loss": 1.8369685411453247,
      "eval_runtime": 491.7357,
      "eval_samples_per_second": 259.432,
      "eval_steps_per_second": 8.108,
      "step": 11800
    },
    {
      "epoch": 0.746221859910955,
      "grad_norm": 189.6983184814453,
      "learning_rate": 1.807939521677786e-05,
      "loss": 1.4935,
      "step": 11900
    },
    {
      "epoch": 0.746221859910955,
      "eval_loss": 1.72471022605896,
      "eval_runtime": 497.1147,
      "eval_samples_per_second": 256.625,
      "eval_steps_per_second": 8.02,
      "step": 11900
    },
    {
      "epoch": 0.7524926318429799,
      "grad_norm": 103.63326263427734,
      "learning_rate": 1.8044557473566863e-05,
      "loss": 1.1721,
      "step": 12000
    },
    {
      "epoch": 0.7524926318429799,
      "eval_loss": 1.6529266834259033,
      "eval_runtime": 496.0569,
      "eval_samples_per_second": 257.172,
      "eval_steps_per_second": 8.037,
      "step": 12000
    },
    {
      "epoch": 0.7587634037750047,
      "grad_norm": 118.19406127929688,
      "learning_rate": 1.8009719730355866e-05,
      "loss": 2.2432,
      "step": 12100
    },
    {
      "epoch": 0.7587634037750047,
      "eval_loss": 1.6328880786895752,
      "eval_runtime": 502.1124,
      "eval_samples_per_second": 254.071,
      "eval_steps_per_second": 7.94,
      "step": 12100
    },
    {
      "epoch": 0.7650341757070296,
      "grad_norm": 135.55650329589844,
      "learning_rate": 1.7974881987144873e-05,
      "loss": 1.6931,
      "step": 12200
    },
    {
      "epoch": 0.7650341757070296,
      "eval_loss": 1.6563047170639038,
      "eval_runtime": 492.9421,
      "eval_samples_per_second": 258.797,
      "eval_steps_per_second": 8.088,
      "step": 12200
    },
    {
      "epoch": 0.7713049476390543,
      "grad_norm": 3.689490795135498,
      "learning_rate": 1.794004424393388e-05,
      "loss": 1.2736,
      "step": 12300
    },
    {
      "epoch": 0.7713049476390543,
      "eval_loss": 1.6984437704086304,
      "eval_runtime": 495.6061,
      "eval_samples_per_second": 257.406,
      "eval_steps_per_second": 8.045,
      "step": 12300
    },
    {
      "epoch": 0.7775757195710792,
      "grad_norm": 88.78681945800781,
      "learning_rate": 1.7905206500722885e-05,
      "loss": 1.7063,
      "step": 12400
    },
    {
      "epoch": 0.7775757195710792,
      "eval_loss": 1.6574100255966187,
      "eval_runtime": 504.1606,
      "eval_samples_per_second": 253.038,
      "eval_steps_per_second": 7.908,
      "step": 12400
    },
    {
      "epoch": 0.783846491503104,
      "grad_norm": 20.35865592956543,
      "learning_rate": 1.787036875751189e-05,
      "loss": 1.7921,
      "step": 12500
    },
    {
      "epoch": 0.783846491503104,
      "eval_loss": 1.7759722471237183,
      "eval_runtime": 497.8975,
      "eval_samples_per_second": 256.221,
      "eval_steps_per_second": 8.008,
      "step": 12500
    },
    {
      "epoch": 0.7901172634351289,
      "grad_norm": 2.046844720840454,
      "learning_rate": 1.7835531014300895e-05,
      "loss": 1.875,
      "step": 12600
    },
    {
      "epoch": 0.7901172634351289,
      "eval_loss": 1.7148810625076294,
      "eval_runtime": 492.3064,
      "eval_samples_per_second": 259.131,
      "eval_steps_per_second": 8.099,
      "step": 12600
    },
    {
      "epoch": 0.7963880353671537,
      "grad_norm": 0.9655187129974365,
      "learning_rate": 1.78006932710899e-05,
      "loss": 1.4435,
      "step": 12700
    },
    {
      "epoch": 0.7963880353671537,
      "eval_loss": 1.8084521293640137,
      "eval_runtime": 502.53,
      "eval_samples_per_second": 253.859,
      "eval_steps_per_second": 7.934,
      "step": 12700
    },
    {
      "epoch": 0.8026588072991785,
      "grad_norm": 135.72523498535156,
      "learning_rate": 1.7765855527878907e-05,
      "loss": 1.5271,
      "step": 12800
    },
    {
      "epoch": 0.8026588072991785,
      "eval_loss": 1.7246832847595215,
      "eval_runtime": 498.9684,
      "eval_samples_per_second": 255.672,
      "eval_steps_per_second": 7.99,
      "step": 12800
    },
    {
      "epoch": 0.8089295792312033,
      "grad_norm": 1.4582579135894775,
      "learning_rate": 1.773101778466791e-05,
      "loss": 1.618,
      "step": 12900
    },
    {
      "epoch": 0.8089295792312033,
      "eval_loss": 1.6542091369628906,
      "eval_runtime": 498.6777,
      "eval_samples_per_second": 255.821,
      "eval_steps_per_second": 7.995,
      "step": 12900
    },
    {
      "epoch": 0.8152003511632282,
      "grad_norm": 240.90525817871094,
      "learning_rate": 1.7696528418889027e-05,
      "loss": 1.9788,
      "step": 13000
    },
    {
      "epoch": 0.8152003511632282,
      "eval_loss": 1.5685710906982422,
      "eval_runtime": 501.55,
      "eval_samples_per_second": 254.355,
      "eval_steps_per_second": 7.949,
      "step": 13000
    },
    {
      "epoch": 0.821471123095253,
      "grad_norm": 0.4606687128543854,
      "learning_rate": 1.7661690675678033e-05,
      "loss": 1.8213,
      "step": 13100
    },
    {
      "epoch": 0.821471123095253,
      "eval_loss": 1.560313105583191,
      "eval_runtime": 495.8302,
      "eval_samples_per_second": 257.29,
      "eval_steps_per_second": 8.041,
      "step": 13100
    },
    {
      "epoch": 0.8277418950272779,
      "grad_norm": 33.05907440185547,
      "learning_rate": 1.7626852932467036e-05,
      "loss": 1.3661,
      "step": 13200
    },
    {
      "epoch": 0.8277418950272779,
      "eval_loss": 1.637640118598938,
      "eval_runtime": 499.6063,
      "eval_samples_per_second": 255.345,
      "eval_steps_per_second": 7.98,
      "step": 13200
    },
    {
      "epoch": 0.8340126669593027,
      "grad_norm": 58.993228912353516,
      "learning_rate": 1.7592015189256042e-05,
      "loss": 1.3852,
      "step": 13300
    },
    {
      "epoch": 0.8340126669593027,
      "eval_loss": 1.595252513885498,
      "eval_runtime": 497.3714,
      "eval_samples_per_second": 256.492,
      "eval_steps_per_second": 8.016,
      "step": 13300
    },
    {
      "epoch": 0.8402834388913275,
      "grad_norm": 52.913265228271484,
      "learning_rate": 1.7557177446045045e-05,
      "loss": 1.4673,
      "step": 13400
    },
    {
      "epoch": 0.8402834388913275,
      "eval_loss": 1.634629487991333,
      "eval_runtime": 497.4186,
      "eval_samples_per_second": 256.468,
      "eval_steps_per_second": 8.015,
      "step": 13400
    },
    {
      "epoch": 0.8465542108233524,
      "grad_norm": 126.8105697631836,
      "learning_rate": 1.752233970283405e-05,
      "loss": 1.6684,
      "step": 13500
    },
    {
      "epoch": 0.8465542108233524,
      "eval_loss": 1.5818397998809814,
      "eval_runtime": 499.5245,
      "eval_samples_per_second": 255.387,
      "eval_steps_per_second": 7.982,
      "step": 13500
    },
    {
      "epoch": 0.8528249827553772,
      "grad_norm": 130.67335510253906,
      "learning_rate": 1.7487501959623058e-05,
      "loss": 1.686,
      "step": 13600
    },
    {
      "epoch": 0.8528249827553772,
      "eval_loss": 1.5840120315551758,
      "eval_runtime": 500.7181,
      "eval_samples_per_second": 254.778,
      "eval_steps_per_second": 7.963,
      "step": 13600
    },
    {
      "epoch": 0.8590957546874021,
      "grad_norm": 3.3967671394348145,
      "learning_rate": 1.7452664216412064e-05,
      "loss": 1.4397,
      "step": 13700
    },
    {
      "epoch": 0.8590957546874021,
      "eval_loss": 1.5855337381362915,
      "eval_runtime": 502.231,
      "eval_samples_per_second": 254.011,
      "eval_steps_per_second": 7.939,
      "step": 13700
    },
    {
      "epoch": 0.8653665266194268,
      "grad_norm": 446.9328918457031,
      "learning_rate": 1.7417826473201067e-05,
      "loss": 1.5973,
      "step": 13800
    },
    {
      "epoch": 0.8653665266194268,
      "eval_loss": 1.720745325088501,
      "eval_runtime": 501.237,
      "eval_samples_per_second": 254.514,
      "eval_steps_per_second": 7.954,
      "step": 13800
    },
    {
      "epoch": 0.8716372985514517,
      "grad_norm": 0.6950648427009583,
      "learning_rate": 1.7382988729990073e-05,
      "loss": 1.221,
      "step": 13900
    },
    {
      "epoch": 0.8716372985514517,
      "eval_loss": 1.638085961341858,
      "eval_runtime": 499.3245,
      "eval_samples_per_second": 255.489,
      "eval_steps_per_second": 7.985,
      "step": 13900
    },
    {
      "epoch": 0.8779080704834765,
      "grad_norm": 24.994272232055664,
      "learning_rate": 1.7348150986779076e-05,
      "loss": 1.2082,
      "step": 14000
    },
    {
      "epoch": 0.8779080704834765,
      "eval_loss": 1.6335324048995972,
      "eval_runtime": 501.6663,
      "eval_samples_per_second": 254.297,
      "eval_steps_per_second": 7.948,
      "step": 14000
    },
    {
      "epoch": 0.8841788424155014,
      "grad_norm": 0.017005544155836105,
      "learning_rate": 1.7313313243568083e-05,
      "loss": 1.5399,
      "step": 14100
    },
    {
      "epoch": 0.8841788424155014,
      "eval_loss": 1.643354058265686,
      "eval_runtime": 500.7206,
      "eval_samples_per_second": 254.777,
      "eval_steps_per_second": 7.963,
      "step": 14100
    },
    {
      "epoch": 0.8904496143475262,
      "grad_norm": 48.26883316040039,
      "learning_rate": 1.727847550035709e-05,
      "loss": 1.5265,
      "step": 14200
    },
    {
      "epoch": 0.8904496143475262,
      "eval_loss": 1.7265760898590088,
      "eval_runtime": 503.0351,
      "eval_samples_per_second": 253.605,
      "eval_steps_per_second": 7.926,
      "step": 14200
    },
    {
      "epoch": 0.896720386279551,
      "grad_norm": 4.5458149909973145,
      "learning_rate": 1.7243637757146095e-05,
      "loss": 0.9321,
      "step": 14300
    },
    {
      "epoch": 0.896720386279551,
      "eval_loss": 1.5980534553527832,
      "eval_runtime": 500.0744,
      "eval_samples_per_second": 255.106,
      "eval_steps_per_second": 7.973,
      "step": 14300
    },
    {
      "epoch": 0.9029911582115758,
      "grad_norm": 1.9558783769607544,
      "learning_rate": 1.72088000139351e-05,
      "loss": 1.1133,
      "step": 14400
    },
    {
      "epoch": 0.9029911582115758,
      "eval_loss": 1.612575650215149,
      "eval_runtime": 502.1556,
      "eval_samples_per_second": 254.049,
      "eval_steps_per_second": 7.94,
      "step": 14400
    },
    {
      "epoch": 0.9092619301436007,
      "grad_norm": 71.19198608398438,
      "learning_rate": 1.7173962270724105e-05,
      "loss": 1.0754,
      "step": 14500
    },
    {
      "epoch": 0.9092619301436007,
      "eval_loss": 1.6227186918258667,
      "eval_runtime": 493.8123,
      "eval_samples_per_second": 258.341,
      "eval_steps_per_second": 8.074,
      "step": 14500
    },
    {
      "epoch": 0.9155327020756255,
      "grad_norm": 0.26305466890335083,
      "learning_rate": 1.7139124527513108e-05,
      "loss": 1.3486,
      "step": 14600
    },
    {
      "epoch": 0.9155327020756255,
      "eval_loss": 1.6142776012420654,
      "eval_runtime": 499.3615,
      "eval_samples_per_second": 255.47,
      "eval_steps_per_second": 7.984,
      "step": 14600
    },
    {
      "epoch": 0.9218034740076504,
      "grad_norm": 35.207157135009766,
      "learning_rate": 1.7104286784302114e-05,
      "loss": 1.6338,
      "step": 14700
    },
    {
      "epoch": 0.9218034740076504,
      "eval_loss": 1.5451936721801758,
      "eval_runtime": 501.5927,
      "eval_samples_per_second": 254.334,
      "eval_steps_per_second": 7.949,
      "step": 14700
    },
    {
      "epoch": 0.9280742459396751,
      "grad_norm": 213.60140991210938,
      "learning_rate": 1.706944904109112e-05,
      "loss": 1.389,
      "step": 14800
    },
    {
      "epoch": 0.9280742459396751,
      "eval_loss": 1.6098874807357788,
      "eval_runtime": 501.8582,
      "eval_samples_per_second": 254.199,
      "eval_steps_per_second": 7.944,
      "step": 14800
    },
    {
      "epoch": 0.9343450178717,
      "grad_norm": 111.08502960205078,
      "learning_rate": 1.7034611297880123e-05,
      "loss": 1.3776,
      "step": 14900
    },
    {
      "epoch": 0.9343450178717,
      "eval_loss": 1.6435140371322632,
      "eval_runtime": 502.6322,
      "eval_samples_per_second": 253.808,
      "eval_steps_per_second": 7.932,
      "step": 14900
    },
    {
      "epoch": 0.9406157898037248,
      "grad_norm": 18.123170852661133,
      "learning_rate": 1.699977355466913e-05,
      "loss": 1.8714,
      "step": 15000
    },
    {
      "epoch": 0.9406157898037248,
      "eval_loss": 1.537667989730835,
      "eval_runtime": 501.0111,
      "eval_samples_per_second": 254.629,
      "eval_steps_per_second": 7.958,
      "step": 15000
    },
    {
      "epoch": 0.9468865617357497,
      "grad_norm": 155.93455505371094,
      "learning_rate": 1.6964935811458133e-05,
      "loss": 1.1286,
      "step": 15100
    },
    {
      "epoch": 0.9468865617357497,
      "eval_loss": 1.6325874328613281,
      "eval_runtime": 502.9153,
      "eval_samples_per_second": 253.665,
      "eval_steps_per_second": 7.928,
      "step": 15100
    },
    {
      "epoch": 0.9531573336677746,
      "grad_norm": 172.1987762451172,
      "learning_rate": 1.693009806824714e-05,
      "loss": 1.4029,
      "step": 15200
    },
    {
      "epoch": 0.9531573336677746,
      "eval_loss": 1.6255732774734497,
      "eval_runtime": 508.4447,
      "eval_samples_per_second": 250.906,
      "eval_steps_per_second": 7.842,
      "step": 15200
    },
    {
      "epoch": 0.9594281055997993,
      "grad_norm": 6.499632835388184,
      "learning_rate": 1.6895260325036145e-05,
      "loss": 1.7772,
      "step": 15300
    },
    {
      "epoch": 0.9594281055997993,
      "eval_loss": 1.5221425294876099,
      "eval_runtime": 502.3511,
      "eval_samples_per_second": 253.95,
      "eval_steps_per_second": 7.937,
      "step": 15300
    },
    {
      "epoch": 0.9656988775318242,
      "grad_norm": 0.45312049984931946,
      "learning_rate": 1.686042258182515e-05,
      "loss": 1.3415,
      "step": 15400
    },
    {
      "epoch": 0.9656988775318242,
      "eval_loss": 1.5603629350662231,
      "eval_runtime": 502.2256,
      "eval_samples_per_second": 254.013,
      "eval_steps_per_second": 7.939,
      "step": 15400
    },
    {
      "epoch": 0.971969649463849,
      "grad_norm": 1.405121922492981,
      "learning_rate": 1.6825584838614155e-05,
      "loss": 1.1088,
      "step": 15500
    },
    {
      "epoch": 0.971969649463849,
      "eval_loss": 1.574865698814392,
      "eval_runtime": 517.5942,
      "eval_samples_per_second": 246.471,
      "eval_steps_per_second": 7.703,
      "step": 15500
    },
    {
      "epoch": 0.9782404213958739,
      "grad_norm": 6.808924198150635,
      "learning_rate": 1.679074709540316e-05,
      "loss": 1.4602,
      "step": 15600
    },
    {
      "epoch": 0.9782404213958739,
      "eval_loss": 1.494147777557373,
      "eval_runtime": 505.721,
      "eval_samples_per_second": 252.258,
      "eval_steps_per_second": 7.884,
      "step": 15600
    },
    {
      "epoch": 0.9845111933278987,
      "grad_norm": 88.74259185791016,
      "learning_rate": 1.6755909352192167e-05,
      "loss": 1.867,
      "step": 15700
    },
    {
      "epoch": 0.9845111933278987,
      "eval_loss": 1.3730698823928833,
      "eval_runtime": 515.7676,
      "eval_samples_per_second": 247.344,
      "eval_steps_per_second": 7.73,
      "step": 15700
    },
    {
      "epoch": 0.9907819652599235,
      "grad_norm": 3.1625919342041016,
      "learning_rate": 1.672141998641328e-05,
      "loss": 1.4541,
      "step": 15800
    },
    {
      "epoch": 0.9907819652599235,
      "eval_loss": 1.4205607175827026,
      "eval_runtime": 486.2625,
      "eval_samples_per_second": 262.352,
      "eval_steps_per_second": 8.199,
      "step": 15800
    },
    {
      "epoch": 0.9970527371919483,
      "grad_norm": 135.7765655517578,
      "learning_rate": 1.6686930620634396e-05,
      "loss": 1.1966,
      "step": 15900
    },
    {
      "epoch": 0.9970527371919483,
      "eval_loss": 1.4982208013534546,
      "eval_runtime": 494.4178,
      "eval_samples_per_second": 258.025,
      "eval_steps_per_second": 8.064,
      "step": 15900
    },
    {
      "epoch": 1.0033235091239732,
      "grad_norm": 97.84881591796875,
      "learning_rate": 1.6652092877423403e-05,
      "loss": 1.1447,
      "step": 16000
    },
    {
      "epoch": 1.0033235091239732,
      "eval_loss": 1.5120809078216553,
      "eval_runtime": 491.4115,
      "eval_samples_per_second": 259.603,
      "eval_steps_per_second": 8.113,
      "step": 16000
    },
    {
      "epoch": 1.009594281055998,
      "grad_norm": 152.9120635986328,
      "learning_rate": 1.6617255134212406e-05,
      "loss": 1.1266,
      "step": 16100
    },
    {
      "epoch": 1.009594281055998,
      "eval_loss": 1.4103273153305054,
      "eval_runtime": 501.3393,
      "eval_samples_per_second": 254.462,
      "eval_steps_per_second": 7.953,
      "step": 16100
    },
    {
      "epoch": 1.0158650529880229,
      "grad_norm": 10.062068939208984,
      "learning_rate": 1.6582417391001412e-05,
      "loss": 1.1971,
      "step": 16200
    },
    {
      "epoch": 1.0158650529880229,
      "eval_loss": 1.5044476985931396,
      "eval_runtime": 500.4234,
      "eval_samples_per_second": 254.928,
      "eval_steps_per_second": 7.967,
      "step": 16200
    },
    {
      "epoch": 1.0221358249200476,
      "grad_norm": 385.3752136230469,
      "learning_rate": 1.6547579647790418e-05,
      "loss": 1.3376,
      "step": 16300
    },
    {
      "epoch": 1.0221358249200476,
      "eval_loss": 1.5336840152740479,
      "eval_runtime": 494.8747,
      "eval_samples_per_second": 257.786,
      "eval_steps_per_second": 8.057,
      "step": 16300
    },
    {
      "epoch": 1.0284065968520726,
      "grad_norm": 0.33529093861579895,
      "learning_rate": 1.6512741904579425e-05,
      "loss": 1.7977,
      "step": 16400
    },
    {
      "epoch": 1.0284065968520726,
      "eval_loss": 1.5711828470230103,
      "eval_runtime": 502.7844,
      "eval_samples_per_second": 253.731,
      "eval_steps_per_second": 7.93,
      "step": 16400
    },
    {
      "epoch": 1.0346773687840973,
      "grad_norm": 228.05165100097656,
      "learning_rate": 1.6477904161368428e-05,
      "loss": 1.6946,
      "step": 16500
    },
    {
      "epoch": 1.0346773687840973,
      "eval_loss": 1.5322738885879517,
      "eval_runtime": 498.3968,
      "eval_samples_per_second": 255.965,
      "eval_steps_per_second": 8.0,
      "step": 16500
    },
    {
      "epoch": 1.040948140716122,
      "grad_norm": 1.2080790996551514,
      "learning_rate": 1.6443066418157434e-05,
      "loss": 0.8674,
      "step": 16600
    },
    {
      "epoch": 1.040948140716122,
      "eval_loss": 1.4461946487426758,
      "eval_runtime": 492.3648,
      "eval_samples_per_second": 259.101,
      "eval_steps_per_second": 8.098,
      "step": 16600
    },
    {
      "epoch": 1.047218912648147,
      "grad_norm": 68.50479888916016,
      "learning_rate": 1.6408228674946437e-05,
      "loss": 1.6447,
      "step": 16700
    },
    {
      "epoch": 1.047218912648147,
      "eval_loss": 1.483079433441162,
      "eval_runtime": 496.9095,
      "eval_samples_per_second": 256.731,
      "eval_steps_per_second": 8.024,
      "step": 16700
    },
    {
      "epoch": 1.0534896845801718,
      "grad_norm": 0.08792801946401596,
      "learning_rate": 1.6373390931735443e-05,
      "loss": 1.2709,
      "step": 16800
    },
    {
      "epoch": 1.0534896845801718,
      "eval_loss": 1.575551986694336,
      "eval_runtime": 503.9395,
      "eval_samples_per_second": 253.149,
      "eval_steps_per_second": 7.912,
      "step": 16800
    },
    {
      "epoch": 1.0597604565121967,
      "grad_norm": 1.81405770778656,
      "learning_rate": 1.633855318852445e-05,
      "loss": 1.5217,
      "step": 16900
    },
    {
      "epoch": 1.0597604565121967,
      "eval_loss": 1.5059562921524048,
      "eval_runtime": 506.8836,
      "eval_samples_per_second": 251.679,
      "eval_steps_per_second": 7.866,
      "step": 16900
    },
    {
      "epoch": 1.0660312284442215,
      "grad_norm": 38.73731231689453,
      "learning_rate": 1.6303715445313456e-05,
      "loss": 1.2986,
      "step": 17000
    },
    {
      "epoch": 1.0660312284442215,
      "eval_loss": 1.4834423065185547,
      "eval_runtime": 503.4795,
      "eval_samples_per_second": 253.381,
      "eval_steps_per_second": 7.919,
      "step": 17000
    },
    {
      "epoch": 1.0723020003762462,
      "grad_norm": 0.7970458269119263,
      "learning_rate": 1.626887770210246e-05,
      "loss": 0.9976,
      "step": 17100
    },
    {
      "epoch": 1.0723020003762462,
      "eval_loss": 1.4840906858444214,
      "eval_runtime": 504.3957,
      "eval_samples_per_second": 252.92,
      "eval_steps_per_second": 7.905,
      "step": 17100
    },
    {
      "epoch": 1.0785727723082712,
      "grad_norm": 0.04621260613203049,
      "learning_rate": 1.6234039958891465e-05,
      "loss": 1.3457,
      "step": 17200
    },
    {
      "epoch": 1.0785727723082712,
      "eval_loss": 1.4227601289749146,
      "eval_runtime": 493.9233,
      "eval_samples_per_second": 258.283,
      "eval_steps_per_second": 8.072,
      "step": 17200
    },
    {
      "epoch": 1.084843544240296,
      "grad_norm": 0.5272818803787231,
      "learning_rate": 1.6199202215680468e-05,
      "loss": 0.987,
      "step": 17300
    },
    {
      "epoch": 1.084843544240296,
      "eval_loss": 1.3806939125061035,
      "eval_runtime": 501.4303,
      "eval_samples_per_second": 254.416,
      "eval_steps_per_second": 7.951,
      "step": 17300
    },
    {
      "epoch": 1.091114316172321,
      "grad_norm": 0.4564209282398224,
      "learning_rate": 1.6164364472469474e-05,
      "loss": 1.2714,
      "step": 17400
    },
    {
      "epoch": 1.091114316172321,
      "eval_loss": 1.3470913171768188,
      "eval_runtime": 501.1914,
      "eval_samples_per_second": 254.538,
      "eval_steps_per_second": 7.955,
      "step": 17400
    },
    {
      "epoch": 1.0973850881043457,
      "grad_norm": 14.678479194641113,
      "learning_rate": 1.612952672925848e-05,
      "loss": 1.298,
      "step": 17500
    },
    {
      "epoch": 1.0973850881043457,
      "eval_loss": 1.4133707284927368,
      "eval_runtime": 499.6488,
      "eval_samples_per_second": 255.323,
      "eval_steps_per_second": 7.98,
      "step": 17500
    },
    {
      "epoch": 1.1036558600363704,
      "grad_norm": 1.6324628591537476,
      "learning_rate": 1.6094688986047484e-05,
      "loss": 0.9522,
      "step": 17600
    },
    {
      "epoch": 1.1036558600363704,
      "eval_loss": 1.4225292205810547,
      "eval_runtime": 501.7975,
      "eval_samples_per_second": 254.23,
      "eval_steps_per_second": 7.945,
      "step": 17600
    },
    {
      "epoch": 1.1099266319683954,
      "grad_norm": 1.6328845024108887,
      "learning_rate": 1.605985124283649e-05,
      "loss": 1.0634,
      "step": 17700
    },
    {
      "epoch": 1.1099266319683954,
      "eval_loss": 1.4474034309387207,
      "eval_runtime": 505.9682,
      "eval_samples_per_second": 252.134,
      "eval_steps_per_second": 7.88,
      "step": 17700
    },
    {
      "epoch": 1.11619740390042,
      "grad_norm": 0.9931433200836182,
      "learning_rate": 1.6025013499625493e-05,
      "loss": 1.2889,
      "step": 17800
    },
    {
      "epoch": 1.11619740390042,
      "eval_loss": 1.4678562879562378,
      "eval_runtime": 503.5781,
      "eval_samples_per_second": 253.331,
      "eval_steps_per_second": 7.917,
      "step": 17800
    },
    {
      "epoch": 1.122468175832445,
      "grad_norm": 59.28689956665039,
      "learning_rate": 1.5990175756414503e-05,
      "loss": 1.7532,
      "step": 17900
    },
    {
      "epoch": 1.122468175832445,
      "eval_loss": 1.3757271766662598,
      "eval_runtime": 499.9963,
      "eval_samples_per_second": 255.146,
      "eval_steps_per_second": 7.974,
      "step": 17900
    },
    {
      "epoch": 1.1287389477644698,
      "grad_norm": 72.52947998046875,
      "learning_rate": 1.5955338013203506e-05,
      "loss": 1.6613,
      "step": 18000
    },
    {
      "epoch": 1.1287389477644698,
      "eval_loss": 1.3807989358901978,
      "eval_runtime": 492.0199,
      "eval_samples_per_second": 259.282,
      "eval_steps_per_second": 8.103,
      "step": 18000
    },
    {
      "epoch": 1.1350097196964946,
      "grad_norm": 29.813941955566406,
      "learning_rate": 1.5920500269992512e-05,
      "loss": 1.1765,
      "step": 18100
    },
    {
      "epoch": 1.1350097196964946,
      "eval_loss": 1.3903069496154785,
      "eval_runtime": 501.0104,
      "eval_samples_per_second": 254.629,
      "eval_steps_per_second": 7.958,
      "step": 18100
    },
    {
      "epoch": 1.1412804916285195,
      "grad_norm": 1.3140065670013428,
      "learning_rate": 1.5885662526781515e-05,
      "loss": 1.2787,
      "step": 18200
    },
    {
      "epoch": 1.1412804916285195,
      "eval_loss": 1.3920559883117676,
      "eval_runtime": 500.2005,
      "eval_samples_per_second": 255.042,
      "eval_steps_per_second": 7.971,
      "step": 18200
    },
    {
      "epoch": 1.1475512635605443,
      "grad_norm": 0.21044209599494934,
      "learning_rate": 1.585082478357052e-05,
      "loss": 1.2532,
      "step": 18300
    },
    {
      "epoch": 1.1475512635605443,
      "eval_loss": 1.3519495725631714,
      "eval_runtime": 505.681,
      "eval_samples_per_second": 252.278,
      "eval_steps_per_second": 7.884,
      "step": 18300
    },
    {
      "epoch": 1.1538220354925692,
      "grad_norm": 56.845211029052734,
      "learning_rate": 1.5815987040359528e-05,
      "loss": 1.8056,
      "step": 18400
    },
    {
      "epoch": 1.1538220354925692,
      "eval_loss": 1.2984182834625244,
      "eval_runtime": 507.7377,
      "eval_samples_per_second": 251.256,
      "eval_steps_per_second": 7.852,
      "step": 18400
    },
    {
      "epoch": 1.160092807424594,
      "grad_norm": 99.5033950805664,
      "learning_rate": 1.5781149297148534e-05,
      "loss": 1.0985,
      "step": 18500
    },
    {
      "epoch": 1.160092807424594,
      "eval_loss": 1.3321679830551147,
      "eval_runtime": 504.9231,
      "eval_samples_per_second": 252.656,
      "eval_steps_per_second": 7.896,
      "step": 18500
    },
    {
      "epoch": 1.1663635793566187,
      "grad_norm": 75.43387603759766,
      "learning_rate": 1.5746311553937537e-05,
      "loss": 1.8665,
      "step": 18600
    },
    {
      "epoch": 1.1663635793566187,
      "eval_loss": 1.4059826135635376,
      "eval_runtime": 495.7712,
      "eval_samples_per_second": 257.32,
      "eval_steps_per_second": 8.042,
      "step": 18600
    },
    {
      "epoch": 1.1726343512886437,
      "grad_norm": 111.51386260986328,
      "learning_rate": 1.5711473810726543e-05,
      "loss": 1.2427,
      "step": 18700
    },
    {
      "epoch": 1.1726343512886437,
      "eval_loss": 1.3774936199188232,
      "eval_runtime": 502.6217,
      "eval_samples_per_second": 253.813,
      "eval_steps_per_second": 7.932,
      "step": 18700
    },
    {
      "epoch": 1.1789051232206684,
      "grad_norm": 1.3077305555343628,
      "learning_rate": 1.5676636067515546e-05,
      "loss": 1.1241,
      "step": 18800
    },
    {
      "epoch": 1.1789051232206684,
      "eval_loss": 1.3168435096740723,
      "eval_runtime": 498.3092,
      "eval_samples_per_second": 256.01,
      "eval_steps_per_second": 8.001,
      "step": 18800
    },
    {
      "epoch": 1.1851758951526934,
      "grad_norm": 29.557662963867188,
      "learning_rate": 1.5641798324304553e-05,
      "loss": 1.2348,
      "step": 18900
    },
    {
      "epoch": 1.1851758951526934,
      "eval_loss": 1.353879690170288,
      "eval_runtime": 503.07,
      "eval_samples_per_second": 253.587,
      "eval_steps_per_second": 7.925,
      "step": 18900
    },
    {
      "epoch": 1.1914466670847181,
      "grad_norm": 65.81330871582031,
      "learning_rate": 1.560696058109356e-05,
      "loss": 1.1709,
      "step": 19000
    },
    {
      "epoch": 1.1914466670847181,
      "eval_loss": 1.3540174961090088,
      "eval_runtime": 498.735,
      "eval_samples_per_second": 255.791,
      "eval_steps_per_second": 7.994,
      "step": 19000
    },
    {
      "epoch": 1.1977174390167429,
      "grad_norm": 48.844017028808594,
      "learning_rate": 1.5572122837882565e-05,
      "loss": 0.8844,
      "step": 19100
    },
    {
      "epoch": 1.1977174390167429,
      "eval_loss": 1.3141909837722778,
      "eval_runtime": 498.6069,
      "eval_samples_per_second": 255.857,
      "eval_steps_per_second": 7.996,
      "step": 19100
    },
    {
      "epoch": 1.2039882109487678,
      "grad_norm": 3.451929807662964,
      "learning_rate": 1.5537285094671568e-05,
      "loss": 1.0035,
      "step": 19200
    },
    {
      "epoch": 1.2039882109487678,
      "eval_loss": 1.3781260251998901,
      "eval_runtime": 506.2945,
      "eval_samples_per_second": 251.972,
      "eval_steps_per_second": 7.875,
      "step": 19200
    },
    {
      "epoch": 1.2102589828807926,
      "grad_norm": 77.69365692138672,
      "learning_rate": 1.5502447351460575e-05,
      "loss": 1.4279,
      "step": 19300
    },
    {
      "epoch": 1.2102589828807926,
      "eval_loss": 1.261493444442749,
      "eval_runtime": 498.5065,
      "eval_samples_per_second": 255.908,
      "eval_steps_per_second": 7.998,
      "step": 19300
    },
    {
      "epoch": 1.2165297548128176,
      "grad_norm": 21.791259765625,
      "learning_rate": 1.5467609608249577e-05,
      "loss": 1.3327,
      "step": 19400
    },
    {
      "epoch": 1.2165297548128176,
      "eval_loss": 1.2696096897125244,
      "eval_runtime": 498.1301,
      "eval_samples_per_second": 256.102,
      "eval_steps_per_second": 8.004,
      "step": 19400
    },
    {
      "epoch": 1.2228005267448423,
      "grad_norm": 2.250319242477417,
      "learning_rate": 1.5432771865038584e-05,
      "loss": 0.993,
      "step": 19500
    },
    {
      "epoch": 1.2228005267448423,
      "eval_loss": 1.3169900178909302,
      "eval_runtime": 495.9918,
      "eval_samples_per_second": 257.206,
      "eval_steps_per_second": 8.038,
      "step": 19500
    },
    {
      "epoch": 1.229071298676867,
      "grad_norm": 73.77873229980469,
      "learning_rate": 1.539793412182759e-05,
      "loss": 0.7869,
      "step": 19600
    },
    {
      "epoch": 1.229071298676867,
      "eval_loss": 1.2967498302459717,
      "eval_runtime": 497.8866,
      "eval_samples_per_second": 256.227,
      "eval_steps_per_second": 8.008,
      "step": 19600
    },
    {
      "epoch": 1.235342070608892,
      "grad_norm": 0.07626141607761383,
      "learning_rate": 1.5363096378616596e-05,
      "loss": 0.985,
      "step": 19700
    },
    {
      "epoch": 1.235342070608892,
      "eval_loss": 1.3056693077087402,
      "eval_runtime": 494.5073,
      "eval_samples_per_second": 257.978,
      "eval_steps_per_second": 8.063,
      "step": 19700
    },
    {
      "epoch": 1.2416128425409168,
      "grad_norm": 4.803875923156738,
      "learning_rate": 1.53282586354056e-05,
      "loss": 1.1603,
      "step": 19800
    },
    {
      "epoch": 1.2416128425409168,
      "eval_loss": 1.2796647548675537,
      "eval_runtime": 496.7276,
      "eval_samples_per_second": 256.825,
      "eval_steps_per_second": 8.027,
      "step": 19800
    },
    {
      "epoch": 1.2478836144729417,
      "grad_norm": 63.491329193115234,
      "learning_rate": 1.5293420892194606e-05,
      "loss": 1.2469,
      "step": 19900
    },
    {
      "epoch": 1.2478836144729417,
      "eval_loss": 1.2394485473632812,
      "eval_runtime": 504.5722,
      "eval_samples_per_second": 252.832,
      "eval_steps_per_second": 7.902,
      "step": 19900
    },
    {
      "epoch": 1.2541543864049665,
      "grad_norm": 155.53126525878906,
      "learning_rate": 1.525858314898361e-05,
      "loss": 1.521,
      "step": 20000
    },
    {
      "epoch": 1.2541543864049665,
      "eval_loss": 1.2309328317642212,
      "eval_runtime": 499.147,
      "eval_samples_per_second": 255.58,
      "eval_steps_per_second": 7.988,
      "step": 20000
    },
    {
      "epoch": 1.2604251583369912,
      "grad_norm": 0.10026417672634125,
      "learning_rate": 1.5223745405772617e-05,
      "loss": 1.2632,
      "step": 20100
    },
    {
      "epoch": 1.2604251583369912,
      "eval_loss": 1.2352900505065918,
      "eval_runtime": 498.6806,
      "eval_samples_per_second": 255.819,
      "eval_steps_per_second": 7.995,
      "step": 20100
    },
    {
      "epoch": 1.2666959302690162,
      "grad_norm": 20.156579971313477,
      "learning_rate": 1.518890766256162e-05,
      "loss": 1.3621,
      "step": 20200
    },
    {
      "epoch": 1.2666959302690162,
      "eval_loss": 1.2432923316955566,
      "eval_runtime": 488.6088,
      "eval_samples_per_second": 261.092,
      "eval_steps_per_second": 8.16,
      "step": 20200
    },
    {
      "epoch": 1.272966702201041,
      "grad_norm": 1.3594141006469727,
      "learning_rate": 1.5154069919350624e-05,
      "loss": 1.5145,
      "step": 20300
    },
    {
      "epoch": 1.272966702201041,
      "eval_loss": 1.3064727783203125,
      "eval_runtime": 501.5288,
      "eval_samples_per_second": 254.366,
      "eval_steps_per_second": 7.95,
      "step": 20300
    },
    {
      "epoch": 1.2792374741330659,
      "grad_norm": 26.742637634277344,
      "learning_rate": 1.511923217613963e-05,
      "loss": 1.3708,
      "step": 20400
    },
    {
      "epoch": 1.2792374741330659,
      "eval_loss": 1.2422964572906494,
      "eval_runtime": 504.9841,
      "eval_samples_per_second": 252.626,
      "eval_steps_per_second": 7.895,
      "step": 20400
    },
    {
      "epoch": 1.2855082460650906,
      "grad_norm": 666.2847290039062,
      "learning_rate": 1.5084394432928635e-05,
      "loss": 1.1716,
      "step": 20500
    },
    {
      "epoch": 1.2855082460650906,
      "eval_loss": 1.2922592163085938,
      "eval_runtime": 502.0283,
      "eval_samples_per_second": 254.113,
      "eval_steps_per_second": 7.942,
      "step": 20500
    },
    {
      "epoch": 1.2917790179971154,
      "grad_norm": 0.90843665599823,
      "learning_rate": 1.5049556689717642e-05,
      "loss": 1.419,
      "step": 20600
    },
    {
      "epoch": 1.2917790179971154,
      "eval_loss": 1.2193955183029175,
      "eval_runtime": 496.5986,
      "eval_samples_per_second": 256.892,
      "eval_steps_per_second": 8.029,
      "step": 20600
    },
    {
      "epoch": 1.2980497899291403,
      "grad_norm": 174.012451171875,
      "learning_rate": 1.5014718946506646e-05,
      "loss": 1.1644,
      "step": 20700
    },
    {
      "epoch": 1.2980497899291403,
      "eval_loss": 1.2368745803833008,
      "eval_runtime": 500.022,
      "eval_samples_per_second": 255.133,
      "eval_steps_per_second": 7.974,
      "step": 20700
    },
    {
      "epoch": 1.304320561861165,
      "grad_norm": 7.468738555908203,
      "learning_rate": 1.4979881203295653e-05,
      "loss": 1.6589,
      "step": 20800
    },
    {
      "epoch": 1.304320561861165,
      "eval_loss": 1.1971392631530762,
      "eval_runtime": 500.4989,
      "eval_samples_per_second": 254.89,
      "eval_steps_per_second": 7.966,
      "step": 20800
    },
    {
      "epoch": 1.31059133379319,
      "grad_norm": 120.70152282714844,
      "learning_rate": 1.4945043460084656e-05,
      "loss": 1.0299,
      "step": 20900
    },
    {
      "epoch": 1.31059133379319,
      "eval_loss": 1.2342555522918701,
      "eval_runtime": 499.8846,
      "eval_samples_per_second": 255.203,
      "eval_steps_per_second": 7.976,
      "step": 20900
    },
    {
      "epoch": 1.3168621057252148,
      "grad_norm": 90.38188934326172,
      "learning_rate": 1.4910205716873662e-05,
      "loss": 1.3452,
      "step": 21000
    },
    {
      "epoch": 1.3168621057252148,
      "eval_loss": 1.2725248336791992,
      "eval_runtime": 490.3505,
      "eval_samples_per_second": 260.165,
      "eval_steps_per_second": 8.131,
      "step": 21000
    },
    {
      "epoch": 1.3231328776572395,
      "grad_norm": 0.8048076033592224,
      "learning_rate": 1.4875367973662667e-05,
      "loss": 1.4234,
      "step": 21100
    },
    {
      "epoch": 1.3231328776572395,
      "eval_loss": 1.2416248321533203,
      "eval_runtime": 493.5915,
      "eval_samples_per_second": 258.457,
      "eval_steps_per_second": 8.078,
      "step": 21100
    },
    {
      "epoch": 1.3294036495892645,
      "grad_norm": 102.93982696533203,
      "learning_rate": 1.4840530230451673e-05,
      "loss": 1.2496,
      "step": 21200
    },
    {
      "epoch": 1.3294036495892645,
      "eval_loss": 1.3609205484390259,
      "eval_runtime": 501.4555,
      "eval_samples_per_second": 254.403,
      "eval_steps_per_second": 7.951,
      "step": 21200
    },
    {
      "epoch": 1.3356744215212892,
      "grad_norm": 0.0473560094833374,
      "learning_rate": 1.4805692487240678e-05,
      "loss": 1.2133,
      "step": 21300
    },
    {
      "epoch": 1.3356744215212892,
      "eval_loss": 1.2892857789993286,
      "eval_runtime": 486.7923,
      "eval_samples_per_second": 262.067,
      "eval_steps_per_second": 8.19,
      "step": 21300
    },
    {
      "epoch": 1.3419451934533142,
      "grad_norm": 0.2829754948616028,
      "learning_rate": 1.4770854744029684e-05,
      "loss": 0.8682,
      "step": 21400
    },
    {
      "epoch": 1.3419451934533142,
      "eval_loss": 1.2352983951568604,
      "eval_runtime": 501.6238,
      "eval_samples_per_second": 254.318,
      "eval_steps_per_second": 7.948,
      "step": 21400
    },
    {
      "epoch": 1.348215965385339,
      "grad_norm": 0.09349790215492249,
      "learning_rate": 1.4736017000818687e-05,
      "loss": 0.9499,
      "step": 21500
    },
    {
      "epoch": 1.348215965385339,
      "eval_loss": 1.2423368692398071,
      "eval_runtime": 503.2262,
      "eval_samples_per_second": 253.508,
      "eval_steps_per_second": 7.923,
      "step": 21500
    },
    {
      "epoch": 1.3544867373173637,
      "grad_norm": 0.7133996486663818,
      "learning_rate": 1.4701179257607693e-05,
      "loss": 1.2896,
      "step": 21600
    },
    {
      "epoch": 1.3544867373173637,
      "eval_loss": 1.1796832084655762,
      "eval_runtime": 504.2727,
      "eval_samples_per_second": 252.982,
      "eval_steps_per_second": 7.906,
      "step": 21600
    },
    {
      "epoch": 1.3607575092493887,
      "grad_norm": 44.3637580871582,
      "learning_rate": 1.4666341514396698e-05,
      "loss": 1.2392,
      "step": 21700
    },
    {
      "epoch": 1.3607575092493887,
      "eval_loss": 1.1962292194366455,
      "eval_runtime": 504.4317,
      "eval_samples_per_second": 252.902,
      "eval_steps_per_second": 7.904,
      "step": 21700
    },
    {
      "epoch": 1.3670282811814134,
      "grad_norm": 41.141788482666016,
      "learning_rate": 1.4631503771185704e-05,
      "loss": 0.9206,
      "step": 21800
    },
    {
      "epoch": 1.3670282811814134,
      "eval_loss": 1.2483233213424683,
      "eval_runtime": 502.7012,
      "eval_samples_per_second": 253.773,
      "eval_steps_per_second": 7.931,
      "step": 21800
    },
    {
      "epoch": 1.3732990531134384,
      "grad_norm": 0.8109003901481628,
      "learning_rate": 1.4596666027974709e-05,
      "loss": 1.174,
      "step": 21900
    },
    {
      "epoch": 1.3732990531134384,
      "eval_loss": 1.23282790184021,
      "eval_runtime": 505.2234,
      "eval_samples_per_second": 252.506,
      "eval_steps_per_second": 7.892,
      "step": 21900
    },
    {
      "epoch": 1.379569825045463,
      "grad_norm": 74.6466293334961,
      "learning_rate": 1.4562176662195823e-05,
      "loss": 1.6361,
      "step": 22000
    },
    {
      "epoch": 1.379569825045463,
      "eval_loss": 1.1558316946029663,
      "eval_runtime": 501.4654,
      "eval_samples_per_second": 254.398,
      "eval_steps_per_second": 7.951,
      "step": 22000
    },
    {
      "epoch": 1.3858405969774878,
      "grad_norm": 5.058000087738037,
      "learning_rate": 1.452733891898483e-05,
      "loss": 0.8284,
      "step": 22100
    },
    {
      "epoch": 1.3858405969774878,
      "eval_loss": 1.271115779876709,
      "eval_runtime": 493.6867,
      "eval_samples_per_second": 258.407,
      "eval_steps_per_second": 8.076,
      "step": 22100
    },
    {
      "epoch": 1.3921113689095128,
      "grad_norm": 1.647706389427185,
      "learning_rate": 1.4492849553205946e-05,
      "loss": 1.2814,
      "step": 22200
    },
    {
      "epoch": 1.3921113689095128,
      "eval_loss": 1.246185064315796,
      "eval_runtime": 492.0347,
      "eval_samples_per_second": 259.274,
      "eval_steps_per_second": 8.103,
      "step": 22200
    },
    {
      "epoch": 1.3983821408415376,
      "grad_norm": 0.4397072494029999,
      "learning_rate": 1.4458011809994949e-05,
      "loss": 1.1595,
      "step": 22300
    },
    {
      "epoch": 1.3983821408415376,
      "eval_loss": 1.2613025903701782,
      "eval_runtime": 498.6845,
      "eval_samples_per_second": 255.817,
      "eval_steps_per_second": 7.995,
      "step": 22300
    },
    {
      "epoch": 1.4046529127735625,
      "grad_norm": 16.611690521240234,
      "learning_rate": 1.4423174066783955e-05,
      "loss": 1.3129,
      "step": 22400
    },
    {
      "epoch": 1.4046529127735625,
      "eval_loss": 1.1816045045852661,
      "eval_runtime": 496.2598,
      "eval_samples_per_second": 257.067,
      "eval_steps_per_second": 8.034,
      "step": 22400
    },
    {
      "epoch": 1.4109236847055873,
      "grad_norm": 69.52592468261719,
      "learning_rate": 1.438833632357296e-05,
      "loss": 1.1353,
      "step": 22500
    },
    {
      "epoch": 1.4109236847055873,
      "eval_loss": 1.245389699935913,
      "eval_runtime": 494.4633,
      "eval_samples_per_second": 258.001,
      "eval_steps_per_second": 8.063,
      "step": 22500
    },
    {
      "epoch": 1.417194456637612,
      "grad_norm": 6.014486789703369,
      "learning_rate": 1.4353498580361966e-05,
      "loss": 1.3302,
      "step": 22600
    },
    {
      "epoch": 1.417194456637612,
      "eval_loss": 1.1397989988327026,
      "eval_runtime": 503.4853,
      "eval_samples_per_second": 253.378,
      "eval_steps_per_second": 7.919,
      "step": 22600
    },
    {
      "epoch": 1.423465228569637,
      "grad_norm": 2.0832605361938477,
      "learning_rate": 1.4318660837150971e-05,
      "loss": 1.1591,
      "step": 22700
    },
    {
      "epoch": 1.423465228569637,
      "eval_loss": 1.2935895919799805,
      "eval_runtime": 495.0142,
      "eval_samples_per_second": 257.714,
      "eval_steps_per_second": 8.054,
      "step": 22700
    },
    {
      "epoch": 1.4297360005016617,
      "grad_norm": 4.5407891273498535,
      "learning_rate": 1.4283823093939975e-05,
      "loss": 0.6551,
      "step": 22800
    },
    {
      "epoch": 1.4297360005016617,
      "eval_loss": 1.2345027923583984,
      "eval_runtime": 489.171,
      "eval_samples_per_second": 260.792,
      "eval_steps_per_second": 8.151,
      "step": 22800
    },
    {
      "epoch": 1.4360067724336867,
      "grad_norm": 78.76990509033203,
      "learning_rate": 1.4248985350728982e-05,
      "loss": 1.2884,
      "step": 22900
    },
    {
      "epoch": 1.4360067724336867,
      "eval_loss": 1.1629202365875244,
      "eval_runtime": 483.3185,
      "eval_samples_per_second": 263.95,
      "eval_steps_per_second": 8.249,
      "step": 22900
    },
    {
      "epoch": 1.4422775443657114,
      "grad_norm": 110.63036346435547,
      "learning_rate": 1.4214147607517985e-05,
      "loss": 1.1769,
      "step": 23000
    },
    {
      "epoch": 1.4422775443657114,
      "eval_loss": 1.2339965105056763,
      "eval_runtime": 486.5591,
      "eval_samples_per_second": 262.192,
      "eval_steps_per_second": 8.194,
      "step": 23000
    },
    {
      "epoch": 1.4485483162977362,
      "grad_norm": 126.27979278564453,
      "learning_rate": 1.4179309864306991e-05,
      "loss": 1.1331,
      "step": 23100
    },
    {
      "epoch": 1.4485483162977362,
      "eval_loss": 1.2035988569259644,
      "eval_runtime": 490.9417,
      "eval_samples_per_second": 259.852,
      "eval_steps_per_second": 8.121,
      "step": 23100
    },
    {
      "epoch": 1.4548190882297611,
      "grad_norm": 0.48294782638549805,
      "learning_rate": 1.4144472121095996e-05,
      "loss": 1.1008,
      "step": 23200
    },
    {
      "epoch": 1.4548190882297611,
      "eval_loss": 1.1685419082641602,
      "eval_runtime": 485.6527,
      "eval_samples_per_second": 262.682,
      "eval_steps_per_second": 8.21,
      "step": 23200
    },
    {
      "epoch": 1.4610898601617859,
      "grad_norm": 6.466658115386963,
      "learning_rate": 1.4109634377885002e-05,
      "loss": 1.1487,
      "step": 23300
    },
    {
      "epoch": 1.4610898601617859,
      "eval_loss": 1.1274471282958984,
      "eval_runtime": 496.8021,
      "eval_samples_per_second": 256.786,
      "eval_steps_per_second": 8.025,
      "step": 23300
    },
    {
      "epoch": 1.4673606320938108,
      "grad_norm": 18.893667221069336,
      "learning_rate": 1.4074796634674007e-05,
      "loss": 0.7753,
      "step": 23400
    },
    {
      "epoch": 1.4673606320938108,
      "eval_loss": 1.1737704277038574,
      "eval_runtime": 486.0352,
      "eval_samples_per_second": 262.475,
      "eval_steps_per_second": 8.203,
      "step": 23400
    },
    {
      "epoch": 1.4736314040258356,
      "grad_norm": 19.157712936401367,
      "learning_rate": 1.4039958891463013e-05,
      "loss": 1.3236,
      "step": 23500
    },
    {
      "epoch": 1.4736314040258356,
      "eval_loss": 1.2376619577407837,
      "eval_runtime": 488.4737,
      "eval_samples_per_second": 261.164,
      "eval_steps_per_second": 8.162,
      "step": 23500
    },
    {
      "epoch": 1.4799021759578603,
      "grad_norm": 9.691899299621582,
      "learning_rate": 1.4005121148252016e-05,
      "loss": 0.919,
      "step": 23600
    },
    {
      "epoch": 1.4799021759578603,
      "eval_loss": 1.2018409967422485,
      "eval_runtime": 493.2156,
      "eval_samples_per_second": 258.654,
      "eval_steps_per_second": 8.084,
      "step": 23600
    },
    {
      "epoch": 1.4861729478898853,
      "grad_norm": 98.8059310913086,
      "learning_rate": 1.3970283405041022e-05,
      "loss": 0.8516,
      "step": 23700
    },
    {
      "epoch": 1.4861729478898853,
      "eval_loss": 1.2296911478042603,
      "eval_runtime": 499.0547,
      "eval_samples_per_second": 255.627,
      "eval_steps_per_second": 7.989,
      "step": 23700
    },
    {
      "epoch": 1.49244371982191,
      "grad_norm": 22.1707706451416,
      "learning_rate": 1.3935445661830027e-05,
      "loss": 1.092,
      "step": 23800
    },
    {
      "epoch": 1.49244371982191,
      "eval_loss": 1.1629080772399902,
      "eval_runtime": 493.4212,
      "eval_samples_per_second": 258.546,
      "eval_steps_per_second": 8.08,
      "step": 23800
    },
    {
      "epoch": 1.498714491753935,
      "grad_norm": 0.31641775369644165,
      "learning_rate": 1.3900607918619033e-05,
      "loss": 0.673,
      "step": 23900
    },
    {
      "epoch": 1.498714491753935,
      "eval_loss": 1.2161920070648193,
      "eval_runtime": 495.1904,
      "eval_samples_per_second": 257.622,
      "eval_steps_per_second": 8.051,
      "step": 23900
    },
    {
      "epoch": 1.5049852636859598,
      "grad_norm": 0.4521692097187042,
      "learning_rate": 1.3865770175408038e-05,
      "loss": 0.994,
      "step": 24000
    },
    {
      "epoch": 1.5049852636859598,
      "eval_loss": 1.1778312921524048,
      "eval_runtime": 494.7958,
      "eval_samples_per_second": 257.828,
      "eval_steps_per_second": 8.058,
      "step": 24000
    },
    {
      "epoch": 1.5112560356179845,
      "grad_norm": 1.2718249559402466,
      "learning_rate": 1.3830932432197044e-05,
      "loss": 0.8766,
      "step": 24100
    },
    {
      "epoch": 1.5112560356179845,
      "eval_loss": 1.1902062892913818,
      "eval_runtime": 498.2478,
      "eval_samples_per_second": 256.041,
      "eval_steps_per_second": 8.002,
      "step": 24100
    },
    {
      "epoch": 1.5175268075500095,
      "grad_norm": 78.13153076171875,
      "learning_rate": 1.3796094688986047e-05,
      "loss": 1.3818,
      "step": 24200
    },
    {
      "epoch": 1.5175268075500095,
      "eval_loss": 1.1638315916061401,
      "eval_runtime": 475.6768,
      "eval_samples_per_second": 268.191,
      "eval_steps_per_second": 8.382,
      "step": 24200
    },
    {
      "epoch": 1.5237975794820342,
      "grad_norm": 11.799439430236816,
      "learning_rate": 1.3761256945775054e-05,
      "loss": 1.1215,
      "step": 24300
    },
    {
      "epoch": 1.5237975794820342,
      "eval_loss": 1.1665599346160889,
      "eval_runtime": 493.9156,
      "eval_samples_per_second": 258.287,
      "eval_steps_per_second": 8.072,
      "step": 24300
    },
    {
      "epoch": 1.5300683514140592,
      "grad_norm": 0.15210537612438202,
      "learning_rate": 1.3726419202564058e-05,
      "loss": 0.8485,
      "step": 24400
    },
    {
      "epoch": 1.5300683514140592,
      "eval_loss": 1.190748929977417,
      "eval_runtime": 489.6338,
      "eval_samples_per_second": 260.546,
      "eval_steps_per_second": 8.143,
      "step": 24400
    },
    {
      "epoch": 1.536339123346084,
      "grad_norm": 111.32445526123047,
      "learning_rate": 1.3691581459353065e-05,
      "loss": 1.1033,
      "step": 24500
    },
    {
      "epoch": 1.536339123346084,
      "eval_loss": 1.2317506074905396,
      "eval_runtime": 495.4364,
      "eval_samples_per_second": 257.494,
      "eval_steps_per_second": 8.047,
      "step": 24500
    },
    {
      "epoch": 1.5426098952781087,
      "grad_norm": 4.906432151794434,
      "learning_rate": 1.365674371614207e-05,
      "loss": 0.9001,
      "step": 24600
    },
    {
      "epoch": 1.5426098952781087,
      "eval_loss": 1.2112876176834106,
      "eval_runtime": 501.1743,
      "eval_samples_per_second": 254.546,
      "eval_steps_per_second": 7.955,
      "step": 24600
    },
    {
      "epoch": 1.5488806672101336,
      "grad_norm": 3.4020934104919434,
      "learning_rate": 1.3622254350363184e-05,
      "loss": 1.3256,
      "step": 24700
    },
    {
      "epoch": 1.5488806672101336,
      "eval_loss": 1.23091721534729,
      "eval_runtime": 488.223,
      "eval_samples_per_second": 261.299,
      "eval_steps_per_second": 8.166,
      "step": 24700
    },
    {
      "epoch": 1.5551514391421584,
      "grad_norm": 172.33592224121094,
      "learning_rate": 1.358741660715219e-05,
      "loss": 0.8162,
      "step": 24800
    },
    {
      "epoch": 1.5551514391421584,
      "eval_loss": 1.213860273361206,
      "eval_runtime": 492.7571,
      "eval_samples_per_second": 258.894,
      "eval_steps_per_second": 8.091,
      "step": 24800
    },
    {
      "epoch": 1.5614222110741833,
      "grad_norm": 1.1643731594085693,
      "learning_rate": 1.3552578863941195e-05,
      "loss": 0.5741,
      "step": 24900
    },
    {
      "epoch": 1.5614222110741833,
      "eval_loss": 1.237512469291687,
      "eval_runtime": 506.8194,
      "eval_samples_per_second": 251.711,
      "eval_steps_per_second": 7.867,
      "step": 24900
    },
    {
      "epoch": 1.567692983006208,
      "grad_norm": 106.2492446899414,
      "learning_rate": 1.3517741120730201e-05,
      "loss": 0.883,
      "step": 25000
    },
    {
      "epoch": 1.567692983006208,
      "eval_loss": 1.203902244567871,
      "eval_runtime": 495.5543,
      "eval_samples_per_second": 257.433,
      "eval_steps_per_second": 8.046,
      "step": 25000
    },
    {
      "epoch": 1.5739637549382328,
      "grad_norm": 24.915504455566406,
      "learning_rate": 1.3482903377519206e-05,
      "loss": 1.1212,
      "step": 25100
    },
    {
      "epoch": 1.5739637549382328,
      "eval_loss": 1.1428111791610718,
      "eval_runtime": 489.9866,
      "eval_samples_per_second": 260.358,
      "eval_steps_per_second": 8.137,
      "step": 25100
    },
    {
      "epoch": 1.5802345268702578,
      "grad_norm": 0.43622246384620667,
      "learning_rate": 1.3448065634308212e-05,
      "loss": 0.8229,
      "step": 25200
    },
    {
      "epoch": 1.5802345268702578,
      "eval_loss": 1.2338348627090454,
      "eval_runtime": 488.67,
      "eval_samples_per_second": 261.06,
      "eval_steps_per_second": 8.159,
      "step": 25200
    },
    {
      "epoch": 1.5865052988022825,
      "grad_norm": 76.21497344970703,
      "learning_rate": 1.3413227891097215e-05,
      "loss": 0.8856,
      "step": 25300
    },
    {
      "epoch": 1.5865052988022825,
      "eval_loss": 1.146145224571228,
      "eval_runtime": 504.1995,
      "eval_samples_per_second": 253.019,
      "eval_steps_per_second": 7.908,
      "step": 25300
    },
    {
      "epoch": 1.5927760707343075,
      "grad_norm": 114.51611328125,
      "learning_rate": 1.337839014788622e-05,
      "loss": 1.2323,
      "step": 25400
    },
    {
      "epoch": 1.5927760707343075,
      "eval_loss": 1.1568622589111328,
      "eval_runtime": 492.991,
      "eval_samples_per_second": 258.771,
      "eval_steps_per_second": 8.087,
      "step": 25400
    },
    {
      "epoch": 1.5990468426663322,
      "grad_norm": 3.8696110248565674,
      "learning_rate": 1.3343552404675226e-05,
      "loss": 0.9724,
      "step": 25500
    },
    {
      "epoch": 1.5990468426663322,
      "eval_loss": 1.1549348831176758,
      "eval_runtime": 499.5621,
      "eval_samples_per_second": 255.368,
      "eval_steps_per_second": 7.981,
      "step": 25500
    },
    {
      "epoch": 1.605317614598357,
      "grad_norm": 1.6167796850204468,
      "learning_rate": 1.330871466146423e-05,
      "loss": 1.0791,
      "step": 25600
    },
    {
      "epoch": 1.605317614598357,
      "eval_loss": 1.1160709857940674,
      "eval_runtime": 484.6001,
      "eval_samples_per_second": 263.252,
      "eval_steps_per_second": 8.227,
      "step": 25600
    },
    {
      "epoch": 1.611588386530382,
      "grad_norm": 138.8144073486328,
      "learning_rate": 1.3273876918253237e-05,
      "loss": 0.9845,
      "step": 25700
    },
    {
      "epoch": 1.611588386530382,
      "eval_loss": 1.1060998439788818,
      "eval_runtime": 496.5423,
      "eval_samples_per_second": 256.921,
      "eval_steps_per_second": 8.03,
      "step": 25700
    },
    {
      "epoch": 1.6178591584624067,
      "grad_norm": 4.400548934936523,
      "learning_rate": 1.3239039175042242e-05,
      "loss": 1.1591,
      "step": 25800
    },
    {
      "epoch": 1.6178591584624067,
      "eval_loss": 1.110283613204956,
      "eval_runtime": 486.9154,
      "eval_samples_per_second": 262.0,
      "eval_steps_per_second": 8.188,
      "step": 25800
    },
    {
      "epoch": 1.6241299303944317,
      "grad_norm": 239.38189697265625,
      "learning_rate": 1.3204201431831248e-05,
      "loss": 1.116,
      "step": 25900
    },
    {
      "epoch": 1.6241299303944317,
      "eval_loss": 1.1404825448989868,
      "eval_runtime": 492.7605,
      "eval_samples_per_second": 258.892,
      "eval_steps_per_second": 8.091,
      "step": 25900
    },
    {
      "epoch": 1.6304007023264564,
      "grad_norm": 232.2500457763672,
      "learning_rate": 1.3169363688620251e-05,
      "loss": 1.2221,
      "step": 26000
    },
    {
      "epoch": 1.6304007023264564,
      "eval_loss": 1.1528397798538208,
      "eval_runtime": 487.3414,
      "eval_samples_per_second": 261.771,
      "eval_steps_per_second": 8.181,
      "step": 26000
    },
    {
      "epoch": 1.6366714742584811,
      "grad_norm": 5.894351959228516,
      "learning_rate": 1.3134525945409257e-05,
      "loss": 0.9085,
      "step": 26100
    },
    {
      "epoch": 1.6366714742584811,
      "eval_loss": 1.139626145362854,
      "eval_runtime": 480.0477,
      "eval_samples_per_second": 265.749,
      "eval_steps_per_second": 8.305,
      "step": 26100
    },
    {
      "epoch": 1.642942246190506,
      "grad_norm": 0.19382409751415253,
      "learning_rate": 1.3099688202198262e-05,
      "loss": 0.9543,
      "step": 26200
    },
    {
      "epoch": 1.642942246190506,
      "eval_loss": 1.195331335067749,
      "eval_runtime": 487.008,
      "eval_samples_per_second": 261.951,
      "eval_steps_per_second": 8.187,
      "step": 26200
    },
    {
      "epoch": 1.6492130181225308,
      "grad_norm": 240.2974090576172,
      "learning_rate": 1.3064850458987268e-05,
      "loss": 1.1855,
      "step": 26300
    },
    {
      "epoch": 1.6492130181225308,
      "eval_loss": 1.1792023181915283,
      "eval_runtime": 487.2539,
      "eval_samples_per_second": 261.818,
      "eval_steps_per_second": 8.183,
      "step": 26300
    },
    {
      "epoch": 1.6554837900545558,
      "grad_norm": 5.021773338317871,
      "learning_rate": 1.3030012715776273e-05,
      "loss": 1.0583,
      "step": 26400
    },
    {
      "epoch": 1.6554837900545558,
      "eval_loss": 1.1666100025177002,
      "eval_runtime": 490.5958,
      "eval_samples_per_second": 260.035,
      "eval_steps_per_second": 8.127,
      "step": 26400
    },
    {
      "epoch": 1.6617545619865806,
      "grad_norm": 0.47061604261398315,
      "learning_rate": 1.299517497256528e-05,
      "loss": 0.6583,
      "step": 26500
    },
    {
      "epoch": 1.6617545619865806,
      "eval_loss": 1.1151552200317383,
      "eval_runtime": 489.33,
      "eval_samples_per_second": 260.708,
      "eval_steps_per_second": 8.148,
      "step": 26500
    },
    {
      "epoch": 1.6680253339186053,
      "grad_norm": 0.7339816689491272,
      "learning_rate": 1.2960337229354282e-05,
      "loss": 1.3067,
      "step": 26600
    },
    {
      "epoch": 1.6680253339186053,
      "eval_loss": 1.0397262573242188,
      "eval_runtime": 490.7479,
      "eval_samples_per_second": 259.954,
      "eval_steps_per_second": 8.124,
      "step": 26600
    },
    {
      "epoch": 1.6742961058506303,
      "grad_norm": 0.43579697608947754,
      "learning_rate": 1.2925499486143289e-05,
      "loss": 1.5336,
      "step": 26700
    },
    {
      "epoch": 1.6742961058506303,
      "eval_loss": 1.1244205236434937,
      "eval_runtime": 504.0991,
      "eval_samples_per_second": 253.069,
      "eval_steps_per_second": 7.909,
      "step": 26700
    },
    {
      "epoch": 1.680566877782655,
      "grad_norm": 0.877700686454773,
      "learning_rate": 1.2890661742932293e-05,
      "loss": 0.614,
      "step": 26800
    },
    {
      "epoch": 1.680566877782655,
      "eval_loss": 1.1273393630981445,
      "eval_runtime": 490.8071,
      "eval_samples_per_second": 259.923,
      "eval_steps_per_second": 8.123,
      "step": 26800
    },
    {
      "epoch": 1.68683764971468,
      "grad_norm": 2.61261248588562,
      "learning_rate": 1.28558239997213e-05,
      "loss": 1.0336,
      "step": 26900
    },
    {
      "epoch": 1.68683764971468,
      "eval_loss": 1.067978024482727,
      "eval_runtime": 488.4991,
      "eval_samples_per_second": 261.151,
      "eval_steps_per_second": 8.162,
      "step": 26900
    },
    {
      "epoch": 1.6931084216467047,
      "grad_norm": 1.7996759414672852,
      "learning_rate": 1.2821334633942416e-05,
      "loss": 1.462,
      "step": 27000
    },
    {
      "epoch": 1.6931084216467047,
      "eval_loss": 1.0983270406723022,
      "eval_runtime": 497.9625,
      "eval_samples_per_second": 256.188,
      "eval_steps_per_second": 8.007,
      "step": 27000
    },
    {
      "epoch": 1.6993791935787295,
      "grad_norm": 0.4661722183227539,
      "learning_rate": 1.2786496890731419e-05,
      "loss": 0.8858,
      "step": 27100
    },
    {
      "epoch": 1.6993791935787295,
      "eval_loss": 1.0672377347946167,
      "eval_runtime": 488.5627,
      "eval_samples_per_second": 261.117,
      "eval_steps_per_second": 8.161,
      "step": 27100
    },
    {
      "epoch": 1.7056499655107544,
      "grad_norm": 131.8981475830078,
      "learning_rate": 1.2751659147520425e-05,
      "loss": 0.7494,
      "step": 27200
    },
    {
      "epoch": 1.7056499655107544,
      "eval_loss": 1.1623871326446533,
      "eval_runtime": 489.2152,
      "eval_samples_per_second": 260.769,
      "eval_steps_per_second": 8.15,
      "step": 27200
    },
    {
      "epoch": 1.7119207374427792,
      "grad_norm": 1.5505995750427246,
      "learning_rate": 1.271682140430943e-05,
      "loss": 0.8152,
      "step": 27300
    },
    {
      "epoch": 1.7119207374427792,
      "eval_loss": 1.0928338766098022,
      "eval_runtime": 485.3945,
      "eval_samples_per_second": 262.821,
      "eval_steps_per_second": 8.214,
      "step": 27300
    },
    {
      "epoch": 1.7181915093748041,
      "grad_norm": 0.11606509238481522,
      "learning_rate": 1.2681983661098436e-05,
      "loss": 0.7785,
      "step": 27400
    },
    {
      "epoch": 1.7181915093748041,
      "eval_loss": 1.0952435731887817,
      "eval_runtime": 490.1873,
      "eval_samples_per_second": 260.252,
      "eval_steps_per_second": 8.134,
      "step": 27400
    },
    {
      "epoch": 1.7244622813068289,
      "grad_norm": 60.00815963745117,
      "learning_rate": 1.264714591788744e-05,
      "loss": 1.0471,
      "step": 27500
    },
    {
      "epoch": 1.7244622813068289,
      "eval_loss": 1.0999162197113037,
      "eval_runtime": 472.8514,
      "eval_samples_per_second": 269.793,
      "eval_steps_per_second": 8.432,
      "step": 27500
    },
    {
      "epoch": 1.7307330532388536,
      "grad_norm": 0.18325106799602509,
      "learning_rate": 1.2612308174676447e-05,
      "loss": 1.0994,
      "step": 27600
    },
    {
      "epoch": 1.7307330532388536,
      "eval_loss": 0.9880152344703674,
      "eval_runtime": 489.527,
      "eval_samples_per_second": 260.603,
      "eval_steps_per_second": 8.145,
      "step": 27600
    },
    {
      "epoch": 1.7370038251708786,
      "grad_norm": 33.887603759765625,
      "learning_rate": 1.257747043146545e-05,
      "loss": 1.0706,
      "step": 27700
    },
    {
      "epoch": 1.7370038251708786,
      "eval_loss": 1.0416243076324463,
      "eval_runtime": 486.6381,
      "eval_samples_per_second": 262.15,
      "eval_steps_per_second": 8.193,
      "step": 27700
    },
    {
      "epoch": 1.7432745971029033,
      "grad_norm": 122.05184936523438,
      "learning_rate": 1.2542632688254456e-05,
      "loss": 1.1158,
      "step": 27800
    },
    {
      "epoch": 1.7432745971029033,
      "eval_loss": 1.0675890445709229,
      "eval_runtime": 488.3694,
      "eval_samples_per_second": 261.22,
      "eval_steps_per_second": 8.164,
      "step": 27800
    },
    {
      "epoch": 1.7495453690349283,
      "grad_norm": 3.5680992603302,
      "learning_rate": 1.2507794945043461e-05,
      "loss": 0.9893,
      "step": 27900
    },
    {
      "epoch": 1.7495453690349283,
      "eval_loss": 1.0288848876953125,
      "eval_runtime": 487.5059,
      "eval_samples_per_second": 261.683,
      "eval_steps_per_second": 8.178,
      "step": 27900
    },
    {
      "epoch": 1.755816140966953,
      "grad_norm": 0.61468905210495,
      "learning_rate": 1.2472957201832467e-05,
      "loss": 1.2939,
      "step": 28000
    },
    {
      "epoch": 1.755816140966953,
      "eval_loss": 1.0149768590927124,
      "eval_runtime": 496.1264,
      "eval_samples_per_second": 257.136,
      "eval_steps_per_second": 8.036,
      "step": 28000
    },
    {
      "epoch": 1.7620869128989778,
      "grad_norm": 0.23548483848571777,
      "learning_rate": 1.2438119458621472e-05,
      "loss": 0.9543,
      "step": 28100
    },
    {
      "epoch": 1.7620869128989778,
      "eval_loss": 1.076741099357605,
      "eval_runtime": 494.571,
      "eval_samples_per_second": 257.945,
      "eval_steps_per_second": 8.062,
      "step": 28100
    },
    {
      "epoch": 1.7683576848310028,
      "grad_norm": 0.04505012556910515,
      "learning_rate": 1.2403281715410475e-05,
      "loss": 0.7907,
      "step": 28200
    },
    {
      "epoch": 1.7683576848310028,
      "eval_loss": 1.071725845336914,
      "eval_runtime": 498.1358,
      "eval_samples_per_second": 256.099,
      "eval_steps_per_second": 8.004,
      "step": 28200
    },
    {
      "epoch": 1.7746284567630275,
      "grad_norm": 0.3665514886379242,
      "learning_rate": 1.2368443972199481e-05,
      "loss": 0.92,
      "step": 28300
    },
    {
      "epoch": 1.7746284567630275,
      "eval_loss": 1.1132545471191406,
      "eval_runtime": 494.9621,
      "eval_samples_per_second": 257.741,
      "eval_steps_per_second": 8.055,
      "step": 28300
    },
    {
      "epoch": 1.7808992286950525,
      "grad_norm": 2.6903622150421143,
      "learning_rate": 1.2333606228988486e-05,
      "loss": 0.8636,
      "step": 28400
    },
    {
      "epoch": 1.7808992286950525,
      "eval_loss": 1.070193886756897,
      "eval_runtime": 487.101,
      "eval_samples_per_second": 261.901,
      "eval_steps_per_second": 8.185,
      "step": 28400
    },
    {
      "epoch": 1.7871700006270772,
      "grad_norm": 246.5596923828125,
      "learning_rate": 1.2298768485777492e-05,
      "loss": 0.9118,
      "step": 28500
    },
    {
      "epoch": 1.7871700006270772,
      "eval_loss": 1.0536377429962158,
      "eval_runtime": 500.9429,
      "eval_samples_per_second": 254.664,
      "eval_steps_per_second": 7.959,
      "step": 28500
    },
    {
      "epoch": 1.793440772559102,
      "grad_norm": 15.87330150604248,
      "learning_rate": 1.2263930742566497e-05,
      "loss": 1.2643,
      "step": 28600
    },
    {
      "epoch": 1.793440772559102,
      "eval_loss": 1.135445237159729,
      "eval_runtime": 491.8209,
      "eval_samples_per_second": 259.387,
      "eval_steps_per_second": 8.107,
      "step": 28600
    },
    {
      "epoch": 1.7997115444911267,
      "grad_norm": 0.04285774007439613,
      "learning_rate": 1.2229092999355503e-05,
      "loss": 0.8284,
      "step": 28700
    },
    {
      "epoch": 1.7997115444911267,
      "eval_loss": 1.0714679956436157,
      "eval_runtime": 491.3195,
      "eval_samples_per_second": 259.652,
      "eval_steps_per_second": 8.115,
      "step": 28700
    },
    {
      "epoch": 1.8059823164231517,
      "grad_norm": 50.862327575683594,
      "learning_rate": 1.2194255256144508e-05,
      "loss": 0.8447,
      "step": 28800
    },
    {
      "epoch": 1.8059823164231517,
      "eval_loss": 1.0457782745361328,
      "eval_runtime": 497.4392,
      "eval_samples_per_second": 256.457,
      "eval_steps_per_second": 8.015,
      "step": 28800
    },
    {
      "epoch": 1.8122530883551766,
      "grad_norm": 1.507433295249939,
      "learning_rate": 1.2159417512933514e-05,
      "loss": 1.2102,
      "step": 28900
    },
    {
      "epoch": 1.8122530883551766,
      "eval_loss": 1.1000713109970093,
      "eval_runtime": 492.3678,
      "eval_samples_per_second": 259.099,
      "eval_steps_per_second": 8.098,
      "step": 28900
    },
    {
      "epoch": 1.8185238602872014,
      "grad_norm": 182.16946411132812,
      "learning_rate": 1.2124579769722517e-05,
      "loss": 1.1042,
      "step": 29000
    },
    {
      "epoch": 1.8185238602872014,
      "eval_loss": 1.0364127159118652,
      "eval_runtime": 493.1395,
      "eval_samples_per_second": 258.694,
      "eval_steps_per_second": 8.085,
      "step": 29000
    },
    {
      "epoch": 1.824794632219226,
      "grad_norm": 84.75048065185547,
      "learning_rate": 1.2089742026511523e-05,
      "loss": 0.9638,
      "step": 29100
    },
    {
      "epoch": 1.824794632219226,
      "eval_loss": 1.0946918725967407,
      "eval_runtime": 494.4031,
      "eval_samples_per_second": 258.032,
      "eval_steps_per_second": 8.064,
      "step": 29100
    },
    {
      "epoch": 1.8310654041512509,
      "grad_norm": 0.5844135284423828,
      "learning_rate": 1.2054904283300528e-05,
      "loss": 0.6847,
      "step": 29200
    },
    {
      "epoch": 1.8310654041512509,
      "eval_loss": 1.0311741828918457,
      "eval_runtime": 481.6292,
      "eval_samples_per_second": 264.876,
      "eval_steps_per_second": 8.278,
      "step": 29200
    },
    {
      "epoch": 1.8373361760832758,
      "grad_norm": 21.12558364868164,
      "learning_rate": 1.2020066540089534e-05,
      "loss": 1.7671,
      "step": 29300
    },
    {
      "epoch": 1.8373361760832758,
      "eval_loss": 1.0470467805862427,
      "eval_runtime": 494.9594,
      "eval_samples_per_second": 257.742,
      "eval_steps_per_second": 8.055,
      "step": 29300
    },
    {
      "epoch": 1.8436069480153008,
      "grad_norm": 7.0535407066345215,
      "learning_rate": 1.1985228796878539e-05,
      "loss": 0.7525,
      "step": 29400
    },
    {
      "epoch": 1.8436069480153008,
      "eval_loss": 1.1158130168914795,
      "eval_runtime": 492.3408,
      "eval_samples_per_second": 259.113,
      "eval_steps_per_second": 8.098,
      "step": 29400
    },
    {
      "epoch": 1.8498777199473255,
      "grad_norm": 0.11249526590108871,
      "learning_rate": 1.1950391053667545e-05,
      "loss": 1.2843,
      "step": 29500
    },
    {
      "epoch": 1.8498777199473255,
      "eval_loss": 1.0139508247375488,
      "eval_runtime": 483.0492,
      "eval_samples_per_second": 264.097,
      "eval_steps_per_second": 8.254,
      "step": 29500
    },
    {
      "epoch": 1.8561484918793503,
      "grad_norm": 72.12831115722656,
      "learning_rate": 1.191590168788866e-05,
      "loss": 0.6844,
      "step": 29600
    },
    {
      "epoch": 1.8561484918793503,
      "eval_loss": 1.1603798866271973,
      "eval_runtime": 491.4897,
      "eval_samples_per_second": 259.562,
      "eval_steps_per_second": 8.112,
      "step": 29600
    },
    {
      "epoch": 1.862419263811375,
      "grad_norm": 21.705537796020508,
      "learning_rate": 1.1881063944677665e-05,
      "loss": 1.2824,
      "step": 29700
    },
    {
      "epoch": 1.862419263811375,
      "eval_loss": 1.0052319765090942,
      "eval_runtime": 487.7473,
      "eval_samples_per_second": 261.553,
      "eval_steps_per_second": 8.174,
      "step": 29700
    },
    {
      "epoch": 1.8686900357434,
      "grad_norm": 1.3453004360198975,
      "learning_rate": 1.1846226201466671e-05,
      "loss": 1.314,
      "step": 29800
    },
    {
      "epoch": 1.8686900357434,
      "eval_loss": 1.0322686433792114,
      "eval_runtime": 480.0979,
      "eval_samples_per_second": 265.721,
      "eval_steps_per_second": 8.305,
      "step": 29800
    },
    {
      "epoch": 1.874960807675425,
      "grad_norm": 5.6963677406311035,
      "learning_rate": 1.1811388458255676e-05,
      "loss": 1.0796,
      "step": 29900
    },
    {
      "epoch": 1.874960807675425,
      "eval_loss": 1.0885429382324219,
      "eval_runtime": 483.9557,
      "eval_samples_per_second": 263.603,
      "eval_steps_per_second": 8.238,
      "step": 29900
    },
    {
      "epoch": 1.8812315796074497,
      "grad_norm": 0.3642306923866272,
      "learning_rate": 1.1776550715044682e-05,
      "loss": 1.0012,
      "step": 30000
    },
    {
      "epoch": 1.8812315796074497,
      "eval_loss": 1.0266896486282349,
      "eval_runtime": 498.6153,
      "eval_samples_per_second": 255.853,
      "eval_steps_per_second": 7.996,
      "step": 30000
    },
    {
      "epoch": 1.8875023515394744,
      "grad_norm": 45.68118667602539,
      "learning_rate": 1.1741712971833685e-05,
      "loss": 1.4932,
      "step": 30100
    },
    {
      "epoch": 1.8875023515394744,
      "eval_loss": 1.0438352823257446,
      "eval_runtime": 479.3134,
      "eval_samples_per_second": 266.156,
      "eval_steps_per_second": 8.318,
      "step": 30100
    },
    {
      "epoch": 1.8937731234714992,
      "grad_norm": 159.10227966308594,
      "learning_rate": 1.1706875228622691e-05,
      "loss": 1.0404,
      "step": 30200
    },
    {
      "epoch": 1.8937731234714992,
      "eval_loss": 1.0162733793258667,
      "eval_runtime": 484.5198,
      "eval_samples_per_second": 263.296,
      "eval_steps_per_second": 8.229,
      "step": 30200
    },
    {
      "epoch": 1.9000438954035241,
      "grad_norm": 9.165184020996094,
      "learning_rate": 1.1672037485411696e-05,
      "loss": 0.614,
      "step": 30300
    },
    {
      "epoch": 1.9000438954035241,
      "eval_loss": 1.0366989374160767,
      "eval_runtime": 494.4949,
      "eval_samples_per_second": 257.984,
      "eval_steps_per_second": 8.063,
      "step": 30300
    },
    {
      "epoch": 1.906314667335549,
      "grad_norm": 93.2901840209961,
      "learning_rate": 1.1637199742200702e-05,
      "loss": 1.2676,
      "step": 30400
    },
    {
      "epoch": 1.906314667335549,
      "eval_loss": 1.080250859260559,
      "eval_runtime": 506.0169,
      "eval_samples_per_second": 252.11,
      "eval_steps_per_second": 7.879,
      "step": 30400
    },
    {
      "epoch": 1.9125854392675739,
      "grad_norm": 22.93528938293457,
      "learning_rate": 1.1602361998989707e-05,
      "loss": 1.2431,
      "step": 30500
    },
    {
      "epoch": 1.9125854392675739,
      "eval_loss": 1.042752742767334,
      "eval_runtime": 482.2307,
      "eval_samples_per_second": 264.546,
      "eval_steps_per_second": 8.268,
      "step": 30500
    },
    {
      "epoch": 1.9188562111995986,
      "grad_norm": 44.19611358642578,
      "learning_rate": 1.1567524255778713e-05,
      "loss": 1.4063,
      "step": 30600
    },
    {
      "epoch": 1.9188562111995986,
      "eval_loss": 1.0318702459335327,
      "eval_runtime": 482.0351,
      "eval_samples_per_second": 264.653,
      "eval_steps_per_second": 8.271,
      "step": 30600
    },
    {
      "epoch": 1.9251269831316233,
      "grad_norm": 0.21961411833763123,
      "learning_rate": 1.1532686512567716e-05,
      "loss": 0.7787,
      "step": 30700
    },
    {
      "epoch": 1.9251269831316233,
      "eval_loss": 0.9666246175765991,
      "eval_runtime": 497.4003,
      "eval_samples_per_second": 256.478,
      "eval_steps_per_second": 8.016,
      "step": 30700
    },
    {
      "epoch": 1.9313977550636483,
      "grad_norm": 5.579217910766602,
      "learning_rate": 1.1497848769356722e-05,
      "loss": 1.0311,
      "step": 30800
    },
    {
      "epoch": 1.9313977550636483,
      "eval_loss": 1.0375796556472778,
      "eval_runtime": 496.1027,
      "eval_samples_per_second": 257.148,
      "eval_steps_per_second": 8.037,
      "step": 30800
    },
    {
      "epoch": 1.9376685269956733,
      "grad_norm": 0.01572820357978344,
      "learning_rate": 1.1463011026145727e-05,
      "loss": 1.0353,
      "step": 30900
    },
    {
      "epoch": 1.9376685269956733,
      "eval_loss": 0.9868729114532471,
      "eval_runtime": 491.6277,
      "eval_samples_per_second": 259.489,
      "eval_steps_per_second": 8.11,
      "step": 30900
    },
    {
      "epoch": 1.943939298927698,
      "grad_norm": 1.0484445095062256,
      "learning_rate": 1.1428173282934732e-05,
      "loss": 1.2221,
      "step": 31000
    },
    {
      "epoch": 1.943939298927698,
      "eval_loss": 0.968561589717865,
      "eval_runtime": 499.708,
      "eval_samples_per_second": 255.293,
      "eval_steps_per_second": 7.979,
      "step": 31000
    },
    {
      "epoch": 1.9502100708597228,
      "grad_norm": 123.73536682128906,
      "learning_rate": 1.1393335539723738e-05,
      "loss": 0.5806,
      "step": 31100
    },
    {
      "epoch": 1.9502100708597228,
      "eval_loss": 0.9662685394287109,
      "eval_runtime": 496.0179,
      "eval_samples_per_second": 257.192,
      "eval_steps_per_second": 8.038,
      "step": 31100
    },
    {
      "epoch": 1.9564808427917475,
      "grad_norm": 265.9390869140625,
      "learning_rate": 1.1358497796512741e-05,
      "loss": 0.6919,
      "step": 31200
    },
    {
      "epoch": 1.9564808427917475,
      "eval_loss": 0.9837759733200073,
      "eval_runtime": 481.0273,
      "eval_samples_per_second": 265.207,
      "eval_steps_per_second": 8.289,
      "step": 31200
    },
    {
      "epoch": 1.9627516147237725,
      "grad_norm": 1.0015980005264282,
      "learning_rate": 1.1323660053301749e-05,
      "loss": 0.8028,
      "step": 31300
    },
    {
      "epoch": 1.9627516147237725,
      "eval_loss": 0.9759084582328796,
      "eval_runtime": 487.9887,
      "eval_samples_per_second": 261.424,
      "eval_steps_per_second": 8.17,
      "step": 31300
    },
    {
      "epoch": 1.9690223866557974,
      "grad_norm": 31.675607681274414,
      "learning_rate": 1.1288822310090752e-05,
      "loss": 0.8365,
      "step": 31400
    },
    {
      "epoch": 1.9690223866557974,
      "eval_loss": 0.9640862345695496,
      "eval_runtime": 496.5309,
      "eval_samples_per_second": 256.927,
      "eval_steps_per_second": 8.03,
      "step": 31400
    },
    {
      "epoch": 1.9752931585878222,
      "grad_norm": 1.1243913173675537,
      "learning_rate": 1.1253984566879758e-05,
      "loss": 0.7518,
      "step": 31500
    },
    {
      "epoch": 1.9752931585878222,
      "eval_loss": 1.008094310760498,
      "eval_runtime": 499.5695,
      "eval_samples_per_second": 255.364,
      "eval_steps_per_second": 7.981,
      "step": 31500
    },
    {
      "epoch": 1.981563930519847,
      "grad_norm": 216.04434204101562,
      "learning_rate": 1.1219495201100875e-05,
      "loss": 1.0654,
      "step": 31600
    },
    {
      "epoch": 1.981563930519847,
      "eval_loss": 0.9843435287475586,
      "eval_runtime": 480.8256,
      "eval_samples_per_second": 265.319,
      "eval_steps_per_second": 8.292,
      "step": 31600
    },
    {
      "epoch": 1.9878347024518717,
      "grad_norm": 0.3936084806919098,
      "learning_rate": 1.1184657457889878e-05,
      "loss": 0.8637,
      "step": 31700
    },
    {
      "epoch": 1.9878347024518717,
      "eval_loss": 0.963536262512207,
      "eval_runtime": 481.4757,
      "eval_samples_per_second": 264.96,
      "eval_steps_per_second": 8.281,
      "step": 31700
    },
    {
      "epoch": 1.9941054743838966,
      "grad_norm": 8.97900104522705,
      "learning_rate": 1.1149819714678884e-05,
      "loss": 0.8663,
      "step": 31800
    },
    {
      "epoch": 1.9941054743838966,
      "eval_loss": 0.9537881016731262,
      "eval_runtime": 488.2812,
      "eval_samples_per_second": 261.268,
      "eval_steps_per_second": 8.165,
      "step": 31800
    },
    {
      "epoch": 2.0003762463159216,
      "grad_norm": 0.23352281749248505,
      "learning_rate": 1.1114981971467889e-05,
      "loss": 0.8524,
      "step": 31900
    },
    {
      "epoch": 2.0003762463159216,
      "eval_loss": 0.9627546072006226,
      "eval_runtime": 476.3461,
      "eval_samples_per_second": 267.814,
      "eval_steps_per_second": 8.37,
      "step": 31900
    },
    {
      "epoch": 2.0066470182479463,
      "grad_norm": 10.038532257080078,
      "learning_rate": 1.1080144228256895e-05,
      "loss": 1.2748,
      "step": 32000
    },
    {
      "epoch": 2.0066470182479463,
      "eval_loss": 0.9381898641586304,
      "eval_runtime": 483.6522,
      "eval_samples_per_second": 263.768,
      "eval_steps_per_second": 8.244,
      "step": 32000
    },
    {
      "epoch": 2.012917790179971,
      "grad_norm": 3.102550745010376,
      "learning_rate": 1.10453064850459e-05,
      "loss": 0.8138,
      "step": 32100
    },
    {
      "epoch": 2.012917790179971,
      "eval_loss": 0.9460862874984741,
      "eval_runtime": 486.1122,
      "eval_samples_per_second": 262.433,
      "eval_steps_per_second": 8.202,
      "step": 32100
    },
    {
      "epoch": 2.019188562111996,
      "grad_norm": 5.872899532318115,
      "learning_rate": 1.1010468741834906e-05,
      "loss": 0.4484,
      "step": 32200
    },
    {
      "epoch": 2.019188562111996,
      "eval_loss": 0.9221316576004028,
      "eval_runtime": 489.5035,
      "eval_samples_per_second": 260.615,
      "eval_steps_per_second": 8.145,
      "step": 32200
    },
    {
      "epoch": 2.025459334044021,
      "grad_norm": 70.84674072265625,
      "learning_rate": 1.0975630998623909e-05,
      "loss": 0.8839,
      "step": 32300
    },
    {
      "epoch": 2.025459334044021,
      "eval_loss": 0.9566515684127808,
      "eval_runtime": 497.3551,
      "eval_samples_per_second": 256.501,
      "eval_steps_per_second": 8.016,
      "step": 32300
    },
    {
      "epoch": 2.0317301059760458,
      "grad_norm": 20.528474807739258,
      "learning_rate": 1.0940793255412915e-05,
      "loss": 0.7599,
      "step": 32400
    },
    {
      "epoch": 2.0317301059760458,
      "eval_loss": 0.9439575672149658,
      "eval_runtime": 475.9709,
      "eval_samples_per_second": 268.025,
      "eval_steps_per_second": 8.377,
      "step": 32400
    },
    {
      "epoch": 2.0380008779080705,
      "grad_norm": 0.2569330930709839,
      "learning_rate": 1.090595551220192e-05,
      "loss": 0.8665,
      "step": 32500
    },
    {
      "epoch": 2.0380008779080705,
      "eval_loss": 0.9651756882667542,
      "eval_runtime": 476.2761,
      "eval_samples_per_second": 267.853,
      "eval_steps_per_second": 8.371,
      "step": 32500
    },
    {
      "epoch": 2.0442716498400952,
      "grad_norm": 160.0611572265625,
      "learning_rate": 1.0871117768990926e-05,
      "loss": 0.5802,
      "step": 32600
    },
    {
      "epoch": 2.0442716498400952,
      "eval_loss": 0.9474946856498718,
      "eval_runtime": 498.1214,
      "eval_samples_per_second": 256.106,
      "eval_steps_per_second": 8.004,
      "step": 32600
    },
    {
      "epoch": 2.05054242177212,
      "grad_norm": 13.137542724609375,
      "learning_rate": 1.083628002577993e-05,
      "loss": 0.7731,
      "step": 32700
    },
    {
      "epoch": 2.05054242177212,
      "eval_loss": 0.9197245240211487,
      "eval_runtime": 471.6865,
      "eval_samples_per_second": 270.459,
      "eval_steps_per_second": 8.453,
      "step": 32700
    },
    {
      "epoch": 2.056813193704145,
      "grad_norm": 4.745016574859619,
      "learning_rate": 1.0801442282568937e-05,
      "loss": 0.7913,
      "step": 32800
    },
    {
      "epoch": 2.056813193704145,
      "eval_loss": 1.002418875694275,
      "eval_runtime": 444.3682,
      "eval_samples_per_second": 287.086,
      "eval_steps_per_second": 8.972,
      "step": 32800
    },
    {
      "epoch": 2.06308396563617,
      "grad_norm": 273.15252685546875,
      "learning_rate": 1.0766604539357942e-05,
      "loss": 0.7758,
      "step": 32900
    },
    {
      "epoch": 2.06308396563617,
      "eval_loss": 0.9257067441940308,
      "eval_runtime": 479.6839,
      "eval_samples_per_second": 265.95,
      "eval_steps_per_second": 8.312,
      "step": 32900
    },
    {
      "epoch": 2.0693547375681947,
      "grad_norm": 0.2749234437942505,
      "learning_rate": 1.0731766796146948e-05,
      "loss": 0.7468,
      "step": 33000
    },
    {
      "epoch": 2.0693547375681947,
      "eval_loss": 0.9662745594978333,
      "eval_runtime": 482.8123,
      "eval_samples_per_second": 264.227,
      "eval_steps_per_second": 8.258,
      "step": 33000
    },
    {
      "epoch": 2.0756255095002194,
      "grad_norm": 2.7121362686157227,
      "learning_rate": 1.0696929052935951e-05,
      "loss": 0.9947,
      "step": 33100
    },
    {
      "epoch": 2.0756255095002194,
      "eval_loss": 0.9788134098052979,
      "eval_runtime": 488.227,
      "eval_samples_per_second": 261.296,
      "eval_steps_per_second": 8.166,
      "step": 33100
    },
    {
      "epoch": 2.081896281432244,
      "grad_norm": 0.2543056905269623,
      "learning_rate": 1.0662091309724957e-05,
      "loss": 0.5618,
      "step": 33200
    },
    {
      "epoch": 2.081896281432244,
      "eval_loss": 0.948021650314331,
      "eval_runtime": 491.5864,
      "eval_samples_per_second": 259.511,
      "eval_steps_per_second": 8.11,
      "step": 33200
    },
    {
      "epoch": 2.0881670533642693,
      "grad_norm": 0.034537989646196365,
      "learning_rate": 1.0627253566513962e-05,
      "loss": 0.8805,
      "step": 33300
    },
    {
      "epoch": 2.0881670533642693,
      "eval_loss": 0.9520492553710938,
      "eval_runtime": 482.9571,
      "eval_samples_per_second": 264.148,
      "eval_steps_per_second": 8.255,
      "step": 33300
    },
    {
      "epoch": 2.094437825296294,
      "grad_norm": 4.662662982940674,
      "learning_rate": 1.0592415823302968e-05,
      "loss": 0.9755,
      "step": 33400
    },
    {
      "epoch": 2.094437825296294,
      "eval_loss": 0.9288346767425537,
      "eval_runtime": 495.4516,
      "eval_samples_per_second": 257.486,
      "eval_steps_per_second": 8.047,
      "step": 33400
    },
    {
      "epoch": 2.100708597228319,
      "grad_norm": 64.40668487548828,
      "learning_rate": 1.0557578080091973e-05,
      "loss": 0.8942,
      "step": 33500
    },
    {
      "epoch": 2.100708597228319,
      "eval_loss": 0.9233998656272888,
      "eval_runtime": 486.5273,
      "eval_samples_per_second": 262.209,
      "eval_steps_per_second": 8.195,
      "step": 33500
    },
    {
      "epoch": 2.1069793691603436,
      "grad_norm": 2.1412320137023926,
      "learning_rate": 1.0522740336880976e-05,
      "loss": 0.7242,
      "step": 33600
    },
    {
      "epoch": 2.1069793691603436,
      "eval_loss": 0.9412585496902466,
      "eval_runtime": 481.4435,
      "eval_samples_per_second": 264.978,
      "eval_steps_per_second": 8.281,
      "step": 33600
    },
    {
      "epoch": 2.1132501410923683,
      "grad_norm": 5.01767635345459,
      "learning_rate": 1.0487902593669982e-05,
      "loss": 0.6231,
      "step": 33700
    },
    {
      "epoch": 2.1132501410923683,
      "eval_loss": 0.9660213589668274,
      "eval_runtime": 480.6062,
      "eval_samples_per_second": 265.44,
      "eval_steps_per_second": 8.296,
      "step": 33700
    },
    {
      "epoch": 2.1195209130243935,
      "grad_norm": 0.02841496281325817,
      "learning_rate": 1.0453064850458987e-05,
      "loss": 0.7144,
      "step": 33800
    },
    {
      "epoch": 2.1195209130243935,
      "eval_loss": 0.8900822997093201,
      "eval_runtime": 506.9048,
      "eval_samples_per_second": 251.669,
      "eval_steps_per_second": 7.865,
      "step": 33800
    },
    {
      "epoch": 2.1257916849564182,
      "grad_norm": 14.184029579162598,
      "learning_rate": 1.0418227107247993e-05,
      "loss": 0.7139,
      "step": 33900
    },
    {
      "epoch": 2.1257916849564182,
      "eval_loss": 0.9535605907440186,
      "eval_runtime": 467.6722,
      "eval_samples_per_second": 272.781,
      "eval_steps_per_second": 8.525,
      "step": 33900
    },
    {
      "epoch": 2.132062456888443,
      "grad_norm": 247.51730346679688,
      "learning_rate": 1.0383389364036998e-05,
      "loss": 0.6378,
      "step": 34000
    },
    {
      "epoch": 2.132062456888443,
      "eval_loss": 0.9369811415672302,
      "eval_runtime": 467.3096,
      "eval_samples_per_second": 272.992,
      "eval_steps_per_second": 8.532,
      "step": 34000
    },
    {
      "epoch": 2.1383332288204677,
      "grad_norm": 0.265493243932724,
      "learning_rate": 1.0348551620826004e-05,
      "loss": 0.7607,
      "step": 34100
    },
    {
      "epoch": 2.1383332288204677,
      "eval_loss": 0.9209387898445129,
      "eval_runtime": 460.3387,
      "eval_samples_per_second": 277.126,
      "eval_steps_per_second": 8.661,
      "step": 34100
    },
    {
      "epoch": 2.1446040007524925,
      "grad_norm": 4.44495153427124,
      "learning_rate": 1.0313713877615009e-05,
      "loss": 0.8667,
      "step": 34200
    },
    {
      "epoch": 2.1446040007524925,
      "eval_loss": 0.9734475016593933,
      "eval_runtime": 472.3123,
      "eval_samples_per_second": 270.101,
      "eval_steps_per_second": 8.441,
      "step": 34200
    },
    {
      "epoch": 2.1508747726845177,
      "grad_norm": 1.1490778923034668,
      "learning_rate": 1.0278876134404015e-05,
      "loss": 0.8533,
      "step": 34300
    },
    {
      "epoch": 2.1508747726845177,
      "eval_loss": 0.9177405834197998,
      "eval_runtime": 481.8576,
      "eval_samples_per_second": 264.75,
      "eval_steps_per_second": 8.274,
      "step": 34300
    },
    {
      "epoch": 2.1571455446165424,
      "grad_norm": 6.377614498138428,
      "learning_rate": 1.0244038391193018e-05,
      "loss": 0.6395,
      "step": 34400
    },
    {
      "epoch": 2.1571455446165424,
      "eval_loss": 0.9285467863082886,
      "eval_runtime": 491.7764,
      "eval_samples_per_second": 259.411,
      "eval_steps_per_second": 8.107,
      "step": 34400
    },
    {
      "epoch": 2.163416316548567,
      "grad_norm": 63.10408401489258,
      "learning_rate": 1.0209200647982025e-05,
      "loss": 0.7377,
      "step": 34500
    },
    {
      "epoch": 2.163416316548567,
      "eval_loss": 0.9046958088874817,
      "eval_runtime": 472.1262,
      "eval_samples_per_second": 270.207,
      "eval_steps_per_second": 8.445,
      "step": 34500
    },
    {
      "epoch": 2.169687088480592,
      "grad_norm": 0.07853188365697861,
      "learning_rate": 1.017471128220314e-05,
      "loss": 0.7787,
      "step": 34600
    },
    {
      "epoch": 2.169687088480592,
      "eval_loss": 0.9967793822288513,
      "eval_runtime": 488.6457,
      "eval_samples_per_second": 261.073,
      "eval_steps_per_second": 8.159,
      "step": 34600
    },
    {
      "epoch": 2.1759578604126166,
      "grad_norm": 44.51852035522461,
      "learning_rate": 1.0139873538992144e-05,
      "loss": 0.6561,
      "step": 34700
    },
    {
      "epoch": 2.1759578604126166,
      "eval_loss": 0.9653065800666809,
      "eval_runtime": 480.7646,
      "eval_samples_per_second": 265.352,
      "eval_steps_per_second": 8.293,
      "step": 34700
    },
    {
      "epoch": 2.182228632344642,
      "grad_norm": 37.319366455078125,
      "learning_rate": 1.010503579578115e-05,
      "loss": 0.6169,
      "step": 34800
    },
    {
      "epoch": 2.182228632344642,
      "eval_loss": 0.9403988122940063,
      "eval_runtime": 467.6154,
      "eval_samples_per_second": 272.814,
      "eval_steps_per_second": 8.526,
      "step": 34800
    },
    {
      "epoch": 2.1884994042766666,
      "grad_norm": 0.24766607582569122,
      "learning_rate": 1.0070198052570155e-05,
      "loss": 0.7643,
      "step": 34900
    },
    {
      "epoch": 2.1884994042766666,
      "eval_loss": 0.9397174715995789,
      "eval_runtime": 492.9746,
      "eval_samples_per_second": 258.78,
      "eval_steps_per_second": 8.088,
      "step": 34900
    },
    {
      "epoch": 2.1947701762086913,
      "grad_norm": 1.6579983234405518,
      "learning_rate": 1.0035360309359161e-05,
      "loss": 0.998,
      "step": 35000
    },
    {
      "epoch": 2.1947701762086913,
      "eval_loss": 0.9152400493621826,
      "eval_runtime": 488.9266,
      "eval_samples_per_second": 260.923,
      "eval_steps_per_second": 8.155,
      "step": 35000
    },
    {
      "epoch": 2.201040948140716,
      "grad_norm": 14.633705139160156,
      "learning_rate": 1.0000522566148166e-05,
      "loss": 0.8246,
      "step": 35100
    },
    {
      "epoch": 2.201040948140716,
      "eval_loss": 0.9512937068939209,
      "eval_runtime": 497.3249,
      "eval_samples_per_second": 256.516,
      "eval_steps_per_second": 8.017,
      "step": 35100
    },
    {
      "epoch": 2.207311720072741,
      "grad_norm": 162.75132751464844,
      "learning_rate": 9.96568482293717e-06,
      "loss": 0.6655,
      "step": 35200
    },
    {
      "epoch": 2.207311720072741,
      "eval_loss": 0.9354454278945923,
      "eval_runtime": 479.342,
      "eval_samples_per_second": 266.14,
      "eval_steps_per_second": 8.318,
      "step": 35200
    },
    {
      "epoch": 2.213582492004766,
      "grad_norm": 0.0890607163310051,
      "learning_rate": 9.930847079726175e-06,
      "loss": 0.9279,
      "step": 35300
    },
    {
      "epoch": 2.213582492004766,
      "eval_loss": 0.9034134745597839,
      "eval_runtime": 495.8444,
      "eval_samples_per_second": 257.282,
      "eval_steps_per_second": 8.041,
      "step": 35300
    },
    {
      "epoch": 2.2198532639367907,
      "grad_norm": 12.482114791870117,
      "learning_rate": 9.896009336515181e-06,
      "loss": 0.4239,
      "step": 35400
    },
    {
      "epoch": 2.2198532639367907,
      "eval_loss": 0.9606735706329346,
      "eval_runtime": 472.1675,
      "eval_samples_per_second": 270.184,
      "eval_steps_per_second": 8.444,
      "step": 35400
    },
    {
      "epoch": 2.2261240358688155,
      "grad_norm": 193.45916748046875,
      "learning_rate": 9.861171593304186e-06,
      "loss": 1.0023,
      "step": 35500
    },
    {
      "epoch": 2.2261240358688155,
      "eval_loss": 0.8731982707977295,
      "eval_runtime": 502.841,
      "eval_samples_per_second": 253.702,
      "eval_steps_per_second": 7.929,
      "step": 35500
    },
    {
      "epoch": 2.23239480780084,
      "grad_norm": 25.368621826171875,
      "learning_rate": 9.826333850093192e-06,
      "loss": 0.7426,
      "step": 35600
    },
    {
      "epoch": 2.23239480780084,
      "eval_loss": 0.8882994651794434,
      "eval_runtime": 489.5037,
      "eval_samples_per_second": 260.615,
      "eval_steps_per_second": 8.145,
      "step": 35600
    },
    {
      "epoch": 2.238665579732865,
      "grad_norm": 6.321267127990723,
      "learning_rate": 9.791496106882197e-06,
      "loss": 0.8675,
      "step": 35700
    },
    {
      "epoch": 2.238665579732865,
      "eval_loss": 0.9296298027038574,
      "eval_runtime": 481.2287,
      "eval_samples_per_second": 265.096,
      "eval_steps_per_second": 8.285,
      "step": 35700
    },
    {
      "epoch": 2.24493635166489,
      "grad_norm": 0.16120706498622894,
      "learning_rate": 9.756658363671202e-06,
      "loss": 0.9226,
      "step": 35800
    },
    {
      "epoch": 2.24493635166489,
      "eval_loss": 0.9145704507827759,
      "eval_runtime": 507.1996,
      "eval_samples_per_second": 251.522,
      "eval_steps_per_second": 7.861,
      "step": 35800
    },
    {
      "epoch": 2.251207123596915,
      "grad_norm": 14.761024475097656,
      "learning_rate": 9.721820620460208e-06,
      "loss": 0.4944,
      "step": 35900
    },
    {
      "epoch": 2.251207123596915,
      "eval_loss": 0.9145201444625854,
      "eval_runtime": 480.7973,
      "eval_samples_per_second": 265.334,
      "eval_steps_per_second": 8.292,
      "step": 35900
    },
    {
      "epoch": 2.2574778955289396,
      "grad_norm": 15.988486289978027,
      "learning_rate": 9.686982877249213e-06,
      "loss": 0.9663,
      "step": 36000
    },
    {
      "epoch": 2.2574778955289396,
      "eval_loss": 0.8893073201179504,
      "eval_runtime": 466.9887,
      "eval_samples_per_second": 273.18,
      "eval_steps_per_second": 8.538,
      "step": 36000
    },
    {
      "epoch": 2.2637486674609644,
      "grad_norm": 8.232684135437012,
      "learning_rate": 9.652493511470327e-06,
      "loss": 0.6455,
      "step": 36100
    },
    {
      "epoch": 2.2637486674609644,
      "eval_loss": 0.9238069653511047,
      "eval_runtime": 471.8533,
      "eval_samples_per_second": 270.364,
      "eval_steps_per_second": 8.45,
      "step": 36100
    },
    {
      "epoch": 2.270019439392989,
      "grad_norm": 0.20196978747844696,
      "learning_rate": 9.617655768259333e-06,
      "loss": 0.9673,
      "step": 36200
    },
    {
      "epoch": 2.270019439392989,
      "eval_loss": 0.8942546248435974,
      "eval_runtime": 497.8096,
      "eval_samples_per_second": 256.267,
      "eval_steps_per_second": 8.009,
      "step": 36200
    },
    {
      "epoch": 2.2762902113250143,
      "grad_norm": 180.26956176757812,
      "learning_rate": 9.582818025048338e-06,
      "loss": 0.7974,
      "step": 36300
    },
    {
      "epoch": 2.2762902113250143,
      "eval_loss": 0.8620045185089111,
      "eval_runtime": 505.8787,
      "eval_samples_per_second": 252.179,
      "eval_steps_per_second": 7.881,
      "step": 36300
    },
    {
      "epoch": 2.282560983257039,
      "grad_norm": 118.34184265136719,
      "learning_rate": 9.547980281837343e-06,
      "loss": 0.9777,
      "step": 36400
    },
    {
      "epoch": 2.282560983257039,
      "eval_loss": 0.8812283873558044,
      "eval_runtime": 484.5263,
      "eval_samples_per_second": 263.292,
      "eval_steps_per_second": 8.229,
      "step": 36400
    },
    {
      "epoch": 2.288831755189064,
      "grad_norm": 1.6557927131652832,
      "learning_rate": 9.513142538626349e-06,
      "loss": 0.8741,
      "step": 36500
    },
    {
      "epoch": 2.288831755189064,
      "eval_loss": 0.8862267732620239,
      "eval_runtime": 499.5387,
      "eval_samples_per_second": 255.38,
      "eval_steps_per_second": 7.981,
      "step": 36500
    },
    {
      "epoch": 2.2951025271210885,
      "grad_norm": 0.09699351340532303,
      "learning_rate": 9.478304795415354e-06,
      "loss": 0.9642,
      "step": 36600
    },
    {
      "epoch": 2.2951025271210885,
      "eval_loss": 0.9157158732414246,
      "eval_runtime": 473.3855,
      "eval_samples_per_second": 269.489,
      "eval_steps_per_second": 8.422,
      "step": 36600
    },
    {
      "epoch": 2.3013732990531133,
      "grad_norm": 166.3496551513672,
      "learning_rate": 9.44346705220436e-06,
      "loss": 0.9225,
      "step": 36700
    },
    {
      "epoch": 2.3013732990531133,
      "eval_loss": 0.8784195780754089,
      "eval_runtime": 480.9986,
      "eval_samples_per_second": 265.223,
      "eval_steps_per_second": 8.289,
      "step": 36700
    },
    {
      "epoch": 2.3076440709851385,
      "grad_norm": 3.2308545112609863,
      "learning_rate": 9.408629308993365e-06,
      "loss": 0.6789,
      "step": 36800
    },
    {
      "epoch": 2.3076440709851385,
      "eval_loss": 0.9065931439399719,
      "eval_runtime": 486.2861,
      "eval_samples_per_second": 262.339,
      "eval_steps_per_second": 8.199,
      "step": 36800
    },
    {
      "epoch": 2.313914842917163,
      "grad_norm": 117.87212371826172,
      "learning_rate": 9.37379156578237e-06,
      "loss": 0.6726,
      "step": 36900
    },
    {
      "epoch": 2.313914842917163,
      "eval_loss": 0.9090869426727295,
      "eval_runtime": 479.1369,
      "eval_samples_per_second": 266.254,
      "eval_steps_per_second": 8.321,
      "step": 36900
    },
    {
      "epoch": 2.320185614849188,
      "grad_norm": 64.78949737548828,
      "learning_rate": 9.338953822571376e-06,
      "loss": 0.7326,
      "step": 37000
    },
    {
      "epoch": 2.320185614849188,
      "eval_loss": 0.9202622175216675,
      "eval_runtime": 484.0573,
      "eval_samples_per_second": 263.547,
      "eval_steps_per_second": 8.237,
      "step": 37000
    },
    {
      "epoch": 2.3264563867812127,
      "grad_norm": 259.2130126953125,
      "learning_rate": 9.30411607936038e-06,
      "loss": 1.007,
      "step": 37100
    },
    {
      "epoch": 2.3264563867812127,
      "eval_loss": 0.9124699234962463,
      "eval_runtime": 494.1141,
      "eval_samples_per_second": 258.183,
      "eval_steps_per_second": 8.069,
      "step": 37100
    },
    {
      "epoch": 2.3327271587132374,
      "grad_norm": 3.8969433307647705,
      "learning_rate": 9.269278336149385e-06,
      "loss": 0.6134,
      "step": 37200
    },
    {
      "epoch": 2.3327271587132374,
      "eval_loss": 0.8837085366249084,
      "eval_runtime": 473.1604,
      "eval_samples_per_second": 269.617,
      "eval_steps_per_second": 8.426,
      "step": 37200
    },
    {
      "epoch": 2.3389979306452626,
      "grad_norm": 0.8037031292915344,
      "learning_rate": 9.234440592938391e-06,
      "loss": 0.9051,
      "step": 37300
    },
    {
      "epoch": 2.3389979306452626,
      "eval_loss": 0.8945268392562866,
      "eval_runtime": 488.4927,
      "eval_samples_per_second": 261.154,
      "eval_steps_per_second": 8.162,
      "step": 37300
    },
    {
      "epoch": 2.3452687025772874,
      "grad_norm": 70.98564910888672,
      "learning_rate": 9.199602849727396e-06,
      "loss": 0.837,
      "step": 37400
    },
    {
      "epoch": 2.3452687025772874,
      "eval_loss": 0.8740183711051941,
      "eval_runtime": 492.9522,
      "eval_samples_per_second": 258.792,
      "eval_steps_per_second": 8.088,
      "step": 37400
    },
    {
      "epoch": 2.351539474509312,
      "grad_norm": 1.006698489189148,
      "learning_rate": 9.1647651065164e-06,
      "loss": 0.7615,
      "step": 37500
    },
    {
      "epoch": 2.351539474509312,
      "eval_loss": 0.916473388671875,
      "eval_runtime": 499.2162,
      "eval_samples_per_second": 255.545,
      "eval_steps_per_second": 7.987,
      "step": 37500
    },
    {
      "epoch": 2.357810246441337,
      "grad_norm": 0.15957336127758026,
      "learning_rate": 9.129927363305405e-06,
      "loss": 0.8304,
      "step": 37600
    },
    {
      "epoch": 2.357810246441337,
      "eval_loss": 0.9107189774513245,
      "eval_runtime": 494.2784,
      "eval_samples_per_second": 258.097,
      "eval_steps_per_second": 8.066,
      "step": 37600
    },
    {
      "epoch": 2.3640810183733616,
      "grad_norm": 0.21330799162387848,
      "learning_rate": 9.09508962009441e-06,
      "loss": 0.6255,
      "step": 37700
    },
    {
      "epoch": 2.3640810183733616,
      "eval_loss": 0.8891344666481018,
      "eval_runtime": 489.2061,
      "eval_samples_per_second": 260.774,
      "eval_steps_per_second": 8.15,
      "step": 37700
    },
    {
      "epoch": 2.370351790305387,
      "grad_norm": 1.2431716918945312,
      "learning_rate": 9.060251876883416e-06,
      "loss": 0.6775,
      "step": 37800
    },
    {
      "epoch": 2.370351790305387,
      "eval_loss": 0.8907997608184814,
      "eval_runtime": 497.9968,
      "eval_samples_per_second": 256.17,
      "eval_steps_per_second": 8.006,
      "step": 37800
    },
    {
      "epoch": 2.3766225622374115,
      "grad_norm": 0.6021884679794312,
      "learning_rate": 9.025414133672421e-06,
      "loss": 0.7159,
      "step": 37900
    },
    {
      "epoch": 2.3766225622374115,
      "eval_loss": 0.8589950203895569,
      "eval_runtime": 499.2581,
      "eval_samples_per_second": 255.523,
      "eval_steps_per_second": 7.986,
      "step": 37900
    },
    {
      "epoch": 2.3828933341694363,
      "grad_norm": 0.35575389862060547,
      "learning_rate": 8.990576390461425e-06,
      "loss": 0.6422,
      "step": 38000
    },
    {
      "epoch": 2.3828933341694363,
      "eval_loss": 0.8558962941169739,
      "eval_runtime": 493.9361,
      "eval_samples_per_second": 258.276,
      "eval_steps_per_second": 8.072,
      "step": 38000
    },
    {
      "epoch": 2.389164106101461,
      "grad_norm": 0.1820683479309082,
      "learning_rate": 8.955738647250432e-06,
      "loss": 0.7773,
      "step": 38100
    },
    {
      "epoch": 2.389164106101461,
      "eval_loss": 0.8600557446479797,
      "eval_runtime": 493.6945,
      "eval_samples_per_second": 258.403,
      "eval_steps_per_second": 8.076,
      "step": 38100
    },
    {
      "epoch": 2.3954348780334858,
      "grad_norm": 0.02349485270678997,
      "learning_rate": 8.920900904039436e-06,
      "loss": 0.5457,
      "step": 38200
    },
    {
      "epoch": 2.3954348780334858,
      "eval_loss": 0.8856033086776733,
      "eval_runtime": 499.9609,
      "eval_samples_per_second": 255.164,
      "eval_steps_per_second": 7.975,
      "step": 38200
    },
    {
      "epoch": 2.401705649965511,
      "grad_norm": 38.077266693115234,
      "learning_rate": 8.886063160828443e-06,
      "loss": 0.4997,
      "step": 38300
    },
    {
      "epoch": 2.401705649965511,
      "eval_loss": 0.8785237669944763,
      "eval_runtime": 503.5878,
      "eval_samples_per_second": 253.326,
      "eval_steps_per_second": 7.917,
      "step": 38300
    },
    {
      "epoch": 2.4079764218975357,
      "grad_norm": 100.00057983398438,
      "learning_rate": 8.851225417617447e-06,
      "loss": 0.6319,
      "step": 38400
    },
    {
      "epoch": 2.4079764218975357,
      "eval_loss": 0.885017454624176,
      "eval_runtime": 496.4876,
      "eval_samples_per_second": 256.949,
      "eval_steps_per_second": 8.03,
      "step": 38400
    },
    {
      "epoch": 2.4142471938295604,
      "grad_norm": 71.8719253540039,
      "learning_rate": 8.816387674406452e-06,
      "loss": 0.7096,
      "step": 38500
    },
    {
      "epoch": 2.4142471938295604,
      "eval_loss": 0.823376476764679,
      "eval_runtime": 500.2741,
      "eval_samples_per_second": 255.004,
      "eval_steps_per_second": 7.97,
      "step": 38500
    }
  ],
  "logging_steps": 100,
  "max_steps": 63788,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 0.0,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}