{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 116.47855530474041,
  "global_step": 774000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.68,
      "learning_rate": 4.988713318284425e-05,
      "loss": 6.9537,
      "step": 4500
    },
    {
      "epoch": 0.68,
      "eval_loss": 6.797055244445801,
      "eval_runtime": 118.7849,
      "eval_samples_per_second": 103.456,
      "eval_steps_per_second": 6.474,
      "step": 4500
    },
    {
      "epoch": 1.35,
      "learning_rate": 4.9774266365688486e-05,
      "loss": 6.6451,
      "step": 9000
    },
    {
      "epoch": 1.35,
      "eval_loss": 6.689827919006348,
      "eval_runtime": 118.3538,
      "eval_samples_per_second": 103.833,
      "eval_steps_per_second": 6.497,
      "step": 9000
    },
    {
      "epoch": 2.03,
      "learning_rate": 4.966139954853273e-05,
      "loss": 6.5518,
      "step": 13500
    },
    {
      "epoch": 2.03,
      "eval_loss": 6.630918979644775,
      "eval_runtime": 118.3302,
      "eval_samples_per_second": 103.853,
      "eval_steps_per_second": 6.499,
      "step": 13500
    },
    {
      "epoch": 2.71,
      "learning_rate": 4.954853273137698e-05,
      "loss": 6.4713,
      "step": 18000
    },
    {
      "epoch": 2.71,
      "eval_loss": 6.497533798217773,
      "eval_runtime": 118.3323,
      "eval_samples_per_second": 103.852,
      "eval_steps_per_second": 6.499,
      "step": 18000
    },
    {
      "epoch": 3.39,
      "learning_rate": 4.9435665914221216e-05,
      "loss": 6.0827,
      "step": 22500
    },
    {
      "epoch": 3.39,
      "eval_loss": 5.684892654418945,
      "eval_runtime": 118.3572,
      "eval_samples_per_second": 103.83,
      "eval_steps_per_second": 6.497,
      "step": 22500
    },
    {
      "epoch": 4.06,
      "learning_rate": 4.932279909706546e-05,
      "loss": 5.0663,
      "step": 27000
    },
    {
      "epoch": 4.06,
      "eval_loss": 4.617100715637207,
      "eval_runtime": 118.3432,
      "eval_samples_per_second": 103.842,
      "eval_steps_per_second": 6.498,
      "step": 27000
    },
    {
      "epoch": 4.74,
      "learning_rate": 4.920993227990971e-05,
      "loss": 4.3025,
      "step": 31500
    },
    {
      "epoch": 4.74,
      "eval_loss": 4.159748077392578,
      "eval_runtime": 118.3398,
      "eval_samples_per_second": 103.845,
      "eval_steps_per_second": 6.498,
      "step": 31500
    },
    {
      "epoch": 5.42,
      "learning_rate": 4.909706546275395e-05,
      "loss": 3.9214,
      "step": 36000
    },
    {
      "epoch": 5.42,
      "eval_loss": 3.8544375896453857,
      "eval_runtime": 118.3517,
      "eval_samples_per_second": 103.835,
      "eval_steps_per_second": 6.498,
      "step": 36000
    },
    {
      "epoch": 6.09,
      "learning_rate": 4.89841986455982e-05,
      "loss": 3.6779,
      "step": 40500
    },
    {
      "epoch": 6.09,
      "eval_loss": 3.664363384246826,
      "eval_runtime": 118.2895,
      "eval_samples_per_second": 103.889,
      "eval_steps_per_second": 6.501,
      "step": 40500
    },
    {
      "epoch": 6.77,
      "learning_rate": 4.887133182844244e-05,
      "loss": 3.502,
      "step": 45000
    },
    {
      "epoch": 6.77,
      "eval_loss": 3.5141005516052246,
      "eval_runtime": 118.2983,
      "eval_samples_per_second": 103.881,
      "eval_steps_per_second": 6.501,
      "step": 45000
    },
    {
      "epoch": 7.45,
      "learning_rate": 4.875846501128669e-05,
      "loss": 3.366,
      "step": 49500
    },
    {
      "epoch": 7.45,
      "eval_loss": 3.4036142826080322,
      "eval_runtime": 118.3098,
      "eval_samples_per_second": 103.871,
      "eval_steps_per_second": 6.5,
      "step": 49500
    },
    {
      "epoch": 8.13,
      "learning_rate": 4.864559819413093e-05,
      "loss": 3.2695,
      "step": 54000
    },
    {
      "epoch": 8.13,
      "eval_loss": 3.321831226348877,
      "eval_runtime": 118.3723,
      "eval_samples_per_second": 103.817,
      "eval_steps_per_second": 6.496,
      "step": 54000
    },
    {
      "epoch": 8.8,
      "learning_rate": 4.853273137697517e-05,
      "loss": 3.1758,
      "step": 58500
    },
    {
      "epoch": 8.8,
      "eval_loss": 3.2432045936584473,
      "eval_runtime": 118.355,
      "eval_samples_per_second": 103.832,
      "eval_steps_per_second": 6.497,
      "step": 58500
    },
    {
      "epoch": 9.48,
      "learning_rate": 4.841986455981942e-05,
      "loss": 3.1008,
      "step": 63000
    },
    {
      "epoch": 9.48,
      "eval_loss": 3.186511754989624,
      "eval_runtime": 118.3602,
      "eval_samples_per_second": 103.827,
      "eval_steps_per_second": 6.497,
      "step": 63000
    },
    {
      "epoch": 10.16,
      "learning_rate": 4.830699774266366e-05,
      "loss": 3.0354,
      "step": 67500
    },
    {
      "epoch": 10.16,
      "eval_loss": 3.115652561187744,
      "eval_runtime": 118.3431,
      "eval_samples_per_second": 103.842,
      "eval_steps_per_second": 6.498,
      "step": 67500
    },
    {
      "epoch": 10.84,
      "learning_rate": 4.81941309255079e-05,
      "loss": 2.9798,
      "step": 72000
    },
    {
      "epoch": 10.84,
      "eval_loss": 3.0752041339874268,
      "eval_runtime": 118.2033,
      "eval_samples_per_second": 103.965,
      "eval_steps_per_second": 6.506,
      "step": 72000
    },
    {
      "epoch": 11.51,
      "learning_rate": 4.808126410835215e-05,
      "loss": 2.9252,
      "step": 76500
    },
    {
      "epoch": 11.51,
      "eval_loss": 3.028315305709839,
      "eval_runtime": 118.2129,
      "eval_samples_per_second": 103.956,
      "eval_steps_per_second": 6.505,
      "step": 76500
    },
    {
      "epoch": 12.19,
      "learning_rate": 4.796839729119639e-05,
      "loss": 2.881,
      "step": 81000
    },
    {
      "epoch": 12.19,
      "eval_loss": 2.9871439933776855,
      "eval_runtime": 118.1982,
      "eval_samples_per_second": 103.969,
      "eval_steps_per_second": 6.506,
      "step": 81000
    },
    {
      "epoch": 12.87,
      "learning_rate": 4.785553047404063e-05,
      "loss": 2.8366,
      "step": 85500
    },
    {
      "epoch": 12.87,
      "eval_loss": 2.9422881603240967,
      "eval_runtime": 118.1796,
      "eval_samples_per_second": 103.986,
      "eval_steps_per_second": 6.507,
      "step": 85500
    },
    {
      "epoch": 13.54,
      "learning_rate": 4.774266365688488e-05,
      "loss": 2.7917,
      "step": 90000
    },
    {
      "epoch": 13.54,
      "eval_loss": 2.9027907848358154,
      "eval_runtime": 118.1933,
      "eval_samples_per_second": 103.974,
      "eval_steps_per_second": 6.506,
      "step": 90000
    },
    {
      "epoch": 14.22,
      "learning_rate": 4.762979683972912e-05,
      "loss": 2.7592,
      "step": 94500
    },
    {
      "epoch": 14.22,
      "eval_loss": 2.8720462322235107,
      "eval_runtime": 118.2133,
      "eval_samples_per_second": 103.956,
      "eval_steps_per_second": 6.505,
      "step": 94500
    },
    {
      "epoch": 14.9,
      "learning_rate": 4.751693002257336e-05,
      "loss": 2.7278,
      "step": 99000
    },
    {
      "epoch": 14.9,
      "eval_loss": 2.8500328063964844,
      "eval_runtime": 118.2044,
      "eval_samples_per_second": 103.964,
      "eval_steps_per_second": 6.506,
      "step": 99000
    },
    {
      "epoch": 15.58,
      "learning_rate": 4.740406320541761e-05,
      "loss": 2.693,
      "step": 103500
    },
    {
      "epoch": 15.58,
      "eval_loss": 2.817178249359131,
      "eval_runtime": 118.1867,
      "eval_samples_per_second": 103.98,
      "eval_steps_per_second": 6.507,
      "step": 103500
    },
    {
      "epoch": 16.25,
      "learning_rate": 4.729119638826185e-05,
      "loss": 2.6645,
      "step": 108000
    },
    {
      "epoch": 16.25,
      "eval_loss": 2.786304235458374,
      "eval_runtime": 118.2219,
      "eval_samples_per_second": 103.949,
      "eval_steps_per_second": 6.505,
      "step": 108000
    },
    {
      "epoch": 16.93,
      "learning_rate": 4.71783295711061e-05,
      "loss": 2.6361,
      "step": 112500
    },
    {
      "epoch": 16.93,
      "eval_loss": 2.770569324493408,
      "eval_runtime": 118.2234,
      "eval_samples_per_second": 103.947,
      "eval_steps_per_second": 6.505,
      "step": 112500
    },
    {
      "epoch": 17.61,
      "learning_rate": 4.706546275395034e-05,
      "loss": 2.6083,
      "step": 117000
    },
    {
      "epoch": 17.61,
      "eval_loss": 2.7391059398651123,
      "eval_runtime": 118.2576,
      "eval_samples_per_second": 103.917,
      "eval_steps_per_second": 6.503,
      "step": 117000
    },
    {
      "epoch": 18.28,
      "learning_rate": 4.695259593679459e-05,
      "loss": 2.5847,
      "step": 121500
    },
    {
      "epoch": 18.28,
      "eval_loss": 2.718665838241577,
      "eval_runtime": 118.2124,
      "eval_samples_per_second": 103.957,
      "eval_steps_per_second": 6.505,
      "step": 121500
    },
    {
      "epoch": 18.96,
      "learning_rate": 4.6839729119638834e-05,
      "loss": 2.5619,
      "step": 126000
    },
    {
      "epoch": 18.96,
      "eval_loss": 2.7032158374786377,
      "eval_runtime": 118.2283,
      "eval_samples_per_second": 103.943,
      "eval_steps_per_second": 6.504,
      "step": 126000
    },
    {
      "epoch": 19.64,
      "learning_rate": 4.672686230248307e-05,
      "loss": 2.5368,
      "step": 130500
    },
    {
      "epoch": 19.64,
      "eval_loss": 2.6911468505859375,
      "eval_runtime": 118.3184,
      "eval_samples_per_second": 103.864,
      "eval_steps_per_second": 6.499,
      "step": 130500
    },
    {
      "epoch": 20.32,
      "learning_rate": 4.661399548532732e-05,
      "loss": 2.5203,
      "step": 135000
    },
    {
      "epoch": 20.32,
      "eval_loss": 2.666966676712036,
      "eval_runtime": 118.3095,
      "eval_samples_per_second": 103.872,
      "eval_steps_per_second": 6.5,
      "step": 135000
    },
    {
      "epoch": 20.99,
      "learning_rate": 4.6501128668171564e-05,
      "loss": 2.4997,
      "step": 139500
    },
    {
      "epoch": 20.99,
      "eval_loss": 2.6472320556640625,
      "eval_runtime": 118.1415,
      "eval_samples_per_second": 104.019,
      "eval_steps_per_second": 6.509,
      "step": 139500
    },
    {
      "epoch": 21.67,
      "learning_rate": 4.63882618510158e-05,
      "loss": 2.4755,
      "step": 144000
    },
    {
      "epoch": 21.67,
      "eval_loss": 2.6281678676605225,
      "eval_runtime": 118.147,
      "eval_samples_per_second": 104.014,
      "eval_steps_per_second": 6.509,
      "step": 144000
    },
    {
      "epoch": 22.35,
      "learning_rate": 4.627539503386005e-05,
      "loss": 2.4593,
      "step": 148500
    },
    {
      "epoch": 22.35,
      "eval_loss": 2.6077518463134766,
      "eval_runtime": 118.4066,
      "eval_samples_per_second": 103.786,
      "eval_steps_per_second": 6.495,
      "step": 148500
    },
    {
      "epoch": 23.02,
      "learning_rate": 4.616252821670429e-05,
      "loss": 2.4468,
      "step": 153000
    },
    {
      "epoch": 23.02,
      "eval_loss": 2.60119366645813,
      "eval_runtime": 118.2017,
      "eval_samples_per_second": 103.966,
      "eval_steps_per_second": 6.506,
      "step": 153000
    },
    {
      "epoch": 23.7,
      "learning_rate": 4.604966139954853e-05,
      "loss": 2.4243,
      "step": 157500
    },
    {
      "epoch": 23.7,
      "eval_loss": 2.583709239959717,
      "eval_runtime": 118.0992,
      "eval_samples_per_second": 104.057,
      "eval_steps_per_second": 6.511,
      "step": 157500
    },
    {
      "epoch": 24.38,
      "learning_rate": 4.593679458239278e-05,
      "loss": 2.4093,
      "step": 162000
    },
    {
      "epoch": 24.38,
      "eval_loss": 2.5716421604156494,
      "eval_runtime": 118.1155,
      "eval_samples_per_second": 104.042,
      "eval_steps_per_second": 6.511,
      "step": 162000
    },
    {
      "epoch": 25.06,
      "learning_rate": 4.582392776523702e-05,
      "loss": 2.396,
      "step": 166500
    },
    {
      "epoch": 25.06,
      "eval_loss": 2.561039686203003,
      "eval_runtime": 118.1545,
      "eval_samples_per_second": 104.008,
      "eval_steps_per_second": 6.508,
      "step": 166500
    },
    {
      "epoch": 25.73,
      "learning_rate": 4.571106094808127e-05,
      "loss": 2.3764,
      "step": 171000
    },
    {
      "epoch": 25.73,
      "eval_loss": 2.543470859527588,
      "eval_runtime": 118.1796,
      "eval_samples_per_second": 103.986,
      "eval_steps_per_second": 6.507,
      "step": 171000
    },
    {
      "epoch": 26.41,
      "learning_rate": 4.559819413092551e-05,
      "loss": 2.3623,
      "step": 175500
    },
    {
      "epoch": 26.41,
      "eval_loss": 2.5341155529022217,
      "eval_runtime": 118.1214,
      "eval_samples_per_second": 104.037,
      "eval_steps_per_second": 6.51,
      "step": 175500
    },
    {
      "epoch": 27.09,
      "learning_rate": 4.548532731376975e-05,
      "loss": 2.3529,
      "step": 180000
    },
    {
      "epoch": 27.09,
      "eval_loss": 2.5200819969177246,
      "eval_runtime": 118.324,
      "eval_samples_per_second": 103.859,
      "eval_steps_per_second": 6.499,
      "step": 180000
    },
    {
      "epoch": 27.77,
      "learning_rate": 4.5372460496614e-05,
      "loss": 2.3393,
      "step": 184500
    },
    {
      "epoch": 27.77,
      "eval_loss": 2.5085155963897705,
      "eval_runtime": 118.3431,
      "eval_samples_per_second": 103.842,
      "eval_steps_per_second": 6.498,
      "step": 184500
    },
    {
      "epoch": 28.44,
      "learning_rate": 4.525959367945824e-05,
      "loss": 2.3247,
      "step": 189000
    },
    {
      "epoch": 28.44,
      "eval_loss": 2.5002756118774414,
      "eval_runtime": 118.3427,
      "eval_samples_per_second": 103.842,
      "eval_steps_per_second": 6.498,
      "step": 189000
    },
    {
      "epoch": 29.12,
      "learning_rate": 4.514672686230249e-05,
      "loss": 2.3127,
      "step": 193500
    },
    {
      "epoch": 29.12,
      "eval_loss": 2.4838666915893555,
      "eval_runtime": 118.3361,
      "eval_samples_per_second": 103.848,
      "eval_steps_per_second": 6.498,
      "step": 193500
    },
    {
      "epoch": 29.8,
      "learning_rate": 4.5033860045146734e-05,
      "loss": 2.3006,
      "step": 198000
    },
    {
      "epoch": 29.8,
      "eval_loss": 2.480976104736328,
      "eval_runtime": 118.3346,
      "eval_samples_per_second": 103.85,
      "eval_steps_per_second": 6.499,
      "step": 198000
    },
    {
      "epoch": 30.47,
      "learning_rate": 4.492099322799097e-05,
      "loss": 2.2896,
      "step": 202500
    },
    {
      "epoch": 30.47,
      "eval_loss": 2.4641942977905273,
      "eval_runtime": 118.3398,
      "eval_samples_per_second": 103.845,
      "eval_steps_per_second": 6.498,
      "step": 202500
    },
    {
      "epoch": 31.15,
      "learning_rate": 4.480812641083522e-05,
      "loss": 2.2789,
      "step": 207000
    },
    {
      "epoch": 31.15,
      "eval_loss": 2.4657058715820312,
      "eval_runtime": 118.3281,
      "eval_samples_per_second": 103.855,
      "eval_steps_per_second": 6.499,
      "step": 207000
    },
    {
      "epoch": 31.83,
      "learning_rate": 4.4695259593679463e-05,
      "loss": 2.2665,
      "step": 211500
    },
    {
      "epoch": 31.83,
      "eval_loss": 2.4447216987609863,
      "eval_runtime": 118.3432,
      "eval_samples_per_second": 103.842,
      "eval_steps_per_second": 6.498,
      "step": 211500
    },
    {
      "epoch": 32.51,
      "learning_rate": 4.45823927765237e-05,
      "loss": 2.2545,
      "step": 216000
    },
    {
      "epoch": 32.51,
      "eval_loss": 2.4484477043151855,
      "eval_runtime": 118.3442,
      "eval_samples_per_second": 103.841,
      "eval_steps_per_second": 6.498,
      "step": 216000
    },
    {
      "epoch": 33.18,
      "learning_rate": 4.446952595936795e-05,
      "loss": 2.2446,
      "step": 220500
    },
    {
      "epoch": 33.18,
      "eval_loss": 2.4324302673339844,
      "eval_runtime": 118.3492,
      "eval_samples_per_second": 103.837,
      "eval_steps_per_second": 6.498,
      "step": 220500
    },
    {
      "epoch": 33.86,
      "learning_rate": 4.435665914221219e-05,
      "loss": 2.2352,
      "step": 225000
    },
    {
      "epoch": 33.86,
      "eval_loss": 2.426417827606201,
      "eval_runtime": 118.3545,
      "eval_samples_per_second": 103.832,
      "eval_steps_per_second": 6.497,
      "step": 225000
    },
    {
      "epoch": 34.54,
      "learning_rate": 4.424379232505644e-05,
      "loss": 2.2218,
      "step": 229500
    },
    {
      "epoch": 34.54,
      "eval_loss": 2.4175431728363037,
      "eval_runtime": 121.4712,
      "eval_samples_per_second": 101.168,
      "eval_steps_per_second": 6.331,
      "step": 229500
    },
    {
      "epoch": 35.21,
      "learning_rate": 4.413092550790068e-05,
      "loss": 2.2153,
      "step": 234000
    },
    {
      "epoch": 35.21,
      "eval_loss": 2.4122180938720703,
      "eval_runtime": 121.3685,
      "eval_samples_per_second": 101.254,
      "eval_steps_per_second": 6.336,
      "step": 234000
    },
    {
      "epoch": 35.89,
      "learning_rate": 4.401805869074492e-05,
      "loss": 2.206,
      "step": 238500
    },
    {
      "epoch": 35.89,
      "eval_loss": 2.392340660095215,
      "eval_runtime": 121.4694,
      "eval_samples_per_second": 101.169,
      "eval_steps_per_second": 6.331,
      "step": 238500
    },
    {
      "epoch": 36.57,
      "learning_rate": 4.390519187358917e-05,
      "loss": 2.1931,
      "step": 243000
    },
    {
      "epoch": 36.57,
      "eval_loss": 2.386526584625244,
      "eval_runtime": 121.4241,
      "eval_samples_per_second": 101.207,
      "eval_steps_per_second": 6.333,
      "step": 243000
    },
    {
      "epoch": 37.25,
      "learning_rate": 4.379232505643341e-05,
      "loss": 2.1876,
      "step": 247500
    },
    {
      "epoch": 37.25,
      "eval_loss": 2.383101224899292,
      "eval_runtime": 121.3529,
      "eval_samples_per_second": 101.267,
      "eval_steps_per_second": 6.337,
      "step": 247500
    },
    {
      "epoch": 37.92,
      "learning_rate": 4.367945823927765e-05,
      "loss": 2.1817,
      "step": 252000
    },
    {
      "epoch": 37.92,
      "eval_loss": 2.3782711029052734,
      "eval_runtime": 121.4029,
      "eval_samples_per_second": 101.225,
      "eval_steps_per_second": 6.334,
      "step": 252000
    },
    {
      "epoch": 38.6,
      "learning_rate": 4.35665914221219e-05,
      "loss": 2.1661,
      "step": 256500
    },
    {
      "epoch": 38.6,
      "eval_loss": 2.3761754035949707,
      "eval_runtime": 121.5223,
      "eval_samples_per_second": 101.126,
      "eval_steps_per_second": 6.328,
      "step": 256500
    },
    {
      "epoch": 39.28,
      "learning_rate": 4.3453724604966136e-05,
      "loss": 2.1635,
      "step": 261000
    },
    {
      "epoch": 39.28,
      "eval_loss": 2.365755319595337,
      "eval_runtime": 121.4762,
      "eval_samples_per_second": 101.164,
      "eval_steps_per_second": 6.33,
      "step": 261000
    },
    {
      "epoch": 39.95,
      "learning_rate": 4.334085778781038e-05,
      "loss": 2.1533,
      "step": 265500
    },
    {
      "epoch": 39.95,
      "eval_loss": 2.359434127807617,
      "eval_runtime": 121.2612,
      "eval_samples_per_second": 101.343,
      "eval_steps_per_second": 6.342,
      "step": 265500
    },
    {
      "epoch": 40.63,
      "learning_rate": 4.322799097065463e-05,
      "loss": 2.1444,
      "step": 270000
    },
    {
      "epoch": 40.63,
      "eval_loss": 2.3534085750579834,
      "eval_runtime": 121.4588,
      "eval_samples_per_second": 101.178,
      "eval_steps_per_second": 6.331,
      "step": 270000
    },
    {
      "epoch": 41.31,
      "learning_rate": 4.311512415349887e-05,
      "loss": 2.1389,
      "step": 274500
    },
    {
      "epoch": 41.31,
      "eval_loss": 2.3499608039855957,
      "eval_runtime": 121.4347,
      "eval_samples_per_second": 101.198,
      "eval_steps_per_second": 6.333,
      "step": 274500
    },
    {
      "epoch": 41.99,
      "learning_rate": 4.300225733634312e-05,
      "loss": 2.1343,
      "step": 279000
    },
    {
      "epoch": 41.99,
      "eval_loss": 2.33479642868042,
      "eval_runtime": 121.4769,
      "eval_samples_per_second": 101.163,
      "eval_steps_per_second": 6.33,
      "step": 279000
    },
    {
      "epoch": 42.66,
      "learning_rate": 4.2889390519187363e-05,
      "loss": 2.1204,
      "step": 283500
    },
    {
      "epoch": 42.66,
      "eval_loss": 2.338609457015991,
      "eval_runtime": 119.9199,
      "eval_samples_per_second": 102.477,
      "eval_steps_per_second": 6.413,
      "step": 283500
    },
    {
      "epoch": 43.34,
      "learning_rate": 4.277652370203161e-05,
      "loss": 2.1149,
      "step": 288000
    },
    {
      "epoch": 43.34,
      "eval_loss": 2.3366451263427734,
      "eval_runtime": 121.3615,
      "eval_samples_per_second": 101.259,
      "eval_steps_per_second": 6.336,
      "step": 288000
    },
    {
      "epoch": 44.02,
      "learning_rate": 4.266365688487585e-05,
      "loss": 2.1124,
      "step": 292500
    },
    {
      "epoch": 44.02,
      "eval_loss": 2.3272287845611572,
      "eval_runtime": 121.4223,
      "eval_samples_per_second": 101.209,
      "eval_steps_per_second": 6.333,
      "step": 292500
    },
    {
      "epoch": 44.7,
      "learning_rate": 4.255079006772009e-05,
      "loss": 2.0996,
      "step": 297000
    },
    {
      "epoch": 44.7,
      "eval_loss": 2.3160288333892822,
      "eval_runtime": 121.4331,
      "eval_samples_per_second": 101.2,
      "eval_steps_per_second": 6.333,
      "step": 297000
    },
    {
      "epoch": 45.37,
      "learning_rate": 4.243792325056434e-05,
      "loss": 2.0954,
      "step": 301500
    },
    {
      "epoch": 45.37,
      "eval_loss": 2.3165717124938965,
      "eval_runtime": 121.3269,
      "eval_samples_per_second": 101.288,
      "eval_steps_per_second": 6.338,
      "step": 301500
    },
    {
      "epoch": 46.05,
      "learning_rate": 4.232505643340858e-05,
      "loss": 2.0901,
      "step": 306000
    },
    {
      "epoch": 46.05,
      "eval_loss": 2.303679943084717,
      "eval_runtime": 121.3845,
      "eval_samples_per_second": 101.24,
      "eval_steps_per_second": 6.335,
      "step": 306000
    },
    {
      "epoch": 46.73,
      "learning_rate": 4.221218961625282e-05,
      "loss": 2.0819,
      "step": 310500
    },
    {
      "epoch": 46.73,
      "eval_loss": 2.2977073192596436,
      "eval_runtime": 121.4379,
      "eval_samples_per_second": 101.196,
      "eval_steps_per_second": 6.332,
      "step": 310500
    },
    {
      "epoch": 47.4,
      "learning_rate": 4.209932279909707e-05,
      "loss": 2.0725,
      "step": 315000
    },
    {
      "epoch": 47.4,
      "eval_loss": 2.3036298751831055,
      "eval_runtime": 121.4278,
      "eval_samples_per_second": 101.204,
      "eval_steps_per_second": 6.333,
      "step": 315000
    },
    {
      "epoch": 48.08,
      "learning_rate": 4.198645598194131e-05,
      "loss": 2.0729,
      "step": 319500
    },
    {
      "epoch": 48.08,
      "eval_loss": 2.2955193519592285,
      "eval_runtime": 121.3513,
      "eval_samples_per_second": 101.268,
      "eval_steps_per_second": 6.337,
      "step": 319500
    },
    {
      "epoch": 48.76,
      "learning_rate": 4.187358916478555e-05,
      "loss": 2.0621,
      "step": 324000
    },
    {
      "epoch": 48.76,
      "eval_loss": 2.284827947616577,
      "eval_runtime": 121.3713,
      "eval_samples_per_second": 101.251,
      "eval_steps_per_second": 6.336,
      "step": 324000
    },
    {
      "epoch": 49.44,
      "learning_rate": 4.17607223476298e-05,
      "loss": 2.055,
      "step": 328500
    },
    {
      "epoch": 49.44,
      "eval_loss": 2.2865021228790283,
      "eval_runtime": 121.4042,
      "eval_samples_per_second": 101.224,
      "eval_steps_per_second": 6.334,
      "step": 328500
    },
    {
      "epoch": 50.11,
      "learning_rate": 4.164785553047404e-05,
      "loss": 2.0514,
      "step": 333000
    },
    {
      "epoch": 50.11,
      "eval_loss": 2.2722549438476562,
      "eval_runtime": 121.3871,
      "eval_samples_per_second": 101.238,
      "eval_steps_per_second": 6.335,
      "step": 333000
    },
    {
      "epoch": 50.79,
      "learning_rate": 4.153498871331828e-05,
      "loss": 2.0427,
      "step": 337500
    },
    {
      "epoch": 50.79,
      "eval_loss": 2.2747364044189453,
      "eval_runtime": 121.4348,
      "eval_samples_per_second": 101.198,
      "eval_steps_per_second": 6.333,
      "step": 337500
    },
    {
      "epoch": 51.47,
      "learning_rate": 4.142212189616253e-05,
      "loss": 2.0398,
      "step": 342000
    },
    {
      "epoch": 51.47,
      "eval_loss": 2.275329113006592,
      "eval_runtime": 121.4165,
      "eval_samples_per_second": 101.214,
      "eval_steps_per_second": 6.334,
      "step": 342000
    },
    {
      "epoch": 52.14,
      "learning_rate": 4.130925507900677e-05,
      "loss": 2.0373,
      "step": 346500
    },
    {
      "epoch": 52.14,
      "eval_loss": 2.263934850692749,
      "eval_runtime": 121.4832,
      "eval_samples_per_second": 101.158,
      "eval_steps_per_second": 6.33,
      "step": 346500
    },
    {
      "epoch": 52.82,
      "learning_rate": 4.119638826185102e-05,
      "loss": 2.0293,
      "step": 351000
    },
    {
      "epoch": 52.82,
      "eval_loss": 2.2591116428375244,
      "eval_runtime": 121.453,
      "eval_samples_per_second": 101.183,
      "eval_steps_per_second": 6.332,
      "step": 351000
    },
    {
      "epoch": 53.5,
      "learning_rate": 4.108352144469526e-05,
      "loss": 2.0222,
      "step": 355500
    },
    {
      "epoch": 53.5,
      "eval_loss": 2.251147508621216,
      "eval_runtime": 121.2819,
      "eval_samples_per_second": 101.326,
      "eval_steps_per_second": 6.341,
      "step": 355500
    },
    {
      "epoch": 54.18,
      "learning_rate": 4.097065462753951e-05,
      "loss": 2.018,
      "step": 360000
    },
    {
      "epoch": 54.18,
      "eval_loss": 2.2465593814849854,
      "eval_runtime": 121.4341,
      "eval_samples_per_second": 101.199,
      "eval_steps_per_second": 6.333,
      "step": 360000
    },
    {
      "epoch": 54.85,
      "learning_rate": 4.085778781038375e-05,
      "loss": 2.0129,
      "step": 364500
    },
    {
      "epoch": 54.85,
      "eval_loss": 2.244495153427124,
      "eval_runtime": 121.4224,
      "eval_samples_per_second": 101.209,
      "eval_steps_per_second": 6.333,
      "step": 364500
    },
    {
      "epoch": 55.53,
      "learning_rate": 4.074492099322799e-05,
      "loss": 2.0071,
      "step": 369000
    },
    {
      "epoch": 55.53,
      "eval_loss": 2.244058609008789,
      "eval_runtime": 121.4271,
      "eval_samples_per_second": 101.205,
      "eval_steps_per_second": 6.333,
      "step": 369000
    },
    {
      "epoch": 56.21,
      "learning_rate": 4.063205417607224e-05,
      "loss": 2.0026,
      "step": 373500
    },
    {
      "epoch": 56.21,
      "eval_loss": 2.2374625205993652,
      "eval_runtime": 121.4591,
      "eval_samples_per_second": 101.178,
      "eval_steps_per_second": 6.331,
      "step": 373500
    },
    {
      "epoch": 56.88,
      "learning_rate": 4.0519187358916484e-05,
      "loss": 1.9989,
      "step": 378000
    },
    {
      "epoch": 56.88,
      "eval_loss": 2.2266647815704346,
      "eval_runtime": 121.4333,
      "eval_samples_per_second": 101.2,
      "eval_steps_per_second": 6.333,
      "step": 378000
    },
    {
      "epoch": 57.56,
      "learning_rate": 4.040632054176072e-05,
      "loss": 1.9917,
      "step": 382500
    },
    {
      "epoch": 57.56,
      "eval_loss": 2.2338218688964844,
      "eval_runtime": 121.4506,
      "eval_samples_per_second": 101.185,
      "eval_steps_per_second": 6.332,
      "step": 382500
    },
    {
      "epoch": 58.24,
      "learning_rate": 4.029345372460497e-05,
      "loss": 1.9869,
      "step": 387000
    },
    {
      "epoch": 58.24,
      "eval_loss": 2.226421594619751,
      "eval_runtime": 121.395,
      "eval_samples_per_second": 101.232,
      "eval_steps_per_second": 6.335,
      "step": 387000
    },
    {
      "epoch": 58.92,
      "learning_rate": 4.018058690744921e-05,
      "loss": 1.9855,
      "step": 391500
    },
    {
      "epoch": 58.92,
      "eval_loss": 2.22316837310791,
      "eval_runtime": 121.4361,
      "eval_samples_per_second": 101.197,
      "eval_steps_per_second": 6.333,
      "step": 391500
    },
    {
      "epoch": 59.59,
      "learning_rate": 4.006772009029345e-05,
      "loss": 1.975,
      "step": 396000
    },
    {
      "epoch": 59.59,
      "eval_loss": 2.221580743789673,
      "eval_runtime": 121.4217,
      "eval_samples_per_second": 101.209,
      "eval_steps_per_second": 6.333,
      "step": 396000
    },
    {
      "epoch": 60.27,
      "learning_rate": 3.99548532731377e-05,
      "loss": 1.9738,
      "step": 400500
    },
    {
      "epoch": 60.27,
      "eval_loss": 2.2099127769470215,
      "eval_runtime": 121.4414,
      "eval_samples_per_second": 101.193,
      "eval_steps_per_second": 6.332,
      "step": 400500
    },
    {
      "epoch": 60.95,
      "learning_rate": 3.984198645598194e-05,
      "loss": 1.9724,
      "step": 405000
    },
    {
      "epoch": 60.95,
      "eval_loss": 2.217116355895996,
      "eval_runtime": 121.4225,
      "eval_samples_per_second": 101.209,
      "eval_steps_per_second": 6.333,
      "step": 405000
    },
    {
      "epoch": 61.63,
      "learning_rate": 3.972911963882618e-05,
      "loss": 1.9643,
      "step": 409500
    },
    {
      "epoch": 61.63,
      "eval_loss": 2.2091891765594482,
      "eval_runtime": 121.3749,
      "eval_samples_per_second": 101.248,
      "eval_steps_per_second": 6.336,
      "step": 409500
    },
    {
      "epoch": 62.3,
      "learning_rate": 3.961625282167043e-05,
      "loss": 1.9582,
      "step": 414000
    },
    {
      "epoch": 62.3,
      "eval_loss": 2.2050740718841553,
      "eval_runtime": 121.3877,
      "eval_samples_per_second": 101.238,
      "eval_steps_per_second": 6.335,
      "step": 414000
    },
    {
      "epoch": 62.98,
      "learning_rate": 3.950338600451467e-05,
      "loss": 1.9596,
      "step": 418500
    },
    {
      "epoch": 62.98,
      "eval_loss": 2.2095320224761963,
      "eval_runtime": 121.3734,
      "eval_samples_per_second": 101.25,
      "eval_steps_per_second": 6.336,
      "step": 418500
    },
    {
      "epoch": 63.66,
      "learning_rate": 3.939051918735892e-05,
      "loss": 1.9491,
      "step": 423000
    },
    {
      "epoch": 63.66,
      "eval_loss": 2.201195478439331,
      "eval_runtime": 121.4462,
      "eval_samples_per_second": 101.189,
      "eval_steps_per_second": 6.332,
      "step": 423000
    },
    {
      "epoch": 64.33,
      "learning_rate": 3.927765237020316e-05,
      "loss": 1.9493,
      "step": 427500
    },
    {
      "epoch": 64.33,
      "eval_loss": 2.1953182220458984,
      "eval_runtime": 121.4109,
      "eval_samples_per_second": 101.218,
      "eval_steps_per_second": 6.334,
      "step": 427500
    },
    {
      "epoch": 65.01,
      "learning_rate": 3.916478555304741e-05,
      "loss": 1.946,
      "step": 432000
    },
    {
      "epoch": 65.01,
      "eval_loss": 2.1867878437042236,
      "eval_runtime": 119.4236,
      "eval_samples_per_second": 102.903,
      "eval_steps_per_second": 6.439,
      "step": 432000
    },
    {
      "epoch": 65.69,
      "learning_rate": 3.9051918735891654e-05,
      "loss": 1.9359,
      "step": 436500
    },
    {
      "epoch": 65.69,
      "eval_loss": 2.1980998516082764,
      "eval_runtime": 121.4109,
      "eval_samples_per_second": 101.218,
      "eval_steps_per_second": 6.334,
      "step": 436500
    },
    {
      "epoch": 66.37,
      "learning_rate": 3.893905191873589e-05,
      "loss": 1.9333,
      "step": 441000
    },
    {
      "epoch": 66.37,
      "eval_loss": 2.1945624351501465,
      "eval_runtime": 121.3328,
      "eval_samples_per_second": 101.283,
      "eval_steps_per_second": 6.338,
      "step": 441000
    },
    {
      "epoch": 67.04,
      "learning_rate": 3.882618510158014e-05,
      "loss": 1.9327,
      "step": 445500
    },
    {
      "epoch": 67.04,
      "eval_loss": 2.1841721534729004,
      "eval_runtime": 121.4364,
      "eval_samples_per_second": 101.197,
      "eval_steps_per_second": 6.333,
      "step": 445500
    },
    {
      "epoch": 67.72,
      "learning_rate": 3.8713318284424384e-05,
      "loss": 1.9243,
      "step": 450000
    },
    {
      "epoch": 67.72,
      "eval_loss": 2.189509391784668,
      "eval_runtime": 121.4244,
      "eval_samples_per_second": 101.207,
      "eval_steps_per_second": 6.333,
      "step": 450000
    },
    {
      "epoch": 68.4,
      "learning_rate": 3.860045146726862e-05,
      "loss": 1.9241,
      "step": 454500
    },
    {
      "epoch": 68.4,
      "eval_loss": 2.170930862426758,
      "eval_runtime": 121.4233,
      "eval_samples_per_second": 101.208,
      "eval_steps_per_second": 6.333,
      "step": 454500
    },
    {
      "epoch": 69.07,
      "learning_rate": 3.848758465011287e-05,
      "loss": 1.9183,
      "step": 459000
    },
    {
      "epoch": 69.07,
      "eval_loss": 2.18388032913208,
      "eval_runtime": 121.4294,
      "eval_samples_per_second": 101.203,
      "eval_steps_per_second": 6.333,
      "step": 459000
    },
    {
      "epoch": 69.75,
      "learning_rate": 3.837471783295711e-05,
      "loss": 1.916,
      "step": 463500
    },
    {
      "epoch": 69.75,
      "eval_loss": 2.179508686065674,
      "eval_runtime": 121.3882,
      "eval_samples_per_second": 101.237,
      "eval_steps_per_second": 6.335,
      "step": 463500
    },
    {
      "epoch": 70.43,
      "learning_rate": 3.826185101580136e-05,
      "loss": 1.9105,
      "step": 468000
    },
    {
      "epoch": 70.43,
      "eval_loss": 2.1771745681762695,
      "eval_runtime": 121.4394,
      "eval_samples_per_second": 101.194,
      "eval_steps_per_second": 6.332,
      "step": 468000
    },
    {
      "epoch": 71.11,
      "learning_rate": 3.81489841986456e-05,
      "loss": 1.9117,
      "step": 472500
    },
    {
      "epoch": 71.11,
      "eval_loss": 2.181852340698242,
      "eval_runtime": 121.3465,
      "eval_samples_per_second": 101.272,
      "eval_steps_per_second": 6.337,
      "step": 472500
    },
    {
      "epoch": 71.78,
      "learning_rate": 3.803611738148984e-05,
      "loss": 1.9041,
      "step": 477000
    },
    {
      "epoch": 71.78,
      "eval_loss": 2.1662580966949463,
      "eval_runtime": 121.4449,
      "eval_samples_per_second": 101.19,
      "eval_steps_per_second": 6.332,
      "step": 477000
    },
    {
      "epoch": 72.46,
      "learning_rate": 3.792325056433409e-05,
      "loss": 1.9021,
      "step": 481500
    },
    {
      "epoch": 72.46,
      "eval_loss": 2.165590524673462,
      "eval_runtime": 121.4569,
      "eval_samples_per_second": 101.18,
      "eval_steps_per_second": 6.331,
      "step": 481500
    },
    {
      "epoch": 73.14,
      "learning_rate": 3.781038374717833e-05,
      "loss": 1.8995,
      "step": 486000
    },
    {
      "epoch": 73.14,
      "eval_loss": 2.1610703468322754,
      "eval_runtime": 121.4207,
      "eval_samples_per_second": 101.21,
      "eval_steps_per_second": 6.333,
      "step": 486000
    },
    {
      "epoch": 73.81,
      "learning_rate": 3.769751693002257e-05,
      "loss": 1.896,
      "step": 490500
    },
    {
      "epoch": 73.81,
      "eval_loss": 2.1603007316589355,
      "eval_runtime": 121.3989,
      "eval_samples_per_second": 101.228,
      "eval_steps_per_second": 6.334,
      "step": 490500
    },
    {
      "epoch": 74.49,
      "learning_rate": 3.758465011286682e-05,
      "loss": 1.8901,
      "step": 495000
    },
    {
      "epoch": 74.49,
      "eval_loss": 2.158705711364746,
      "eval_runtime": 121.4675,
      "eval_samples_per_second": 101.171,
      "eval_steps_per_second": 6.331,
      "step": 495000
    },
    {
      "epoch": 75.17,
      "learning_rate": 3.747178329571106e-05,
      "loss": 1.8887,
      "step": 499500
    },
    {
      "epoch": 75.17,
      "eval_loss": 2.152022123336792,
      "eval_runtime": 121.4184,
      "eval_samples_per_second": 101.212,
      "eval_steps_per_second": 6.333,
      "step": 499500
    },
    {
      "epoch": 75.85,
      "learning_rate": 3.735891647855531e-05,
      "loss": 1.8855,
      "step": 504000
    },
    {
      "epoch": 75.85,
      "eval_loss": 2.1545896530151367,
      "eval_runtime": 121.4036,
      "eval_samples_per_second": 101.224,
      "eval_steps_per_second": 6.334,
      "step": 504000
    },
    {
      "epoch": 76.52,
      "learning_rate": 3.7246049661399554e-05,
      "loss": 1.8802,
      "step": 508500
    },
    {
      "epoch": 76.52,
      "eval_loss": 2.1495370864868164,
      "eval_runtime": 121.4898,
      "eval_samples_per_second": 101.153,
      "eval_steps_per_second": 6.33,
      "step": 508500
    },
    {
      "epoch": 77.2,
      "learning_rate": 3.71331828442438e-05,
      "loss": 1.8783,
      "step": 513000
    },
    {
      "epoch": 77.2,
      "eval_loss": 2.1447861194610596,
      "eval_runtime": 121.3997,
      "eval_samples_per_second": 101.228,
      "eval_steps_per_second": 6.334,
      "step": 513000
    },
    {
      "epoch": 77.88,
      "learning_rate": 3.702031602708804e-05,
      "loss": 1.8743,
      "step": 517500
    },
    {
      "epoch": 77.88,
      "eval_loss": 2.1373064517974854,
      "eval_runtime": 121.3755,
      "eval_samples_per_second": 101.248,
      "eval_steps_per_second": 6.336,
      "step": 517500
    },
    {
      "epoch": 78.56,
      "learning_rate": 3.6907449209932284e-05,
      "loss": 1.8679,
      "step": 522000
    },
    {
      "epoch": 78.56,
      "eval_loss": 2.1462478637695312,
      "eval_runtime": 121.3988,
      "eval_samples_per_second": 101.228,
      "eval_steps_per_second": 6.334,
      "step": 522000
    },
    {
      "epoch": 79.23,
      "learning_rate": 3.679458239277653e-05,
      "loss": 1.8681,
      "step": 526500
    },
    {
      "epoch": 79.23,
      "eval_loss": 2.14402174949646,
      "eval_runtime": 121.4163,
      "eval_samples_per_second": 101.214,
      "eval_steps_per_second": 6.334,
      "step": 526500
    },
    {
      "epoch": 79.91,
      "learning_rate": 3.668171557562077e-05,
      "loss": 1.8649,
      "step": 531000
    },
    {
      "epoch": 79.91,
      "eval_loss": 2.1338822841644287,
      "eval_runtime": 121.3916,
      "eval_samples_per_second": 101.234,
      "eval_steps_per_second": 6.335,
      "step": 531000
    },
    {
      "epoch": 80.59,
      "learning_rate": 3.656884875846501e-05,
      "loss": 1.8593,
      "step": 535500
    },
    {
      "epoch": 80.59,
      "eval_loss": 2.139404296875,
      "eval_runtime": 121.4277,
      "eval_samples_per_second": 101.204,
      "eval_steps_per_second": 6.333,
      "step": 535500
    },
    {
      "epoch": 81.26,
      "learning_rate": 3.645598194130926e-05,
      "loss": 1.8592,
      "step": 540000
    },
    {
      "epoch": 81.26,
      "eval_loss": 2.1354503631591797,
      "eval_runtime": 121.402,
      "eval_samples_per_second": 101.226,
      "eval_steps_per_second": 6.334,
      "step": 540000
    },
    {
      "epoch": 81.94,
      "learning_rate": 3.63431151241535e-05,
      "loss": 1.8569,
      "step": 544500
    },
    {
      "epoch": 81.94,
      "eval_loss": 2.135469436645508,
      "eval_runtime": 121.3789,
      "eval_samples_per_second": 101.245,
      "eval_steps_per_second": 6.336,
      "step": 544500
    },
    {
      "epoch": 82.62,
      "learning_rate": 3.623024830699774e-05,
      "loss": 1.849,
      "step": 549000
    },
    {
      "epoch": 82.62,
      "eval_loss": 2.1346044540405273,
      "eval_runtime": 121.4745,
      "eval_samples_per_second": 101.165,
      "eval_steps_per_second": 6.331,
      "step": 549000
    },
    {
      "epoch": 83.3,
      "learning_rate": 3.611738148984199e-05,
      "loss": 1.8481,
      "step": 553500
    },
    {
      "epoch": 83.3,
      "eval_loss": 2.1314146518707275,
      "eval_runtime": 121.3262,
      "eval_samples_per_second": 101.289,
      "eval_steps_per_second": 6.338,
      "step": 553500
    },
    {
      "epoch": 83.97,
      "learning_rate": 3.600451467268623e-05,
      "loss": 1.8499,
      "step": 558000
    },
    {
      "epoch": 83.97,
      "eval_loss": 2.126936197280884,
      "eval_runtime": 121.4278,
      "eval_samples_per_second": 101.204,
      "eval_steps_per_second": 6.333,
      "step": 558000
    },
    {
      "epoch": 84.65,
      "learning_rate": 3.589164785553047e-05,
      "loss": 1.8394,
      "step": 562500
    },
    {
      "epoch": 84.65,
      "eval_loss": 2.118168592453003,
      "eval_runtime": 121.4516,
      "eval_samples_per_second": 101.184,
      "eval_steps_per_second": 6.332,
      "step": 562500
    },
    {
      "epoch": 85.33,
      "learning_rate": 3.577878103837472e-05,
      "loss": 1.8394,
      "step": 567000
    },
    {
      "epoch": 85.33,
      "eval_loss": 2.1206483840942383,
      "eval_runtime": 121.4259,
      "eval_samples_per_second": 101.206,
      "eval_steps_per_second": 6.333,
      "step": 567000
    },
    {
      "epoch": 86.0,
      "learning_rate": 3.566591422121896e-05,
      "loss": 1.8408,
      "step": 571500
    },
    {
      "epoch": 86.0,
      "eval_loss": 2.1219327449798584,
      "eval_runtime": 118.4077,
      "eval_samples_per_second": 103.785,
      "eval_steps_per_second": 6.495,
      "step": 571500
    },
    {
      "epoch": 86.68,
      "learning_rate": 3.555304740406321e-05,
      "loss": 1.832,
      "step": 576000
    },
    {
      "epoch": 86.68,
      "eval_loss": 2.1104817390441895,
      "eval_runtime": 118.1444,
      "eval_samples_per_second": 104.017,
      "eval_steps_per_second": 6.509,
      "step": 576000
    },
    {
      "epoch": 87.36,
      "learning_rate": 3.5440180586907454e-05,
      "loss": 1.8305,
      "step": 580500
    },
    {
      "epoch": 87.36,
      "eval_loss": 2.1246631145477295,
      "eval_runtime": 118.1028,
      "eval_samples_per_second": 104.053,
      "eval_steps_per_second": 6.511,
      "step": 580500
    },
    {
      "epoch": 88.04,
      "learning_rate": 3.53273137697517e-05,
      "loss": 1.8333,
      "step": 585000
    },
    {
      "epoch": 88.04,
      "eval_loss": 2.1201488971710205,
      "eval_runtime": 118.0958,
      "eval_samples_per_second": 104.06,
      "eval_steps_per_second": 6.512,
      "step": 585000
    },
    {
      "epoch": 88.71,
      "learning_rate": 3.521444695259594e-05,
      "loss": 1.8227,
      "step": 589500
    },
    {
      "epoch": 88.71,
      "eval_loss": 2.104985475540161,
      "eval_runtime": 118.0975,
      "eval_samples_per_second": 104.058,
      "eval_steps_per_second": 6.512,
      "step": 589500
    },
    {
      "epoch": 89.39,
      "learning_rate": 3.5101580135440183e-05,
      "loss": 1.8216,
      "step": 594000
    },
    {
      "epoch": 89.39,
      "eval_loss": 2.1118545532226562,
      "eval_runtime": 118.0937,
      "eval_samples_per_second": 104.061,
      "eval_steps_per_second": 6.512,
      "step": 594000
    },
    {
      "epoch": 90.07,
      "learning_rate": 3.498871331828443e-05,
      "loss": 1.8234,
      "step": 598500
    },
    {
      "epoch": 90.07,
      "eval_loss": 2.109297037124634,
      "eval_runtime": 118.1025,
      "eval_samples_per_second": 104.054,
      "eval_steps_per_second": 6.511,
      "step": 598500
    },
    {
      "epoch": 90.74,
      "learning_rate": 3.487584650112867e-05,
      "loss": 1.8162,
      "step": 603000
    },
    {
      "epoch": 90.74,
      "eval_loss": 2.0999834537506104,
      "eval_runtime": 118.0968,
      "eval_samples_per_second": 104.059,
      "eval_steps_per_second": 6.512,
      "step": 603000
    },
    {
      "epoch": 91.42,
      "learning_rate": 3.476297968397291e-05,
      "loss": 1.8153,
      "step": 607500
    },
    {
      "epoch": 91.42,
      "eval_loss": 2.110783576965332,
      "eval_runtime": 118.1749,
      "eval_samples_per_second": 103.99,
      "eval_steps_per_second": 6.507,
      "step": 607500
    },
    {
      "epoch": 92.1,
      "learning_rate": 3.465011286681716e-05,
      "loss": 1.8153,
      "step": 612000
    },
    {
      "epoch": 92.1,
      "eval_loss": 2.1009647846221924,
      "eval_runtime": 118.1986,
      "eval_samples_per_second": 103.969,
      "eval_steps_per_second": 6.506,
      "step": 612000
    },
    {
      "epoch": 92.78,
      "learning_rate": 3.4537246049661404e-05,
      "loss": 1.8095,
      "step": 616500
    },
    {
      "epoch": 92.78,
      "eval_loss": 2.0992209911346436,
      "eval_runtime": 118.1834,
      "eval_samples_per_second": 103.982,
      "eval_steps_per_second": 6.507,
      "step": 616500
    },
    {
      "epoch": 93.45,
      "learning_rate": 3.442437923250564e-05,
      "loss": 1.807,
      "step": 621000
    },
    {
      "epoch": 93.45,
      "eval_loss": 2.098292827606201,
      "eval_runtime": 118.1816,
      "eval_samples_per_second": 103.984,
      "eval_steps_per_second": 6.507,
      "step": 621000
    },
    {
      "epoch": 94.13,
      "learning_rate": 3.431151241534989e-05,
      "loss": 1.805,
      "step": 625500
    },
    {
      "epoch": 94.13,
      "eval_loss": 2.0988106727600098,
      "eval_runtime": 118.1659,
      "eval_samples_per_second": 103.998,
      "eval_steps_per_second": 6.508,
      "step": 625500
    },
    {
      "epoch": 94.81,
      "learning_rate": 3.4198645598194133e-05,
      "loss": 1.8015,
      "step": 630000
    },
    {
      "epoch": 94.81,
      "eval_loss": 2.0965840816497803,
      "eval_runtime": 118.1678,
      "eval_samples_per_second": 103.996,
      "eval_steps_per_second": 6.508,
      "step": 630000
    },
    {
      "epoch": 95.49,
      "learning_rate": 3.408577878103837e-05,
      "loss": 1.7964,
      "step": 634500
    },
    {
      "epoch": 95.49,
      "eval_loss": 2.0856127738952637,
      "eval_runtime": 118.3087,
      "eval_samples_per_second": 103.872,
      "eval_steps_per_second": 6.5,
      "step": 634500
    },
    {
      "epoch": 96.16,
      "learning_rate": 3.397291196388262e-05,
      "loss": 1.7988,
      "step": 639000
    },
    {
      "epoch": 96.16,
      "eval_loss": 2.0870988368988037,
      "eval_runtime": 118.2923,
      "eval_samples_per_second": 103.887,
      "eval_steps_per_second": 6.501,
      "step": 639000
    },
    {
      "epoch": 96.84,
      "learning_rate": 3.386004514672686e-05,
      "loss": 1.794,
      "step": 643500
    },
    {
      "epoch": 96.84,
      "eval_loss": 2.092172861099243,
      "eval_runtime": 118.3047,
      "eval_samples_per_second": 103.876,
      "eval_steps_per_second": 6.5,
      "step": 643500
    },
    {
      "epoch": 97.52,
      "learning_rate": 3.374717832957111e-05,
      "loss": 1.7917,
      "step": 648000
    },
    {
      "epoch": 97.52,
      "eval_loss": 2.0861566066741943,
      "eval_runtime": 118.2327,
      "eval_samples_per_second": 103.939,
      "eval_steps_per_second": 6.504,
      "step": 648000
    },
    {
      "epoch": 98.19,
      "learning_rate": 3.3634311512415354e-05,
      "loss": 1.79,
      "step": 652500
    },
    {
      "epoch": 98.19,
      "eval_loss": 2.0844566822052,
      "eval_runtime": 118.1297,
      "eval_samples_per_second": 104.03,
      "eval_steps_per_second": 6.51,
      "step": 652500
    },
    {
      "epoch": 98.87,
      "learning_rate": 3.35214446952596e-05,
      "loss": 1.788,
      "step": 657000
    },
    {
      "epoch": 98.87,
      "eval_loss": 2.0832607746124268,
      "eval_runtime": 118.1145,
      "eval_samples_per_second": 104.043,
      "eval_steps_per_second": 6.511,
      "step": 657000
    },
    {
      "epoch": 99.55,
      "learning_rate": 3.3408577878103845e-05,
      "loss": 1.7833,
      "step": 661500
    },
    {
      "epoch": 99.55,
      "eval_loss": 2.082475185394287,
      "eval_runtime": 118.0929,
      "eval_samples_per_second": 104.062,
      "eval_steps_per_second": 6.512,
      "step": 661500
    },
    {
      "epoch": 100.23,
      "learning_rate": 3.3295711060948083e-05,
      "loss": 1.7821,
      "step": 666000
    },
    {
      "epoch": 100.23,
      "eval_loss": 2.0830888748168945,
      "eval_runtime": 118.1331,
      "eval_samples_per_second": 104.027,
      "eval_steps_per_second": 6.51,
      "step": 666000
    },
    {
      "epoch": 100.9,
      "learning_rate": 3.318284424379233e-05,
      "loss": 1.7809,
      "step": 670500
    },
    {
      "epoch": 100.9,
      "eval_loss": 2.080984115600586,
      "eval_runtime": 118.0711,
      "eval_samples_per_second": 104.081,
      "eval_steps_per_second": 6.513,
      "step": 670500
    },
    {
      "epoch": 101.58,
      "learning_rate": 3.3069977426636574e-05,
      "loss": 1.7757,
      "step": 675000
    },
    {
      "epoch": 101.58,
      "eval_loss": 2.078061819076538,
      "eval_runtime": 118.0799,
      "eval_samples_per_second": 104.074,
      "eval_steps_per_second": 6.513,
      "step": 675000
    },
    {
      "epoch": 102.26,
      "learning_rate": 3.295711060948081e-05,
      "loss": 1.7737,
      "step": 679500
    },
    {
      "epoch": 102.26,
      "eval_loss": 2.079832077026367,
      "eval_runtime": 118.3274,
      "eval_samples_per_second": 103.856,
      "eval_steps_per_second": 6.499,
      "step": 679500
    },
    {
      "epoch": 102.93,
      "learning_rate": 3.284424379232506e-05,
      "loss": 1.7738,
      "step": 684000
    },
    {
      "epoch": 102.93,
      "eval_loss": 2.0702972412109375,
      "eval_runtime": 118.0753,
      "eval_samples_per_second": 104.078,
      "eval_steps_per_second": 6.513,
      "step": 684000
    },
    {
      "epoch": 103.61,
      "learning_rate": 3.2731376975169304e-05,
      "loss": 1.7701,
      "step": 688500
    },
    {
      "epoch": 103.61,
      "eval_loss": 2.0662286281585693,
      "eval_runtime": 118.9742,
      "eval_samples_per_second": 103.291,
      "eval_steps_per_second": 6.464,
      "step": 688500
    },
    {
      "epoch": 104.29,
      "learning_rate": 3.261851015801354e-05,
      "loss": 1.7682,
      "step": 693000
    },
    {
      "epoch": 104.29,
      "eval_loss": 2.070204973220825,
      "eval_runtime": 118.3434,
      "eval_samples_per_second": 103.842,
      "eval_steps_per_second": 6.498,
      "step": 693000
    },
    {
      "epoch": 104.97,
      "learning_rate": 3.250564334085779e-05,
      "loss": 1.7669,
      "step": 697500
    },
    {
      "epoch": 104.97,
      "eval_loss": 2.063176155090332,
      "eval_runtime": 118.357,
      "eval_samples_per_second": 103.83,
      "eval_steps_per_second": 6.497,
      "step": 697500
    },
    {
      "epoch": 105.64,
      "learning_rate": 3.239277652370203e-05,
      "loss": 1.7616,
      "step": 702000
    },
    {
      "epoch": 105.64,
      "eval_loss": 2.067533254623413,
      "eval_runtime": 118.3349,
      "eval_samples_per_second": 103.849,
      "eval_steps_per_second": 6.499,
      "step": 702000
    },
    {
      "epoch": 106.32,
      "learning_rate": 3.227990970654628e-05,
      "loss": 1.7623,
      "step": 706500
    },
    {
      "epoch": 106.32,
      "eval_loss": 2.0670344829559326,
      "eval_runtime": 118.3389,
      "eval_samples_per_second": 103.846,
      "eval_steps_per_second": 6.498,
      "step": 706500
    },
    {
      "epoch": 107.0,
      "learning_rate": 3.216704288939052e-05,
      "loss": 1.7623,
      "step": 711000
    },
    {
      "epoch": 107.0,
      "eval_loss": 2.0591020584106445,
      "eval_runtime": 118.3407,
      "eval_samples_per_second": 103.844,
      "eval_steps_per_second": 6.498,
      "step": 711000
    },
    {
      "epoch": 107.67,
      "learning_rate": 3.205417607223476e-05,
      "loss": 1.7553,
      "step": 715500
    },
    {
      "epoch": 107.67,
      "eval_loss": 2.0580272674560547,
      "eval_runtime": 118.3269,
      "eval_samples_per_second": 103.856,
      "eval_steps_per_second": 6.499,
      "step": 715500
    },
    {
      "epoch": 108.35,
      "learning_rate": 3.194130925507901e-05,
      "loss": 1.753,
      "step": 720000
    },
    {
      "epoch": 108.35,
      "eval_loss": 2.0603325366973877,
      "eval_runtime": 118.3271,
      "eval_samples_per_second": 103.856,
      "eval_steps_per_second": 6.499,
      "step": 720000
    },
    {
      "epoch": 109.03,
      "learning_rate": 3.1828442437923254e-05,
      "loss": 1.7549,
      "step": 724500
    },
    {
      "epoch": 109.03,
      "eval_loss": 2.0661327838897705,
      "eval_runtime": 118.3395,
      "eval_samples_per_second": 103.845,
      "eval_steps_per_second": 6.498,
      "step": 724500
    },
    {
      "epoch": 109.71,
      "learning_rate": 3.17155756207675e-05,
      "loss": 1.7474,
      "step": 729000
    },
    {
      "epoch": 109.71,
      "eval_loss": 2.0576255321502686,
      "eval_runtime": 118.3567,
      "eval_samples_per_second": 103.83,
      "eval_steps_per_second": 6.497,
      "step": 729000
    },
    {
      "epoch": 110.38,
      "learning_rate": 3.1602708803611745e-05,
      "loss": 1.7504,
      "step": 733500
    },
    {
      "epoch": 110.38,
      "eval_loss": 2.0617053508758545,
      "eval_runtime": 118.3259,
      "eval_samples_per_second": 103.857,
      "eval_steps_per_second": 6.499,
      "step": 733500
    },
    {
      "epoch": 111.06,
      "learning_rate": 3.148984198645598e-05,
      "loss": 1.7464,
      "step": 738000
    },
    {
      "epoch": 111.06,
      "eval_loss": 2.049917459487915,
      "eval_runtime": 118.3445,
      "eval_samples_per_second": 103.841,
      "eval_steps_per_second": 6.498,
      "step": 738000
    },
    {
      "epoch": 111.74,
      "learning_rate": 3.137697516930023e-05,
      "loss": 1.7432,
      "step": 742500
    },
    {
      "epoch": 111.74,
      "eval_loss": 2.056652069091797,
      "eval_runtime": 118.3587,
      "eval_samples_per_second": 103.828,
      "eval_steps_per_second": 6.497,
      "step": 742500
    },
    {
      "epoch": 112.42,
      "learning_rate": 3.1264108352144474e-05,
      "loss": 1.7404,
      "step": 747000
    },
    {
      "epoch": 112.42,
      "eval_loss": 2.0593619346618652,
      "eval_runtime": 118.3421,
      "eval_samples_per_second": 103.843,
      "eval_steps_per_second": 6.498,
      "step": 747000
    },
    {
      "epoch": 113.09,
      "learning_rate": 3.115124153498871e-05,
      "loss": 1.7438,
      "step": 751500
    },
    {
      "epoch": 113.09,
      "eval_loss": 2.045955181121826,
      "eval_runtime": 118.325,
      "eval_samples_per_second": 103.858,
      "eval_steps_per_second": 6.499,
      "step": 751500
    },
    {
      "epoch": 113.77,
      "learning_rate": 3.103837471783296e-05,
      "loss": 1.7375,
      "step": 756000
    },
    {
      "epoch": 113.77,
      "eval_loss": 2.055434465408325,
      "eval_runtime": 118.3498,
      "eval_samples_per_second": 103.836,
      "eval_steps_per_second": 6.498,
      "step": 756000
    },
    {
      "epoch": 114.45,
      "learning_rate": 3.0925507900677204e-05,
      "loss": 1.7336,
      "step": 760500
    },
    {
      "epoch": 114.45,
      "eval_loss": 2.040349006652832,
      "eval_runtime": 118.3546,
      "eval_samples_per_second": 103.832,
      "eval_steps_per_second": 6.497,
      "step": 760500
    },
    {
      "epoch": 115.12,
      "learning_rate": 3.081264108352145e-05,
      "loss": 1.7344,
      "step": 765000
    },
    {
      "epoch": 115.12,
      "eval_loss": 2.054170846939087,
      "eval_runtime": 118.3514,
      "eval_samples_per_second": 103.835,
      "eval_steps_per_second": 6.498,
      "step": 765000
    },
    {
      "epoch": 115.8,
      "learning_rate": 3.069977426636569e-05,
      "loss": 1.7324,
      "step": 769500
    },
    {
      "epoch": 115.8,
      "eval_loss": 2.042388439178467,
      "eval_runtime": 118.3282,
      "eval_samples_per_second": 103.855,
      "eval_steps_per_second": 6.499,
      "step": 769500
    },
    {
      "epoch": 116.48,
      "learning_rate": 3.058690744920993e-05,
      "loss": 1.7255,
      "step": 774000
    },
    {
      "epoch": 116.48,
      "eval_loss": 2.0501296520233154,
      "eval_runtime": 118.1548,
      "eval_samples_per_second": 104.008,
      "eval_steps_per_second": 6.508,
      "step": 774000
    }
  ],
  "max_steps": 1993500,
  "num_train_epochs": 300,
  "total_flos": 6.520019673893634e+18,
  "trial_name": null,
  "trial_params": null
}