{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.1,
  "eval_steps": 500,
  "global_step": 2000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 83.5,
      "learning_rate": 2.2000000000000002e-08,
      "loss": 7.8377,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 82.0,
      "learning_rate": 4.4000000000000004e-08,
      "loss": 7.8316,
      "step": 20
    },
    {
      "epoch": 0.0,
      "grad_norm": 84.5,
      "learning_rate": 6.6e-08,
      "loss": 7.8539,
      "step": 30
    },
    {
      "epoch": 0.0,
      "grad_norm": 84.0,
      "learning_rate": 8.800000000000001e-08,
      "loss": 7.8355,
      "step": 40
    },
    {
      "epoch": 0.0,
      "grad_norm": 81.5,
      "learning_rate": 1.1e-07,
      "loss": 7.8181,
      "step": 50
    },
    {
      "epoch": 0.0,
      "grad_norm": 83.0,
      "learning_rate": 1.32e-07,
      "loss": 7.8506,
      "step": 60
    },
    {
      "epoch": 0.0,
      "grad_norm": 81.0,
      "learning_rate": 1.5400000000000003e-07,
      "loss": 7.8358,
      "step": 70
    },
    {
      "epoch": 0.0,
      "grad_norm": 82.5,
      "learning_rate": 1.7600000000000001e-07,
      "loss": 7.8175,
      "step": 80
    },
    {
      "epoch": 0.0,
      "grad_norm": 82.0,
      "learning_rate": 1.98e-07,
      "loss": 7.8249,
      "step": 90
    },
    {
      "epoch": 0.01,
      "grad_norm": 82.0,
      "learning_rate": 2.2e-07,
      "loss": 7.8159,
      "step": 100
    },
    {
      "epoch": 0.01,
      "grad_norm": 82.5,
      "learning_rate": 2.42e-07,
      "loss": 7.8062,
      "step": 110
    },
    {
      "epoch": 0.01,
      "grad_norm": 81.5,
      "learning_rate": 2.64e-07,
      "loss": 7.8364,
      "step": 120
    },
    {
      "epoch": 0.01,
      "grad_norm": 82.0,
      "learning_rate": 2.8600000000000005e-07,
      "loss": 7.7865,
      "step": 130
    },
    {
      "epoch": 0.01,
      "grad_norm": 82.0,
      "learning_rate": 3.0800000000000006e-07,
      "loss": 7.8126,
      "step": 140
    },
    {
      "epoch": 0.01,
      "grad_norm": 82.0,
      "learning_rate": 3.3e-07,
      "loss": 7.7728,
      "step": 150
    },
    {
      "epoch": 0.01,
      "grad_norm": 80.5,
      "learning_rate": 3.5200000000000003e-07,
      "loss": 7.7671,
      "step": 160
    },
    {
      "epoch": 0.01,
      "grad_norm": 81.5,
      "learning_rate": 3.7400000000000004e-07,
      "loss": 7.7892,
      "step": 170
    },
    {
      "epoch": 0.01,
      "grad_norm": 81.0,
      "learning_rate": 3.96e-07,
      "loss": 7.7527,
      "step": 180
    },
    {
      "epoch": 0.01,
      "grad_norm": 81.0,
      "learning_rate": 4.18e-07,
      "loss": 7.7056,
      "step": 190
    },
    {
      "epoch": 0.01,
      "grad_norm": 81.5,
      "learning_rate": 4.4e-07,
      "loss": 7.6997,
      "step": 200
    },
    {
      "epoch": 0.01,
      "grad_norm": 80.5,
      "learning_rate": 4.62e-07,
      "loss": 7.7058,
      "step": 210
    },
    {
      "epoch": 0.01,
      "grad_norm": 82.5,
      "learning_rate": 4.84e-07,
      "loss": 7.7096,
      "step": 220
    },
    {
      "epoch": 0.01,
      "grad_norm": 80.5,
      "learning_rate": 5.06e-07,
      "loss": 7.6711,
      "step": 230
    },
    {
      "epoch": 0.01,
      "grad_norm": 81.0,
      "learning_rate": 5.28e-07,
      "loss": 7.6393,
      "step": 240
    },
    {
      "epoch": 0.01,
      "grad_norm": 80.0,
      "learning_rate": 5.5e-07,
      "loss": 7.6306,
      "step": 250
    },
    {
      "epoch": 0.01,
      "grad_norm": 80.0,
      "learning_rate": 5.720000000000001e-07,
      "loss": 7.6173,
      "step": 260
    },
    {
      "epoch": 0.01,
      "grad_norm": 79.5,
      "learning_rate": 5.94e-07,
      "loss": 7.5625,
      "step": 270
    },
    {
      "epoch": 0.01,
      "grad_norm": 79.5,
      "learning_rate": 6.160000000000001e-07,
      "loss": 7.4816,
      "step": 280
    },
    {
      "epoch": 0.01,
      "grad_norm": 78.5,
      "learning_rate": 6.38e-07,
      "loss": 7.4518,
      "step": 290
    },
    {
      "epoch": 0.01,
      "grad_norm": 78.5,
      "learning_rate": 6.6e-07,
      "loss": 7.4093,
      "step": 300
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.5,
      "learning_rate": 6.82e-07,
      "loss": 7.3733,
      "step": 310
    },
    {
      "epoch": 0.02,
      "grad_norm": 78.0,
      "learning_rate": 7.040000000000001e-07,
      "loss": 7.322,
      "step": 320
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.0,
      "learning_rate": 7.260000000000001e-07,
      "loss": 7.276,
      "step": 330
    },
    {
      "epoch": 0.02,
      "grad_norm": 78.5,
      "learning_rate": 7.480000000000001e-07,
      "loss": 7.2595,
      "step": 340
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.0,
      "learning_rate": 7.7e-07,
      "loss": 7.1728,
      "step": 350
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.5,
      "learning_rate": 7.92e-07,
      "loss": 7.1616,
      "step": 360
    },
    {
      "epoch": 0.02,
      "grad_norm": 78.0,
      "learning_rate": 8.140000000000001e-07,
      "loss": 7.1472,
      "step": 370
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.0,
      "learning_rate": 8.36e-07,
      "loss": 7.0884,
      "step": 380
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.5,
      "learning_rate": 8.580000000000001e-07,
      "loss": 7.0459,
      "step": 390
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.5,
      "learning_rate": 8.8e-07,
      "loss": 7.0098,
      "step": 400
    },
    {
      "epoch": 0.02,
      "grad_norm": 78.0,
      "learning_rate": 9.02e-07,
      "loss": 6.9943,
      "step": 410
    },
    {
      "epoch": 0.02,
      "grad_norm": 78.0,
      "learning_rate": 9.24e-07,
      "loss": 6.9331,
      "step": 420
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.0,
      "learning_rate": 9.46e-07,
      "loss": 6.8576,
      "step": 430
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.0,
      "learning_rate": 9.68e-07,
      "loss": 6.7943,
      "step": 440
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.0,
      "learning_rate": 9.9e-07,
      "loss": 6.7133,
      "step": 450
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.5,
      "learning_rate": 1.012e-06,
      "loss": 6.6149,
      "step": 460
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.5,
      "learning_rate": 1.034e-06,
      "loss": 6.5204,
      "step": 470
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.0,
      "learning_rate": 1.056e-06,
      "loss": 6.3806,
      "step": 480
    },
    {
      "epoch": 0.02,
      "grad_norm": 77.5,
      "learning_rate": 1.078e-06,
      "loss": 6.2492,
      "step": 490
    },
    {
      "epoch": 0.03,
      "grad_norm": 78.0,
      "learning_rate": 1.1e-06,
      "loss": 6.0768,
      "step": 500
    },
    {
      "epoch": 0.03,
      "eval_loss": 6.031269550323486,
      "eval_runtime": 65.0659,
      "eval_samples_per_second": 15.369,
      "eval_steps_per_second": 15.369,
      "step": 500
    },
    {
      "epoch": 0.03,
      "grad_norm": 79.5,
      "learning_rate": 1.0926666666666667e-06,
      "loss": 5.9387,
      "step": 510
    },
    {
      "epoch": 0.03,
      "grad_norm": 79.5,
      "learning_rate": 1.0853333333333334e-06,
      "loss": 5.7853,
      "step": 520
    },
    {
      "epoch": 0.03,
      "grad_norm": 80.5,
      "learning_rate": 1.078e-06,
      "loss": 5.6257,
      "step": 530
    },
    {
      "epoch": 0.03,
      "grad_norm": 82.0,
      "learning_rate": 1.0706666666666668e-06,
      "loss": 5.4324,
      "step": 540
    },
    {
      "epoch": 0.03,
      "grad_norm": 82.5,
      "learning_rate": 1.0633333333333335e-06,
      "loss": 5.298,
      "step": 550
    },
    {
      "epoch": 0.03,
      "grad_norm": 83.5,
      "learning_rate": 1.056e-06,
      "loss": 5.091,
      "step": 560
    },
    {
      "epoch": 0.03,
      "grad_norm": 84.5,
      "learning_rate": 1.0486666666666668e-06,
      "loss": 4.9098,
      "step": 570
    },
    {
      "epoch": 0.03,
      "grad_norm": 85.0,
      "learning_rate": 1.0413333333333333e-06,
      "loss": 4.728,
      "step": 580
    },
    {
      "epoch": 0.03,
      "grad_norm": 86.5,
      "learning_rate": 1.034e-06,
      "loss": 4.5719,
      "step": 590
    },
    {
      "epoch": 0.03,
      "grad_norm": 85.5,
      "learning_rate": 1.0266666666666666e-06,
      "loss": 4.4393,
      "step": 600
    },
    {
      "epoch": 0.03,
      "grad_norm": 87.5,
      "learning_rate": 1.0193333333333333e-06,
      "loss": 4.2395,
      "step": 610
    },
    {
      "epoch": 0.03,
      "grad_norm": 86.5,
      "learning_rate": 1.012e-06,
      "loss": 4.08,
      "step": 620
    },
    {
      "epoch": 0.03,
      "grad_norm": 87.0,
      "learning_rate": 1.0046666666666667e-06,
      "loss": 3.9541,
      "step": 630
    },
    {
      "epoch": 0.03,
      "grad_norm": 87.5,
      "learning_rate": 9.973333333333334e-07,
      "loss": 3.7964,
      "step": 640
    },
    {
      "epoch": 0.03,
      "grad_norm": 87.5,
      "learning_rate": 9.9e-07,
      "loss": 3.6848,
      "step": 650
    },
    {
      "epoch": 0.03,
      "grad_norm": 87.0,
      "learning_rate": 9.826666666666667e-07,
      "loss": 3.522,
      "step": 660
    },
    {
      "epoch": 0.03,
      "grad_norm": 86.5,
      "learning_rate": 9.753333333333334e-07,
      "loss": 3.4177,
      "step": 670
    },
    {
      "epoch": 0.03,
      "grad_norm": 85.5,
      "learning_rate": 9.68e-07,
      "loss": 3.3256,
      "step": 680
    },
    {
      "epoch": 0.03,
      "grad_norm": 85.0,
      "learning_rate": 9.606666666666668e-07,
      "loss": 3.2074,
      "step": 690
    },
    {
      "epoch": 0.04,
      "grad_norm": 84.5,
      "learning_rate": 9.533333333333335e-07,
      "loss": 3.077,
      "step": 700
    },
    {
      "epoch": 0.04,
      "grad_norm": 84.0,
      "learning_rate": 9.46e-07,
      "loss": 3.0159,
      "step": 710
    },
    {
      "epoch": 0.04,
      "grad_norm": 83.5,
      "learning_rate": 9.386666666666668e-07,
      "loss": 2.8732,
      "step": 720
    },
    {
      "epoch": 0.04,
      "grad_norm": 83.5,
      "learning_rate": 9.313333333333334e-07,
      "loss": 2.8273,
      "step": 730
    },
    {
      "epoch": 0.04,
      "grad_norm": 81.5,
      "learning_rate": 9.24e-07,
      "loss": 2.6836,
      "step": 740
    },
    {
      "epoch": 0.04,
      "grad_norm": 81.0,
      "learning_rate": 9.166666666666667e-07,
      "loss": 2.623,
      "step": 750
    },
    {
      "epoch": 0.04,
      "grad_norm": 80.0,
      "learning_rate": 9.093333333333333e-07,
      "loss": 2.5291,
      "step": 760
    },
    {
      "epoch": 0.04,
      "grad_norm": 80.0,
      "learning_rate": 9.02e-07,
      "loss": 2.4323,
      "step": 770
    },
    {
      "epoch": 0.04,
      "grad_norm": 78.5,
      "learning_rate": 8.946666666666667e-07,
      "loss": 2.347,
      "step": 780
    },
    {
      "epoch": 0.04,
      "grad_norm": 78.0,
      "learning_rate": 8.873333333333334e-07,
      "loss": 2.3225,
      "step": 790
    },
    {
      "epoch": 0.04,
      "grad_norm": 77.5,
      "learning_rate": 8.8e-07,
      "loss": 2.2284,
      "step": 800
    },
    {
      "epoch": 0.04,
      "grad_norm": 77.0,
      "learning_rate": 8.726666666666667e-07,
      "loss": 2.1348,
      "step": 810
    },
    {
      "epoch": 0.04,
      "grad_norm": 76.0,
      "learning_rate": 8.653333333333333e-07,
      "loss": 2.0742,
      "step": 820
    },
    {
      "epoch": 0.04,
      "grad_norm": 75.5,
      "learning_rate": 8.580000000000001e-07,
      "loss": 2.014,
      "step": 830
    },
    {
      "epoch": 0.04,
      "grad_norm": 76.0,
      "learning_rate": 8.506666666666667e-07,
      "loss": 1.9751,
      "step": 840
    },
    {
      "epoch": 0.04,
      "grad_norm": 75.0,
      "learning_rate": 8.433333333333334e-07,
      "loss": 1.8888,
      "step": 850
    },
    {
      "epoch": 0.04,
      "grad_norm": 74.0,
      "learning_rate": 8.36e-07,
      "loss": 1.8768,
      "step": 860
    },
    {
      "epoch": 0.04,
      "grad_norm": 73.0,
      "learning_rate": 8.286666666666667e-07,
      "loss": 1.807,
      "step": 870
    },
    {
      "epoch": 0.04,
      "grad_norm": 71.5,
      "learning_rate": 8.213333333333334e-07,
      "loss": 1.7518,
      "step": 880
    },
    {
      "epoch": 0.04,
      "grad_norm": 71.0,
      "learning_rate": 8.140000000000001e-07,
      "loss": 1.7072,
      "step": 890
    },
    {
      "epoch": 0.04,
      "grad_norm": 72.0,
      "learning_rate": 8.066666666666666e-07,
      "loss": 1.6759,
      "step": 900
    },
    {
      "epoch": 0.05,
      "grad_norm": 70.0,
      "learning_rate": 7.993333333333334e-07,
      "loss": 1.6377,
      "step": 910
    },
    {
      "epoch": 0.05,
      "grad_norm": 72.0,
      "learning_rate": 7.92e-07,
      "loss": 1.5894,
      "step": 920
    },
    {
      "epoch": 0.05,
      "grad_norm": 68.5,
      "learning_rate": 7.846666666666668e-07,
      "loss": 1.5379,
      "step": 930
    },
    {
      "epoch": 0.05,
      "grad_norm": 68.0,
      "learning_rate": 7.773333333333334e-07,
      "loss": 1.5146,
      "step": 940
    },
    {
      "epoch": 0.05,
      "grad_norm": 66.5,
      "learning_rate": 7.7e-07,
      "loss": 1.4519,
      "step": 950
    },
    {
      "epoch": 0.05,
      "grad_norm": 66.5,
      "learning_rate": 7.626666666666667e-07,
      "loss": 1.441,
      "step": 960
    },
    {
      "epoch": 0.05,
      "grad_norm": 67.0,
      "learning_rate": 7.553333333333334e-07,
      "loss": 1.4175,
      "step": 970
    },
    {
      "epoch": 0.05,
      "grad_norm": 63.5,
      "learning_rate": 7.480000000000001e-07,
      "loss": 1.3603,
      "step": 980
    },
    {
      "epoch": 0.05,
      "grad_norm": 66.0,
      "learning_rate": 7.406666666666668e-07,
      "loss": 1.3479,
      "step": 990
    },
    {
      "epoch": 0.05,
      "grad_norm": 65.5,
      "learning_rate": 7.333333333333333e-07,
      "loss": 1.2865,
      "step": 1000
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.3002561330795288,
      "eval_runtime": 64.955,
      "eval_samples_per_second": 15.395,
      "eval_steps_per_second": 15.395,
      "step": 1000
    },
    {
      "epoch": 0.05,
      "grad_norm": 65.0,
      "learning_rate": 7.260000000000001e-07,
      "loss": 1.2767,
      "step": 1010
    },
    {
      "epoch": 0.05,
      "grad_norm": 63.25,
      "learning_rate": 7.186666666666667e-07,
      "loss": 1.2266,
      "step": 1020
    },
    {
      "epoch": 0.05,
      "grad_norm": 63.75,
      "learning_rate": 7.113333333333333e-07,
      "loss": 1.2458,
      "step": 1030
    },
    {
      "epoch": 0.05,
      "grad_norm": 63.0,
      "learning_rate": 7.040000000000001e-07,
      "loss": 1.1768,
      "step": 1040
    },
    {
      "epoch": 0.05,
      "grad_norm": 62.75,
      "learning_rate": 6.966666666666666e-07,
      "loss": 1.1844,
      "step": 1050
    },
    {
      "epoch": 0.05,
      "grad_norm": 62.25,
      "learning_rate": 6.893333333333334e-07,
      "loss": 1.186,
      "step": 1060
    },
    {
      "epoch": 0.05,
      "grad_norm": 62.75,
      "learning_rate": 6.82e-07,
      "loss": 1.1551,
      "step": 1070
    },
    {
      "epoch": 0.05,
      "grad_norm": 60.25,
      "learning_rate": 6.746666666666667e-07,
      "loss": 1.1218,
      "step": 1080
    },
    {
      "epoch": 0.05,
      "grad_norm": 61.25,
      "learning_rate": 6.673333333333334e-07,
      "loss": 1.0962,
      "step": 1090
    },
    {
      "epoch": 0.06,
      "grad_norm": 60.5,
      "learning_rate": 6.6e-07,
      "loss": 1.1204,
      "step": 1100
    },
    {
      "epoch": 0.06,
      "grad_norm": 58.25,
      "learning_rate": 6.526666666666667e-07,
      "loss": 1.0833,
      "step": 1110
    },
    {
      "epoch": 0.06,
      "grad_norm": 57.25,
      "learning_rate": 6.453333333333334e-07,
      "loss": 1.0743,
      "step": 1120
    },
    {
      "epoch": 0.06,
      "grad_norm": 60.25,
      "learning_rate": 6.38e-07,
      "loss": 1.0764,
      "step": 1130
    },
    {
      "epoch": 0.06,
      "grad_norm": 56.0,
      "learning_rate": 6.306666666666668e-07,
      "loss": 1.0315,
      "step": 1140
    },
    {
      "epoch": 0.06,
      "grad_norm": 59.25,
      "learning_rate": 6.233333333333333e-07,
      "loss": 1.0791,
      "step": 1150
    },
    {
      "epoch": 0.06,
      "grad_norm": 60.0,
      "learning_rate": 6.160000000000001e-07,
      "loss": 1.0443,
      "step": 1160
    },
    {
      "epoch": 0.06,
      "grad_norm": 60.75,
      "learning_rate": 6.086666666666667e-07,
      "loss": 1.0472,
      "step": 1170
    },
    {
      "epoch": 0.06,
      "grad_norm": 59.75,
      "learning_rate": 6.013333333333334e-07,
      "loss": 1.0422,
      "step": 1180
    },
    {
      "epoch": 0.06,
      "grad_norm": 58.5,
      "learning_rate": 5.94e-07,
      "loss": 1.051,
      "step": 1190
    },
    {
      "epoch": 0.06,
      "grad_norm": 57.25,
      "learning_rate": 5.866666666666667e-07,
      "loss": 1.0104,
      "step": 1200
    },
    {
      "epoch": 0.06,
      "grad_norm": 58.5,
      "learning_rate": 5.793333333333333e-07,
      "loss": 1.0429,
      "step": 1210
    },
    {
      "epoch": 0.06,
      "grad_norm": 60.25,
      "learning_rate": 5.720000000000001e-07,
      "loss": 1.0135,
      "step": 1220
    },
    {
      "epoch": 0.06,
      "grad_norm": 58.0,
      "learning_rate": 5.646666666666667e-07,
      "loss": 1.0441,
      "step": 1230
    },
    {
      "epoch": 0.06,
      "grad_norm": 57.25,
      "learning_rate": 5.573333333333335e-07,
      "loss": 1.0202,
      "step": 1240
    },
    {
      "epoch": 0.06,
      "grad_norm": 54.5,
      "learning_rate": 5.5e-07,
      "loss": 0.9915,
      "step": 1250
    },
    {
      "epoch": 0.06,
      "grad_norm": 56.75,
      "learning_rate": 5.426666666666667e-07,
      "loss": 1.0085,
      "step": 1260
    },
    {
      "epoch": 0.06,
      "grad_norm": 58.75,
      "learning_rate": 5.353333333333334e-07,
      "loss": 1.0114,
      "step": 1270
    },
    {
      "epoch": 0.06,
      "grad_norm": 56.0,
      "learning_rate": 5.28e-07,
      "loss": 1.0092,
      "step": 1280
    },
    {
      "epoch": 0.06,
      "grad_norm": 54.25,
      "learning_rate": 5.206666666666666e-07,
      "loss": 0.9634,
      "step": 1290
    },
    {
      "epoch": 0.07,
      "grad_norm": 54.0,
      "learning_rate": 5.133333333333333e-07,
      "loss": 0.9588,
      "step": 1300
    },
    {
      "epoch": 0.07,
      "grad_norm": 56.5,
      "learning_rate": 5.06e-07,
      "loss": 0.9885,
      "step": 1310
    },
    {
      "epoch": 0.07,
      "grad_norm": 55.75,
      "learning_rate": 4.986666666666667e-07,
      "loss": 1.024,
      "step": 1320
    },
    {
      "epoch": 0.07,
      "grad_norm": 54.5,
      "learning_rate": 4.913333333333334e-07,
      "loss": 0.9812,
      "step": 1330
    },
    {
      "epoch": 0.07,
      "grad_norm": 55.5,
      "learning_rate": 4.84e-07,
      "loss": 0.9859,
      "step": 1340
    },
    {
      "epoch": 0.07,
      "grad_norm": 57.5,
      "learning_rate": 4.766666666666667e-07,
      "loss": 0.9629,
      "step": 1350
    },
    {
      "epoch": 0.07,
      "grad_norm": 54.25,
      "learning_rate": 4.693333333333334e-07,
      "loss": 0.9386,
      "step": 1360
    },
    {
      "epoch": 0.07,
      "grad_norm": 54.75,
      "learning_rate": 4.62e-07,
      "loss": 1.0033,
      "step": 1370
    },
    {
      "epoch": 0.07,
      "grad_norm": 56.5,
      "learning_rate": 4.5466666666666666e-07,
      "loss": 0.9642,
      "step": 1380
    },
    {
      "epoch": 0.07,
      "grad_norm": 53.5,
      "learning_rate": 4.4733333333333334e-07,
      "loss": 0.9745,
      "step": 1390
    },
    {
      "epoch": 0.07,
      "grad_norm": 54.75,
      "learning_rate": 4.4e-07,
      "loss": 0.9625,
      "step": 1400
    },
    {
      "epoch": 0.07,
      "grad_norm": 56.25,
      "learning_rate": 4.3266666666666665e-07,
      "loss": 0.9617,
      "step": 1410
    },
    {
      "epoch": 0.07,
      "grad_norm": 56.5,
      "learning_rate": 4.2533333333333333e-07,
      "loss": 0.9724,
      "step": 1420
    },
    {
      "epoch": 0.07,
      "grad_norm": 54.5,
      "learning_rate": 4.18e-07,
      "loss": 0.9962,
      "step": 1430
    },
    {
      "epoch": 0.07,
      "grad_norm": 53.0,
      "learning_rate": 4.106666666666667e-07,
      "loss": 0.9469,
      "step": 1440
    },
    {
      "epoch": 0.07,
      "grad_norm": 54.75,
      "learning_rate": 4.033333333333333e-07,
      "loss": 0.9777,
      "step": 1450
    },
    {
      "epoch": 0.07,
      "grad_norm": 57.0,
      "learning_rate": 3.96e-07,
      "loss": 0.9498,
      "step": 1460
    },
    {
      "epoch": 0.07,
      "grad_norm": 57.0,
      "learning_rate": 3.886666666666667e-07,
      "loss": 0.9229,
      "step": 1470
    },
    {
      "epoch": 0.07,
      "grad_norm": 57.5,
      "learning_rate": 3.8133333333333336e-07,
      "loss": 0.9686,
      "step": 1480
    },
    {
      "epoch": 0.07,
      "grad_norm": 59.0,
      "learning_rate": 3.7400000000000004e-07,
      "loss": 0.9718,
      "step": 1490
    },
    {
      "epoch": 0.07,
      "grad_norm": 55.0,
      "learning_rate": 3.6666666666666667e-07,
      "loss": 0.9614,
      "step": 1500
    },
    {
      "epoch": 0.07,
      "eval_loss": 0.9728732705116272,
      "eval_runtime": 65.1341,
      "eval_samples_per_second": 15.353,
      "eval_steps_per_second": 15.353,
      "step": 1500
    },
    {
      "epoch": 0.08,
      "grad_norm": 56.25,
      "learning_rate": 3.5933333333333335e-07,
      "loss": 0.9445,
      "step": 1510
    },
    {
      "epoch": 0.08,
      "grad_norm": 57.0,
      "learning_rate": 3.5200000000000003e-07,
      "loss": 0.9411,
      "step": 1520
    },
    {
      "epoch": 0.08,
      "grad_norm": 55.25,
      "learning_rate": 3.446666666666667e-07,
      "loss": 0.9502,
      "step": 1530
    },
    {
      "epoch": 0.08,
      "grad_norm": 55.5,
      "learning_rate": 3.3733333333333334e-07,
      "loss": 0.9696,
      "step": 1540
    },
    {
      "epoch": 0.08,
      "grad_norm": 53.25,
      "learning_rate": 3.3e-07,
      "loss": 0.9587,
      "step": 1550
    },
    {
      "epoch": 0.08,
      "grad_norm": 55.5,
      "learning_rate": 3.226666666666667e-07,
      "loss": 1.0107,
      "step": 1560
    },
    {
      "epoch": 0.08,
      "grad_norm": 56.75,
      "learning_rate": 3.153333333333334e-07,
      "loss": 0.9738,
      "step": 1570
    },
    {
      "epoch": 0.08,
      "grad_norm": 54.0,
      "learning_rate": 3.0800000000000006e-07,
      "loss": 0.9859,
      "step": 1580
    },
    {
      "epoch": 0.08,
      "grad_norm": 57.25,
      "learning_rate": 3.006666666666667e-07,
      "loss": 0.9419,
      "step": 1590
    },
    {
      "epoch": 0.08,
      "grad_norm": 54.75,
      "learning_rate": 2.9333333333333337e-07,
      "loss": 0.9493,
      "step": 1600
    },
    {
      "epoch": 0.08,
      "grad_norm": 54.75,
      "learning_rate": 2.8600000000000005e-07,
      "loss": 0.9896,
      "step": 1610
    },
    {
      "epoch": 0.08,
      "grad_norm": 56.0,
      "learning_rate": 2.7866666666666673e-07,
      "loss": 0.9342,
      "step": 1620
    },
    {
      "epoch": 0.08,
      "grad_norm": 56.5,
      "learning_rate": 2.7133333333333335e-07,
      "loss": 0.9641,
      "step": 1630
    },
    {
      "epoch": 0.08,
      "grad_norm": 56.25,
      "learning_rate": 2.64e-07,
      "loss": 0.9459,
      "step": 1640
    },
    {
      "epoch": 0.08,
      "grad_norm": 55.5,
      "learning_rate": 2.5666666666666666e-07,
      "loss": 0.9835,
      "step": 1650
    },
    {
      "epoch": 0.08,
      "grad_norm": 54.0,
      "learning_rate": 2.4933333333333334e-07,
      "loss": 0.9505,
      "step": 1660
    },
    {
      "epoch": 0.08,
      "grad_norm": 57.5,
      "learning_rate": 2.42e-07,
      "loss": 0.9574,
      "step": 1670
    },
    {
      "epoch": 0.08,
      "grad_norm": 52.5,
      "learning_rate": 2.346666666666667e-07,
      "loss": 0.9476,
      "step": 1680
    },
    {
      "epoch": 0.08,
      "grad_norm": 56.0,
      "learning_rate": 2.2733333333333333e-07,
      "loss": 0.9757,
      "step": 1690
    },
    {
      "epoch": 0.09,
      "grad_norm": 57.75,
      "learning_rate": 2.2e-07,
      "loss": 1.0152,
      "step": 1700
    },
    {
      "epoch": 0.09,
      "grad_norm": 55.5,
      "learning_rate": 2.1266666666666667e-07,
      "loss": 0.9584,
      "step": 1710
    },
    {
      "epoch": 0.09,
      "grad_norm": 56.25,
      "learning_rate": 2.0533333333333335e-07,
      "loss": 0.9793,
      "step": 1720
    },
    {
      "epoch": 0.09,
      "grad_norm": 57.0,
      "learning_rate": 1.98e-07,
      "loss": 0.9512,
      "step": 1730
    },
    {
      "epoch": 0.09,
      "grad_norm": 54.75,
      "learning_rate": 1.9066666666666668e-07,
      "loss": 0.9505,
      "step": 1740
    },
    {
      "epoch": 0.09,
      "grad_norm": 56.5,
      "learning_rate": 1.8333333333333333e-07,
      "loss": 0.9632,
      "step": 1750
    },
    {
      "epoch": 0.09,
      "grad_norm": 53.5,
      "learning_rate": 1.7600000000000001e-07,
      "loss": 0.9366,
      "step": 1760
    },
    {
      "epoch": 0.09,
      "grad_norm": 57.5,
      "learning_rate": 1.6866666666666667e-07,
      "loss": 0.9409,
      "step": 1770
    },
    {
      "epoch": 0.09,
      "grad_norm": 59.5,
      "learning_rate": 1.6133333333333335e-07,
      "loss": 1.0027,
      "step": 1780
    },
    {
      "epoch": 0.09,
      "grad_norm": 56.25,
      "learning_rate": 1.5400000000000003e-07,
      "loss": 0.9519,
      "step": 1790
    },
    {
      "epoch": 0.09,
      "grad_norm": 57.25,
      "learning_rate": 1.4666666666666668e-07,
      "loss": 0.9499,
      "step": 1800
    },
    {
      "epoch": 0.09,
      "grad_norm": 55.5,
      "learning_rate": 1.3933333333333336e-07,
      "loss": 0.9739,
      "step": 1810
    },
    {
      "epoch": 0.09,
      "grad_norm": 56.0,
      "learning_rate": 1.32e-07,
      "loss": 0.9899,
      "step": 1820
    },
    {
      "epoch": 0.09,
      "grad_norm": 61.25,
      "learning_rate": 1.2466666666666667e-07,
      "loss": 0.9731,
      "step": 1830
    },
    {
      "epoch": 0.09,
      "grad_norm": 56.0,
      "learning_rate": 1.1733333333333335e-07,
      "loss": 0.9449,
      "step": 1840
    },
    {
      "epoch": 0.09,
      "grad_norm": 57.25,
      "learning_rate": 1.1e-07,
      "loss": 1.0051,
      "step": 1850
    },
    {
      "epoch": 0.09,
      "grad_norm": 54.75,
      "learning_rate": 1.0266666666666667e-07,
      "loss": 0.9907,
      "step": 1860
    },
    {
      "epoch": 0.09,
      "grad_norm": 56.0,
      "learning_rate": 9.533333333333334e-08,
      "loss": 0.9608,
      "step": 1870
    },
    {
      "epoch": 0.09,
      "grad_norm": 57.5,
      "learning_rate": 8.800000000000001e-08,
      "loss": 0.9558,
      "step": 1880
    },
    {
      "epoch": 0.09,
      "grad_norm": 59.0,
      "learning_rate": 8.066666666666667e-08,
      "loss": 0.9928,
      "step": 1890
    },
    {
      "epoch": 0.1,
      "grad_norm": 57.25,
      "learning_rate": 7.333333333333334e-08,
      "loss": 0.9629,
      "step": 1900
    },
    {
      "epoch": 0.1,
      "grad_norm": 56.75,
      "learning_rate": 6.6e-08,
      "loss": 0.9358,
      "step": 1910
    },
    {
      "epoch": 0.1,
      "grad_norm": 57.25,
      "learning_rate": 5.8666666666666676e-08,
      "loss": 0.9602,
      "step": 1920
    },
    {
      "epoch": 0.1,
      "grad_norm": 59.25,
      "learning_rate": 5.1333333333333336e-08,
      "loss": 0.9639,
      "step": 1930
    },
    {
      "epoch": 0.1,
      "grad_norm": 58.5,
      "learning_rate": 4.4000000000000004e-08,
      "loss": 0.9643,
      "step": 1940
    },
    {
      "epoch": 0.1,
      "grad_norm": 59.25,
      "learning_rate": 3.666666666666667e-08,
      "loss": 0.9413,
      "step": 1950
    },
    {
      "epoch": 0.1,
      "grad_norm": 55.25,
      "learning_rate": 2.9333333333333338e-08,
      "loss": 0.9927,
      "step": 1960
    },
    {
      "epoch": 0.1,
      "grad_norm": 56.75,
      "learning_rate": 2.2000000000000002e-08,
      "loss": 0.987,
      "step": 1970
    },
    {
      "epoch": 0.1,
      "grad_norm": 53.75,
      "learning_rate": 1.4666666666666669e-08,
      "loss": 0.9517,
      "step": 1980
    },
    {
      "epoch": 0.1,
      "grad_norm": 56.25,
      "learning_rate": 7.3333333333333345e-09,
      "loss": 0.9575,
      "step": 1990
    },
    {
      "epoch": 0.1,
      "grad_norm": 55.75,
      "learning_rate": 0.0,
      "loss": 0.9746,
      "step": 2000
    },
    {
      "epoch": 0.1,
      "eval_loss": 0.9655321836471558,
      "eval_runtime": 64.9317,
      "eval_samples_per_second": 15.401,
      "eval_steps_per_second": 15.401,
      "step": 2000
    }
  ],
  "logging_steps": 10,
  "max_steps": 2000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 500,
  "total_flos": 3.227844083712e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}