{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 19.2,
  "global_step": 240,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.4,
      "learning_rate": 0.0001,
      "loss": 2.3459,
      "step": 5
    },
    {
      "epoch": 0.8,
      "learning_rate": 9.787234042553192e-05,
      "loss": 2.1597,
      "step": 10
    },
    {
      "epoch": 1.2,
      "learning_rate": 9.574468085106384e-05,
      "loss": 1.7456,
      "step": 15
    },
    {
      "epoch": 1.6,
      "learning_rate": 9.361702127659576e-05,
      "loss": 1.5638,
      "step": 20
    },
    {
      "epoch": 2.0,
      "learning_rate": 9.148936170212766e-05,
      "loss": 1.4497,
      "step": 25
    },
    {
      "epoch": 2.4,
      "learning_rate": 8.936170212765958e-05,
      "loss": 1.3674,
      "step": 30
    },
    {
      "epoch": 2.8,
      "learning_rate": 8.723404255319149e-05,
      "loss": 1.3003,
      "step": 35
    },
    {
      "epoch": 3.2,
      "learning_rate": 8.510638297872341e-05,
      "loss": 1.2443,
      "step": 40
    },
    {
      "epoch": 3.6,
      "learning_rate": 8.297872340425533e-05,
      "loss": 1.2049,
      "step": 45
    },
    {
      "epoch": 4.0,
      "learning_rate": 8.085106382978723e-05,
      "loss": 1.2089,
      "step": 50
    },
    {
      "epoch": 4.4,
      "learning_rate": 7.872340425531916e-05,
      "loss": 1.1278,
      "step": 55
    },
    {
      "epoch": 4.8,
      "learning_rate": 7.659574468085106e-05,
      "loss": 1.1186,
      "step": 60
    },
    {
      "epoch": 5.2,
      "learning_rate": 7.446808510638298e-05,
      "loss": 1.0933,
      "step": 65
    },
    {
      "epoch": 5.6,
      "learning_rate": 7.23404255319149e-05,
      "loss": 1.0794,
      "step": 70
    },
    {
      "epoch": 6.0,
      "learning_rate": 7.021276595744681e-05,
      "loss": 1.0174,
      "step": 75
    },
    {
      "epoch": 6.4,
      "learning_rate": 6.808510638297873e-05,
      "loss": 0.9832,
      "step": 80
    },
    {
      "epoch": 6.8,
      "learning_rate": 6.595744680851063e-05,
      "loss": 0.9853,
      "step": 85
    },
    {
      "epoch": 7.2,
      "learning_rate": 6.382978723404256e-05,
      "loss": 0.9455,
      "step": 90
    },
    {
      "epoch": 7.6,
      "learning_rate": 6.170212765957447e-05,
      "loss": 0.9044,
      "step": 95
    },
    {
      "epoch": 8.0,
      "learning_rate": 5.9574468085106384e-05,
      "loss": 0.9453,
      "step": 100
    },
    {
      "epoch": 8.4,
      "learning_rate": 5.744680851063831e-05,
      "loss": 0.8726,
      "step": 105
    },
    {
      "epoch": 8.8,
      "learning_rate": 5.531914893617022e-05,
      "loss": 0.8506,
      "step": 110
    },
    {
      "epoch": 9.2,
      "learning_rate": 5.319148936170213e-05,
      "loss": 0.8197,
      "step": 115
    },
    {
      "epoch": 9.6,
      "learning_rate": 5.1063829787234044e-05,
      "loss": 0.794,
      "step": 120
    },
    {
      "epoch": 10.0,
      "learning_rate": 4.893617021276596e-05,
      "loss": 0.806,
      "step": 125
    },
    {
      "epoch": 10.4,
      "learning_rate": 4.680851063829788e-05,
      "loss": 0.7553,
      "step": 130
    },
    {
      "epoch": 10.8,
      "learning_rate": 4.468085106382979e-05,
      "loss": 0.7085,
      "step": 135
    },
    {
      "epoch": 11.2,
      "learning_rate": 4.2553191489361704e-05,
      "loss": 0.7396,
      "step": 140
    },
    {
      "epoch": 11.6,
      "learning_rate": 4.0425531914893614e-05,
      "loss": 0.6653,
      "step": 145
    },
    {
      "epoch": 12.0,
      "learning_rate": 3.829787234042553e-05,
      "loss": 0.6648,
      "step": 150
    },
    {
      "epoch": 12.4,
      "learning_rate": 3.617021276595745e-05,
      "loss": 0.6164,
      "step": 155
    },
    {
      "epoch": 12.8,
      "learning_rate": 3.4042553191489365e-05,
      "loss": 0.6197,
      "step": 160
    },
    {
      "epoch": 13.2,
      "learning_rate": 3.191489361702128e-05,
      "loss": 0.5731,
      "step": 165
    },
    {
      "epoch": 13.6,
      "learning_rate": 2.9787234042553192e-05,
      "loss": 0.5713,
      "step": 170
    },
    {
      "epoch": 14.0,
      "learning_rate": 2.765957446808511e-05,
      "loss": 0.5612,
      "step": 175
    },
    {
      "epoch": 14.4,
      "learning_rate": 2.5531914893617022e-05,
      "loss": 0.5372,
      "step": 180
    },
    {
      "epoch": 14.8,
      "learning_rate": 2.340425531914894e-05,
      "loss": 0.5098,
      "step": 185
    },
    {
      "epoch": 15.2,
      "learning_rate": 2.1276595744680852e-05,
      "loss": 0.4798,
      "step": 190
    },
    {
      "epoch": 15.6,
      "learning_rate": 1.9148936170212766e-05,
      "loss": 0.4931,
      "step": 195
    },
    {
      "epoch": 16.0,
      "learning_rate": 1.7021276595744682e-05,
      "loss": 0.4652,
      "step": 200
    },
    {
      "epoch": 16.4,
      "learning_rate": 1.4893617021276596e-05,
      "loss": 0.4244,
      "step": 205
    },
    {
      "epoch": 16.8,
      "learning_rate": 1.2765957446808511e-05,
      "loss": 0.4701,
      "step": 210
    },
    {
      "epoch": 17.2,
      "learning_rate": 1.0638297872340426e-05,
      "loss": 0.4204,
      "step": 215
    },
    {
      "epoch": 17.6,
      "learning_rate": 8.510638297872341e-06,
      "loss": 0.4216,
      "step": 220
    },
    {
      "epoch": 18.0,
      "learning_rate": 6.3829787234042555e-06,
      "loss": 0.4294,
      "step": 225
    },
    {
      "epoch": 18.4,
      "learning_rate": 4.255319148936171e-06,
      "loss": 0.4151,
      "step": 230
    },
    {
      "epoch": 18.8,
      "learning_rate": 2.1276595744680853e-06,
      "loss": 0.4077,
      "step": 235
    },
    {
      "epoch": 19.2,
      "learning_rate": 0.0,
      "loss": 0.4046,
      "step": 240
    }
  ],
  "max_steps": 240,
  "num_train_epochs": 20,
  "total_flos": 6.017479499317248e+17,
  "trial_name": null,
  "trial_params": null
}