{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.08,
  "eval_steps": 500,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 4.000000000000001e-06,
      "loss": 1.1216,
      "step": 1
    },
    {
      "epoch": 0.0,
      "learning_rate": 8.000000000000001e-06,
      "loss": 1.2115,
      "step": 2
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.2e-05,
      "loss": 1.089,
      "step": 3
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 1.2665,
      "step": 4
    },
    {
      "epoch": 0.0,
      "learning_rate": 2e-05,
      "loss": 1.08,
      "step": 5
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.4e-05,
      "loss": 1.0745,
      "step": 6
    },
    {
      "epoch": 0.01,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 1.0659,
      "step": 7
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 1.0081,
      "step": 8
    },
    {
      "epoch": 0.01,
      "learning_rate": 3.6e-05,
      "loss": 0.8667,
      "step": 9
    },
    {
      "epoch": 0.01,
      "learning_rate": 4e-05,
      "loss": 0.905,
      "step": 10
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 0.794,
      "step": 11
    },
    {
      "epoch": 0.01,
      "learning_rate": 4.8e-05,
      "loss": 0.841,
      "step": 12
    },
    {
      "epoch": 0.01,
      "learning_rate": 5.2000000000000004e-05,
      "loss": 0.7165,
      "step": 13
    },
    {
      "epoch": 0.01,
      "learning_rate": 5.6000000000000006e-05,
      "loss": 0.7328,
      "step": 14
    },
    {
      "epoch": 0.01,
      "learning_rate": 6e-05,
      "loss": 0.7847,
      "step": 15
    },
    {
      "epoch": 0.01,
      "learning_rate": 6.400000000000001e-05,
      "loss": 0.6334,
      "step": 16
    },
    {
      "epoch": 0.01,
      "learning_rate": 6.800000000000001e-05,
      "loss": 0.6643,
      "step": 17
    },
    {
      "epoch": 0.01,
      "learning_rate": 7.2e-05,
      "loss": 0.601,
      "step": 18
    },
    {
      "epoch": 0.02,
      "learning_rate": 7.6e-05,
      "loss": 0.6247,
      "step": 19
    },
    {
      "epoch": 0.02,
      "learning_rate": 8e-05,
      "loss": 0.5676,
      "step": 20
    },
    {
      "epoch": 0.02,
      "learning_rate": 8.4e-05,
      "loss": 0.5716,
      "step": 21
    },
    {
      "epoch": 0.02,
      "learning_rate": 8.800000000000001e-05,
      "loss": 0.5638,
      "step": 22
    },
    {
      "epoch": 0.02,
      "learning_rate": 9.200000000000001e-05,
      "loss": 0.571,
      "step": 23
    },
    {
      "epoch": 0.02,
      "learning_rate": 9.6e-05,
      "loss": 0.5529,
      "step": 24
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001,
      "loss": 0.579,
      "step": 25
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00010400000000000001,
      "loss": 0.5426,
      "step": 26
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00010800000000000001,
      "loss": 0.5065,
      "step": 27
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00011200000000000001,
      "loss": 0.5103,
      "step": 28
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.000116,
      "loss": 0.5186,
      "step": 29
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00012,
      "loss": 0.4906,
      "step": 30
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.000124,
      "loss": 0.5208,
      "step": 31
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00012800000000000002,
      "loss": 0.5539,
      "step": 32
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.000132,
      "loss": 0.5014,
      "step": 33
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00013600000000000003,
      "loss": 0.5189,
      "step": 34
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00014,
      "loss": 0.5317,
      "step": 35
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.000144,
      "loss": 0.5158,
      "step": 36
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.000148,
      "loss": 0.5151,
      "step": 37
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.000152,
      "loss": 0.4496,
      "step": 38
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00015600000000000002,
      "loss": 0.5058,
      "step": 39
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00016,
      "loss": 0.5394,
      "step": 40
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.000164,
      "loss": 0.4685,
      "step": 41
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.000168,
      "loss": 0.5078,
      "step": 42
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.000172,
      "loss": 0.4618,
      "step": 43
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00017600000000000002,
      "loss": 0.4989,
      "step": 44
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00018,
      "loss": 0.4492,
      "step": 45
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00018400000000000003,
      "loss": 0.5165,
      "step": 46
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.000188,
      "loss": 0.492,
      "step": 47
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.000192,
      "loss": 0.4992,
      "step": 48
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.000196,
      "loss": 0.451,
      "step": 49
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002,
      "loss": 0.4588,
      "step": 50
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00020400000000000003,
      "loss": 0.4867,
      "step": 51
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00020800000000000001,
      "loss": 0.451,
      "step": 52
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00021200000000000003,
      "loss": 0.5302,
      "step": 53
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00021600000000000002,
      "loss": 0.4654,
      "step": 54
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00022000000000000003,
      "loss": 0.511,
      "step": 55
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00022400000000000002,
      "loss": 0.4921,
      "step": 56
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00022799999999999999,
      "loss": 0.4858,
      "step": 57
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.000232,
      "loss": 0.4373,
      "step": 58
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.000236,
      "loss": 0.4998,
      "step": 59
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00024,
      "loss": 0.482,
      "step": 60
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.000244,
      "loss": 0.4686,
      "step": 61
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.000248,
      "loss": 0.4657,
      "step": 62
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.000252,
      "loss": 0.5077,
      "step": 63
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00025600000000000004,
      "loss": 0.4893,
      "step": 64
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00026000000000000003,
      "loss": 0.4286,
      "step": 65
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.000264,
      "loss": 0.4262,
      "step": 66
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.000268,
      "loss": 0.4851,
      "step": 67
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00027200000000000005,
      "loss": 0.5201,
      "step": 68
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000276,
      "loss": 0.4923,
      "step": 69
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00028,
      "loss": 0.4739,
      "step": 70
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000284,
      "loss": 0.4965,
      "step": 71
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000288,
      "loss": 0.4749,
      "step": 72
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000292,
      "loss": 0.5087,
      "step": 73
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000296,
      "loss": 0.4603,
      "step": 74
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00030000000000000003,
      "loss": 0.4746,
      "step": 75
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000304,
      "loss": 0.5176,
      "step": 76
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000308,
      "loss": 0.4847,
      "step": 77
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00031200000000000005,
      "loss": 0.448,
      "step": 78
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00031600000000000004,
      "loss": 0.4245,
      "step": 79
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00032,
      "loss": 0.4618,
      "step": 80
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.000324,
      "loss": 0.4838,
      "step": 81
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.000328,
      "loss": 0.4449,
      "step": 82
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.000332,
      "loss": 0.4691,
      "step": 83
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.000336,
      "loss": 0.4518,
      "step": 84
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00034,
      "loss": 0.4881,
      "step": 85
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.000344,
      "loss": 0.519,
      "step": 86
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.000348,
      "loss": 0.4908,
      "step": 87
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00035200000000000005,
      "loss": 0.4413,
      "step": 88
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00035600000000000003,
      "loss": 0.477,
      "step": 89
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00036,
      "loss": 0.4432,
      "step": 90
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.000364,
      "loss": 0.4678,
      "step": 91
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00036800000000000005,
      "loss": 0.4864,
      "step": 92
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00037200000000000004,
      "loss": 0.5048,
      "step": 93
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.000376,
      "loss": 0.4583,
      "step": 94
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00038,
      "loss": 0.465,
      "step": 95
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.000384,
      "loss": 0.4414,
      "step": 96
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.000388,
      "loss": 0.4912,
      "step": 97
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.000392,
      "loss": 0.4749,
      "step": 98
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00039600000000000003,
      "loss": 0.4773,
      "step": 99
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0004,
      "loss": 0.4868,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 1250,
  "num_train_epochs": 1,
  "save_steps": 50,
  "total_flos": 6.794848448387482e+16,
  "trial_name": null,
  "trial_params": null
}