{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.4928909952606635,
  "eval_steps": 6,
  "global_step": 26,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.018957345971563982,
      "grad_norm": 1.21875,
      "learning_rate": 2e-05,
      "loss": 2.0442,
      "step": 1
    },
    {
      "epoch": 0.018957345971563982,
      "eval_loss": 2.073391914367676,
      "eval_runtime": 6.8335,
      "eval_samples_per_second": 52.096,
      "eval_steps_per_second": 13.024,
      "step": 1
    },
    {
      "epoch": 0.037914691943127965,
      "grad_norm": 1.40625,
      "learning_rate": 4e-05,
      "loss": 2.1817,
      "step": 2
    },
    {
      "epoch": 0.05687203791469194,
      "grad_norm": 1.3125,
      "learning_rate": 6e-05,
      "loss": 2.0671,
      "step": 3
    },
    {
      "epoch": 0.07582938388625593,
      "grad_norm": 1.5,
      "learning_rate": 8e-05,
      "loss": 1.9289,
      "step": 4
    },
    {
      "epoch": 0.0947867298578199,
      "grad_norm": 1.3984375,
      "learning_rate": 0.0001,
      "loss": 1.7705,
      "step": 5
    },
    {
      "epoch": 0.11374407582938388,
      "grad_norm": 1.1171875,
      "learning_rate": 0.00012,
      "loss": 1.449,
      "step": 6
    },
    {
      "epoch": 0.11374407582938388,
      "eval_loss": 1.2773768901824951,
      "eval_runtime": 7.1055,
      "eval_samples_per_second": 50.102,
      "eval_steps_per_second": 12.526,
      "step": 6
    },
    {
      "epoch": 0.13270142180094788,
      "grad_norm": 1.125,
      "learning_rate": 0.00014,
      "loss": 1.3112,
      "step": 7
    },
    {
      "epoch": 0.15165876777251186,
      "grad_norm": 1.4140625,
      "learning_rate": 0.00016,
      "loss": 1.2196,
      "step": 8
    },
    {
      "epoch": 0.17061611374407584,
      "grad_norm": 0.87890625,
      "learning_rate": 0.00018,
      "loss": 1.1166,
      "step": 9
    },
    {
      "epoch": 0.1895734597156398,
      "grad_norm": 0.8125,
      "learning_rate": 0.0002,
      "loss": 1.0836,
      "step": 10
    },
    {
      "epoch": 0.20853080568720378,
      "grad_norm": 0.4609375,
      "learning_rate": 0.00019997685019798912,
      "loss": 0.898,
      "step": 11
    },
    {
      "epoch": 0.22748815165876776,
      "grad_norm": 0.376953125,
      "learning_rate": 0.00019990741151022301,
      "loss": 0.8548,
      "step": 12
    },
    {
      "epoch": 0.22748815165876776,
      "eval_loss": 0.9005841612815857,
      "eval_runtime": 6.5385,
      "eval_samples_per_second": 54.447,
      "eval_steps_per_second": 13.612,
      "step": 12
    },
    {
      "epoch": 0.24644549763033174,
      "grad_norm": 0.384765625,
      "learning_rate": 0.00019979171608653924,
      "loss": 0.8835,
      "step": 13
    },
    {
      "epoch": 0.26540284360189575,
      "grad_norm": 0.326171875,
      "learning_rate": 0.00019962981749346078,
      "loss": 0.8374,
      "step": 14
    },
    {
      "epoch": 0.2843601895734597,
      "grad_norm": 0.32421875,
      "learning_rate": 0.0001994217906893952,
      "loss": 0.8658,
      "step": 15
    },
    {
      "epoch": 0.3033175355450237,
      "grad_norm": 0.326171875,
      "learning_rate": 0.000199167731989929,
      "loss": 0.8232,
      "step": 16
    },
    {
      "epoch": 0.3222748815165877,
      "grad_norm": 0.234375,
      "learning_rate": 0.00019886775902323405,
      "loss": 0.7541,
      "step": 17
    },
    {
      "epoch": 0.3412322274881517,
      "grad_norm": 0.2470703125,
      "learning_rate": 0.00019852201067560606,
      "loss": 0.8561,
      "step": 18
    },
    {
      "epoch": 0.3412322274881517,
      "eval_loss": 0.7924264669418335,
      "eval_runtime": 7.7645,
      "eval_samples_per_second": 45.85,
      "eval_steps_per_second": 11.462,
      "step": 18
    },
    {
      "epoch": 0.36018957345971564,
      "grad_norm": 0.267578125,
      "learning_rate": 0.00019813064702716094,
      "loss": 0.7909,
      "step": 19
    },
    {
      "epoch": 0.3791469194312796,
      "grad_norm": 0.3046875,
      "learning_rate": 0.0001976938492777182,
      "loss": 0.7657,
      "step": 20
    },
    {
      "epoch": 0.3981042654028436,
      "grad_norm": 1.3984375,
      "learning_rate": 0.00019721181966290613,
      "loss": 0.7214,
      "step": 21
    },
    {
      "epoch": 0.41706161137440756,
      "grad_norm": 0.33203125,
      "learning_rate": 0.00019668478136052774,
      "loss": 0.7511,
      "step": 22
    },
    {
      "epoch": 0.43601895734597157,
      "grad_norm": 0.35546875,
      "learning_rate": 0.0001961129783872301,
      "loss": 0.7159,
      "step": 23
    },
    {
      "epoch": 0.4549763033175355,
      "grad_norm": 0.279296875,
      "learning_rate": 0.00019549667548552556,
      "loss": 0.744,
      "step": 24
    },
    {
      "epoch": 0.4549763033175355,
      "eval_loss": 0.717645525932312,
      "eval_runtime": 6.6339,
      "eval_samples_per_second": 53.664,
      "eval_steps_per_second": 13.416,
      "step": 24
    },
    {
      "epoch": 0.47393364928909953,
      "grad_norm": 0.259765625,
      "learning_rate": 0.00019483615800121716,
      "loss": 0.6753,
      "step": 25
    },
    {
      "epoch": 0.4928909952606635,
      "grad_norm": 0.26953125,
      "learning_rate": 0.00019413173175128473,
      "loss": 0.7068,
      "step": 26
    }
  ],
  "logging_steps": 1,
  "max_steps": 156,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 26,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 3.817246469967053e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}