File size: 3,151 Bytes

7fe9d41
 
 
1aed6ea
7fe9d41
1aed6ea
7fe9d41
 
 
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
7fe9d41
 
 
1aed6ea
 
 
 
 
 
 
7fe9d41
 
 
1aed6ea
7fe9d41
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1aed6ea
7fe9d41

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9990884229717412,
  "eval_steps": 500,
  "global_step": 137,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07292616226071102,
      "grad_norm": 2.03125,
      "learning_rate": 3.571428571428572e-05,
      "loss": 1.4613,
      "step": 10
    },
    {
      "epoch": 0.14585232452142205,
      "grad_norm": 1.21875,
      "learning_rate": 4.970701059450872e-05,
      "loss": 1.2568,
      "step": 20
    },
    {
      "epoch": 0.2187784867821331,
      "grad_norm": 0.9140625,
      "learning_rate": 4.79413289650907e-05,
      "loss": 1.2099,
      "step": 30
    },
    {
      "epoch": 0.2917046490428441,
      "grad_norm": 0.91015625,
      "learning_rate": 4.468715765333664e-05,
      "loss": 1.1924,
      "step": 40
    },
    {
      "epoch": 0.3646308113035551,
      "grad_norm": 0.81640625,
      "learning_rate": 4.015563527416595e-05,
      "loss": 1.1706,
      "step": 50
    },
    {
      "epoch": 0.4375569735642662,
      "grad_norm": 0.8046875,
      "learning_rate": 3.46407781122034e-05,
      "loss": 1.1576,
      "step": 60
    },
    {
      "epoch": 0.5104831358249772,
      "grad_norm": 0.80859375,
      "learning_rate": 2.8500403624215734e-05,
      "loss": 1.14,
      "step": 70
    },
    {
      "epoch": 0.5834092980856882,
      "grad_norm": 0.79296875,
      "learning_rate": 2.2132914365039993e-05,
      "loss": 1.1243,
      "step": 80
    },
    {
      "epoch": 0.6563354603463992,
      "grad_norm": 0.73828125,
      "learning_rate": 1.5951448652822047e-05,
      "loss": 1.1189,
      "step": 90
    },
    {
      "epoch": 0.7292616226071102,
      "grad_norm": 0.6953125,
      "learning_rate": 1.035707514179513e-05,
      "loss": 1.122,
      "step": 100
    },
    {
      "epoch": 0.8021877848678214,
      "grad_norm": 0.68359375,
      "learning_rate": 5.712770504451426e-06,
      "loss": 1.1159,
      "step": 110
    },
    {
      "epoch": 0.8751139471285324,
      "grad_norm": 0.69921875,
      "learning_rate": 2.3198686149022013e-06,
      "loss": 1.1201,
      "step": 120
    },
    {
      "epoch": 0.9480401093892434,
      "grad_norm": 0.76953125,
      "learning_rate": 3.9850926816357157e-07,
      "loss": 1.1217,
      "step": 130
    },
    {
      "epoch": 0.9990884229717412,
      "step": 137,
      "total_flos": 8.085894968356372e+17,
      "train_loss": 1.1745838492456144,
      "train_runtime": 5870.8803,
      "train_samples_per_second": 2.987,
      "train_steps_per_second": 0.023
    }
  ],
  "logging_steps": 10,
  "max_steps": 137,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8.085894968356372e+17,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}