File size: 3,158 Bytes

47d05bd
 
 
 
 
63649c2
47d05bd
 
 
 
 
 
df5cd82
63649c2
df5cd82
63649c2
47d05bd
 
 
 
df5cd82
 
47d05bd
df5cd82
 
 
 
 
63649c2
47d05bd
 
 
df5cd82
63649c2
df5cd82
63649c2
47d05bd
 
 
 
df5cd82
 
47d05bd
df5cd82
 
 
 
 
63649c2
47d05bd
 
 
df5cd82
63649c2
df5cd82
63649c2
47d05bd
 
 
 
df5cd82
 
47d05bd
df5cd82
 
 
 
 
63649c2
47d05bd
 
 
df5cd82
63649c2
df5cd82
63649c2
47d05bd
 
 
 
df5cd82
 
47d05bd
df5cd82
 
 
 
 
63649c2
47d05bd
 
 
df5cd82
47d05bd
df5cd82
63649c2
47d05bd
 
 
 
df5cd82
 
47d05bd
df5cd82
 
 
 
 
63649c2
47d05bd
 
 
63649c2
df5cd82
 
 
 
 
47d05bd
 
 
63649c2
47d05bd
 
 
df5cd82
63649c2
47d05bd

{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 5.0,
  "eval_steps": 500,
  "global_step": 4460,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 1.0,
      "grad_norm": 0.5859418511390686,
      "learning_rate": 0.0008,
      "loss": 0.7784,
      "step": 892
    },
    {
      "epoch": 1.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.5092072486877441,
      "eval_rouge1": 0.716,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7135,
      "eval_rougeLsum": 0.7135,
      "eval_runtime": 37.7509,
      "eval_samples_per_second": 19.788,
      "eval_steps_per_second": 0.636,
      "step": 892
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.6026113629341125,
      "learning_rate": 0.0006,
      "loss": 0.597,
      "step": 1784
    },
    {
      "epoch": 2.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.48606443405151367,
      "eval_rouge1": 0.7099,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7098,
      "eval_rougeLsum": 0.7065,
      "eval_runtime": 38.4767,
      "eval_samples_per_second": 19.414,
      "eval_steps_per_second": 0.624,
      "step": 1784
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.7780615091323853,
      "learning_rate": 0.0004,
      "loss": 0.5538,
      "step": 2676
    },
    {
      "epoch": 3.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.47004184126853943,
      "eval_rouge1": 0.7231,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7238,
      "eval_rougeLsum": 0.7212,
      "eval_runtime": 39.3033,
      "eval_samples_per_second": 19.006,
      "eval_steps_per_second": 0.611,
      "step": 2676
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.5704962015151978,
      "learning_rate": 0.0002,
      "loss": 0.5245,
      "step": 3568
    },
    {
      "epoch": 4.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.4649428427219391,
      "eval_rouge1": 0.7304,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7271,
      "eval_rougeLsum": 0.7266,
      "eval_runtime": 37.407,
      "eval_samples_per_second": 19.97,
      "eval_steps_per_second": 0.642,
      "step": 3568
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.5992371439933777,
      "learning_rate": 0.0,
      "loss": 0.5037,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "eval_gen_len": 1.0,
      "eval_loss": 0.46178075671195984,
      "eval_rouge1": 0.7261,
      "eval_rouge2": 0.0,
      "eval_rougeL": 0.7257,
      "eval_rougeLsum": 0.7223,
      "eval_runtime": 37.0144,
      "eval_samples_per_second": 20.181,
      "eval_steps_per_second": 0.648,
      "step": 4460
    },
    {
      "epoch": 5.0,
      "step": 4460,
      "total_flos": 4.923147884691456e+16,
      "train_loss": 0.5914828860706278,
      "train_runtime": 3932.4916,
      "train_samples_per_second": 18.139,
      "train_steps_per_second": 1.134
    }
  ],
  "logging_steps": 500,
  "max_steps": 4460,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "total_flos": 4.923147884691456e+16,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}