{
  "best_metric": 1.4706201553344727,
  "best_model_checkpoint": "miner_id_24/checkpoint-25",
  "epoch": 0.0029109539195994526,
  "eval_steps": 5,
  "global_step": 25,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0001164381567839781,
      "grad_norm": 0.7226452827453613,
      "learning_rate": 2e-05,
      "loss": 1.5572,
      "step": 1
    },
    {
      "epoch": 0.0001164381567839781,
      "eval_loss": 1.580869197845459,
      "eval_runtime": 1205.8594,
      "eval_samples_per_second": 3.0,
      "eval_steps_per_second": 1.5,
      "step": 1
    },
    {
      "epoch": 0.0002328763135679562,
      "grad_norm": 0.7039481401443481,
      "learning_rate": 4e-05,
      "loss": 1.2746,
      "step": 2
    },
    {
      "epoch": 0.0003493144703519343,
      "grad_norm": 0.8966165781021118,
      "learning_rate": 6e-05,
      "loss": 1.7588,
      "step": 3
    },
    {
      "epoch": 0.0004657526271359124,
      "grad_norm": 0.7647513151168823,
      "learning_rate": 8e-05,
      "loss": 1.4746,
      "step": 4
    },
    {
      "epoch": 0.0005821907839198906,
      "grad_norm": 0.8497886061668396,
      "learning_rate": 0.0001,
      "loss": 1.7835,
      "step": 5
    },
    {
      "epoch": 0.0005821907839198906,
      "eval_loss": 1.5649226903915405,
      "eval_runtime": 1207.2918,
      "eval_samples_per_second": 2.996,
      "eval_steps_per_second": 1.498,
      "step": 5
    },
    {
      "epoch": 0.0006986289407038686,
      "grad_norm": 0.7763051986694336,
      "learning_rate": 0.00012,
      "loss": 1.2047,
      "step": 6
    },
    {
      "epoch": 0.0008150670974878467,
      "grad_norm": 0.6969287991523743,
      "learning_rate": 0.00014,
      "loss": 1.44,
      "step": 7
    },
    {
      "epoch": 0.0009315052542718248,
      "grad_norm": 0.7940990328788757,
      "learning_rate": 0.00016,
      "loss": 1.3863,
      "step": 8
    },
    {
      "epoch": 0.001047943411055803,
      "grad_norm": 1.0421156883239746,
      "learning_rate": 0.00018,
      "loss": 1.5754,
      "step": 9
    },
    {
      "epoch": 0.0011643815678397812,
      "grad_norm": 0.9429354667663574,
      "learning_rate": 0.0002,
      "loss": 0.9178,
      "step": 10
    },
    {
      "epoch": 0.0011643815678397812,
      "eval_loss": 1.5122371912002563,
      "eval_runtime": 1206.9341,
      "eval_samples_per_second": 2.997,
      "eval_steps_per_second": 1.499,
      "step": 10
    },
    {
      "epoch": 0.001280819724623759,
      "grad_norm": 1.0096641778945923,
      "learning_rate": 0.00019781476007338058,
      "loss": 1.7014,
      "step": 11
    },
    {
      "epoch": 0.0013972578814077372,
      "grad_norm": 0.9434856176376343,
      "learning_rate": 0.0001913545457642601,
      "loss": 1.7165,
      "step": 12
    },
    {
      "epoch": 0.0015136960381917153,
      "grad_norm": 1.0104182958602905,
      "learning_rate": 0.00018090169943749476,
      "loss": 1.5551,
      "step": 13
    },
    {
      "epoch": 0.0016301341949756935,
      "grad_norm": 0.8610689043998718,
      "learning_rate": 0.00016691306063588583,
      "loss": 1.3764,
      "step": 14
    },
    {
      "epoch": 0.0017465723517596716,
      "grad_norm": 0.9069722294807434,
      "learning_rate": 0.00015000000000000001,
      "loss": 1.3125,
      "step": 15
    },
    {
      "epoch": 0.0017465723517596716,
      "eval_loss": 1.488054871559143,
      "eval_runtime": 1201.2048,
      "eval_samples_per_second": 3.011,
      "eval_steps_per_second": 1.506,
      "step": 15
    },
    {
      "epoch": 0.0018630105085436497,
      "grad_norm": 1.1036851406097412,
      "learning_rate": 0.00013090169943749476,
      "loss": 1.3066,
      "step": 16
    },
    {
      "epoch": 0.001979448665327628,
      "grad_norm": 1.3235077857971191,
      "learning_rate": 0.00011045284632676536,
      "loss": 1.5138,
      "step": 17
    },
    {
      "epoch": 0.002095886822111606,
      "grad_norm": 0.9715728759765625,
      "learning_rate": 8.954715367323468e-05,
      "loss": 1.2558,
      "step": 18
    },
    {
      "epoch": 0.0022123249788955843,
      "grad_norm": 0.8100405931472778,
      "learning_rate": 6.909830056250527e-05,
      "loss": 1.2455,
      "step": 19
    },
    {
      "epoch": 0.0023287631356795624,
      "grad_norm": 0.9124269485473633,
      "learning_rate": 5.000000000000002e-05,
      "loss": 1.4785,
      "step": 20
    },
    {
      "epoch": 0.0023287631356795624,
      "eval_loss": 1.4739006757736206,
      "eval_runtime": 1202.3938,
      "eval_samples_per_second": 3.008,
      "eval_steps_per_second": 1.504,
      "step": 20
    },
    {
      "epoch": 0.0024452012924635405,
      "grad_norm": 0.963644802570343,
      "learning_rate": 3.308693936411421e-05,
      "loss": 1.3887,
      "step": 21
    },
    {
      "epoch": 0.002561639449247518,
      "grad_norm": 0.9467745423316956,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 1.3315,
      "step": 22
    },
    {
      "epoch": 0.0026780776060314963,
      "grad_norm": 0.7986246347427368,
      "learning_rate": 8.645454235739903e-06,
      "loss": 1.0616,
      "step": 23
    },
    {
      "epoch": 0.0027945157628154744,
      "grad_norm": 1.0441583395004272,
      "learning_rate": 2.1852399266194314e-06,
      "loss": 1.3717,
      "step": 24
    },
    {
      "epoch": 0.0029109539195994526,
      "grad_norm": 0.8194195032119751,
      "learning_rate": 0.0,
      "loss": 1.2871,
      "step": 25
    },
    {
      "epoch": 0.0029109539195994526,
      "eval_loss": 1.4706201553344727,
      "eval_runtime": 1205.0738,
      "eval_samples_per_second": 3.001,
      "eval_steps_per_second": 1.501,
      "step": 25
    }
  ],
  "logging_steps": 1,
  "max_steps": 25,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "EarlyStoppingCallback": {
      "args": {
        "early_stopping_patience": 2,
        "early_stopping_threshold": 0.0
      },
      "attributes": {
        "early_stopping_patience_counter": 0
      }
    },
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 8265470375362560.0,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}