|
{ |
|
"best_metric": null, |
|
"best_model_checkpoint": null, |
|
"epoch": 42.10526315789474, |
|
"eval_steps": 500, |
|
"global_step": 200, |
|
"is_hyper_param_search": false, |
|
"is_local_process_zero": true, |
|
"is_world_process_zero": true, |
|
"log_history": [ |
|
{ |
|
"epoch": 0.63, |
|
"learning_rate": 0.0003, |
|
"loss": 1.3677, |
|
"step": 3 |
|
}, |
|
{ |
|
"epoch": 1.26, |
|
"learning_rate": 0.0006, |
|
"loss": 1.0177, |
|
"step": 6 |
|
}, |
|
{ |
|
"epoch": 1.89, |
|
"learning_rate": 0.0008, |
|
"loss": 0.8893, |
|
"step": 9 |
|
}, |
|
{ |
|
"epoch": 2.53, |
|
"learning_rate": 0.001, |
|
"loss": 1.0625, |
|
"step": 12 |
|
}, |
|
{ |
|
"epoch": 3.16, |
|
"learning_rate": 0.0013000000000000002, |
|
"loss": 0.7547, |
|
"step": 15 |
|
}, |
|
{ |
|
"epoch": 3.79, |
|
"learning_rate": 0.0016, |
|
"loss": 0.4742, |
|
"step": 18 |
|
}, |
|
{ |
|
"epoch": 4.42, |
|
"learning_rate": 0.0019, |
|
"loss": 0.3748, |
|
"step": 21 |
|
}, |
|
{ |
|
"epoch": 5.05, |
|
"learning_rate": 0.001977777777777778, |
|
"loss": 0.4516, |
|
"step": 24 |
|
}, |
|
{ |
|
"epoch": 5.68, |
|
"learning_rate": 0.0019555555555555554, |
|
"loss": 0.3278, |
|
"step": 27 |
|
}, |
|
{ |
|
"epoch": 6.32, |
|
"learning_rate": 0.0019222222222222223, |
|
"loss": 0.421, |
|
"step": 30 |
|
}, |
|
{ |
|
"epoch": 6.95, |
|
"learning_rate": 0.001888888888888889, |
|
"loss": 0.2738, |
|
"step": 33 |
|
}, |
|
{ |
|
"epoch": 7.58, |
|
"learning_rate": 0.0018555555555555556, |
|
"loss": 0.2307, |
|
"step": 36 |
|
}, |
|
{ |
|
"epoch": 8.21, |
|
"learning_rate": 0.0018222222222222223, |
|
"loss": 0.2955, |
|
"step": 39 |
|
}, |
|
{ |
|
"epoch": 8.84, |
|
"learning_rate": 0.0018000000000000002, |
|
"loss": 0.399, |
|
"step": 42 |
|
}, |
|
{ |
|
"epoch": 9.47, |
|
"learning_rate": 0.001788888888888889, |
|
"loss": 0.6656, |
|
"step": 45 |
|
}, |
|
{ |
|
"epoch": 10.11, |
|
"learning_rate": 0.0017666666666666666, |
|
"loss": 0.7389, |
|
"step": 48 |
|
}, |
|
{ |
|
"epoch": 10.74, |
|
"learning_rate": 0.0017333333333333335, |
|
"loss": 0.1417, |
|
"step": 51 |
|
}, |
|
{ |
|
"epoch": 11.37, |
|
"learning_rate": 0.0017, |
|
"loss": 0.2441, |
|
"step": 54 |
|
}, |
|
{ |
|
"epoch": 12.0, |
|
"learning_rate": 0.0016666666666666668, |
|
"loss": 0.1786, |
|
"step": 57 |
|
}, |
|
{ |
|
"epoch": 12.63, |
|
"learning_rate": 0.0016333333333333334, |
|
"loss": 0.0805, |
|
"step": 60 |
|
}, |
|
{ |
|
"epoch": 13.26, |
|
"learning_rate": 0.0016, |
|
"loss": 0.1806, |
|
"step": 63 |
|
}, |
|
{ |
|
"epoch": 13.89, |
|
"learning_rate": 0.0015666666666666667, |
|
"loss": 0.1011, |
|
"step": 66 |
|
}, |
|
{ |
|
"epoch": 14.53, |
|
"learning_rate": 0.0015333333333333334, |
|
"loss": 0.08, |
|
"step": 69 |
|
}, |
|
{ |
|
"epoch": 15.16, |
|
"learning_rate": 0.0015, |
|
"loss": 0.0982, |
|
"step": 72 |
|
}, |
|
{ |
|
"epoch": 15.79, |
|
"learning_rate": 0.0014666666666666667, |
|
"loss": 0.1105, |
|
"step": 75 |
|
}, |
|
{ |
|
"epoch": 16.42, |
|
"learning_rate": 0.0014333333333333333, |
|
"loss": 0.1103, |
|
"step": 78 |
|
}, |
|
{ |
|
"epoch": 17.05, |
|
"learning_rate": 0.0014, |
|
"loss": 0.086, |
|
"step": 81 |
|
}, |
|
{ |
|
"epoch": 17.68, |
|
"learning_rate": 0.0013666666666666666, |
|
"loss": 0.0764, |
|
"step": 84 |
|
}, |
|
{ |
|
"epoch": 18.32, |
|
"learning_rate": 0.0013333333333333333, |
|
"loss": 0.0748, |
|
"step": 87 |
|
}, |
|
{ |
|
"epoch": 18.95, |
|
"learning_rate": 0.0013000000000000002, |
|
"loss": 0.1183, |
|
"step": 90 |
|
}, |
|
{ |
|
"epoch": 19.58, |
|
"learning_rate": 0.0012666666666666666, |
|
"loss": 0.059, |
|
"step": 93 |
|
}, |
|
{ |
|
"epoch": 20.21, |
|
"learning_rate": 0.0012333333333333335, |
|
"loss": 0.0706, |
|
"step": 96 |
|
}, |
|
{ |
|
"epoch": 20.84, |
|
"learning_rate": 0.0012, |
|
"loss": 0.0499, |
|
"step": 99 |
|
}, |
|
{ |
|
"epoch": 21.47, |
|
"learning_rate": 0.0011666666666666668, |
|
"loss": 0.0406, |
|
"step": 102 |
|
}, |
|
{ |
|
"epoch": 22.11, |
|
"learning_rate": 0.0011333333333333334, |
|
"loss": 0.0569, |
|
"step": 105 |
|
}, |
|
{ |
|
"epoch": 22.74, |
|
"learning_rate": 0.0011, |
|
"loss": 0.0354, |
|
"step": 108 |
|
}, |
|
{ |
|
"epoch": 23.37, |
|
"learning_rate": 0.0010666666666666667, |
|
"loss": 0.0362, |
|
"step": 111 |
|
}, |
|
{ |
|
"epoch": 24.0, |
|
"learning_rate": 0.0010333333333333334, |
|
"loss": 0.0752, |
|
"step": 114 |
|
}, |
|
{ |
|
"epoch": 24.63, |
|
"learning_rate": 0.001, |
|
"loss": 0.026, |
|
"step": 117 |
|
}, |
|
{ |
|
"epoch": 25.26, |
|
"learning_rate": 0.0009666666666666667, |
|
"loss": 0.0418, |
|
"step": 120 |
|
}, |
|
{ |
|
"epoch": 25.89, |
|
"learning_rate": 0.0009333333333333333, |
|
"loss": 0.0332, |
|
"step": 123 |
|
}, |
|
{ |
|
"epoch": 26.53, |
|
"learning_rate": 0.0009000000000000001, |
|
"loss": 0.0245, |
|
"step": 126 |
|
}, |
|
{ |
|
"epoch": 27.16, |
|
"learning_rate": 0.0008666666666666667, |
|
"loss": 0.036, |
|
"step": 129 |
|
}, |
|
{ |
|
"epoch": 27.79, |
|
"learning_rate": 0.0008333333333333334, |
|
"loss": 0.0233, |
|
"step": 132 |
|
}, |
|
{ |
|
"epoch": 28.42, |
|
"learning_rate": 0.0008, |
|
"loss": 0.0246, |
|
"step": 135 |
|
}, |
|
{ |
|
"epoch": 29.05, |
|
"learning_rate": 0.0007666666666666667, |
|
"loss": 0.0249, |
|
"step": 138 |
|
}, |
|
{ |
|
"epoch": 29.68, |
|
"learning_rate": 0.0007333333333333333, |
|
"loss": 0.0217, |
|
"step": 141 |
|
}, |
|
{ |
|
"epoch": 30.32, |
|
"learning_rate": 0.0007, |
|
"loss": 0.0157, |
|
"step": 144 |
|
}, |
|
{ |
|
"epoch": 30.95, |
|
"learning_rate": 0.0006666666666666666, |
|
"loss": 0.0185, |
|
"step": 147 |
|
}, |
|
{ |
|
"epoch": 31.58, |
|
"learning_rate": 0.0006333333333333333, |
|
"loss": 0.0122, |
|
"step": 150 |
|
}, |
|
{ |
|
"epoch": 32.21, |
|
"learning_rate": 0.0006, |
|
"loss": 0.0106, |
|
"step": 153 |
|
}, |
|
{ |
|
"epoch": 32.84, |
|
"learning_rate": 0.0005666666666666667, |
|
"loss": 0.0143, |
|
"step": 156 |
|
}, |
|
{ |
|
"epoch": 33.47, |
|
"learning_rate": 0.0005333333333333334, |
|
"loss": 0.0085, |
|
"step": 159 |
|
}, |
|
{ |
|
"epoch": 34.11, |
|
"learning_rate": 0.0005, |
|
"loss": 0.011, |
|
"step": 162 |
|
}, |
|
{ |
|
"epoch": 34.74, |
|
"learning_rate": 0.00046666666666666666, |
|
"loss": 0.0077, |
|
"step": 165 |
|
}, |
|
{ |
|
"epoch": 35.37, |
|
"learning_rate": 0.00043333333333333337, |
|
"loss": 0.0075, |
|
"step": 168 |
|
}, |
|
{ |
|
"epoch": 36.0, |
|
"learning_rate": 0.0004, |
|
"loss": 0.0062, |
|
"step": 171 |
|
}, |
|
{ |
|
"epoch": 36.63, |
|
"learning_rate": 0.00036666666666666667, |
|
"loss": 0.0049, |
|
"step": 174 |
|
}, |
|
{ |
|
"epoch": 37.26, |
|
"learning_rate": 0.0003333333333333333, |
|
"loss": 0.0057, |
|
"step": 177 |
|
}, |
|
{ |
|
"epoch": 37.89, |
|
"learning_rate": 0.0003, |
|
"loss": 0.0068, |
|
"step": 180 |
|
}, |
|
{ |
|
"epoch": 38.53, |
|
"learning_rate": 0.0002666666666666667, |
|
"loss": 0.0055, |
|
"step": 183 |
|
}, |
|
{ |
|
"epoch": 39.16, |
|
"learning_rate": 0.00023333333333333333, |
|
"loss": 0.0046, |
|
"step": 186 |
|
}, |
|
{ |
|
"epoch": 39.79, |
|
"learning_rate": 0.0002, |
|
"loss": 0.0053, |
|
"step": 189 |
|
}, |
|
{ |
|
"epoch": 40.42, |
|
"learning_rate": 0.00016666666666666666, |
|
"loss": 0.004, |
|
"step": 192 |
|
}, |
|
{ |
|
"epoch": 41.05, |
|
"learning_rate": 0.00013333333333333334, |
|
"loss": 0.005, |
|
"step": 195 |
|
}, |
|
{ |
|
"epoch": 41.68, |
|
"learning_rate": 0.0001, |
|
"loss": 0.004, |
|
"step": 198 |
|
} |
|
], |
|
"logging_steps": 3, |
|
"max_steps": 200, |
|
"num_train_epochs": 50, |
|
"save_steps": 500, |
|
"total_flos": 3.4983817248768e+16, |
|
"trial_name": null, |
|
"trial_params": null |
|
} |
|
|