adapters-mistral-bf16-QLORA-super_glue-axg / trainer_state-mistral-bf16-QLORA-super_glue-axg-sequence_classification.json

RMHalak

Task: SequenceClassification

c72e5ba verified 2 months ago

raw

history blame contribute delete

No virus

38.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 10.0,
	"eval_steps": 1,
	"global_step": 90,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.1111111111111111,
	"grad_norm": 116.0,
	"learning_rate": 2.5e-05,
	"loss": 0.8982,
	"step": 1
	},
	{
	"epoch": 0.1111111111111111,
	"eval_accuracy": 0.4722222222222222,
	"eval_loss": 2.1836612224578857,
	"eval_runtime": 0.7017,
	"eval_samples_per_second": 102.604,
	"eval_steps_per_second": 7.125,
	"step": 1
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 189.0,
	"learning_rate": 5e-05,
	"loss": 2.0217,
	"step": 2
	},
	{
	"epoch": 0.2222222222222222,
	"eval_accuracy": 0.5416666666666666,
	"eval_loss": 2.295832633972168,
	"eval_runtime": 0.6479,
	"eval_samples_per_second": 111.132,
	"eval_steps_per_second": 7.717,
	"step": 2
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 122.5,
	"learning_rate": 4.943181818181818e-05,
	"loss": 1.4964,
	"step": 3
	},
	{
	"epoch": 0.3333333333333333,
	"eval_accuracy": 0.4583333333333333,
	"eval_loss": 4.970297336578369,
	"eval_runtime": 0.7007,
	"eval_samples_per_second": 102.75,
	"eval_steps_per_second": 7.135,
	"step": 3
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 332.0,
	"learning_rate": 4.886363636363637e-05,
	"loss": 3.4202,
	"step": 4
	},
	{
	"epoch": 0.4444444444444444,
	"eval_accuracy": 0.5833333333333334,
	"eval_loss": 3.3451662063598633,
	"eval_runtime": 0.6958,
	"eval_samples_per_second": 103.477,
	"eval_steps_per_second": 7.186,
	"step": 4
	},
	{
	"epoch": 0.5555555555555556,
	"grad_norm": 135.0,
	"learning_rate": 4.829545454545455e-05,
	"loss": 1.4513,
	"step": 5
	},
	{
	"epoch": 0.5555555555555556,
	"eval_accuracy": 0.6805555555555556,
	"eval_loss": 2.8038506507873535,
	"eval_runtime": 0.6995,
	"eval_samples_per_second": 102.924,
	"eval_steps_per_second": 7.147,
	"step": 5
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 132.0,
	"learning_rate": 4.772727272727273e-05,
	"loss": 0.8209,
	"step": 6
	},
	{
	"epoch": 0.6666666666666666,
	"eval_accuracy": 0.6944444444444444,
	"eval_loss": 3.2578670978546143,
	"eval_runtime": 0.6977,
	"eval_samples_per_second": 103.19,
	"eval_steps_per_second": 7.166,
	"step": 6
	},
	{
	"epoch": 0.7777777777777778,
	"grad_norm": 113.5,
	"learning_rate": 4.715909090909091e-05,
	"loss": 2.2849,
	"step": 7
	},
	{
	"epoch": 0.7777777777777778,
	"eval_accuracy": 0.7638888888888888,
	"eval_loss": 2.769080638885498,
	"eval_runtime": 0.6983,
	"eval_samples_per_second": 103.102,
	"eval_steps_per_second": 7.16,
	"step": 7
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 186.0,
	"learning_rate": 4.659090909090909e-05,
	"loss": 2.8035,
	"step": 8
	},
	{
	"epoch": 0.8888888888888888,
	"eval_accuracy": 0.7222222222222222,
	"eval_loss": 2.49947190284729,
	"eval_runtime": 0.6977,
	"eval_samples_per_second": 103.189,
	"eval_steps_per_second": 7.166,
	"step": 8
	},
	{
	"epoch": 1.0,
	"grad_norm": 139.0,
	"learning_rate": 4.602272727272727e-05,
	"loss": 1.0024,
	"step": 9
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.5972222222222222,
	"eval_loss": 2.966646909713745,
	"eval_runtime": 0.6972,
	"eval_samples_per_second": 103.269,
	"eval_steps_per_second": 7.171,
	"step": 9
	},
	{
	"epoch": 1.1111111111111112,
	"grad_norm": 59.25,
	"learning_rate": 4.545454545454546e-05,
	"loss": 0.4045,
	"step": 10
	},
	{
	"epoch": 1.1111111111111112,
	"eval_accuracy": 0.5694444444444444,
	"eval_loss": 4.821623802185059,
	"eval_runtime": 0.6956,
	"eval_samples_per_second": 103.515,
	"eval_steps_per_second": 7.189,
	"step": 10
	},
	{
	"epoch": 1.2222222222222223,
	"grad_norm": 157.0,
	"learning_rate": 4.488636363636364e-05,
	"loss": 1.5856,
	"step": 11
	},
	{
	"epoch": 1.2222222222222223,
	"eval_accuracy": 0.5555555555555556,
	"eval_loss": 5.413398742675781,
	"eval_runtime": 0.6462,
	"eval_samples_per_second": 111.413,
	"eval_steps_per_second": 7.737,
	"step": 11
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 258.0,
	"learning_rate": 4.431818181818182e-05,
	"loss": 1.9144,
	"step": 12
	},
	{
	"epoch": 1.3333333333333333,
	"eval_accuracy": 0.5694444444444444,
	"eval_loss": 4.477300643920898,
	"eval_runtime": 0.6954,
	"eval_samples_per_second": 103.537,
	"eval_steps_per_second": 7.19,
	"step": 12
	},
	{
	"epoch": 1.4444444444444444,
	"grad_norm": 109.0,
	"learning_rate": 4.375e-05,
	"loss": 1.0988,
	"step": 13
	},
	{
	"epoch": 1.4444444444444444,
	"eval_accuracy": 0.6388888888888888,
	"eval_loss": 3.1566390991210938,
	"eval_runtime": 0.6972,
	"eval_samples_per_second": 103.27,
	"eval_steps_per_second": 7.172,
	"step": 13
	},
	{
	"epoch": 1.5555555555555556,
	"grad_norm": 92.5,
	"learning_rate": 4.318181818181819e-05,
	"loss": 0.813,
	"step": 14
	},
	{
	"epoch": 1.5555555555555556,
	"eval_accuracy": 0.7222222222222222,
	"eval_loss": 2.2174715995788574,
	"eval_runtime": 0.5978,
	"eval_samples_per_second": 120.436,
	"eval_steps_per_second": 8.364,
	"step": 14
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 52.0,
	"learning_rate": 4.261363636363637e-05,
	"loss": 0.2367,
	"step": 15
	},
	{
	"epoch": 1.6666666666666665,
	"eval_accuracy": 0.7916666666666666,
	"eval_loss": 1.9244074821472168,
	"eval_runtime": 0.6463,
	"eval_samples_per_second": 111.401,
	"eval_steps_per_second": 7.736,
	"step": 15
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 64.5,
	"learning_rate": 4.204545454545455e-05,
	"loss": 0.2792,
	"step": 16
	},
	{
	"epoch": 1.7777777777777777,
	"eval_accuracy": 0.8194444444444444,
	"eval_loss": 1.7262091636657715,
	"eval_runtime": 0.6996,
	"eval_samples_per_second": 102.919,
	"eval_steps_per_second": 7.147,
	"step": 16
	},
	{
	"epoch": 1.8888888888888888,
	"grad_norm": 31.375,
	"learning_rate": 4.1477272727272734e-05,
	"loss": 0.2145,
	"step": 17
	},
	{
	"epoch": 1.8888888888888888,
	"eval_accuracy": 0.8055555555555556,
	"eval_loss": 1.5807808637619019,
	"eval_runtime": 0.5957,
	"eval_samples_per_second": 120.866,
	"eval_steps_per_second": 8.393,
	"step": 17
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.470703125,
	"learning_rate": 4.0909090909090915e-05,
	"loss": 0.0005,
	"step": 18
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.8194444444444444,
	"eval_loss": 1.4588383436203003,
	"eval_runtime": 0.6953,
	"eval_samples_per_second": 103.548,
	"eval_steps_per_second": 7.191,
	"step": 18
	},
	{
	"epoch": 2.111111111111111,
	"grad_norm": 22.375,
	"learning_rate": 4.034090909090909e-05,
	"loss": 0.0324,
	"step": 19
	},
	{
	"epoch": 2.111111111111111,
	"eval_accuracy": 0.8055555555555556,
	"eval_loss": 1.3282279968261719,
	"eval_runtime": 0.6457,
	"eval_samples_per_second": 111.509,
	"eval_steps_per_second": 7.744,
	"step": 19
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 0.0177001953125,
	"learning_rate": 3.9772727272727275e-05,
	"loss": 0.0,
	"step": 20
	},
	{
	"epoch": 2.2222222222222223,
	"eval_accuracy": 0.8194444444444444,
	"eval_loss": 1.2441529035568237,
	"eval_runtime": 0.6482,
	"eval_samples_per_second": 111.084,
	"eval_steps_per_second": 7.714,
	"step": 20
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 37.0,
	"learning_rate": 3.9204545454545456e-05,
	"loss": 0.2369,
	"step": 21
	},
	{
	"epoch": 2.3333333333333335,
	"eval_accuracy": 0.8333333333333334,
	"eval_loss": 1.3726887702941895,
	"eval_runtime": 0.6475,
	"eval_samples_per_second": 111.196,
	"eval_steps_per_second": 7.722,
	"step": 21
	},
	{
	"epoch": 2.4444444444444446,
	"grad_norm": 5.3125,
	"learning_rate": 3.8636363636363636e-05,
	"loss": 0.0055,
	"step": 22
	},
	{
	"epoch": 2.4444444444444446,
	"eval_accuracy": 0.7222222222222222,
	"eval_loss": 2.0479719638824463,
	"eval_runtime": 0.6968,
	"eval_samples_per_second": 103.331,
	"eval_steps_per_second": 7.176,
	"step": 22
	},
	{
	"epoch": 2.5555555555555554,
	"grad_norm": 105.5,
	"learning_rate": 3.8068181818181816e-05,
	"loss": 1.0464,
	"step": 23
	},
	{
	"epoch": 2.5555555555555554,
	"eval_accuracy": 0.6805555555555556,
	"eval_loss": 2.348940134048462,
	"eval_runtime": 0.5976,
	"eval_samples_per_second": 120.475,
	"eval_steps_per_second": 8.366,
	"step": 23
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 38.5,
	"learning_rate": 3.7500000000000003e-05,
	"loss": 0.1819,
	"step": 24
	},
	{
	"epoch": 2.6666666666666665,
	"eval_accuracy": 0.7361111111111112,
	"eval_loss": 2.1767990589141846,
	"eval_runtime": 0.5949,
	"eval_samples_per_second": 121.033,
	"eval_steps_per_second": 8.405,
	"step": 24
	},
	{
	"epoch": 2.7777777777777777,
	"grad_norm": 39.75,
	"learning_rate": 3.6931818181818184e-05,
	"loss": 0.0695,
	"step": 25
	},
	{
	"epoch": 2.7777777777777777,
	"eval_accuracy": 0.7916666666666666,
	"eval_loss": 1.7953275442123413,
	"eval_runtime": 0.6944,
	"eval_samples_per_second": 103.679,
	"eval_steps_per_second": 7.2,
	"step": 25
	},
	{
	"epoch": 2.888888888888889,
	"grad_norm": 31.75,
	"learning_rate": 3.6363636363636364e-05,
	"loss": 0.5641,
	"step": 26
	},
	{
	"epoch": 2.888888888888889,
	"eval_accuracy": 0.8333333333333334,
	"eval_loss": 1.3311188220977783,
	"eval_runtime": 0.6472,
	"eval_samples_per_second": 111.251,
	"eval_steps_per_second": 7.726,
	"step": 26
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.27734375,
	"learning_rate": 3.579545454545455e-05,
	"loss": 0.0003,
	"step": 27
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.8611111111111112,
	"eval_loss": 1.0221813917160034,
	"eval_runtime": 0.7041,
	"eval_samples_per_second": 102.262,
	"eval_steps_per_second": 7.102,
	"step": 27
	},
	{
	"epoch": 3.111111111111111,
	"grad_norm": 44.25,
	"learning_rate": 3.522727272727273e-05,
	"loss": 0.0927,
	"step": 28
	},
	{
	"epoch": 3.111111111111111,
	"eval_accuracy": 0.8611111111111112,
	"eval_loss": 0.8400826454162598,
	"eval_runtime": 0.6984,
	"eval_samples_per_second": 103.093,
	"eval_steps_per_second": 7.159,
	"step": 28
	},
	{
	"epoch": 3.2222222222222223,
	"grad_norm": 23.75,
	"learning_rate": 3.465909090909091e-05,
	"loss": 0.0422,
	"step": 29
	},
	{
	"epoch": 3.2222222222222223,
	"eval_accuracy": 0.8888888888888888,
	"eval_loss": 0.7354335784912109,
	"eval_runtime": 0.6949,
	"eval_samples_per_second": 103.616,
	"eval_steps_per_second": 7.196,
	"step": 29
	},
	{
	"epoch": 3.3333333333333335,
	"grad_norm": 2.3245811462402344e-06,
	"learning_rate": 3.409090909090909e-05,
	"loss": 0.0,
	"step": 30
	},
	{
	"epoch": 3.3333333333333335,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 0.7478110790252686,
	"eval_runtime": 0.6457,
	"eval_samples_per_second": 111.5,
	"eval_steps_per_second": 7.743,
	"step": 30
	},
	{
	"epoch": 3.4444444444444446,
	"grad_norm": 0.00107574462890625,
	"learning_rate": 3.352272727272727e-05,
	"loss": 0.0,
	"step": 31
	},
	{
	"epoch": 3.4444444444444446,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.756117582321167,
	"eval_runtime": 0.6966,
	"eval_samples_per_second": 103.367,
	"eval_steps_per_second": 7.178,
	"step": 31
	},
	{
	"epoch": 3.5555555555555554,
	"grad_norm": 43.0,
	"learning_rate": 3.295454545454545e-05,
	"loss": 0.1318,
	"step": 32
	},
	{
	"epoch": 3.5555555555555554,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 0.7308753132820129,
	"eval_runtime": 0.6458,
	"eval_samples_per_second": 111.485,
	"eval_steps_per_second": 7.742,
	"step": 32
	},
	{
	"epoch": 3.6666666666666665,
	"grad_norm": 57.0,
	"learning_rate": 3.238636363636364e-05,
	"loss": 0.1169,
	"step": 33
	},
	{
	"epoch": 3.6666666666666665,
	"eval_accuracy": 0.9305555555555556,
	"eval_loss": 0.7097474336624146,
	"eval_runtime": 0.6941,
	"eval_samples_per_second": 103.733,
	"eval_steps_per_second": 7.204,
	"step": 33
	},
	{
	"epoch": 3.7777777777777777,
	"grad_norm": 17.5,
	"learning_rate": 3.181818181818182e-05,
	"loss": 0.0123,
	"step": 34
	},
	{
	"epoch": 3.7777777777777777,
	"eval_accuracy": 0.9305555555555556,
	"eval_loss": 0.691737174987793,
	"eval_runtime": 0.6449,
	"eval_samples_per_second": 111.637,
	"eval_steps_per_second": 7.753,
	"step": 34
	},
	{
	"epoch": 3.888888888888889,
	"grad_norm": 11.3125,
	"learning_rate": 3.125e-05,
	"loss": 0.0112,
	"step": 35
	},
	{
	"epoch": 3.888888888888889,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 0.6931604743003845,
	"eval_runtime": 0.6959,
	"eval_samples_per_second": 103.464,
	"eval_steps_per_second": 7.185,
	"step": 35
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.03662109375,
	"learning_rate": 3.068181818181818e-05,
	"loss": 0.0,
	"step": 36
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.9305555555555556,
	"eval_loss": 0.7493012547492981,
	"eval_runtime": 0.6492,
	"eval_samples_per_second": 110.911,
	"eval_steps_per_second": 7.702,
	"step": 36
	},
	{
	"epoch": 4.111111111111111,
	"grad_norm": 0.00628662109375,
	"learning_rate": 3.0113636363636365e-05,
	"loss": 0.0,
	"step": 37
	},
	{
	"epoch": 4.111111111111111,
	"eval_accuracy": 0.9305555555555556,
	"eval_loss": 0.8355569243431091,
	"eval_runtime": 0.6978,
	"eval_samples_per_second": 103.187,
	"eval_steps_per_second": 7.166,
	"step": 37
	},
	{
	"epoch": 4.222222222222222,
	"grad_norm": 5.1021575927734375e-05,
	"learning_rate": 2.954545454545455e-05,
	"loss": 0.0,
	"step": 38
	},
	{
	"epoch": 4.222222222222222,
	"eval_accuracy": 0.9305555555555556,
	"eval_loss": 0.9673405885696411,
	"eval_runtime": 0.5499,
	"eval_samples_per_second": 130.944,
	"eval_steps_per_second": 9.093,
	"step": 38
	},
	{
	"epoch": 4.333333333333333,
	"grad_norm": 1.633167266845703e-05,
	"learning_rate": 2.8977272727272732e-05,
	"loss": 0.0,
	"step": 39
	},
	{
	"epoch": 4.333333333333333,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.0507134199142456,
	"eval_runtime": 0.5476,
	"eval_samples_per_second": 131.472,
	"eval_steps_per_second": 9.13,
	"step": 39
	},
	{
	"epoch": 4.444444444444445,
	"grad_norm": 5.984306335449219e-05,
	"learning_rate": 2.8409090909090912e-05,
	"loss": 0.0,
	"step": 40
	},
	{
	"epoch": 4.444444444444445,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.1492857933044434,
	"eval_runtime": 0.6461,
	"eval_samples_per_second": 111.44,
	"eval_steps_per_second": 7.739,
	"step": 40
	},
	{
	"epoch": 4.555555555555555,
	"grad_norm": 0.00860595703125,
	"learning_rate": 2.784090909090909e-05,
	"loss": 0.0,
	"step": 41
	},
	{
	"epoch": 4.555555555555555,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.2297272682189941,
	"eval_runtime": 0.604,
	"eval_samples_per_second": 119.197,
	"eval_steps_per_second": 8.278,
	"step": 41
	},
	{
	"epoch": 4.666666666666667,
	"grad_norm": 1.0803341865539551e-07,
	"learning_rate": 2.7272727272727273e-05,
	"loss": 0.0,
	"step": 42
	},
	{
	"epoch": 4.666666666666667,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.2774786949157715,
	"eval_runtime": 0.6476,
	"eval_samples_per_second": 111.18,
	"eval_steps_per_second": 7.721,
	"step": 42
	},
	{
	"epoch": 4.777777777777778,
	"grad_norm": 0.00012493133544921875,
	"learning_rate": 2.6704545454545453e-05,
	"loss": 0.0,
	"step": 43
	},
	{
	"epoch": 4.777777777777778,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.3491624593734741,
	"eval_runtime": 0.6975,
	"eval_samples_per_second": 103.224,
	"eval_steps_per_second": 7.168,
	"step": 43
	},
	{
	"epoch": 4.888888888888889,
	"grad_norm": 1.9371509552001953e-07,
	"learning_rate": 2.6136363636363637e-05,
	"loss": 0.0,
	"step": 44
	},
	{
	"epoch": 4.888888888888889,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.420583724975586,
	"eval_runtime": 0.5546,
	"eval_samples_per_second": 129.832,
	"eval_steps_per_second": 9.016,
	"step": 44
	},
	{
	"epoch": 5.0,
	"grad_norm": 3.933906555175781e-05,
	"learning_rate": 2.5568181818181817e-05,
	"loss": 0.0,
	"step": 45
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.492520809173584,
	"eval_runtime": 0.6036,
	"eval_samples_per_second": 119.292,
	"eval_steps_per_second": 8.284,
	"step": 45
	},
	{
	"epoch": 5.111111111111111,
	"grad_norm": 0.0201416015625,
	"learning_rate": 2.5e-05,
	"loss": 0.0,
	"step": 46
	},
	{
	"epoch": 5.111111111111111,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5334515571594238,
	"eval_runtime": 0.6961,
	"eval_samples_per_second": 103.438,
	"eval_steps_per_second": 7.183,
	"step": 46
	},
	{
	"epoch": 5.222222222222222,
	"grad_norm": 0.0311279296875,
	"learning_rate": 2.4431818181818185e-05,
	"loss": 0.0,
	"step": 47
	},
	{
	"epoch": 5.222222222222222,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5788325071334839,
	"eval_runtime": 0.6962,
	"eval_samples_per_second": 103.426,
	"eval_steps_per_second": 7.182,
	"step": 47
	},
	{
	"epoch": 5.333333333333333,
	"grad_norm": 5.21875,
	"learning_rate": 2.3863636363636365e-05,
	"loss": 0.0014,
	"step": 48
	},
	{
	"epoch": 5.333333333333333,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5620981454849243,
	"eval_runtime": 0.6468,
	"eval_samples_per_second": 111.32,
	"eval_steps_per_second": 7.731,
	"step": 48
	},
	{
	"epoch": 5.444444444444445,
	"grad_norm": 5.185604095458984e-06,
	"learning_rate": 2.3295454545454546e-05,
	"loss": 0.0,
	"step": 49
	},
	{
	"epoch": 5.444444444444445,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5573447942733765,
	"eval_runtime": 0.6479,
	"eval_samples_per_second": 111.135,
	"eval_steps_per_second": 7.718,
	"step": 49
	},
	{
	"epoch": 5.555555555555555,
	"grad_norm": 0.01214599609375,
	"learning_rate": 2.272727272727273e-05,
	"loss": 0.0,
	"step": 50
	},
	{
	"epoch": 5.555555555555555,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5350960493087769,
	"eval_runtime": 0.5479,
	"eval_samples_per_second": 131.42,
	"eval_steps_per_second": 9.126,
	"step": 50
	},
	{
	"epoch": 5.666666666666667,
	"grad_norm": 0.003936767578125,
	"learning_rate": 2.215909090909091e-05,
	"loss": 0.0,
	"step": 51
	},
	{
	"epoch": 5.666666666666667,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5358937978744507,
	"eval_runtime": 0.5974,
	"eval_samples_per_second": 120.515,
	"eval_steps_per_second": 8.369,
	"step": 51
	},
	{
	"epoch": 5.777777777777778,
	"grad_norm": 0.00201416015625,
	"learning_rate": 2.1590909090909093e-05,
	"loss": 0.0,
	"step": 52
	},
	{
	"epoch": 5.777777777777778,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5329558849334717,
	"eval_runtime": 0.5958,
	"eval_samples_per_second": 120.838,
	"eval_steps_per_second": 8.392,
	"step": 52
	},
	{
	"epoch": 5.888888888888889,
	"grad_norm": 2.421438694000244e-07,
	"learning_rate": 2.1022727272727274e-05,
	"loss": 0.0,
	"step": 53
	},
	{
	"epoch": 5.888888888888889,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5214672088623047,
	"eval_runtime": 0.6967,
	"eval_samples_per_second": 103.34,
	"eval_steps_per_second": 7.176,
	"step": 53
	},
	{
	"epoch": 6.0,
	"grad_norm": 1.3709068298339844e-06,
	"learning_rate": 2.0454545454545457e-05,
	"loss": 0.0,
	"step": 54
	},
	{
	"epoch": 6.0,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5187917947769165,
	"eval_runtime": 0.6476,
	"eval_samples_per_second": 111.177,
	"eval_steps_per_second": 7.721,
	"step": 54
	},
	{
	"epoch": 6.111111111111111,
	"grad_norm": 3.0919909477233887e-07,
	"learning_rate": 1.9886363636363638e-05,
	"loss": 0.0,
	"step": 55
	},
	{
	"epoch": 6.111111111111111,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5016388893127441,
	"eval_runtime": 0.6994,
	"eval_samples_per_second": 102.949,
	"eval_steps_per_second": 7.149,
	"step": 55
	},
	{
	"epoch": 6.222222222222222,
	"grad_norm": 0.004119873046875,
	"learning_rate": 1.9318181818181818e-05,
	"loss": 0.0,
	"step": 56
	},
	{
	"epoch": 6.222222222222222,
	"eval_accuracy": 0.8888888888888888,
	"eval_loss": 1.5138192176818848,
	"eval_runtime": 0.6017,
	"eval_samples_per_second": 119.668,
	"eval_steps_per_second": 8.31,
	"step": 56
	},
	{
	"epoch": 6.333333333333333,
	"grad_norm": 0.0002384185791015625,
	"learning_rate": 1.8750000000000002e-05,
	"loss": 0.0,
	"step": 57
	},
	{
	"epoch": 6.333333333333333,
	"eval_accuracy": 0.8888888888888888,
	"eval_loss": 1.5286269187927246,
	"eval_runtime": 0.6992,
	"eval_samples_per_second": 102.971,
	"eval_steps_per_second": 7.151,
	"step": 57
	},
	{
	"epoch": 6.444444444444445,
	"grad_norm": 0.000820159912109375,
	"learning_rate": 1.8181818181818182e-05,
	"loss": 0.0,
	"step": 58
	},
	{
	"epoch": 6.444444444444445,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5168614387512207,
	"eval_runtime": 0.6528,
	"eval_samples_per_second": 110.288,
	"eval_steps_per_second": 7.659,
	"step": 58
	},
	{
	"epoch": 6.555555555555555,
	"grad_norm": 9.611248970031738e-07,
	"learning_rate": 1.7613636363636366e-05,
	"loss": 0.0,
	"step": 59
	},
	{
	"epoch": 6.555555555555555,
	"eval_accuracy": 0.8888888888888888,
	"eval_loss": 1.5216871500015259,
	"eval_runtime": 0.5572,
	"eval_samples_per_second": 129.227,
	"eval_steps_per_second": 8.974,
	"step": 59
	},
	{
	"epoch": 6.666666666666667,
	"grad_norm": 0.0439453125,
	"learning_rate": 1.7045454545454546e-05,
	"loss": 0.0,
	"step": 60
	},
	{
	"epoch": 6.666666666666667,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.502282738685608,
	"eval_runtime": 0.5976,
	"eval_samples_per_second": 120.473,
	"eval_steps_per_second": 8.366,
	"step": 60
	},
	{
	"epoch": 6.777777777777778,
	"grad_norm": 2.03125,
	"learning_rate": 1.6477272727272726e-05,
	"loss": 0.0004,
	"step": 61
	},
	{
	"epoch": 6.777777777777778,
	"eval_accuracy": 0.8888888888888888,
	"eval_loss": 1.514363169670105,
	"eval_runtime": 0.6066,
	"eval_samples_per_second": 118.704,
	"eval_steps_per_second": 8.243,
	"step": 61
	},
	{
	"epoch": 6.888888888888889,
	"grad_norm": 0.04931640625,
	"learning_rate": 1.590909090909091e-05,
	"loss": 0.0,
	"step": 62
	},
	{
	"epoch": 6.888888888888889,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5189261436462402,
	"eval_runtime": 0.6537,
	"eval_samples_per_second": 110.139,
	"eval_steps_per_second": 7.649,
	"step": 62
	},
	{
	"epoch": 7.0,
	"grad_norm": 0.0078125,
	"learning_rate": 1.534090909090909e-05,
	"loss": 0.0,
	"step": 63
	},
	{
	"epoch": 7.0,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5211472511291504,
	"eval_runtime": 0.5974,
	"eval_samples_per_second": 120.523,
	"eval_steps_per_second": 8.37,
	"step": 63
	},
	{
	"epoch": 7.111111111111111,
	"grad_norm": 0.0164794921875,
	"learning_rate": 1.4772727272727274e-05,
	"loss": 0.0,
	"step": 64
	},
	{
	"epoch": 7.111111111111111,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5136324167251587,
	"eval_runtime": 0.5481,
	"eval_samples_per_second": 131.353,
	"eval_steps_per_second": 9.122,
	"step": 64
	},
	{
	"epoch": 7.222222222222222,
	"grad_norm": 0.0021209716796875,
	"learning_rate": 1.4204545454545456e-05,
	"loss": 0.0,
	"step": 65
	},
	{
	"epoch": 7.222222222222222,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5277597904205322,
	"eval_runtime": 0.5516,
	"eval_samples_per_second": 130.526,
	"eval_steps_per_second": 9.064,
	"step": 65
	},
	{
	"epoch": 7.333333333333333,
	"grad_norm": 0.005828857421875,
	"learning_rate": 1.3636363636363637e-05,
	"loss": 0.0,
	"step": 66
	},
	{
	"epoch": 7.333333333333333,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.522915244102478,
	"eval_runtime": 0.5999,
	"eval_samples_per_second": 120.012,
	"eval_steps_per_second": 8.334,
	"step": 66
	},
	{
	"epoch": 7.444444444444445,
	"grad_norm": 1.2934207916259766e-05,
	"learning_rate": 1.3068181818181819e-05,
	"loss": 0.0,
	"step": 67
	},
	{
	"epoch": 7.444444444444445,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5242993831634521,
	"eval_runtime": 0.5991,
	"eval_samples_per_second": 120.181,
	"eval_steps_per_second": 8.346,
	"step": 67
	},
	{
	"epoch": 7.555555555555555,
	"grad_norm": 0.0025482177734375,
	"learning_rate": 1.25e-05,
	"loss": 0.0,
	"step": 68
	},
	{
	"epoch": 7.555555555555555,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5566874742507935,
	"eval_runtime": 0.6033,
	"eval_samples_per_second": 119.344,
	"eval_steps_per_second": 8.288,
	"step": 68
	},
	{
	"epoch": 7.666666666666667,
	"grad_norm": 2.2292137145996094e-05,
	"learning_rate": 1.1931818181818183e-05,
	"loss": 0.0,
	"step": 69
	},
	{
	"epoch": 7.666666666666667,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5216310024261475,
	"eval_runtime": 0.6541,
	"eval_samples_per_second": 110.075,
	"eval_steps_per_second": 7.644,
	"step": 69
	},
	{
	"epoch": 7.777777777777778,
	"grad_norm": 3.781169652938843e-07,
	"learning_rate": 1.1363636363636365e-05,
	"loss": 0.0,
	"step": 70
	},
	{
	"epoch": 7.777777777777778,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.556174397468567,
	"eval_runtime": 0.7028,
	"eval_samples_per_second": 102.449,
	"eval_steps_per_second": 7.114,
	"step": 70
	},
	{
	"epoch": 7.888888888888889,
	"grad_norm": 0.0098876953125,
	"learning_rate": 1.0795454545454547e-05,
	"loss": 0.0,
	"step": 71
	},
	{
	"epoch": 7.888888888888889,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5348670482635498,
	"eval_runtime": 0.6485,
	"eval_samples_per_second": 111.019,
	"eval_steps_per_second": 7.71,
	"step": 71
	},
	{
	"epoch": 8.0,
	"grad_norm": 0.0030059814453125,
	"learning_rate": 1.0227272727272729e-05,
	"loss": 0.0,
	"step": 72
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5380291938781738,
	"eval_runtime": 0.6566,
	"eval_samples_per_second": 109.654,
	"eval_steps_per_second": 7.615,
	"step": 72
	},
	{
	"epoch": 8.11111111111111,
	"grad_norm": 0.00213623046875,
	"learning_rate": 9.659090909090909e-06,
	"loss": 0.0,
	"step": 73
	},
	{
	"epoch": 8.11111111111111,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5448710918426514,
	"eval_runtime": 0.6,
	"eval_samples_per_second": 120.004,
	"eval_steps_per_second": 8.334,
	"step": 73
	},
	{
	"epoch": 8.222222222222221,
	"grad_norm": 0.00091552734375,
	"learning_rate": 9.090909090909091e-06,
	"loss": 0.0,
	"step": 74
	},
	{
	"epoch": 8.222222222222221,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5343950986862183,
	"eval_runtime": 0.652,
	"eval_samples_per_second": 110.422,
	"eval_steps_per_second": 7.668,
	"step": 74
	},
	{
	"epoch": 8.333333333333334,
	"grad_norm": 0.0004138946533203125,
	"learning_rate": 8.522727272727273e-06,
	"loss": 0.0,
	"step": 75
	},
	{
	"epoch": 8.333333333333334,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5339765548706055,
	"eval_runtime": 0.6516,
	"eval_samples_per_second": 110.49,
	"eval_steps_per_second": 7.673,
	"step": 75
	},
	{
	"epoch": 8.444444444444445,
	"grad_norm": 0.0038604736328125,
	"learning_rate": 7.954545454545455e-06,
	"loss": 0.0,
	"step": 76
	},
	{
	"epoch": 8.444444444444445,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5366467237472534,
	"eval_runtime": 0.6458,
	"eval_samples_per_second": 111.486,
	"eval_steps_per_second": 7.742,
	"step": 76
	},
	{
	"epoch": 8.555555555555555,
	"grad_norm": 0.0017242431640625,
	"learning_rate": 7.386363636363637e-06,
	"loss": 0.0,
	"step": 77
	},
	{
	"epoch": 8.555555555555555,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5521453619003296,
	"eval_runtime": 0.647,
	"eval_samples_per_second": 111.287,
	"eval_steps_per_second": 7.728,
	"step": 77
	},
	{
	"epoch": 8.666666666666666,
	"grad_norm": 0.0115966796875,
	"learning_rate": 6.818181818181818e-06,
	"loss": 0.0,
	"step": 78
	},
	{
	"epoch": 8.666666666666666,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5502495765686035,
	"eval_runtime": 0.6963,
	"eval_samples_per_second": 103.409,
	"eval_steps_per_second": 7.181,
	"step": 78
	},
	{
	"epoch": 8.777777777777779,
	"grad_norm": 0.0021209716796875,
	"learning_rate": 6.25e-06,
	"loss": 0.0,
	"step": 79
	},
	{
	"epoch": 8.777777777777779,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.542751431465149,
	"eval_runtime": 0.6963,
	"eval_samples_per_second": 103.406,
	"eval_steps_per_second": 7.181,
	"step": 79
	},
	{
	"epoch": 8.88888888888889,
	"grad_norm": 1.2367963790893555e-06,
	"learning_rate": 5.681818181818182e-06,
	"loss": 0.0,
	"step": 80
	},
	{
	"epoch": 8.88888888888889,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5345420837402344,
	"eval_runtime": 0.6976,
	"eval_samples_per_second": 103.21,
	"eval_steps_per_second": 7.167,
	"step": 80
	},
	{
	"epoch": 9.0,
	"grad_norm": 3.361701965332031e-05,
	"learning_rate": 5.113636363636364e-06,
	"loss": 0.0,
	"step": 81
	},
	{
	"epoch": 9.0,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5562814474105835,
	"eval_runtime": 0.6461,
	"eval_samples_per_second": 111.443,
	"eval_steps_per_second": 7.739,
	"step": 81
	},
	{
	"epoch": 9.11111111111111,
	"grad_norm": 2.3562461137771606e-07,
	"learning_rate": 4.5454545454545455e-06,
	"loss": 0.0,
	"step": 82
	},
	{
	"epoch": 9.11111111111111,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5464510917663574,
	"eval_runtime": 0.5958,
	"eval_samples_per_second": 120.849,
	"eval_steps_per_second": 8.392,
	"step": 82
	},
	{
	"epoch": 9.222222222222221,
	"grad_norm": 0.00020599365234375,
	"learning_rate": 3.9772727272727275e-06,
	"loss": 0.0,
	"step": 83
	},
	{
	"epoch": 9.222222222222221,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.524036169052124,
	"eval_runtime": 0.6968,
	"eval_samples_per_second": 103.327,
	"eval_steps_per_second": 7.176,
	"step": 83
	},
	{
	"epoch": 9.333333333333334,
	"grad_norm": 0.0303955078125,
	"learning_rate": 3.409090909090909e-06,
	"loss": 0.0,
	"step": 84
	},
	{
	"epoch": 9.333333333333334,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5470325946807861,
	"eval_runtime": 0.6963,
	"eval_samples_per_second": 103.403,
	"eval_steps_per_second": 7.181,
	"step": 84
	},
	{
	"epoch": 9.444444444444445,
	"grad_norm": 0.0002460479736328125,
	"learning_rate": 2.840909090909091e-06,
	"loss": 0.0,
	"step": 85
	},
	{
	"epoch": 9.444444444444445,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5460495948791504,
	"eval_runtime": 0.6977,
	"eval_samples_per_second": 103.196,
	"eval_steps_per_second": 7.166,
	"step": 85
	},
	{
	"epoch": 9.555555555555555,
	"grad_norm": 0.006622314453125,
	"learning_rate": 2.2727272727272728e-06,
	"loss": 0.0,
	"step": 86
	},
	{
	"epoch": 9.555555555555555,
	"eval_accuracy": 0.9027777777777778,
	"eval_loss": 1.5334285497665405,
	"eval_runtime": 0.6494,
	"eval_samples_per_second": 110.871,
	"eval_steps_per_second": 7.699,
	"step": 86
	},
	{
	"epoch": 9.666666666666666,
	"grad_norm": 0.000270843505859375,
	"learning_rate": 1.7045454545454546e-06,
	"loss": 0.0,
	"step": 87
	},
	{
	"epoch": 9.666666666666666,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5404330492019653,
	"eval_runtime": 0.6478,
	"eval_samples_per_second": 111.143,
	"eval_steps_per_second": 7.718,
	"step": 87
	},
	{
	"epoch": 9.777777777777779,
	"grad_norm": 0.0028839111328125,
	"learning_rate": 1.1363636363636364e-06,
	"loss": 0.0,
	"step": 88
	},
	{
	"epoch": 9.777777777777779,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5434991121292114,
	"eval_runtime": 0.6968,
	"eval_samples_per_second": 103.332,
	"eval_steps_per_second": 7.176,
	"step": 88
	},
	{
	"epoch": 9.88888888888889,
	"grad_norm": 7.724761962890625e-05,
	"learning_rate": 5.681818181818182e-07,
	"loss": 0.0,
	"step": 89
	},
	{
	"epoch": 9.88888888888889,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5376508235931396,
	"eval_runtime": 0.5948,
	"eval_samples_per_second": 121.039,
	"eval_steps_per_second": 8.406,
	"step": 89
	},
	{
	"epoch": 10.0,
	"grad_norm": 0.0003452301025390625,
	"learning_rate": 0.0,
	"loss": 0.0,
	"step": 90
	},
	{
	"epoch": 10.0,
	"eval_accuracy": 0.9166666666666666,
	"eval_loss": 1.5476466417312622,
	"eval_runtime": 0.6967,
	"eval_samples_per_second": 103.34,
	"eval_steps_per_second": 7.176,
	"step": 90
	},
	{
	"epoch": 10.0,
	"step": 90,
	"total_flos": 5215653136957440.0,
	"train_loss": 0.28103225947254235,
	"train_runtime": 159.0137,
	"train_samples_per_second": 17.86,
	"train_steps_per_second": 0.566
	}
	],
	"logging_steps": 1,
	"max_steps": 90,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5215653136957440.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}