bhaskara / trainer_state.json

Matthew Finlayson

adding model

b39dcfe about 2 years ago

46.6 kB

	{
	"best_metric": 0.58837890625,
	"best_model_checkpoint": "/output/checkpoint-3300",
	"epoch": 10.0,
	"global_step": 17620,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.06,
	"eval_accuracy": 0.8214358287770616,
	"eval_loss": 0.79296875,
	"eval_runtime": 301.7299,
	"eval_samples_per_second": 14.301,
	"eval_steps_per_second": 1.79,
	"step": 100
	},
	{
	"epoch": 0.11,
	"eval_accuracy": 0.828983212304709,
	"eval_loss": 0.75439453125,
	"eval_runtime": 295.5652,
	"eval_samples_per_second": 14.599,
	"eval_steps_per_second": 1.827,
	"step": 200
	},
	{
	"epoch": 0.17,
	"eval_accuracy": 0.83275463867547,
	"eval_loss": 0.73583984375,
	"eval_runtime": 297.8323,
	"eval_samples_per_second": 14.488,
	"eval_steps_per_second": 1.813,
	"step": 300
	},
	{
	"epoch": 0.23,
	"eval_accuracy": 0.8357279670702464,
	"eval_loss": 0.71923828125,
	"eval_runtime": 297.4382,
	"eval_samples_per_second": 14.507,
	"eval_steps_per_second": 1.816,
	"step": 400
	},
	{
	"epoch": 0.28,
	"learning_rate": 5e-05,
	"loss": 0.8156,
	"step": 500
	},
	{
	"epoch": 0.28,
	"eval_accuracy": 0.8396754144819782,
	"eval_loss": 0.701171875,
	"eval_runtime": 295.955,
	"eval_samples_per_second": 14.58,
	"eval_steps_per_second": 1.825,
	"step": 500
	},
	{
	"epoch": 0.34,
	"eval_accuracy": 0.8418578941585707,
	"eval_loss": 0.6904296875,
	"eval_runtime": 305.3997,
	"eval_samples_per_second": 14.129,
	"eval_steps_per_second": 1.768,
	"step": 600
	},
	{
	"epoch": 0.4,
	"eval_accuracy": 0.8439807939976145,
	"eval_loss": 0.68017578125,
	"eval_runtime": 303.944,
	"eval_samples_per_second": 14.197,
	"eval_steps_per_second": 1.777,
	"step": 700
	},
	{
	"epoch": 0.45,
	"eval_accuracy": 0.8464999110833223,
	"eval_loss": 0.6669921875,
	"eval_runtime": 297.0827,
	"eval_samples_per_second": 14.525,
	"eval_steps_per_second": 1.818,
	"step": 800
	},
	{
	"epoch": 0.51,
	"eval_accuracy": 0.8485815807686252,
	"eval_loss": 0.6572265625,
	"eval_runtime": 292.5803,
	"eval_samples_per_second": 14.748,
	"eval_steps_per_second": 1.846,
	"step": 900
	},
	{
	"epoch": 0.57,
	"learning_rate": 5e-05,
	"loss": 0.7219,
	"step": 1000
	},
	{
	"epoch": 0.57,
	"eval_accuracy": 0.8500273546212319,
	"eval_loss": 0.64990234375,
	"eval_runtime": 292.7704,
	"eval_samples_per_second": 14.739,
	"eval_steps_per_second": 1.844,
	"step": 1000
	},
	{
	"epoch": 0.62,
	"eval_accuracy": 0.8521808372666221,
	"eval_loss": 0.64111328125,
	"eval_runtime": 292.5084,
	"eval_samples_per_second": 14.752,
	"eval_steps_per_second": 1.846,
	"step": 1100
	},
	{
	"epoch": 0.68,
	"eval_accuracy": 0.853712016437692,
	"eval_loss": 0.63427734375,
	"eval_runtime": 292.6573,
	"eval_samples_per_second": 14.744,
	"eval_steps_per_second": 1.845,
	"step": 1200
	},
	{
	"epoch": 0.74,
	"eval_accuracy": 0.8545884970136456,
	"eval_loss": 0.6298828125,
	"eval_runtime": 291.6972,
	"eval_samples_per_second": 14.793,
	"eval_steps_per_second": 1.851,
	"step": 1300
	},
	{
	"epoch": 0.79,
	"eval_accuracy": 0.856088866839063,
	"eval_loss": 0.6220703125,
	"eval_runtime": 291.6264,
	"eval_samples_per_second": 14.796,
	"eval_steps_per_second": 1.852,
	"step": 1400
	},
	{
	"epoch": 0.85,
	"learning_rate": 5e-05,
	"loss": 0.662,
	"step": 1500
	},
	{
	"epoch": 0.85,
	"eval_accuracy": 0.857388975917739,
	"eval_loss": 0.61572265625,
	"eval_runtime": 292.8293,
	"eval_samples_per_second": 14.736,
	"eval_steps_per_second": 1.844,
	"step": 1500
	},
	{
	"epoch": 0.91,
	"eval_accuracy": 0.8579150001868949,
	"eval_loss": 0.61376953125,
	"eval_runtime": 292.6424,
	"eval_samples_per_second": 14.745,
	"eval_steps_per_second": 1.845,
	"step": 1600
	},
	{
	"epoch": 0.96,
	"eval_accuracy": 0.8595497078209298,
	"eval_loss": 0.60546875,
	"eval_runtime": 292.7935,
	"eval_samples_per_second": 14.737,
	"eval_steps_per_second": 1.844,
	"step": 1700
	},
	{
	"epoch": 1.02,
	"eval_accuracy": 0.8597678651728665,
	"eval_loss": 0.6142578125,
	"eval_runtime": 292.6887,
	"eval_samples_per_second": 14.743,
	"eval_steps_per_second": 1.845,
	"step": 1800
	},
	{
	"epoch": 1.08,
	"eval_accuracy": 0.8598800021294695,
	"eval_loss": 0.619140625,
	"eval_runtime": 291.7039,
	"eval_samples_per_second": 14.792,
	"eval_steps_per_second": 1.851,
	"step": 1900
	},
	{
	"epoch": 1.14,
	"learning_rate": 5e-05,
	"loss": 0.5707,
	"step": 2000
	},
	{
	"epoch": 1.14,
	"eval_accuracy": 0.8606622423540152,
	"eval_loss": 0.61181640625,
	"eval_runtime": 292.661,
	"eval_samples_per_second": 14.744,
	"eval_steps_per_second": 1.845,
	"step": 2000
	},
	{
	"epoch": 1.19,
	"eval_accuracy": 0.8611497549411055,
	"eval_loss": 0.6123046875,
	"eval_runtime": 292.734,
	"eval_samples_per_second": 14.74,
	"eval_steps_per_second": 1.845,
	"step": 2100
	},
	{
	"epoch": 1.25,
	"eval_accuracy": 0.8616524456617156,
	"eval_loss": 0.60888671875,
	"eval_runtime": 291.6011,
	"eval_samples_per_second": 14.798,
	"eval_steps_per_second": 1.852,
	"step": 2200
	},
	{
	"epoch": 1.31,
	"eval_accuracy": 0.8618950692587294,
	"eval_loss": 0.6064453125,
	"eval_runtime": 291.5809,
	"eval_samples_per_second": 14.799,
	"eval_steps_per_second": 1.852,
	"step": 2300
	},
	{
	"epoch": 1.36,
	"eval_accuracy": 0.8625089907787176,
	"eval_loss": 0.60791015625,
	"eval_runtime": 292.7393,
	"eval_samples_per_second": 14.74,
	"eval_steps_per_second": 1.845,
	"step": 2400
	},
	{
	"epoch": 1.42,
	"learning_rate": 5e-05,
	"loss": 0.4923,
	"step": 2500
	},
	{
	"epoch": 1.42,
	"eval_accuracy": 0.8624713852538769,
	"eval_loss": 0.60400390625,
	"eval_runtime": 292.7894,
	"eval_samples_per_second": 14.738,
	"eval_steps_per_second": 1.844,
	"step": 2500
	},
	{
	"epoch": 1.48,
	"eval_accuracy": 0.8630089630276525,
	"eval_loss": 0.60302734375,
	"eval_runtime": 291.5842,
	"eval_samples_per_second": 14.798,
	"eval_steps_per_second": 1.852,
	"step": 2600
	},
	{
	"epoch": 1.53,
	"eval_accuracy": 0.8636167679863714,
	"eval_loss": 0.60205078125,
	"eval_runtime": 291.6586,
	"eval_samples_per_second": 14.795,
	"eval_steps_per_second": 1.851,
	"step": 2700
	},
	{
	"epoch": 1.59,
	"eval_accuracy": 0.8643006901519965,
	"eval_loss": 0.60009765625,
	"eval_runtime": 291.5536,
	"eval_samples_per_second": 14.8,
	"eval_steps_per_second": 1.852,
	"step": 2800
	},
	{
	"epoch": 1.65,
	"eval_accuracy": 0.864360949607464,
	"eval_loss": 0.59814453125,
	"eval_runtime": 292.9127,
	"eval_samples_per_second": 14.731,
	"eval_steps_per_second": 1.844,
	"step": 2900
	},
	{
	"epoch": 1.7,
	"learning_rate": 5e-05,
	"loss": 0.4909,
	"step": 3000
	},
	{
	"epoch": 1.7,
	"eval_accuracy": 0.8647961316148062,
	"eval_loss": 0.59423828125,
	"eval_runtime": 292.7189,
	"eval_samples_per_second": 14.741,
	"eval_steps_per_second": 1.845,
	"step": 3000
	},
	{
	"epoch": 1.76,
	"eval_accuracy": 0.8649898227216659,
	"eval_loss": 0.591796875,
	"eval_runtime": 291.4828,
	"eval_samples_per_second": 14.804,
	"eval_steps_per_second": 1.853,
	"step": 3100
	},
	{
	"epoch": 1.82,
	"eval_accuracy": 0.8659145561698547,
	"eval_loss": 0.59228515625,
	"eval_runtime": 291.6085,
	"eval_samples_per_second": 14.797,
	"eval_steps_per_second": 1.852,
	"step": 3200
	},
	{
	"epoch": 1.87,
	"eval_accuracy": 0.8663780555904803,
	"eval_loss": 0.58837890625,
	"eval_runtime": 291.6163,
	"eval_samples_per_second": 14.797,
	"eval_steps_per_second": 1.852,
	"step": 3300
	},
	{
	"epoch": 1.93,
	"eval_accuracy": 0.8662514201182762,
	"eval_loss": 0.58837890625,
	"eval_runtime": 291.7936,
	"eval_samples_per_second": 14.788,
	"eval_steps_per_second": 1.851,
	"step": 3400
	},
	{
	"epoch": 1.99,
	"learning_rate": 5e-05,
	"loss": 0.4964,
	"step": 3500
	},
	{
	"epoch": 1.99,
	"eval_accuracy": 0.8669489346422774,
	"eval_loss": 0.59033203125,
	"eval_runtime": 291.5679,
	"eval_samples_per_second": 14.799,
	"eval_steps_per_second": 1.852,
	"step": 3500
	},
	{
	"epoch": 2.04,
	"eval_accuracy": 0.8654691798937304,
	"eval_loss": 0.64208984375,
	"eval_runtime": 291.7326,
	"eval_samples_per_second": 14.791,
	"eval_steps_per_second": 1.851,
	"step": 3600
	},
	{
	"epoch": 2.1,
	"eval_accuracy": 0.8650994677459,
	"eval_loss": 0.64013671875,
	"eval_runtime": 293.0337,
	"eval_samples_per_second": 14.725,
	"eval_steps_per_second": 1.843,
	"step": 3700
	},
	{
	"epoch": 2.16,
	"eval_accuracy": 0.8649474598713937,
	"eval_loss": 0.64111328125,
	"eval_runtime": 291.5404,
	"eval_samples_per_second": 14.801,
	"eval_steps_per_second": 1.852,
	"step": 3800
	},
	{
	"epoch": 2.21,
	"eval_accuracy": 0.8645410483559476,
	"eval_loss": 0.638671875,
	"eval_runtime": 291.6679,
	"eval_samples_per_second": 14.794,
	"eval_steps_per_second": 1.851,
	"step": 3900
	},
	{
	"epoch": 2.27,
	"learning_rate": 5e-05,
	"loss": 0.345,
	"step": 4000
	},
	{
	"epoch": 2.27,
	"eval_accuracy": 0.8653572694764337,
	"eval_loss": 0.63623046875,
	"eval_runtime": 291.7901,
	"eval_samples_per_second": 14.788,
	"eval_steps_per_second": 1.851,
	"step": 4000
	},
	{
	"epoch": 2.33,
	"eval_accuracy": 0.8654186616284325,
	"eval_loss": 0.63623046875,
	"eval_runtime": 291.6935,
	"eval_samples_per_second": 14.793,
	"eval_steps_per_second": 1.851,
	"step": 4100
	},
	{
	"epoch": 2.38,
	"eval_accuracy": 0.8653559102405961,
	"eval_loss": 0.63623046875,
	"eval_runtime": 291.8601,
	"eval_samples_per_second": 14.784,
	"eval_steps_per_second": 1.85,
	"step": 4200
	},
	{
	"epoch": 2.44,
	"eval_accuracy": 0.8654696329723429,
	"eval_loss": 0.6357421875,
	"eval_runtime": 292.876,
	"eval_samples_per_second": 14.733,
	"eval_steps_per_second": 1.844,
	"step": 4300
	},
	{
	"epoch": 2.5,
	"eval_accuracy": 0.8655647794809758,
	"eval_loss": 0.63623046875,
	"eval_runtime": 291.8742,
	"eval_samples_per_second": 14.784,
	"eval_steps_per_second": 1.85,
	"step": 4400
	},
	{
	"epoch": 2.55,
	"learning_rate": 5e-05,
	"loss": 0.3463,
	"step": 4500
	},
	{
	"epoch": 2.55,
	"eval_accuracy": 0.865790865708632,
	"eval_loss": 0.6376953125,
	"eval_runtime": 292.8657,
	"eval_samples_per_second": 14.734,
	"eval_steps_per_second": 1.844,
	"step": 4500
	},
	{
	"epoch": 2.61,
	"eval_accuracy": 0.8660047188137496,
	"eval_loss": 0.6357421875,
	"eval_runtime": 292.8962,
	"eval_samples_per_second": 14.732,
	"eval_steps_per_second": 1.844,
	"step": 4600
	},
	{
	"epoch": 2.67,
	"eval_accuracy": 0.8664827167499765,
	"eval_loss": 0.62939453125,
	"eval_runtime": 291.8634,
	"eval_samples_per_second": 14.784,
	"eval_steps_per_second": 1.85,
	"step": 4700
	},
	{
	"epoch": 2.72,
	"eval_accuracy": 0.8664838494465078,
	"eval_loss": 0.63330078125,
	"eval_runtime": 292.9139,
	"eval_samples_per_second": 14.731,
	"eval_steps_per_second": 1.844,
	"step": 4800
	},
	{
	"epoch": 2.78,
	"eval_accuracy": 0.8661707721252445,
	"eval_loss": 0.63623046875,
	"eval_runtime": 291.8657,
	"eval_samples_per_second": 14.784,
	"eval_steps_per_second": 1.85,
	"step": 4900
	},
	{
	"epoch": 2.84,
	"learning_rate": 5e-05,
	"loss": 0.3508,
	"step": 5000
	},
	{
	"epoch": 2.84,
	"eval_accuracy": 0.8666297407597449,
	"eval_loss": 0.6357421875,
	"eval_runtime": 291.8826,
	"eval_samples_per_second": 14.783,
	"eval_steps_per_second": 1.85,
	"step": 5000
	},
	{
	"epoch": 2.89,
	"eval_accuracy": 0.8673172875542703,
	"eval_loss": 0.6298828125,
	"eval_runtime": 291.7729,
	"eval_samples_per_second": 14.789,
	"eval_steps_per_second": 1.851,
	"step": 5100
	},
	{
	"epoch": 2.95,
	"eval_accuracy": 0.866801004475284,
	"eval_loss": 0.63134765625,
	"eval_runtime": 291.9322,
	"eval_samples_per_second": 14.781,
	"eval_steps_per_second": 1.85,
	"step": 5200
	},
	{
	"epoch": 3.01,
	"eval_accuracy": 0.8646230555848169,
	"eval_loss": 0.71875,
	"eval_runtime": 291.8776,
	"eval_samples_per_second": 14.784,
	"eval_steps_per_second": 1.85,
	"step": 5300
	},
	{
	"epoch": 3.06,
	"eval_accuracy": 0.8655867537936839,
	"eval_loss": 0.70166015625,
	"eval_runtime": 293.0438,
	"eval_samples_per_second": 14.725,
	"eval_steps_per_second": 1.843,
	"step": 5400
	},
	{
	"epoch": 3.12,
	"learning_rate": 5e-05,
	"loss": 0.295,
	"step": 5500
	},
	{
	"epoch": 3.12,
	"eval_accuracy": 0.8652775276406272,
	"eval_loss": 0.6982421875,
	"eval_runtime": 291.9251,
	"eval_samples_per_second": 14.781,
	"eval_steps_per_second": 1.85,
	"step": 5500
	},
	{
	"epoch": 3.18,
	"eval_accuracy": 0.8654533221422916,
	"eval_loss": 0.703125,
	"eval_runtime": 292.9873,
	"eval_samples_per_second": 14.728,
	"eval_steps_per_second": 1.843,
	"step": 5600
	},
	{
	"epoch": 3.23,
	"eval_accuracy": 0.8650992412065936,
	"eval_loss": 0.69921875,
	"eval_runtime": 293.1169,
	"eval_samples_per_second": 14.721,
	"eval_steps_per_second": 1.842,
	"step": 5700
	},
	{
	"epoch": 3.29,
	"eval_accuracy": 0.8652641618215573,
	"eval_loss": 0.69970703125,
	"eval_runtime": 293.0467,
	"eval_samples_per_second": 14.725,
	"eval_steps_per_second": 1.843,
	"step": 5800
	},
	{
	"epoch": 3.35,
	"eval_accuracy": 0.865102865835494,
	"eval_loss": 0.7041015625,
	"eval_runtime": 292.9654,
	"eval_samples_per_second": 14.729,
	"eval_steps_per_second": 1.843,
	"step": 5900
	},
	{
	"epoch": 3.41,
	"learning_rate": 5e-05,
	"loss": 0.2348,
	"step": 6000
	},
	{
	"epoch": 3.41,
	"eval_accuracy": 0.8649191424581101,
	"eval_loss": 0.70751953125,
	"eval_runtime": 291.6546,
	"eval_samples_per_second": 14.795,
	"eval_steps_per_second": 1.852,
	"step": 6000
	},
	{
	"epoch": 3.46,
	"eval_accuracy": 0.8649929942719536,
	"eval_loss": 0.69921875,
	"eval_runtime": 293.0033,
	"eval_samples_per_second": 14.727,
	"eval_steps_per_second": 1.843,
	"step": 6100
	},
	{
	"epoch": 3.52,
	"eval_accuracy": 0.8647333802269698,
	"eval_loss": 0.70654296875,
	"eval_runtime": 292.0433,
	"eval_samples_per_second": 14.775,
	"eval_steps_per_second": 1.849,
	"step": 6200
	},
	{
	"epoch": 3.58,
	"eval_accuracy": 0.8651932550186952,
	"eval_loss": 0.69970703125,
	"eval_runtime": 292.8338,
	"eval_samples_per_second": 14.735,
	"eval_steps_per_second": 1.844,
	"step": 6300
	},
	{
	"epoch": 3.63,
	"eval_accuracy": 0.8651128335649698,
	"eval_loss": 0.70263671875,
	"eval_runtime": 291.8152,
	"eval_samples_per_second": 14.787,
	"eval_steps_per_second": 1.85,
	"step": 6400
	},
	{
	"epoch": 3.69,
	"learning_rate": 5e-05,
	"loss": 0.2411,
	"step": 6500
	},
	{
	"epoch": 3.69,
	"eval_accuracy": 0.8655713491208575,
	"eval_loss": 0.70458984375,
	"eval_runtime": 292.9241,
	"eval_samples_per_second": 14.731,
	"eval_steps_per_second": 1.843,
	"step": 6500
	},
	{
	"epoch": 3.75,
	"eval_accuracy": 0.8655097304295525,
	"eval_loss": 0.70068359375,
	"eval_runtime": 293.0902,
	"eval_samples_per_second": 14.722,
	"eval_steps_per_second": 1.842,
	"step": 6600
	},
	{
	"epoch": 3.8,
	"eval_accuracy": 0.8651318628666963,
	"eval_loss": 0.70263671875,
	"eval_runtime": 292.9879,
	"eval_samples_per_second": 14.728,
	"eval_steps_per_second": 1.843,
	"step": 6700
	},
	{
	"epoch": 3.86,
	"eval_accuracy": 0.8654825457128003,
	"eval_loss": 0.703125,
	"eval_runtime": 292.8939,
	"eval_samples_per_second": 14.732,
	"eval_steps_per_second": 1.844,
	"step": 6800
	},
	{
	"epoch": 3.92,
	"eval_accuracy": 0.8657906391693256,
	"eval_loss": 0.701171875,
	"eval_runtime": 292.7957,
	"eval_samples_per_second": 14.737,
	"eval_steps_per_second": 1.844,
	"step": 6900
	},
	{
	"epoch": 3.97,
	"learning_rate": 5e-05,
	"loss": 0.251,
	"step": 7000
	},
	{
	"epoch": 3.97,
	"eval_accuracy": 0.8656236797006056,
	"eval_loss": 0.705078125,
	"eval_runtime": 292.768,
	"eval_samples_per_second": 14.739,
	"eval_steps_per_second": 1.844,
	"step": 7000
	},
	{
	"epoch": 4.03,
	"eval_accuracy": 0.8650197259100934,
	"eval_loss": 0.7607421875,
	"eval_runtime": 293.0243,
	"eval_samples_per_second": 14.726,
	"eval_steps_per_second": 1.843,
	"step": 7100
	},
	{
	"epoch": 4.09,
	"eval_accuracy": 0.8655654590988946,
	"eval_loss": 0.76318359375,
	"eval_runtime": 293.1258,
	"eval_samples_per_second": 14.721,
	"eval_steps_per_second": 1.842,
	"step": 7200
	},
	{
	"epoch": 4.14,
	"eval_accuracy": 0.8654986300035453,
	"eval_loss": 0.7587890625,
	"eval_runtime": 291.7489,
	"eval_samples_per_second": 14.79,
	"eval_steps_per_second": 1.851,
	"step": 7300
	},
	{
	"epoch": 4.2,
	"eval_accuracy": 0.8650992412065936,
	"eval_loss": 0.7578125,
	"eval_runtime": 291.7365,
	"eval_samples_per_second": 14.791,
	"eval_steps_per_second": 1.851,
	"step": 7400
	},
	{
	"epoch": 4.26,
	"learning_rate": 5e-05,
	"loss": 0.1797,
	"step": 7500
	},
	{
	"epoch": 4.26,
	"eval_accuracy": 0.8644635719132038,
	"eval_loss": 0.77099609375,
	"eval_runtime": 292.8962,
	"eval_samples_per_second": 14.732,
	"eval_steps_per_second": 1.844,
	"step": 7500
	},
	{
	"epoch": 4.31,
	"eval_accuracy": 0.8648369086899346,
	"eval_loss": 0.7626953125,
	"eval_runtime": 291.9443,
	"eval_samples_per_second": 14.78,
	"eval_steps_per_second": 1.85,
	"step": 7600
	},
	{
	"epoch": 4.37,
	"eval_accuracy": 0.8650006966083668,
	"eval_loss": 0.75830078125,
	"eval_runtime": 292.6223,
	"eval_samples_per_second": 14.746,
	"eval_steps_per_second": 1.845,
	"step": 7700
	},
	{
	"epoch": 4.43,
	"eval_accuracy": 0.8648572972274987,
	"eval_loss": 0.7646484375,
	"eval_runtime": 292.6746,
	"eval_samples_per_second": 14.743,
	"eval_steps_per_second": 1.845,
	"step": 7800
	},
	{
	"epoch": 4.48,
	"eval_accuracy": 0.8645709515443751,
	"eval_loss": 0.759765625,
	"eval_runtime": 292.8238,
	"eval_samples_per_second": 14.736,
	"eval_steps_per_second": 1.844,
	"step": 7900
	},
	{
	"epoch": 4.54,
	"learning_rate": 5e-05,
	"loss": 0.1784,
	"step": 8000
	},
	{
	"epoch": 4.54,
	"eval_accuracy": 0.8649886900251346,
	"eval_loss": 0.765625,
	"eval_runtime": 292.7739,
	"eval_samples_per_second": 14.738,
	"eval_steps_per_second": 1.844,
	"step": 8000
	},
	{
	"epoch": 4.6,
	"eval_accuracy": 0.8647777819309984,
	"eval_loss": 0.76171875,
	"eval_runtime": 291.5794,
	"eval_samples_per_second": 14.799,
	"eval_steps_per_second": 1.852,
	"step": 8100
	},
	{
	"epoch": 4.65,
	"eval_accuracy": 0.8650895000164242,
	"eval_loss": 0.75732421875,
	"eval_runtime": 292.5766,
	"eval_samples_per_second": 14.748,
	"eval_steps_per_second": 1.846,
	"step": 8200
	},
	{
	"epoch": 4.71,
	"eval_accuracy": 0.8647773288523859,
	"eval_loss": 0.76708984375,
	"eval_runtime": 292.8751,
	"eval_samples_per_second": 14.733,
	"eval_steps_per_second": 1.844,
	"step": 8300
	},
	{
	"epoch": 4.77,
	"eval_accuracy": 0.8651295974736336,
	"eval_loss": 0.75634765625,
	"eval_runtime": 292.7435,
	"eval_samples_per_second": 14.74,
	"eval_steps_per_second": 1.845,
	"step": 8400
	},
	{
	"epoch": 4.82,
	"learning_rate": 5e-05,
	"loss": 0.1827,
	"step": 8500
	},
	{
	"epoch": 4.82,
	"eval_accuracy": 0.8648883331124575,
	"eval_loss": 0.76513671875,
	"eval_runtime": 291.561,
	"eval_samples_per_second": 14.8,
	"eval_steps_per_second": 1.852,
	"step": 8500
	},
	{
	"epoch": 4.88,
	"eval_accuracy": 0.8649513110396002,
	"eval_loss": 0.763671875,
	"eval_runtime": 292.871,
	"eval_samples_per_second": 14.733,
	"eval_steps_per_second": 1.844,
	"step": 8600
	},
	{
	"epoch": 4.94,
	"eval_accuracy": 0.8653917034509865,
	"eval_loss": 0.7607421875,
	"eval_runtime": 292.9668,
	"eval_samples_per_second": 14.729,
	"eval_steps_per_second": 1.843,
	"step": 8700
	},
	{
	"epoch": 4.99,
	"eval_accuracy": 0.86499322081126,
	"eval_loss": 0.7607421875,
	"eval_runtime": 292.8128,
	"eval_samples_per_second": 14.736,
	"eval_steps_per_second": 1.844,
	"step": 8800
	},
	{
	"epoch": 5.05,
	"eval_accuracy": 0.8645997220362712,
	"eval_loss": 0.81494140625,
	"eval_runtime": 292.864,
	"eval_samples_per_second": 14.734,
	"eval_steps_per_second": 1.844,
	"step": 8900
	},
	{
	"epoch": 5.11,
	"learning_rate": 5e-05,
	"loss": 0.167,
	"step": 9000
	},
	{
	"epoch": 5.11,
	"eval_accuracy": 0.8647852577281052,
	"eval_loss": 0.80810546875,
	"eval_runtime": 292.7519,
	"eval_samples_per_second": 14.739,
	"eval_steps_per_second": 1.845,
	"step": 9000
	},
	{
	"epoch": 5.16,
	"eval_accuracy": 0.8643582311357888,
	"eval_loss": 0.818359375,
	"eval_runtime": 291.6434,
	"eval_samples_per_second": 14.795,
	"eval_steps_per_second": 1.852,
	"step": 9100
	},
	{
	"epoch": 5.22,
	"eval_accuracy": 0.8647263575084754,
	"eval_loss": 0.81396484375,
	"eval_runtime": 292.5189,
	"eval_samples_per_second": 14.751,
	"eval_steps_per_second": 1.846,
	"step": 9200
	},
	{
	"epoch": 5.28,
	"eval_accuracy": 0.8643802054484968,
	"eval_loss": 0.81689453125,
	"eval_runtime": 291.4921,
	"eval_samples_per_second": 14.803,
	"eval_steps_per_second": 1.853,
	"step": 9300
	},
	{
	"epoch": 5.33,
	"eval_accuracy": 0.8644685557779417,
	"eval_loss": 0.81201171875,
	"eval_runtime": 292.6907,
	"eval_samples_per_second": 14.743,
	"eval_steps_per_second": 1.845,
	"step": 9400
	},
	{
	"epoch": 5.39,
	"learning_rate": 5e-05,
	"loss": 0.1371,
	"step": 9500
	},
	{
	"epoch": 5.39,
	"eval_accuracy": 0.8642560619086617,
	"eval_loss": 0.8154296875,
	"eval_runtime": 292.8129,
	"eval_samples_per_second": 14.736,
	"eval_steps_per_second": 1.844,
	"step": 9500
	},
	{
	"epoch": 5.45,
	"eval_accuracy": 0.8642103009687954,
	"eval_loss": 0.81787109375,
	"eval_runtime": 292.7443,
	"eval_samples_per_second": 14.74,
	"eval_steps_per_second": 1.845,
	"step": 9600
	},
	{
	"epoch": 5.51,
	"eval_accuracy": 0.8642599130768682,
	"eval_loss": 0.8154296875,
	"eval_runtime": 291.6813,
	"eval_samples_per_second": 14.794,
	"eval_steps_per_second": 1.851,
	"step": 9700
	},
	{
	"epoch": 5.56,
	"eval_accuracy": 0.8645023101345757,
	"eval_loss": 0.81201171875,
	"eval_runtime": 292.6716,
	"eval_samples_per_second": 14.743,
	"eval_steps_per_second": 1.845,
	"step": 9800
	},
	{
	"epoch": 5.62,
	"eval_accuracy": 0.8649979781366915,
	"eval_loss": 0.81103515625,
	"eval_runtime": 292.7654,
	"eval_samples_per_second": 14.739,
	"eval_steps_per_second": 1.844,
	"step": 9900
	},
	{
	"epoch": 5.68,
	"learning_rate": 5e-05,
	"loss": 0.1425,
	"step": 10000
	},
	{
	"epoch": 5.68,
	"eval_accuracy": 0.8645428606703978,
	"eval_loss": 0.81591796875,
	"eval_runtime": 292.6875,
	"eval_samples_per_second": 14.743,
	"eval_steps_per_second": 1.845,
	"step": 10000
	},
	{
	"epoch": 5.73,
	"eval_accuracy": 0.8646024405079464,
	"eval_loss": 0.8173828125,
	"eval_runtime": 292.6736,
	"eval_samples_per_second": 14.743,
	"eval_steps_per_second": 1.845,
	"step": 10100
	},
	{
	"epoch": 5.79,
	"eval_accuracy": 0.8649073624141841,
	"eval_loss": 0.81591796875,
	"eval_runtime": 292.7868,
	"eval_samples_per_second": 14.738,
	"eval_steps_per_second": 1.844,
	"step": 10200
	},
	{
	"epoch": 5.85,
	"eval_accuracy": 0.8639400395764169,
	"eval_loss": 0.81103515625,
	"eval_runtime": 292.8417,
	"eval_samples_per_second": 14.735,
	"eval_steps_per_second": 1.844,
	"step": 10300
	},
	{
	"epoch": 5.9,
	"eval_accuracy": 0.8645482976137482,
	"eval_loss": 0.8134765625,
	"eval_runtime": 292.765,
	"eval_samples_per_second": 14.739,
	"eval_steps_per_second": 1.844,
	"step": 10400
	},
	{
	"epoch": 5.96,
	"learning_rate": 5e-05,
	"loss": 0.1505,
	"step": 10500
	},
	{
	"epoch": 5.96,
	"eval_accuracy": 0.8642195890803523,
	"eval_loss": 0.81396484375,
	"eval_runtime": 292.5807,
	"eval_samples_per_second": 14.748,
	"eval_steps_per_second": 1.846,
	"step": 10500
	},
	{
	"epoch": 6.02,
	"eval_accuracy": 0.8639674508324753,
	"eval_loss": 0.86279296875,
	"eval_runtime": 292.6261,
	"eval_samples_per_second": 14.746,
	"eval_steps_per_second": 1.845,
	"step": 10600
	},
	{
	"epoch": 6.07,
	"eval_accuracy": 0.8644205294450127,
	"eval_loss": 0.85400390625,
	"eval_runtime": 292.6297,
	"eval_samples_per_second": 14.746,
	"eval_steps_per_second": 1.845,
	"step": 10700
	},
	{
	"epoch": 6.13,
	"eval_accuracy": 0.8642433757075105,
	"eval_loss": 0.85302734375,
	"eval_runtime": 291.5398,
	"eval_samples_per_second": 14.801,
	"eval_steps_per_second": 1.852,
	"step": 10800
	},
	{
	"epoch": 6.19,
	"eval_accuracy": 0.8646898846801662,
	"eval_loss": 0.85595703125,
	"eval_runtime": 291.664,
	"eval_samples_per_second": 14.794,
	"eval_steps_per_second": 1.851,
	"step": 10900
	},
	{
	"epoch": 6.24,
	"learning_rate": 5e-05,
	"loss": 0.1086,
	"step": 11000
	},
	{
	"epoch": 6.24,
	"eval_accuracy": 0.864855937991661,
	"eval_loss": 0.85546875,
	"eval_runtime": 292.8292,
	"eval_samples_per_second": 14.736,
	"eval_steps_per_second": 1.844,
	"step": 11000
	},
	{
	"epoch": 6.3,
	"eval_accuracy": 0.8643829239201721,
	"eval_loss": 0.8603515625,
	"eval_runtime": 292.6815,
	"eval_samples_per_second": 14.743,
	"eval_steps_per_second": 1.845,
	"step": 11100
	},
	{
	"epoch": 6.36,
	"eval_accuracy": 0.8641971616890317,
	"eval_loss": 0.85693359375,
	"eval_runtime": 292.4181,
	"eval_samples_per_second": 14.756,
	"eval_steps_per_second": 1.847,
	"step": 11200
	},
	{
	"epoch": 6.41,
	"eval_accuracy": 0.8638854436036061,
	"eval_loss": 0.85302734375,
	"eval_runtime": 293.018,
	"eval_samples_per_second": 14.726,
	"eval_steps_per_second": 1.843,
	"step": 11300
	},
	{
	"epoch": 6.47,
	"eval_accuracy": 0.8642818873895762,
	"eval_loss": 0.85888671875,
	"eval_runtime": 291.7384,
	"eval_samples_per_second": 14.791,
	"eval_steps_per_second": 1.851,
	"step": 11400
	},
	{
	"epoch": 6.53,
	"learning_rate": 5e-05,
	"loss": 0.1076,
	"step": 11500
	},
	{
	"epoch": 6.53,
	"eval_accuracy": 0.8638872559180562,
	"eval_loss": 0.8525390625,
	"eval_runtime": 293.4652,
	"eval_samples_per_second": 14.704,
	"eval_steps_per_second": 1.84,
	"step": 11500
	},
	{
	"epoch": 6.58,
	"eval_accuracy": 0.8640002990318842,
	"eval_loss": 0.85791015625,
	"eval_runtime": 292.9912,
	"eval_samples_per_second": 14.727,
	"eval_steps_per_second": 1.843,
	"step": 11600
	},
	{
	"epoch": 6.64,
	"eval_accuracy": 0.8639792308764013,
	"eval_loss": 0.859375,
	"eval_runtime": 292.1362,
	"eval_samples_per_second": 14.771,
	"eval_steps_per_second": 1.848,
	"step": 11700
	},
	{
	"epoch": 6.7,
	"eval_accuracy": 0.864300237073384,
	"eval_loss": 0.85986328125,
	"eval_runtime": 292.9015,
	"eval_samples_per_second": 14.732,
	"eval_steps_per_second": 1.844,
	"step": 11800
	},
	{
	"epoch": 6.75,
	"eval_accuracy": 0.8639912374596336,
	"eval_loss": 0.8564453125,
	"eval_runtime": 292.927,
	"eval_samples_per_second": 14.731,
	"eval_steps_per_second": 1.843,
	"step": 11900
	},
	{
	"epoch": 6.81,
	"learning_rate": 5e-05,
	"loss": 0.1109,
	"step": 12000
	},
	{
	"epoch": 6.81,
	"eval_accuracy": 0.8640392637925625,
	"eval_loss": 0.86328125,
	"eval_runtime": 292.9284,
	"eval_samples_per_second": 14.731,
	"eval_steps_per_second": 1.843,
	"step": 12000
	},
	{
	"epoch": 6.87,
	"eval_accuracy": 0.8638109121718437,
	"eval_loss": 0.8583984375,
	"eval_runtime": 292.6011,
	"eval_samples_per_second": 14.747,
	"eval_steps_per_second": 1.846,
	"step": 12100
	},
	{
	"epoch": 6.92,
	"eval_accuracy": 0.863599550999095,
	"eval_loss": 0.86474609375,
	"eval_runtime": 292.8714,
	"eval_samples_per_second": 14.733,
	"eval_steps_per_second": 1.844,
	"step": 12200
	},
	{
	"epoch": 6.98,
	"eval_accuracy": 0.8634767666950973,
	"eval_loss": 0.85986328125,
	"eval_runtime": 291.6716,
	"eval_samples_per_second": 14.794,
	"eval_steps_per_second": 1.851,
	"step": 12300
	},
	{
	"epoch": 7.04,
	"eval_accuracy": 0.8632459231420095,
	"eval_loss": 0.89794921875,
	"eval_runtime": 292.8834,
	"eval_samples_per_second": 14.733,
	"eval_steps_per_second": 1.844,
	"step": 12400
	},
	{
	"epoch": 7.09,
	"learning_rate": 5e-05,
	"loss": 0.1028,
	"step": 12500
	},
	{
	"epoch": 7.09,
	"eval_accuracy": 0.8634595497078209,
	"eval_loss": 0.8935546875,
	"eval_runtime": 291.8248,
	"eval_samples_per_second": 14.786,
	"eval_steps_per_second": 1.85,
	"step": 12500
	},
	{
	"epoch": 7.15,
	"eval_accuracy": 0.8637445361551069,
	"eval_loss": 0.904296875,
	"eval_runtime": 293.127,
	"eval_samples_per_second": 14.721,
	"eval_steps_per_second": 1.842,
	"step": 12600
	},
	{
	"epoch": 7.21,
	"eval_accuracy": 0.8641618215572539,
	"eval_loss": 0.89892578125,
	"eval_runtime": 291.7379,
	"eval_samples_per_second": 14.791,
	"eval_steps_per_second": 1.851,
	"step": 12700
	},
	{
	"epoch": 7.26,
	"eval_accuracy": 0.8641742812190987,
	"eval_loss": 0.8935546875,
	"eval_runtime": 291.8762,
	"eval_samples_per_second": 14.784,
	"eval_steps_per_second": 1.85,
	"step": 12800
	},
	{
	"epoch": 7.32,
	"eval_accuracy": 0.8641423391769147,
	"eval_loss": 0.89208984375,
	"eval_runtime": 293.0894,
	"eval_samples_per_second": 14.722,
	"eval_steps_per_second": 1.842,
	"step": 12900
	},
	{
	"epoch": 7.38,
	"learning_rate": 5e-05,
	"loss": 0.0774,
	"step": 13000
	},
	{
	"epoch": 7.38,
	"eval_accuracy": 0.8633791282540956,
	"eval_loss": 0.8955078125,
	"eval_runtime": 292.6585,
	"eval_samples_per_second": 14.744,
	"eval_steps_per_second": 1.845,
	"step": 13000
	},
	{
	"epoch": 7.43,
	"eval_accuracy": 0.8636269622551535,
	"eval_loss": 0.89501953125,
	"eval_runtime": 294.4392,
	"eval_samples_per_second": 14.655,
	"eval_steps_per_second": 1.834,
	"step": 13100
	},
	{
	"epoch": 7.49,
	"eval_accuracy": 0.8635223010956573,
	"eval_loss": 0.8994140625,
	"eval_runtime": 292.0929,
	"eval_samples_per_second": 14.773,
	"eval_steps_per_second": 1.849,
	"step": 13200
	},
	{
	"epoch": 7.55,
	"eval_accuracy": 0.8635028187153182,
	"eval_loss": 0.89990234375,
	"eval_runtime": 291.6539,
	"eval_samples_per_second": 14.795,
	"eval_steps_per_second": 1.852,
	"step": 13300
	},
	{
	"epoch": 7.6,
	"eval_accuracy": 0.8631285757813624,
	"eval_loss": 0.8935546875,
	"eval_runtime": 293.1835,
	"eval_samples_per_second": 14.718,
	"eval_steps_per_second": 1.842,
	"step": 13400
	},
	{
	"epoch": 7.66,
	"learning_rate": 5e-05,
	"loss": 0.0852,
	"step": 13500
	},
	{
	"epoch": 7.66,
	"eval_accuracy": 0.863441879641932,
	"eval_loss": 0.90478515625,
	"eval_runtime": 292.8044,
	"eval_samples_per_second": 14.737,
	"eval_steps_per_second": 1.844,
	"step": 13500
	},
	{
	"epoch": 7.72,
	"eval_accuracy": 0.8632284796154269,
	"eval_loss": 0.89599609375,
	"eval_runtime": 292.7129,
	"eval_samples_per_second": 14.741,
	"eval_steps_per_second": 1.845,
	"step": 13600
	},
	{
	"epoch": 7.78,
	"eval_accuracy": 0.8634731420661971,
	"eval_loss": 0.90234375,
	"eval_runtime": 292.9408,
	"eval_samples_per_second": 14.73,
	"eval_steps_per_second": 1.843,
	"step": 13700
	},
	{
	"epoch": 7.83,
	"eval_accuracy": 0.8638301680128765,
	"eval_loss": 0.8984375,
	"eval_runtime": 292.9793,
	"eval_samples_per_second": 14.728,
	"eval_steps_per_second": 1.843,
	"step": 13800
	},
	{
	"epoch": 7.89,
	"eval_accuracy": 0.8635458611835093,
	"eval_loss": 0.90185546875,
	"eval_runtime": 292.8153,
	"eval_samples_per_second": 14.736,
	"eval_steps_per_second": 1.844,
	"step": 13900
	},
	{
	"epoch": 7.95,
	"learning_rate": 5e-05,
	"loss": 0.0879,
	"step": 14000
	},
	{
	"epoch": 7.95,
	"eval_accuracy": 0.863396345241372,
	"eval_loss": 0.9013671875,
	"eval_runtime": 292.8988,
	"eval_samples_per_second": 14.732,
	"eval_steps_per_second": 1.844,
	"step": 14000
	},
	{
	"epoch": 8.0,
	"eval_accuracy": 0.8630044322415271,
	"eval_loss": 0.91357421875,
	"eval_runtime": 292.7911,
	"eval_samples_per_second": 14.737,
	"eval_steps_per_second": 1.844,
	"step": 14100
	},
	{
	"epoch": 8.06,
	"eval_accuracy": 0.8638926928614067,
	"eval_loss": 0.93115234375,
	"eval_runtime": 292.7997,
	"eval_samples_per_second": 14.737,
	"eval_steps_per_second": 1.844,
	"step": 14200
	},
	{
	"epoch": 8.12,
	"eval_accuracy": 0.8635213949384323,
	"eval_loss": 0.9345703125,
	"eval_runtime": 292.7958,
	"eval_samples_per_second": 14.737,
	"eval_steps_per_second": 1.844,
	"step": 14300
	},
	{
	"epoch": 8.17,
	"eval_accuracy": 0.8635272849603952,
	"eval_loss": 0.9306640625,
	"eval_runtime": 291.7965,
	"eval_samples_per_second": 14.788,
	"eval_steps_per_second": 1.851,
	"step": 14400
	},
	{
	"epoch": 8.23,
	"learning_rate": 5e-05,
	"loss": 0.0611,
	"step": 14500
	},
	{
	"epoch": 8.23,
	"eval_accuracy": 0.8640974843942736,
	"eval_loss": 0.94189453125,
	"eval_runtime": 292.9438,
	"eval_samples_per_second": 14.73,
	"eval_steps_per_second": 1.843,
	"step": 14500
	},
	{
	"epoch": 8.29,
	"eval_accuracy": 0.863091196795828,
	"eval_loss": 0.93310546875,
	"eval_runtime": 292.6114,
	"eval_samples_per_second": 14.747,
	"eval_steps_per_second": 1.845,
	"step": 14600
	},
	{
	"epoch": 8.34,
	"eval_accuracy": 0.8635660231817672,
	"eval_loss": 0.9375,
	"eval_runtime": 292.5076,
	"eval_samples_per_second": 14.752,
	"eval_steps_per_second": 1.846,
	"step": 14700
	},
	{
	"epoch": 8.4,
	"eval_accuracy": 0.8626125192416824,
	"eval_loss": 0.92919921875,
	"eval_runtime": 292.6676,
	"eval_samples_per_second": 14.744,
	"eval_steps_per_second": 1.845,
	"step": 14800
	},
	{
	"epoch": 8.46,
	"eval_accuracy": 0.8637236945389302,
	"eval_loss": 0.94580078125,
	"eval_runtime": 291.6673,
	"eval_samples_per_second": 14.794,
	"eval_steps_per_second": 1.851,
	"step": 14900
	},
	{
	"epoch": 8.51,
	"learning_rate": 5e-05,
	"loss": 0.061,
	"step": 15000
	},
	{
	"epoch": 8.51,
	"eval_accuracy": 0.8634267015084119,
	"eval_loss": 0.93359375,
	"eval_runtime": 291.6632,
	"eval_samples_per_second": 14.794,
	"eval_steps_per_second": 1.851,
	"step": 15000
	},
	{
	"epoch": 8.57,
	"eval_accuracy": 0.8629693186490555,
	"eval_loss": 0.94091796875,
	"eval_runtime": 292.9394,
	"eval_samples_per_second": 14.73,
	"eval_steps_per_second": 1.843,
	"step": 15100
	},
	{
	"epoch": 8.63,
	"eval_accuracy": 0.8632108095495379,
	"eval_loss": 0.93896484375,
	"eval_runtime": 292.836,
	"eval_samples_per_second": 14.735,
	"eval_steps_per_second": 1.844,
	"step": 15200
	},
	{
	"epoch": 8.68,
	"eval_accuracy": 0.862787634125428,
	"eval_loss": 0.9375,
	"eval_runtime": 291.5974,
	"eval_samples_per_second": 14.798,
	"eval_steps_per_second": 1.852,
	"step": 15300
	},
	{
	"epoch": 8.74,
	"eval_accuracy": 0.8629693186490555,
	"eval_loss": 0.9365234375,
	"eval_runtime": 292.847,
	"eval_samples_per_second": 14.735,
	"eval_steps_per_second": 1.844,
	"step": 15400
	},
	{
	"epoch": 8.8,
	"learning_rate": 5e-05,
	"loss": 0.0646,
	"step": 15500
	},
	{
	"epoch": 8.8,
	"eval_accuracy": 0.8628259192681874,
	"eval_loss": 0.93701171875,
	"eval_runtime": 292.6735,
	"eval_samples_per_second": 14.743,
	"eval_steps_per_second": 1.845,
	"step": 15500
	},
	{
	"epoch": 8.85,
	"eval_accuracy": 0.8629194800016764,
	"eval_loss": 0.935546875,
	"eval_runtime": 292.789,
	"eval_samples_per_second": 14.738,
	"eval_steps_per_second": 1.844,
	"step": 15600
	},
	{
	"epoch": 8.91,
	"eval_accuracy": 0.8632305184691833,
	"eval_loss": 0.9375,
	"eval_runtime": 291.6374,
	"eval_samples_per_second": 14.796,
	"eval_steps_per_second": 1.852,
	"step": 15700
	},
	{
	"epoch": 8.97,
	"eval_accuracy": 0.8629763413675499,
	"eval_loss": 0.93896484375,
	"eval_runtime": 293.0327,
	"eval_samples_per_second": 14.725,
	"eval_steps_per_second": 1.843,
	"step": 15800
	},
	{
	"epoch": 9.02,
	"eval_accuracy": 0.8630309373403606,
	"eval_loss": 0.9716796875,
	"eval_runtime": 292.645,
	"eval_samples_per_second": 14.745,
	"eval_steps_per_second": 1.845,
	"step": 15900
	},
	{
	"epoch": 9.08,
	"learning_rate": 5e-05,
	"loss": 0.0593,
	"step": 16000
	},
	{
	"epoch": 9.08,
	"eval_accuracy": 0.8626426489694161,
	"eval_loss": 0.96728515625,
	"eval_runtime": 292.8134,
	"eval_samples_per_second": 14.736,
	"eval_steps_per_second": 1.844,
	"step": 16000
	},
	{
	"epoch": 9.14,
	"eval_accuracy": 0.862975661749631,
	"eval_loss": 0.96435546875,
	"eval_runtime": 292.9061,
	"eval_samples_per_second": 14.732,
	"eval_steps_per_second": 1.844,
	"step": 16100
	},
	{
	"epoch": 9.19,
	"eval_accuracy": 0.8630644651576883,
	"eval_loss": 0.96240234375,
	"eval_runtime": 293.8107,
	"eval_samples_per_second": 14.686,
	"eval_steps_per_second": 1.838,
	"step": 16200
	},
	{
	"epoch": 9.25,
	"eval_accuracy": 0.8633050499009457,
	"eval_loss": 0.96484375,
	"eval_runtime": 291.7944,
	"eval_samples_per_second": 14.788,
	"eval_steps_per_second": 1.851,
	"step": 16300
	},
	{
	"epoch": 9.31,
	"eval_accuracy": 0.8632493212316036,
	"eval_loss": 0.96728515625,
	"eval_runtime": 291.6912,
	"eval_samples_per_second": 14.793,
	"eval_steps_per_second": 1.851,
	"step": 16400
	},
	{
	"epoch": 9.36,
	"learning_rate": 5e-05,
	"loss": 0.0415,
	"step": 16500
	},
	{
	"epoch": 9.36,
	"eval_accuracy": 0.8633073152940084,
	"eval_loss": 0.9658203125,
	"eval_runtime": 291.6781,
	"eval_samples_per_second": 14.794,
	"eval_steps_per_second": 1.851,
	"step": 16500
	},
	{
	"epoch": 9.42,
	"eval_accuracy": 0.8627819706427713,
	"eval_loss": 0.96875,
	"eval_runtime": 292.5363,
	"eval_samples_per_second": 14.75,
	"eval_steps_per_second": 1.846,
	"step": 16600
	},
	{
	"epoch": 9.48,
	"eval_accuracy": 0.8632289326940394,
	"eval_loss": 0.96533203125,
	"eval_runtime": 292.6096,
	"eval_samples_per_second": 14.747,
	"eval_steps_per_second": 1.845,
	"step": 16700
	},
	{
	"epoch": 9.53,
	"eval_accuracy": 0.862821388482062,
	"eval_loss": 0.9658203125,
	"eval_runtime": 291.5436,
	"eval_samples_per_second": 14.801,
	"eval_steps_per_second": 1.852,
	"step": 16800
	},
	{
	"epoch": 9.59,
	"eval_accuracy": 0.8629199330802889,
	"eval_loss": 0.966796875,
	"eval_runtime": 292.7541,
	"eval_samples_per_second": 14.739,
	"eval_steps_per_second": 1.845,
	"step": 16900
	},
	{
	"epoch": 9.65,
	"learning_rate": 5e-05,
	"loss": 0.0471,
	"step": 17000
	},
	{
	"epoch": 9.65,
	"eval_accuracy": 0.8625384408885325,
	"eval_loss": 0.96044921875,
	"eval_runtime": 292.6838,
	"eval_samples_per_second": 14.743,
	"eval_steps_per_second": 1.845,
	"step": 17000
	},
	{
	"epoch": 9.7,
	"eval_accuracy": 0.8620747149286004,
	"eval_loss": 0.9658203125,
	"eval_runtime": 291.636,
	"eval_samples_per_second": 14.796,
	"eval_steps_per_second": 1.852,
	"step": 17100
	},
	{
	"epoch": 9.76,
	"eval_accuracy": 0.8629695451883618,
	"eval_loss": 0.97314453125,
	"eval_runtime": 291.7564,
	"eval_samples_per_second": 14.79,
	"eval_steps_per_second": 1.851,
	"step": 17200
	},
	{
	"epoch": 9.82,
	"eval_accuracy": 0.8626276973752023,
	"eval_loss": 0.96923828125,
	"eval_runtime": 291.4249,
	"eval_samples_per_second": 14.807,
	"eval_steps_per_second": 1.853,
	"step": 17300
	},
	{
	"epoch": 9.88,
	"eval_accuracy": 0.8622577586880655,
	"eval_loss": 0.96728515625,
	"eval_runtime": 291.5949,
	"eval_samples_per_second": 14.798,
	"eval_steps_per_second": 1.852,
	"step": 17400
	},
	{
	"epoch": 9.93,
	"learning_rate": 5e-05,
	"loss": 0.0528,
	"step": 17500
	},
	{
	"epoch": 9.93,
	"eval_accuracy": 0.8619999569575318,
	"eval_loss": 0.96142578125,
	"eval_runtime": 292.6583,
	"eval_samples_per_second": 14.744,
	"eval_steps_per_second": 1.845,
	"step": 17500
	},
	{
	"epoch": 9.99,
	"eval_accuracy": 0.8620715433783127,
	"eval_loss": 0.9697265625,
	"eval_runtime": 291.7031,
	"eval_samples_per_second": 14.792,
	"eval_steps_per_second": 1.851,
	"step": 17600
	},
	{
	"epoch": 10.0,
	"step": 17620,
	"total_flos": 2.179292736824279e+18,
	"train_loss": 0.2421213565700847,
	"train_runtime": 122603.1424,
	"train_samples_per_second": 1.149,
	"train_steps_per_second": 0.144
	}
	],
	"max_steps": 17620,
	"num_train_epochs": 10,
	"total_flos": 2.179292736824279e+18,
	"trial_name": null,
	"trial_params": null
	}