xls-asr-vi-40h / trainer_state.json

End of training

f00e0c6 almost 3 years ago

20.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 50.0,
	"global_step": 81000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.93,
	"learning_rate": 4.983333333333334e-06,
	"loss": 23.3878,
	"step": 1500
	},
	{
	"epoch": 0.93,
	"eval_loss": 21.917871475219727,
	"eval_runtime": 24.5965,
	"eval_samples_per_second": 30.939,
	"eval_steps_per_second": 3.903,
	"eval_wer": 1.0,
	"step": 1500
	},
	{
	"epoch": 1.85,
	"learning_rate": 4.905974842767296e-06,
	"loss": 8.8862,
	"step": 3000
	},
	{
	"epoch": 1.85,
	"eval_loss": 6.059910297393799,
	"eval_runtime": 24.7094,
	"eval_samples_per_second": 30.798,
	"eval_steps_per_second": 3.885,
	"eval_wer": 1.0,
	"step": 3000
	},
	{
	"epoch": 2.78,
	"learning_rate": 4.811635220125786e-06,
	"loss": 4.3701,
	"step": 4500
	},
	{
	"epoch": 2.78,
	"eval_loss": 4.383728981018066,
	"eval_runtime": 24.9717,
	"eval_samples_per_second": 30.474,
	"eval_steps_per_second": 3.844,
	"eval_wer": 1.0,
	"step": 4500
	},
	{
	"epoch": 3.7,
	"learning_rate": 4.717295597484277e-06,
	"loss": 4.113,
	"step": 6000
	},
	{
	"epoch": 3.7,
	"eval_loss": 4.269829750061035,
	"eval_runtime": 25.0095,
	"eval_samples_per_second": 30.428,
	"eval_steps_per_second": 3.839,
	"eval_wer": 0.9982187388671179,
	"step": 6000
	},
	{
	"epoch": 4.63,
	"learning_rate": 4.6229559748427675e-06,
	"loss": 3.9666,
	"step": 7500
	},
	{
	"epoch": 4.63,
	"eval_loss": 3.9726266860961914,
	"eval_runtime": 24.8315,
	"eval_samples_per_second": 30.647,
	"eval_steps_per_second": 3.866,
	"eval_wer": 0.9989312433202707,
	"step": 7500
	},
	{
	"epoch": 5.56,
	"learning_rate": 4.5286792452830195e-06,
	"loss": 3.5965,
	"step": 9000
	},
	{
	"epoch": 5.56,
	"eval_loss": 3.712357759475708,
	"eval_runtime": 25.2229,
	"eval_samples_per_second": 30.171,
	"eval_steps_per_second": 3.806,
	"eval_wer": 0.9975062344139651,
	"step": 9000
	},
	{
	"epoch": 6.48,
	"learning_rate": 4.43433962264151e-06,
	"loss": 3.3944,
	"step": 10500
	},
	{
	"epoch": 6.48,
	"eval_loss": 3.5005130767822266,
	"eval_runtime": 25.0342,
	"eval_samples_per_second": 30.398,
	"eval_steps_per_second": 3.835,
	"eval_wer": 1.0057000356252226,
	"step": 10500
	},
	{
	"epoch": 7.41,
	"learning_rate": 4.340062893081761e-06,
	"loss": 3.304,
	"step": 12000
	},
	{
	"epoch": 7.41,
	"eval_loss": 3.3709797859191895,
	"eval_runtime": 24.7151,
	"eval_samples_per_second": 30.791,
	"eval_steps_per_second": 3.884,
	"eval_wer": 1.0042750267189169,
	"step": 12000
	},
	{
	"epoch": 8.33,
	"learning_rate": 4.245723270440252e-06,
	"loss": 3.2482,
	"step": 13500
	},
	{
	"epoch": 8.33,
	"eval_loss": 3.4201204776763916,
	"eval_runtime": 25.1168,
	"eval_samples_per_second": 30.298,
	"eval_steps_per_second": 3.822,
	"eval_wer": 1.015496971856074,
	"step": 13500
	},
	{
	"epoch": 9.26,
	"learning_rate": 4.151446540880503e-06,
	"loss": 3.212,
	"step": 15000
	},
	{
	"epoch": 9.26,
	"eval_loss": 3.373223304748535,
	"eval_runtime": 24.7052,
	"eval_samples_per_second": 30.803,
	"eval_steps_per_second": 3.886,
	"eval_wer": 1.0151407196294977,
	"step": 15000
	},
	{
	"epoch": 10.19,
	"learning_rate": 4.057106918238994e-06,
	"loss": 3.1778,
	"step": 16500
	},
	{
	"epoch": 10.19,
	"eval_loss": 3.2763421535491943,
	"eval_runtime": 25.3297,
	"eval_samples_per_second": 30.044,
	"eval_steps_per_second": 3.79,
	"eval_wer": 1.0008906305664411,
	"step": 16500
	},
	{
	"epoch": 11.11,
	"learning_rate": 3.962767295597484e-06,
	"loss": 3.1027,
	"step": 18000
	},
	{
	"epoch": 11.11,
	"eval_loss": 3.1943371295928955,
	"eval_runtime": 24.6308,
	"eval_samples_per_second": 30.896,
	"eval_steps_per_second": 3.898,
	"eval_wer": 1.0024937655860349,
	"step": 18000
	},
	{
	"epoch": 12.04,
	"learning_rate": 3.868490566037736e-06,
	"loss": 2.9905,
	"step": 19500
	},
	{
	"epoch": 12.04,
	"eval_loss": 2.808248281478882,
	"eval_runtime": 24.4561,
	"eval_samples_per_second": 31.117,
	"eval_steps_per_second": 3.925,
	"eval_wer": 0.9702529390808693,
	"step": 19500
	},
	{
	"epoch": 12.96,
	"learning_rate": 3.774213836477988e-06,
	"loss": 2.7095,
	"step": 21000
	},
	{
	"epoch": 12.96,
	"eval_loss": 2.4993014335632324,
	"eval_runtime": 24.4488,
	"eval_samples_per_second": 31.126,
	"eval_steps_per_second": 3.927,
	"eval_wer": 0.9301745635910225,
	"step": 21000
	},
	{
	"epoch": 13.89,
	"learning_rate": 3.6799371069182395e-06,
	"loss": 2.4862,
	"step": 22500
	},
	{
	"epoch": 13.89,
	"eval_loss": 2.3071722984313965,
	"eval_runtime": 26.0996,
	"eval_samples_per_second": 29.158,
	"eval_steps_per_second": 3.678,
	"eval_wer": 0.9139650872817955,
	"step": 22500
	},
	{
	"epoch": 14.81,
	"learning_rate": 3.58559748427673e-06,
	"loss": 2.3271,
	"step": 24000
	},
	{
	"epoch": 14.81,
	"eval_loss": 2.1398162841796875,
	"eval_runtime": 25.2522,
	"eval_samples_per_second": 30.136,
	"eval_steps_per_second": 3.802,
	"eval_wer": 0.8949055931599572,
	"step": 24000
	},
	{
	"epoch": 15.74,
	"learning_rate": 3.4912578616352204e-06,
	"loss": 2.1968,
	"step": 25500
	},
	{
	"epoch": 15.74,
	"eval_loss": 2.059424877166748,
	"eval_runtime": 24.8853,
	"eval_samples_per_second": 30.58,
	"eval_steps_per_second": 3.858,
	"eval_wer": 0.8817242607766299,
	"step": 25500
	},
	{
	"epoch": 16.67,
	"learning_rate": 3.396981132075472e-06,
	"loss": 2.111,
	"step": 27000
	},
	{
	"epoch": 16.67,
	"eval_loss": 1.9404386281967163,
	"eval_runtime": 24.703,
	"eval_samples_per_second": 30.806,
	"eval_steps_per_second": 3.886,
	"eval_wer": 0.8630210188813681,
	"step": 27000
	},
	{
	"epoch": 17.59,
	"learning_rate": 3.3027044025157235e-06,
	"loss": 2.0387,
	"step": 28500
	},
	{
	"epoch": 17.59,
	"eval_loss": 1.8895297050476074,
	"eval_runtime": 24.8094,
	"eval_samples_per_second": 30.674,
	"eval_steps_per_second": 3.87,
	"eval_wer": 0.8496615603847524,
	"step": 28500
	},
	{
	"epoch": 18.52,
	"learning_rate": 3.208364779874214e-06,
	"loss": 1.9504,
	"step": 30000
	},
	{
	"epoch": 18.52,
	"eval_loss": 1.7960795164108276,
	"eval_runtime": 25.0414,
	"eval_samples_per_second": 30.39,
	"eval_steps_per_second": 3.834,
	"eval_wer": 0.8314926968293552,
	"step": 30000
	},
	{
	"epoch": 19.44,
	"learning_rate": 3.1140880503144657e-06,
	"loss": 1.9039,
	"step": 31500
	},
	{
	"epoch": 19.44,
	"eval_loss": 1.7433359622955322,
	"eval_runtime": 25.2242,
	"eval_samples_per_second": 30.169,
	"eval_steps_per_second": 3.806,
	"eval_wer": 0.8213395083719274,
	"step": 31500
	},
	{
	"epoch": 20.37,
	"learning_rate": 3.0198113207547176e-06,
	"loss": 1.8342,
	"step": 33000
	},
	{
	"epoch": 20.37,
	"eval_loss": 1.679031491279602,
	"eval_runtime": 24.764,
	"eval_samples_per_second": 30.73,
	"eval_steps_per_second": 3.877,
	"eval_wer": 0.7994299964374777,
	"step": 33000
	},
	{
	"epoch": 21.3,
	"learning_rate": 2.9254716981132075e-06,
	"loss": 1.7824,
	"step": 34500
	},
	{
	"epoch": 21.3,
	"eval_loss": 1.6291165351867676,
	"eval_runtime": 25.2561,
	"eval_samples_per_second": 30.131,
	"eval_steps_per_second": 3.801,
	"eval_wer": 0.782508015675098,
	"step": 34500
	},
	{
	"epoch": 22.22,
	"learning_rate": 2.831132075471698e-06,
	"loss": 1.7359,
	"step": 36000
	},
	{
	"epoch": 22.22,
	"eval_loss": 1.578299880027771,
	"eval_runtime": 24.8174,
	"eval_samples_per_second": 30.664,
	"eval_steps_per_second": 3.868,
	"eval_wer": 0.770573566084788,
	"step": 36000
	},
	{
	"epoch": 23.15,
	"learning_rate": 2.73685534591195e-06,
	"loss": 1.7053,
	"step": 37500
	},
	{
	"epoch": 23.15,
	"eval_loss": 1.5247900485992432,
	"eval_runtime": 24.9123,
	"eval_samples_per_second": 30.547,
	"eval_steps_per_second": 3.854,
	"eval_wer": 0.749198432490203,
	"step": 37500
	},
	{
	"epoch": 24.07,
	"learning_rate": 2.6425786163522016e-06,
	"loss": 1.6504,
	"step": 39000
	},
	{
	"epoch": 24.07,
	"eval_loss": 1.4929991960525513,
	"eval_runtime": 26.1656,
	"eval_samples_per_second": 29.084,
	"eval_steps_per_second": 3.669,
	"eval_wer": 0.7406483790523691,
	"step": 39000
	},
	{
	"epoch": 25.0,
	"learning_rate": 2.5482389937106923e-06,
	"loss": 1.6263,
	"step": 40500
	},
	{
	"epoch": 25.0,
	"eval_loss": 1.4572067260742188,
	"eval_runtime": 25.0273,
	"eval_samples_per_second": 30.407,
	"eval_steps_per_second": 3.836,
	"eval_wer": 0.7347702173138582,
	"step": 40500
	},
	{
	"epoch": 25.93,
	"learning_rate": 2.4539622641509434e-06,
	"loss": 1.5893,
	"step": 42000
	},
	{
	"epoch": 25.93,
	"eval_loss": 1.4201958179473877,
	"eval_runtime": 25.1981,
	"eval_samples_per_second": 30.201,
	"eval_steps_per_second": 3.81,
	"eval_wer": 0.7160669754185963,
	"step": 42000
	},
	{
	"epoch": 26.85,
	"learning_rate": 2.359622641509434e-06,
	"loss": 1.5669,
	"step": 43500
	},
	{
	"epoch": 26.85,
	"eval_loss": 1.3987159729003906,
	"eval_runtime": 24.7489,
	"eval_samples_per_second": 30.749,
	"eval_steps_per_second": 3.879,
	"eval_wer": 0.7142857142857143,
	"step": 43500
	},
	{
	"epoch": 27.78,
	"learning_rate": 2.265408805031447e-06,
	"loss": 1.5277,
	"step": 45000
	},
	{
	"epoch": 27.78,
	"eval_loss": 1.3511500358581543,
	"eval_runtime": 25.1221,
	"eval_samples_per_second": 30.292,
	"eval_steps_per_second": 3.821,
	"eval_wer": 0.6991449946562166,
	"step": 45000
	},
	{
	"epoch": 28.7,
	"learning_rate": 2.1710691823899376e-06,
	"loss": 1.501,
	"step": 46500
	},
	{
	"epoch": 28.7,
	"eval_loss": 1.331958532333374,
	"eval_runtime": 24.626,
	"eval_samples_per_second": 30.902,
	"eval_steps_per_second": 3.898,
	"eval_wer": 0.6879230495190595,
	"step": 46500
	},
	{
	"epoch": 29.63,
	"learning_rate": 2.076729559748428e-06,
	"loss": 1.4781,
	"step": 48000
	},
	{
	"epoch": 29.63,
	"eval_loss": 1.3111568689346313,
	"eval_runtime": 24.7067,
	"eval_samples_per_second": 30.801,
	"eval_steps_per_second": 3.886,
	"eval_wer": 0.6788386177413609,
	"step": 48000
	},
	{
	"epoch": 30.56,
	"learning_rate": 1.9824528301886794e-06,
	"loss": 1.4477,
	"step": 49500
	},
	{
	"epoch": 30.56,
	"eval_loss": 1.2850154638290405,
	"eval_runtime": 24.9276,
	"eval_samples_per_second": 30.528,
	"eval_steps_per_second": 3.851,
	"eval_wer": 0.6656572853580335,
	"step": 49500
	},
	{
	"epoch": 31.48,
	"learning_rate": 1.888176100628931e-06,
	"loss": 1.4483,
	"step": 51000
	},
	{
	"epoch": 31.48,
	"eval_loss": 1.2812527418136597,
	"eval_runtime": 25.2119,
	"eval_samples_per_second": 30.184,
	"eval_steps_per_second": 3.808,
	"eval_wer": 0.6633416458852868,
	"step": 51000
	},
	{
	"epoch": 32.41,
	"learning_rate": 1.7938364779874214e-06,
	"loss": 1.4065,
	"step": 52500
	},
	{
	"epoch": 32.41,
	"eval_loss": 1.2474950551986694,
	"eval_runtime": 25.9366,
	"eval_samples_per_second": 29.341,
	"eval_steps_per_second": 3.701,
	"eval_wer": 0.6540790879942999,
	"step": 52500
	},
	{
	"epoch": 33.33,
	"learning_rate": 1.699496855345912e-06,
	"loss": 1.3779,
	"step": 54000
	},
	{
	"epoch": 33.33,
	"eval_loss": 1.224350929260254,
	"eval_runtime": 25.3174,
	"eval_samples_per_second": 30.058,
	"eval_steps_per_second": 3.792,
	"eval_wer": 0.6503384396152476,
	"step": 54000
	},
	{
	"epoch": 34.26,
	"learning_rate": 1.6052830188679247e-06,
	"loss": 1.3788,
	"step": 55500
	},
	{
	"epoch": 34.26,
	"eval_loss": 1.2116361856460571,
	"eval_runtime": 24.9096,
	"eval_samples_per_second": 30.551,
	"eval_steps_per_second": 3.854,
	"eval_wer": 0.6407196294976844,
	"step": 55500
	},
	{
	"epoch": 35.19,
	"learning_rate": 1.5109433962264154e-06,
	"loss": 1.3428,
	"step": 57000
	},
	{
	"epoch": 35.19,
	"eval_loss": 1.1938250064849854,
	"eval_runtime": 24.9601,
	"eval_samples_per_second": 30.489,
	"eval_steps_per_second": 3.846,
	"eval_wer": 0.6351977199857499,
	"step": 57000
	},
	{
	"epoch": 36.11,
	"learning_rate": 1.4166666666666667e-06,
	"loss": 1.3453,
	"step": 58500
	},
	{
	"epoch": 36.11,
	"eval_loss": 1.192725419998169,
	"eval_runtime": 25.8368,
	"eval_samples_per_second": 29.454,
	"eval_steps_per_second": 3.716,
	"eval_wer": 0.6339508371927325,
	"step": 58500
	},
	{
	"epoch": 37.04,
	"learning_rate": 1.3223270440251574e-06,
	"loss": 1.3137,
	"step": 60000
	},
	{
	"epoch": 37.04,
	"eval_loss": 1.16991126537323,
	"eval_runtime": 24.7736,
	"eval_samples_per_second": 30.718,
	"eval_steps_per_second": 3.875,
	"eval_wer": 0.6252226576416102,
	"step": 60000
	},
	{
	"epoch": 37.96,
	"learning_rate": 1.2279874213836478e-06,
	"loss": 1.2984,
	"step": 61500
	},
	{
	"epoch": 37.96,
	"eval_loss": 1.1666393280029297,
	"eval_runtime": 24.7631,
	"eval_samples_per_second": 30.731,
	"eval_steps_per_second": 3.877,
	"eval_wer": 0.6229070181688635,
	"step": 61500
	},
	{
	"epoch": 38.89,
	"learning_rate": 1.1337106918238996e-06,
	"loss": 1.2927,
	"step": 63000
	},
	{
	"epoch": 38.89,
	"eval_loss": 1.1585460901260376,
	"eval_runtime": 24.9605,
	"eval_samples_per_second": 30.488,
	"eval_steps_per_second": 3.846,
	"eval_wer": 0.6188101175632348,
	"step": 63000
	},
	{
	"epoch": 39.81,
	"learning_rate": 1.039433962264151e-06,
	"loss": 1.2919,
	"step": 64500
	},
	{
	"epoch": 39.81,
	"eval_loss": 1.1618481874465942,
	"eval_runtime": 24.6184,
	"eval_samples_per_second": 30.912,
	"eval_steps_per_second": 3.9,
	"eval_wer": 0.6189882436765229,
	"step": 64500
	},
	{
	"epoch": 40.74,
	"learning_rate": 9.450943396226415e-07,
	"loss": 1.293,
	"step": 66000
	},
	{
	"epoch": 40.74,
	"eval_loss": 1.147918462753296,
	"eval_runtime": 24.8441,
	"eval_samples_per_second": 30.631,
	"eval_steps_per_second": 3.864,
	"eval_wer": 0.6180976131100819,
	"step": 66000
	},
	{
	"epoch": 41.67,
	"learning_rate": 8.507547169811322e-07,
	"loss": 1.2853,
	"step": 67500
	},
	{
	"epoch": 41.67,
	"eval_loss": 1.1422728300094604,
	"eval_runtime": 24.5674,
	"eval_samples_per_second": 30.976,
	"eval_steps_per_second": 3.908,
	"eval_wer": 0.6202351264695405,
	"step": 67500
	},
	{
	"epoch": 42.59,
	"learning_rate": 7.565408805031447e-07,
	"loss": 1.2687,
	"step": 69000
	},
	{
	"epoch": 42.59,
	"eval_loss": 1.131521224975586,
	"eval_runtime": 24.9081,
	"eval_samples_per_second": 30.552,
	"eval_steps_per_second": 3.854,
	"eval_wer": 0.6131100819380121,
	"step": 69000
	},
	{
	"epoch": 43.52,
	"learning_rate": 6.622012578616354e-07,
	"loss": 1.2603,
	"step": 70500
	},
	{
	"epoch": 43.52,
	"eval_loss": 1.133251428604126,
	"eval_runtime": 25.026,
	"eval_samples_per_second": 30.408,
	"eval_steps_per_second": 3.836,
	"eval_wer": 0.6127538297114357,
	"step": 70500
	},
	{
	"epoch": 44.44,
	"learning_rate": 5.678616352201258e-07,
	"loss": 1.2577,
	"step": 72000
	},
	{
	"epoch": 44.44,
	"eval_loss": 1.1190848350524902,
	"eval_runtime": 24.839,
	"eval_samples_per_second": 30.637,
	"eval_steps_per_second": 3.865,
	"eval_wer": 0.6079444246526541,
	"step": 72000
	},
	{
	"epoch": 45.37,
	"learning_rate": 4.7358490566037737e-07,
	"loss": 1.2435,
	"step": 73500
	},
	{
	"epoch": 45.37,
	"eval_loss": 1.1177417039871216,
	"eval_runtime": 24.5078,
	"eval_samples_per_second": 31.051,
	"eval_steps_per_second": 3.917,
	"eval_wer": 0.6079444246526541,
	"step": 73500
	},
	{
	"epoch": 46.3,
	"learning_rate": 3.79245283018868e-07,
	"loss": 1.251,
	"step": 75000
	},
	{
	"epoch": 46.3,
	"eval_loss": 1.1210719347000122,
	"eval_runtime": 24.6592,
	"eval_samples_per_second": 30.861,
	"eval_steps_per_second": 3.893,
	"eval_wer": 0.6091913074456715,
	"step": 75000
	},
	{
	"epoch": 47.22,
	"learning_rate": 2.8496855345911953e-07,
	"loss": 1.2482,
	"step": 76500
	},
	{
	"epoch": 47.22,
	"eval_loss": 1.1177067756652832,
	"eval_runtime": 25.1033,
	"eval_samples_per_second": 30.315,
	"eval_steps_per_second": 3.824,
	"eval_wer": 0.6059850374064838,
	"step": 76500
	},
	{
	"epoch": 48.15,
	"learning_rate": 1.9062893081761006e-07,
	"loss": 1.2422,
	"step": 78000
	},
	{
	"epoch": 48.15,
	"eval_loss": 1.1227455139160156,
	"eval_runtime": 25.3506,
	"eval_samples_per_second": 30.019,
	"eval_steps_per_second": 3.787,
	"eval_wer": 0.6097256857855362,
	"step": 78000
	},
	{
	"epoch": 49.07,
	"learning_rate": 9.641509433962265e-08,
	"loss": 1.2485,
	"step": 79500
	},
	{
	"epoch": 49.07,
	"eval_loss": 1.1186823844909668,
	"eval_runtime": 24.6079,
	"eval_samples_per_second": 30.925,
	"eval_steps_per_second": 3.901,
	"eval_wer": 0.6070537940862131,
	"step": 79500
	},
	{
	"epoch": 50.0,
	"learning_rate": 2.138364779874214e-09,
	"loss": 1.2425,
	"step": 81000
	},
	{
	"epoch": 50.0,
	"eval_loss": 1.1176735162734985,
	"eval_runtime": 24.8722,
	"eval_samples_per_second": 30.596,
	"eval_steps_per_second": 3.86,
	"eval_wer": 0.6058069112931956,
	"step": 81000
	},
	{
	"epoch": 50.0,
	"step": 81000,
	"total_flos": 1.7056142305765743e+20,
	"train_loss": 2.504730513961227,
	"train_runtime": 70530.0839,
	"train_samples_per_second": 18.372,
	"train_steps_per_second": 1.148
	}
	],
	"max_steps": 81000,
	"num_train_epochs": 50,
	"total_flos": 1.7056142305765743e+20,
	"trial_name": null,
	"trial_params": null
	}