lettuce_pos_en_xlm / trainer_state.json

Upload folder using huggingface_hub

64884ff verified 8 months ago

15.8 kB

	{
	"best_metric": 0.9695497407877142,
	"best_model_checkpoint": "models/pos_final_xlm_en/checkpoint-960",
	"epoch": 39.98765432098765,
	"global_step": 2400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.99,
	"eval_accuracy": 0.3035943640371897,
	"eval_f1": 0.2008264425810438,
	"eval_loss": 3.0061752796173096,
	"eval_precision": 0.24116944979086247,
	"eval_recall": 0.17204639246429285,
	"eval_runtime": 8.5419,
	"eval_samples_per_second": 808.95,
	"eval_steps_per_second": 3.161,
	"step": 60
	},
	{
	"epoch": 1.99,
	"eval_accuracy": 0.8970254640723346,
	"eval_f1": 0.8625090892213438,
	"eval_loss": 0.5353450775146484,
	"eval_precision": 0.8698569221887629,
	"eval_recall": 0.8552843532822976,
	"eval_runtime": 8.8286,
	"eval_samples_per_second": 782.684,
	"eval_steps_per_second": 3.058,
	"step": 120
	},
	{
	"epoch": 2.99,
	"eval_accuracy": 0.9690916642704239,
	"eval_f1": 0.9565594734295436,
	"eval_loss": 0.13116228580474854,
	"eval_precision": 0.9577732320280538,
	"eval_recall": 0.955348787260482,
	"eval_runtime": 8.7122,
	"eval_samples_per_second": 793.137,
	"eval_steps_per_second": 3.099,
	"step": 180
	},
	{
	"epoch": 3.99,
	"eval_accuracy": 0.9736924502380268,
	"eval_f1": 0.9624591697465074,
	"eval_loss": 0.09810493141412735,
	"eval_precision": 0.9620755729286427,
	"eval_recall": 0.962843072580274,
	"eval_runtime": 8.7346,
	"eval_samples_per_second": 791.107,
	"eval_steps_per_second": 3.091,
	"step": 240
	},
	{
	"epoch": 4.99,
	"eval_accuracy": 0.976024793124381,
	"eval_f1": 0.9655468564286207,
	"eval_loss": 0.08534899353981018,
	"eval_precision": 0.9652285898261429,
	"eval_recall": 0.9658653329855944,
	"eval_runtime": 9.6188,
	"eval_samples_per_second": 718.383,
	"eval_steps_per_second": 2.807,
	"step": 300
	},
	{
	"epoch": 5.99,
	"eval_accuracy": 0.9768554905907537,
	"eval_f1": 0.9665754810234248,
	"eval_loss": 0.07884209603071213,
	"eval_precision": 0.9655618493570116,
	"eval_recall": 0.9675912431155362,
	"eval_runtime": 8.6507,
	"eval_samples_per_second": 798.781,
	"eval_steps_per_second": 3.121,
	"step": 360
	},
	{
	"epoch": 6.99,
	"eval_accuracy": 0.9775456084858941,
	"eval_f1": 0.9676831206836455,
	"eval_loss": 0.0745365098118782,
	"eval_precision": 0.9664282162120806,
	"eval_recall": 0.9689412883727352,
	"eval_runtime": 8.6592,
	"eval_samples_per_second": 797.994,
	"eval_steps_per_second": 3.118,
	"step": 420
	},
	{
	"epoch": 7.99,
	"eval_accuracy": 0.9780376369852072,
	"eval_f1": 0.9681889956921002,
	"eval_loss": 0.07183900475502014,
	"eval_precision": 0.9675067024128686,
	"eval_recall": 0.9688722519675376,
	"eval_runtime": 8.714,
	"eval_samples_per_second": 792.979,
	"eval_steps_per_second": 3.098,
	"step": 480
	},
	{
	"epoch": 8.33,
	"learning_rate": 4.99e-05,
	"loss": 0.7956,
	"step": 500
	},
	{
	"epoch": 8.99,
	"eval_accuracy": 0.9779226173360172,
	"eval_f1": 0.9680838417498475,
	"eval_loss": 0.07068216055631638,
	"eval_precision": 0.9679168168329358,
	"eval_recall": 0.9682509243207584,
	"eval_runtime": 8.6148,
	"eval_samples_per_second": 802.109,
	"eval_steps_per_second": 3.134,
	"step": 540
	},
	{
	"epoch": 9.99,
	"eval_accuracy": 0.9785999552701364,
	"eval_f1": 0.9690196980148693,
	"eval_loss": 0.06864651292562485,
	"eval_precision": 0.9682478900853156,
	"eval_recall": 0.9697927373701732,
	"eval_runtime": 9.3629,
	"eval_samples_per_second": 738.021,
	"eval_steps_per_second": 2.884,
	"step": 600
	},
	{
	"epoch": 10.99,
	"eval_accuracy": 0.9786830250167737,
	"eval_f1": 0.9691608673146603,
	"eval_loss": 0.06855177879333496,
	"eval_precision": 0.9688896725672537,
	"eval_recall": 0.9694322139208076,
	"eval_runtime": 9.7452,
	"eval_samples_per_second": 709.065,
	"eval_steps_per_second": 2.771,
	"step": 660
	},
	{
	"epoch": 11.99,
	"eval_accuracy": 0.9787149749193265,
	"eval_f1": 0.9692986487728651,
	"eval_loss": 0.06800223141908646,
	"eval_precision": 0.9679492082918993,
	"eval_recall": 0.9706518570792998,
	"eval_runtime": 8.6538,
	"eval_samples_per_second": 798.493,
	"eval_steps_per_second": 3.12,
	"step": 720
	},
	{
	"epoch": 12.99,
	"eval_accuracy": 0.97886833445158,
	"eval_f1": 0.9694478391289856,
	"eval_loss": 0.06851476430892944,
	"eval_precision": 0.968346050526928,
	"eval_recall": 0.9705521378273476,
	"eval_runtime": 8.6111,
	"eval_samples_per_second": 802.455,
	"eval_steps_per_second": 3.135,
	"step": 780
	},
	{
	"epoch": 13.99,
	"eval_accuracy": 0.9788299945685166,
	"eval_f1": 0.9694149394930217,
	"eval_loss": 0.06948242336511612,
	"eval_precision": 0.9688690015554006,
	"eval_recall": 0.969961493027323,
	"eval_runtime": 8.5894,
	"eval_samples_per_second": 804.476,
	"eval_steps_per_second": 3.143,
	"step": 840
	},
	{
	"epoch": 14.99,
	"eval_accuracy": 0.9786382951531998,
	"eval_f1": 0.9690144083384428,
	"eval_loss": 0.07028312981128693,
	"eval_precision": 0.9681685222904575,
	"eval_recall": 0.9698617737753709,
	"eval_runtime": 8.8189,
	"eval_samples_per_second": 783.547,
	"eval_steps_per_second": 3.062,
	"step": 900
	},
	{
	"epoch": 15.99,
	"eval_accuracy": 0.9790089140228122,
	"eval_f1": 0.9695497407877142,
	"eval_loss": 0.07188576459884644,
	"eval_precision": 0.9686181737446121,
	"eval_recall": 0.97048310142215,
	"eval_runtime": 8.5817,
	"eval_samples_per_second": 805.199,
	"eval_steps_per_second": 3.146,
	"step": 960
	},
	{
	"epoch": 16.66,
	"learning_rate": 3.686842105263158e-05,
	"loss": 0.051,
	"step": 1000
	},
	{
	"epoch": 16.99,
	"eval_accuracy": 0.978823604588006,
	"eval_f1": 0.9694240468488908,
	"eval_loss": 0.07346100360155106,
	"eval_precision": 0.9687112241302716,
	"eval_recall": 0.9701379193961616,
	"eval_runtime": 9.6099,
	"eval_samples_per_second": 719.048,
	"eval_steps_per_second": 2.81,
	"step": 1020
	},
	{
	"epoch": 17.99,
	"eval_accuracy": 0.9786830250167737,
	"eval_f1": 0.9692255223920633,
	"eval_loss": 0.07468883693218231,
	"eval_precision": 0.9683683392420959,
	"eval_recall": 0.9700842244143412,
	"eval_runtime": 8.7732,
	"eval_samples_per_second": 787.628,
	"eval_steps_per_second": 3.078,
	"step": 1080
	},
	{
	"epoch": 18.99,
	"eval_accuracy": 0.9785743953480942,
	"eval_f1": 0.9691213222329547,
	"eval_loss": 0.07609081268310547,
	"eval_precision": 0.9685273432113142,
	"eval_recall": 0.9697160302532869,
	"eval_runtime": 8.6582,
	"eval_samples_per_second": 798.088,
	"eval_steps_per_second": 3.118,
	"step": 1140
	},
	{
	"epoch": 19.99,
	"eval_accuracy": 0.9784210358158407,
	"eval_f1": 0.9688278250741372,
	"eval_loss": 0.07741989195346832,
	"eval_precision": 0.9678266327811629,
	"eval_recall": 0.9698310909286163,
	"eval_runtime": 8.7584,
	"eval_samples_per_second": 788.959,
	"eval_steps_per_second": 3.083,
	"step": 1200
	},
	{
	"epoch": 20.99,
	"eval_accuracy": 0.9784977155819675,
	"eval_f1": 0.9689622916379138,
	"eval_loss": 0.0795513391494751,
	"eval_precision": 0.9685464216189702,
	"eval_recall": 0.9693785189389872,
	"eval_runtime": 8.6744,
	"eval_samples_per_second": 796.596,
	"eval_steps_per_second": 3.113,
	"step": 1260
	},
	{
	"epoch": 21.99,
	"eval_accuracy": 0.9785999552701364,
	"eval_f1": 0.9690767468323875,
	"eval_loss": 0.07958221435546875,
	"eval_precision": 0.9680789987369388,
	"eval_recall": 0.9700765537026526,
	"eval_runtime": 8.6133,
	"eval_samples_per_second": 802.246,
	"eval_steps_per_second": 3.135,
	"step": 1320
	},
	{
	"epoch": 22.99,
	"eval_accuracy": 0.9783954758937985,
	"eval_f1": 0.9686965590754671,
	"eval_loss": 0.08197388052940369,
	"eval_precision": 0.968436627924806,
	"eval_recall": 0.9689566297961125,
	"eval_runtime": 8.7277,
	"eval_samples_per_second": 791.73,
	"eval_steps_per_second": 3.094,
	"step": 1380
	},
	{
	"epoch": 23.99,
	"eval_accuracy": 0.978127096712355,
	"eval_f1": 0.9683426871530653,
	"eval_loss": 0.08289676904678345,
	"eval_precision": 0.9678825963675377,
	"eval_recall": 0.9688032155623398,
	"eval_runtime": 8.6527,
	"eval_samples_per_second": 798.592,
	"eval_steps_per_second": 3.12,
	"step": 1440
	},
	{
	"epoch": 24.99,
	"learning_rate": 2.3710526315789475e-05,
	"loss": 0.0318,
	"step": 1500
	},
	{
	"epoch": 24.99,
	"eval_accuracy": 0.9782101664589923,
	"eval_f1": 0.9685605958957412,
	"eval_loss": 0.08542540669441223,
	"eval_precision": 0.96811894087443,
	"eval_recall": 0.9690026540662443,
	"eval_runtime": 8.7516,
	"eval_samples_per_second": 789.565,
	"eval_steps_per_second": 3.085,
	"step": 1500
	},
	{
	"epoch": 25.99,
	"eval_accuracy": 0.9781526566343972,
	"eval_f1": 0.9684325094947744,
	"eval_loss": 0.08812534809112549,
	"eval_precision": 0.9676870878552774,
	"eval_recall": 0.9691790804350827,
	"eval_runtime": 9.0034,
	"eval_samples_per_second": 767.488,
	"eval_steps_per_second": 2.999,
	"step": 1560
	},
	{
	"epoch": 26.99,
	"eval_accuracy": 0.9782548963225662,
	"eval_f1": 0.9684803649117427,
	"eval_loss": 0.08933103829622269,
	"eval_precision": 0.9679127176886124,
	"eval_recall": 0.9690486783363761,
	"eval_runtime": 8.7744,
	"eval_samples_per_second": 787.518,
	"eval_steps_per_second": 3.077,
	"step": 1620
	},
	{
	"epoch": 27.99,
	"eval_accuracy": 0.9780951468098023,
	"eval_f1": 0.9683360927152317,
	"eval_loss": 0.090970478951931,
	"eval_precision": 0.9676092584366048,
	"eval_recall": 0.9690640197597533,
	"eval_runtime": 8.5971,
	"eval_samples_per_second": 803.763,
	"eval_steps_per_second": 3.141,
	"step": 1680
	},
	{
	"epoch": 28.99,
	"eval_accuracy": 0.9782612863030767,
	"eval_f1": 0.9684535086171853,
	"eval_loss": 0.09189366549253464,
	"eval_precision": 0.9683569544143813,
	"eval_recall": 0.9685500820766151,
	"eval_runtime": 8.7669,
	"eval_samples_per_second": 788.195,
	"eval_steps_per_second": 3.08,
	"step": 1740
	},
	{
	"epoch": 29.99,
	"eval_accuracy": 0.9780759768682705,
	"eval_f1": 0.9681861749031936,
	"eval_loss": 0.09329535067081451,
	"eval_precision": 0.9678225410841305,
	"eval_recall": 0.9685500820766151,
	"eval_runtime": 8.9984,
	"eval_samples_per_second": 767.912,
	"eval_steps_per_second": 3.001,
	"step": 1800
	},
	{
	"epoch": 30.99,
	"eval_accuracy": 0.9780887568292916,
	"eval_f1": 0.968276115855809,
	"eval_loss": 0.0947079062461853,
	"eval_precision": 0.967741935483871,
	"eval_recall": 0.9688108862740286,
	"eval_runtime": 9.134,
	"eval_samples_per_second": 756.516,
	"eval_steps_per_second": 2.956,
	"step": 1860
	},
	{
	"epoch": 31.99,
	"eval_accuracy": 0.9782804562446085,
	"eval_f1": 0.9685832975657613,
	"eval_loss": 0.09658045321702957,
	"eval_precision": 0.9677970255326318,
	"eval_recall": 0.9693708482272986,
	"eval_runtime": 8.9466,
	"eval_samples_per_second": 772.361,
	"eval_steps_per_second": 3.018,
	"step": 1920
	},
	{
	"epoch": 32.99,
	"eval_accuracy": 0.9780951468098023,
	"eval_f1": 0.9683005734261446,
	"eval_loss": 0.09742453694343567,
	"eval_precision": 0.967721916611759,
	"eval_recall": 0.9688799226792262,
	"eval_runtime": 9.0098,
	"eval_samples_per_second": 766.942,
	"eval_steps_per_second": 2.997,
	"step": 1980
	},
	{
	"epoch": 33.33,
	"learning_rate": 1.055263157894737e-05,
	"loss": 0.0211,
	"step": 2000
	},
	{
	"epoch": 33.99,
	"eval_accuracy": 0.9784274257963513,
	"eval_f1": 0.9688261902936441,
	"eval_loss": 0.09810397773981094,
	"eval_precision": 0.968351035296642,
	"eval_recall": 0.9693018118221008,
	"eval_runtime": 8.8808,
	"eval_samples_per_second": 778.087,
	"eval_steps_per_second": 3.04,
	"step": 2040
	},
	{
	"epoch": 34.99,
	"eval_accuracy": 0.978286846225119,
	"eval_f1": 0.9685722171959579,
	"eval_loss": 0.09894430637359619,
	"eval_precision": 0.9681268488573487,
	"eval_recall": 0.9690179954896215,
	"eval_runtime": 9.0496,
	"eval_samples_per_second": 763.573,
	"eval_steps_per_second": 2.984,
	"step": 2100
	},
	{
	"epoch": 35.99,
	"eval_accuracy": 0.9783507460302246,
	"eval_f1": 0.9687094017421564,
	"eval_loss": 0.10078005492687225,
	"eval_precision": 0.9679341374688876,
	"eval_recall": 0.969485908902628,
	"eval_runtime": 8.9188,
	"eval_samples_per_second": 774.772,
	"eval_steps_per_second": 3.027,
	"step": 2160
	},
	{
	"epoch": 36.99,
	"eval_accuracy": 0.9782229464200134,
	"eval_f1": 0.9684928880880267,
	"eval_loss": 0.10152223706245422,
	"eval_precision": 0.9681291390728477,
	"eval_recall": 0.9688569105441602,
	"eval_runtime": 8.9289,
	"eval_samples_per_second": 773.895,
	"eval_steps_per_second": 3.024,
	"step": 2220
	},
	{
	"epoch": 37.99,
	"eval_accuracy": 0.97806958688776,
	"eval_f1": 0.9682817728476643,
	"eval_loss": 0.10151796787977219,
	"eval_precision": 0.9676920130243248,
	"eval_recall": 0.9688722519675376,
	"eval_runtime": 9.2785,
	"eval_samples_per_second": 744.734,
	"eval_steps_per_second": 2.91,
	"step": 2280
	},
	{
	"epoch": 38.99,
	"eval_accuracy": 0.9781654365954184,
	"eval_f1": 0.9684071725914399,
	"eval_loss": 0.10238787531852722,
	"eval_precision": 0.9678506849734898,
	"eval_recall": 0.9689643005078011,
	"eval_runtime": 8.88,
	"eval_samples_per_second": 778.153,
	"eval_steps_per_second": 3.041,
	"step": 2340
	},
	{
	"epoch": 39.99,
	"eval_accuracy": 0.9782165564395029,
	"eval_f1": 0.9685044199615122,
	"eval_loss": 0.10218308120965958,
	"eval_precision": 0.9680220083374204,
	"eval_recall": 0.968987312642867,
	"eval_runtime": 9.7749,
	"eval_samples_per_second": 706.909,
	"eval_steps_per_second": 2.762,
	"step": 2400
	},
	{
	"epoch": 39.99,
	"step": 2400,
	"total_flos": 1.3719917000335334e+17,
	"train_loss": 0.19011780440807344,
	"train_runtime": 1964.637,
	"train_samples_per_second": 1266.168,
	"train_steps_per_second": 1.222
	}
	],
	"max_steps": 2400,
	"num_train_epochs": 40,
	"total_flos": 1.3719917000335334e+17,
	"trial_name": null,
	"trial_params": null
	}