bert-model / trainer_state.json

Upload folder using huggingface_hub

f85878e verified 10 days ago

9.74 kB

	{
	"best_metric": 0.8716280849435623,
	"best_model_checkpoint": "best_model_big/checkpoint-2968",
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 3710,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.1347708894878706,
	"grad_norm": 18.93534278869629,
	"learning_rate": 1.946091644204852e-05,
	"loss": 0.5038,
	"step": 100
	},
	{
	"epoch": 0.2695417789757412,
	"grad_norm": 7.889501571655273,
	"learning_rate": 1.8921832884097035e-05,
	"loss": 0.4015,
	"step": 200
	},
	{
	"epoch": 0.40431266846361186,
	"grad_norm": 17.194637298583984,
	"learning_rate": 1.8382749326145554e-05,
	"loss": 0.359,
	"step": 300
	},
	{
	"epoch": 0.5390835579514824,
	"grad_norm": 10.652689933776855,
	"learning_rate": 1.7843665768194072e-05,
	"loss": 0.3494,
	"step": 400
	},
	{
	"epoch": 0.6738544474393531,
	"grad_norm": 12.343999862670898,
	"learning_rate": 1.7304582210242588e-05,
	"loss": 0.357,
	"step": 500
	},
	{
	"epoch": 0.8086253369272237,
	"grad_norm": 5.575014114379883,
	"learning_rate": 1.6765498652291106e-05,
	"loss": 0.3446,
	"step": 600
	},
	{
	"epoch": 0.9433962264150944,
	"grad_norm": 10.024672508239746,
	"learning_rate": 1.6226415094339625e-05,
	"loss": 0.3307,
	"step": 700
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.8470863462356444,
	"eval_confusion_matrix": [
	[
	1759,
	519
	],
	[
	200,
	2224
	]
	],
	"eval_f1": 0.8608476872459842,
	"eval_loss": 0.3607315421104431,
	"eval_precision": 0.8107911046299672,
	"eval_recall": 0.9174917491749175,
	"eval_runtime": 22.8032,
	"eval_samples_per_second": 206.199,
	"eval_steps_per_second": 4.298,
	"step": 742
	},
	{
	"epoch": 1.0781671159029649,
	"grad_norm": 8.227458000183105,
	"learning_rate": 1.5687331536388143e-05,
	"loss": 0.301,
	"step": 800
	},
	{
	"epoch": 1.2129380053908356,
	"grad_norm": 13.138360023498535,
	"learning_rate": 1.5148247978436658e-05,
	"loss": 0.261,
	"step": 900
	},
	{
	"epoch": 1.3477088948787062,
	"grad_norm": 21.908050537109375,
	"learning_rate": 1.4609164420485175e-05,
	"loss": 0.2568,
	"step": 1000
	},
	{
	"epoch": 1.482479784366577,
	"grad_norm": 65.63346862792969,
	"learning_rate": 1.4070080862533696e-05,
	"loss": 0.2525,
	"step": 1100
	},
	{
	"epoch": 1.6172506738544474,
	"grad_norm": 10.492274284362793,
	"learning_rate": 1.3530997304582212e-05,
	"loss": 0.2738,
	"step": 1200
	},
	{
	"epoch": 1.7520215633423182,
	"grad_norm": 4.424431800842285,
	"learning_rate": 1.299191374663073e-05,
	"loss": 0.2612,
	"step": 1300
	},
	{
	"epoch": 1.8867924528301887,
	"grad_norm": 5.688779830932617,
	"learning_rate": 1.2452830188679246e-05,
	"loss": 0.2821,
	"step": 1400
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.8517652062951936,
	"eval_confusion_matrix": [
	[
	1750,
	528
	],
	[
	169,
	2255
	]
	],
	"eval_f1": 0.8661417322834646,
	"eval_loss": 0.3994266390800476,
	"eval_precision": 0.8102766798418972,
	"eval_recall": 0.9302805280528053,
	"eval_runtime": 22.8205,
	"eval_samples_per_second": 206.043,
	"eval_steps_per_second": 4.294,
	"step": 1484
	},
	{
	"epoch": 2.0215633423180592,
	"grad_norm": 17.876014709472656,
	"learning_rate": 1.1913746630727763e-05,
	"loss": 0.2494,
	"step": 1500
	},
	{
	"epoch": 2.1563342318059298,
	"grad_norm": 30.222442626953125,
	"learning_rate": 1.1374663072776282e-05,
	"loss": 0.2105,
	"step": 1600
	},
	{
	"epoch": 2.2911051212938007,
	"grad_norm": 8.314850807189941,
	"learning_rate": 1.0835579514824798e-05,
	"loss": 0.2062,
	"step": 1700
	},
	{
	"epoch": 2.4258760107816713,
	"grad_norm": 14.823955535888672,
	"learning_rate": 1.0296495956873315e-05,
	"loss": 0.1949,
	"step": 1800
	},
	{
	"epoch": 2.560646900269542,
	"grad_norm": 15.158774375915527,
	"learning_rate": 9.757412398921834e-06,
	"loss": 0.2077,
	"step": 1900
	},
	{
	"epoch": 2.6954177897574123,
	"grad_norm": 3.280972719192505,
	"learning_rate": 9.21832884097035e-06,
	"loss": 0.2029,
	"step": 2000
	},
	{
	"epoch": 2.830188679245283,
	"grad_norm": 23.08829116821289,
	"learning_rate": 8.67924528301887e-06,
	"loss": 0.2147,
	"step": 2100
	},
	{
	"epoch": 2.964959568733154,
	"grad_norm": 6.822205543518066,
	"learning_rate": 8.140161725067386e-06,
	"loss": 0.2226,
	"step": 2200
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.8555933645257338,
	"eval_confusion_matrix": [
	[
	1752,
	526
	],
	[
	153,
	2271
	]
	],
	"eval_f1": 0.8699482857690097,
	"eval_loss": 0.482412725687027,
	"eval_precision": 0.8119413657490168,
	"eval_recall": 0.9368811881188119,
	"eval_runtime": 22.8014,
	"eval_samples_per_second": 206.215,
	"eval_steps_per_second": 4.298,
	"step": 2226
	},
	{
	"epoch": 3.0997304582210243,
	"grad_norm": 21.149120330810547,
	"learning_rate": 7.601078167115904e-06,
	"loss": 0.1726,
	"step": 2300
	},
	{
	"epoch": 3.234501347708895,
	"grad_norm": 6.035734176635742,
	"learning_rate": 7.061994609164421e-06,
	"loss": 0.1614,
	"step": 2400
	},
	{
	"epoch": 3.3692722371967654,
	"grad_norm": 9.38839340209961,
	"learning_rate": 6.522911051212939e-06,
	"loss": 0.1648,
	"step": 2500
	},
	{
	"epoch": 3.5040431266846364,
	"grad_norm": 7.1731486320495605,
	"learning_rate": 5.983827493261456e-06,
	"loss": 0.1678,
	"step": 2600
	},
	{
	"epoch": 3.638814016172507,
	"grad_norm": 29.55657958984375,
	"learning_rate": 5.444743935309974e-06,
	"loss": 0.1492,
	"step": 2700
	},
	{
	"epoch": 3.7735849056603774,
	"grad_norm": 15.47530746459961,
	"learning_rate": 4.905660377358491e-06,
	"loss": 0.1707,
	"step": 2800
	},
	{
	"epoch": 3.908355795148248,
	"grad_norm": 8.083237648010254,
	"learning_rate": 4.366576819407008e-06,
	"loss": 0.1727,
	"step": 2900
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.8572947681837516,
	"eval_confusion_matrix": [
	[
	1753,
	525
	],
	[
	146,
	2278
	]
	],
	"eval_f1": 0.8716280849435623,
	"eval_loss": 0.5570098161697388,
	"eval_precision": 0.8127006778451659,
	"eval_recall": 0.9397689768976898,
	"eval_runtime": 22.7535,
	"eval_samples_per_second": 206.649,
	"eval_steps_per_second": 4.307,
	"step": 2968
	},
	{
	"epoch": 4.0431266846361185,
	"grad_norm": 8.28526782989502,
	"learning_rate": 3.827493261455526e-06,
	"loss": 0.155,
	"step": 3000
	},
	{
	"epoch": 4.177897574123989,
	"grad_norm": 8.550823211669922,
	"learning_rate": 3.2884097035040433e-06,
	"loss": 0.1385,
	"step": 3100
	},
	{
	"epoch": 4.3126684636118595,
	"grad_norm": 7.248845100402832,
	"learning_rate": 2.749326145552561e-06,
	"loss": 0.1245,
	"step": 3200
	},
	{
	"epoch": 4.44743935309973,
	"grad_norm": 4.223452091217041,
	"learning_rate": 2.2102425876010783e-06,
	"loss": 0.1316,
	"step": 3300
	},
	{
	"epoch": 4.5822102425876015,
	"grad_norm": 26.39322853088379,
	"learning_rate": 1.6711590296495958e-06,
	"loss": 0.1347,
	"step": 3400
	},
	{
	"epoch": 4.716981132075472,
	"grad_norm": 9.451475143432617,
	"learning_rate": 1.1320754716981133e-06,
	"loss": 0.1373,
	"step": 3500
	},
	{
	"epoch": 4.8517520215633425,
	"grad_norm": 7.989397048950195,
	"learning_rate": 5.929919137466308e-07,
	"loss": 0.127,
	"step": 3600
	},
	{
	"epoch": 4.986522911051213,
	"grad_norm": 8.661871910095215,
	"learning_rate": 5.3908355795148254e-08,
	"loss": 0.1288,
	"step": 3700
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.8538919608677159,
	"eval_confusion_matrix": [
	[
	1721,
	557
	],
	[
	130,
	2294
	]
	],
	"eval_f1": 0.8697630331753554,
	"eval_loss": 0.6569812893867493,
	"eval_precision": 0.8046299544019643,
	"eval_recall": 0.9463696369636964,
	"eval_runtime": 22.4622,
	"eval_samples_per_second": 209.329,
	"eval_steps_per_second": 4.363,
	"step": 3710
	}
	],
	"logging_steps": 100,
	"max_steps": 3710,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.8848225720991744e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}