strategydisofmaterialimpactsv1 / checkpoint-410 /trainer_state.json

Upload folder using huggingface_hub

3d346c9 verified 10 months ago

21.3 kB

	{
	"best_metric": 0.4904100298881531,
	"best_model_checkpoint": "strategydisofmaterialimpactsv1/checkpoint-410",
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 410,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.04878048780487805,
	"grad_norm": 5.26182746887207,
	"learning_rate": 9.75609756097561e-07,
	"loss": 2.0959,
	"step": 4
	},
	{
	"epoch": 0.0975609756097561,
	"grad_norm": 3.954611301422119,
	"learning_rate": 1.951219512195122e-06,
	"loss": 2.084,
	"step": 8
	},
	{
	"epoch": 0.14634146341463414,
	"grad_norm": 2.762833595275879,
	"learning_rate": 2.926829268292683e-06,
	"loss": 2.1114,
	"step": 12
	},
	{
	"epoch": 0.1951219512195122,
	"grad_norm": 3.979111909866333,
	"learning_rate": 3.902439024390244e-06,
	"loss": 2.0699,
	"step": 16
	},
	{
	"epoch": 0.24390243902439024,
	"grad_norm": 2.9182474613189697,
	"learning_rate": 4.8780487804878055e-06,
	"loss": 2.0512,
	"step": 20
	},
	{
	"epoch": 0.2926829268292683,
	"grad_norm": 4.365296840667725,
	"learning_rate": 5.853658536585366e-06,
	"loss": 2.049,
	"step": 24
	},
	{
	"epoch": 0.34146341463414637,
	"grad_norm": 3.4509384632110596,
	"learning_rate": 6.829268292682928e-06,
	"loss": 2.0762,
	"step": 28
	},
	{
	"epoch": 0.3902439024390244,
	"grad_norm": 3.717407703399658,
	"learning_rate": 7.804878048780489e-06,
	"loss": 2.1205,
	"step": 32
	},
	{
	"epoch": 0.43902439024390244,
	"grad_norm": 3.0547749996185303,
	"learning_rate": 8.78048780487805e-06,
	"loss": 2.0718,
	"step": 36
	},
	{
	"epoch": 0.4878048780487805,
	"grad_norm": 5.152350902557373,
	"learning_rate": 9.756097560975611e-06,
	"loss": 2.0393,
	"step": 40
	},
	{
	"epoch": 0.5365853658536586,
	"grad_norm": 3.143453359603882,
	"learning_rate": 9.91869918699187e-06,
	"loss": 2.075,
	"step": 44
	},
	{
	"epoch": 0.5853658536585366,
	"grad_norm": 3.0932018756866455,
	"learning_rate": 9.81029810298103e-06,
	"loss": 2.0555,
	"step": 48
	},
	{
	"epoch": 0.6341463414634146,
	"grad_norm": 3.708493232727051,
	"learning_rate": 9.70189701897019e-06,
	"loss": 2.0697,
	"step": 52
	},
	{
	"epoch": 0.6829268292682927,
	"grad_norm": 5.804870128631592,
	"learning_rate": 9.59349593495935e-06,
	"loss": 2.0829,
	"step": 56
	},
	{
	"epoch": 0.7317073170731707,
	"grad_norm": 4.4362616539001465,
	"learning_rate": 9.485094850948512e-06,
	"loss": 2.0122,
	"step": 60
	},
	{
	"epoch": 0.7804878048780488,
	"grad_norm": 3.124617099761963,
	"learning_rate": 9.37669376693767e-06,
	"loss": 2.0341,
	"step": 64
	},
	{
	"epoch": 0.8292682926829268,
	"grad_norm": 6.305838108062744,
	"learning_rate": 9.268292682926831e-06,
	"loss": 2.006,
	"step": 68
	},
	{
	"epoch": 0.8780487804878049,
	"grad_norm": 4.479095458984375,
	"learning_rate": 9.15989159891599e-06,
	"loss": 1.9879,
	"step": 72
	},
	{
	"epoch": 0.926829268292683,
	"grad_norm": 4.230350494384766,
	"learning_rate": 9.051490514905151e-06,
	"loss": 2.0266,
	"step": 76
	},
	{
	"epoch": 0.975609756097561,
	"grad_norm": 4.699102401733398,
	"learning_rate": 8.94308943089431e-06,
	"loss": 1.9846,
	"step": 80
	},
	{
	"epoch": 1.0,
	"eval_accuracy": 0.4329268292682927,
	"eval_f1_macro": 0.3427293862494566,
	"eval_f1_micro": 0.4329268292682927,
	"eval_f1_weighted": 0.34234078365494675,
	"eval_loss": 1.8970143795013428,
	"eval_precision_macro": 0.5188128944226504,
	"eval_precision_micro": 0.4329268292682927,
	"eval_precision_weighted": 0.51827396280103,
	"eval_recall_macro": 0.43154761904761907,
	"eval_recall_micro": 0.4329268292682927,
	"eval_recall_weighted": 0.4329268292682927,
	"eval_runtime": 0.9572,
	"eval_samples_per_second": 171.331,
	"eval_steps_per_second": 11.492,
	"step": 82
	},
	{
	"epoch": 1.024390243902439,
	"grad_norm": 5.648143768310547,
	"learning_rate": 8.834688346883469e-06,
	"loss": 1.8587,
	"step": 84
	},
	{
	"epoch": 1.0731707317073171,
	"grad_norm": 5.579315185546875,
	"learning_rate": 8.726287262872629e-06,
	"loss": 1.8257,
	"step": 88
	},
	{
	"epoch": 1.1219512195121952,
	"grad_norm": 6.962705135345459,
	"learning_rate": 8.617886178861789e-06,
	"loss": 1.8158,
	"step": 92
	},
	{
	"epoch": 1.170731707317073,
	"grad_norm": 7.015571117401123,
	"learning_rate": 8.509485094850949e-06,
	"loss": 1.6853,
	"step": 96
	},
	{
	"epoch": 1.2195121951219512,
	"grad_norm": 6.109464168548584,
	"learning_rate": 8.401084010840109e-06,
	"loss": 1.8065,
	"step": 100
	},
	{
	"epoch": 1.2682926829268293,
	"grad_norm": 7.725495338439941,
	"learning_rate": 8.292682926829268e-06,
	"loss": 1.7683,
	"step": 104
	},
	{
	"epoch": 1.3170731707317074,
	"grad_norm": 8.51897144317627,
	"learning_rate": 8.184281842818428e-06,
	"loss": 1.5712,
	"step": 108
	},
	{
	"epoch": 1.3658536585365852,
	"grad_norm": 7.310000419616699,
	"learning_rate": 8.075880758807588e-06,
	"loss": 1.5885,
	"step": 112
	},
	{
	"epoch": 1.4146341463414633,
	"grad_norm": 6.727824687957764,
	"learning_rate": 7.967479674796748e-06,
	"loss": 1.4469,
	"step": 116
	},
	{
	"epoch": 1.4634146341463414,
	"grad_norm": 5.8941450119018555,
	"learning_rate": 7.859078590785908e-06,
	"loss": 1.441,
	"step": 120
	},
	{
	"epoch": 1.5121951219512195,
	"grad_norm": 8.939291954040527,
	"learning_rate": 7.750677506775068e-06,
	"loss": 1.3494,
	"step": 124
	},
	{
	"epoch": 1.5609756097560976,
	"grad_norm": 6.784910678863525,
	"learning_rate": 7.64227642276423e-06,
	"loss": 1.4556,
	"step": 128
	},
	{
	"epoch": 1.6097560975609757,
	"grad_norm": 5.674899578094482,
	"learning_rate": 7.5338753387533885e-06,
	"loss": 1.1797,
	"step": 132
	},
	{
	"epoch": 1.6585365853658538,
	"grad_norm": 6.600795269012451,
	"learning_rate": 7.425474254742548e-06,
	"loss": 1.3146,
	"step": 136
	},
	{
	"epoch": 1.7073170731707317,
	"grad_norm": 7.859283447265625,
	"learning_rate": 7.317073170731707e-06,
	"loss": 1.2627,
	"step": 140
	},
	{
	"epoch": 1.7560975609756098,
	"grad_norm": 7.052417278289795,
	"learning_rate": 7.208672086720868e-06,
	"loss": 1.144,
	"step": 144
	},
	{
	"epoch": 1.8048780487804879,
	"grad_norm": 5.840285301208496,
	"learning_rate": 7.100271002710027e-06,
	"loss": 1.1237,
	"step": 148
	},
	{
	"epoch": 1.8536585365853657,
	"grad_norm": 7.636930465698242,
	"learning_rate": 6.991869918699188e-06,
	"loss": 1.0481,
	"step": 152
	},
	{
	"epoch": 1.9024390243902438,
	"grad_norm": 7.1155877113342285,
	"learning_rate": 6.883468834688347e-06,
	"loss": 1.2339,
	"step": 156
	},
	{
	"epoch": 1.951219512195122,
	"grad_norm": 6.952579975128174,
	"learning_rate": 6.775067750677508e-06,
	"loss": 0.9287,
	"step": 160
	},
	{
	"epoch": 2.0,
	"grad_norm": 10.576449394226074,
	"learning_rate": 6.666666666666667e-06,
	"loss": 1.1756,
	"step": 164
	},
	{
	"epoch": 2.0,
	"eval_accuracy": 0.8048780487804879,
	"eval_f1_macro": 0.7928380685977737,
	"eval_f1_micro": 0.8048780487804879,
	"eval_f1_weighted": 0.7953137507177211,
	"eval_loss": 0.9494345784187317,
	"eval_precision_macro": 0.8125730994152047,
	"eval_precision_micro": 0.8048780487804879,
	"eval_precision_weighted": 0.8141135358722009,
	"eval_recall_macro": 0.8014880952380952,
	"eval_recall_micro": 0.8048780487804879,
	"eval_recall_weighted": 0.8048780487804879,
	"eval_runtime": 0.942,
	"eval_samples_per_second": 174.105,
	"eval_steps_per_second": 11.678,
	"step": 164
	},
	{
	"epoch": 2.048780487804878,
	"grad_norm": 7.403735637664795,
	"learning_rate": 6.558265582655827e-06,
	"loss": 1.0034,
	"step": 168
	},
	{
	"epoch": 2.097560975609756,
	"grad_norm": 6.475048542022705,
	"learning_rate": 6.449864498644986e-06,
	"loss": 0.8662,
	"step": 172
	},
	{
	"epoch": 2.1463414634146343,
	"grad_norm": 8.434925079345703,
	"learning_rate": 6.368563685636857e-06,
	"loss": 1.1553,
	"step": 176
	},
	{
	"epoch": 2.1951219512195124,
	"grad_norm": 5.570111274719238,
	"learning_rate": 6.260162601626017e-06,
	"loss": 0.8746,
	"step": 180
	},
	{
	"epoch": 2.2439024390243905,
	"grad_norm": 8.765731811523438,
	"learning_rate": 6.1517615176151765e-06,
	"loss": 1.0089,
	"step": 184
	},
	{
	"epoch": 2.292682926829268,
	"grad_norm": 4.403049468994141,
	"learning_rate": 6.043360433604336e-06,
	"loss": 0.8467,
	"step": 188
	},
	{
	"epoch": 2.341463414634146,
	"grad_norm": 9.121601104736328,
	"learning_rate": 5.934959349593496e-06,
	"loss": 0.9069,
	"step": 192
	},
	{
	"epoch": 2.3902439024390243,
	"grad_norm": 6.2799811363220215,
	"learning_rate": 5.826558265582656e-06,
	"loss": 0.7733,
	"step": 196
	},
	{
	"epoch": 2.4390243902439024,
	"grad_norm": 6.013058185577393,
	"learning_rate": 5.718157181571816e-06,
	"loss": 0.8735,
	"step": 200
	},
	{
	"epoch": 2.4878048780487805,
	"grad_norm": 6.162946701049805,
	"learning_rate": 5.609756097560977e-06,
	"loss": 0.6666,
	"step": 204
	},
	{
	"epoch": 2.5365853658536586,
	"grad_norm": 4.041454792022705,
	"learning_rate": 5.501355013550136e-06,
	"loss": 0.6262,
	"step": 208
	},
	{
	"epoch": 2.5853658536585367,
	"grad_norm": 6.468296051025391,
	"learning_rate": 5.3929539295392965e-06,
	"loss": 0.8259,
	"step": 212
	},
	{
	"epoch": 2.6341463414634148,
	"grad_norm": 9.301799774169922,
	"learning_rate": 5.2845528455284555e-06,
	"loss": 0.8074,
	"step": 216
	},
	{
	"epoch": 2.682926829268293,
	"grad_norm": 9.052480697631836,
	"learning_rate": 5.176151761517616e-06,
	"loss": 0.7582,
	"step": 220
	},
	{
	"epoch": 2.7317073170731705,
	"grad_norm": 10.193408012390137,
	"learning_rate": 5.067750677506775e-06,
	"loss": 0.7229,
	"step": 224
	},
	{
	"epoch": 2.7804878048780486,
	"grad_norm": 9.648282051086426,
	"learning_rate": 4.959349593495935e-06,
	"loss": 0.714,
	"step": 228
	},
	{
	"epoch": 2.8292682926829267,
	"grad_norm": 5.158674240112305,
	"learning_rate": 4.850948509485095e-06,
	"loss": 0.701,
	"step": 232
	},
	{
	"epoch": 2.8780487804878048,
	"grad_norm": 6.773287296295166,
	"learning_rate": 4.742547425474256e-06,
	"loss": 0.579,
	"step": 236
	},
	{
	"epoch": 2.926829268292683,
	"grad_norm": 4.932857513427734,
	"learning_rate": 4.634146341463416e-06,
	"loss": 0.6223,
	"step": 240
	},
	{
	"epoch": 2.975609756097561,
	"grad_norm": 6.144374370574951,
	"learning_rate": 4.5257452574525755e-06,
	"loss": 0.7543,
	"step": 244
	},
	{
	"epoch": 3.0,
	"eval_accuracy": 0.8536585365853658,
	"eval_f1_macro": 0.8338492833656121,
	"eval_f1_micro": 0.8536585365853658,
	"eval_f1_weighted": 0.8362103254837173,
	"eval_loss": 0.6258153915405273,
	"eval_precision_macro": 0.8495264546035806,
	"eval_precision_micro": 0.8536585365853658,
	"eval_precision_weighted": 0.8505702817977668,
	"eval_recall_macro": 0.850297619047619,
	"eval_recall_micro": 0.8536585365853658,
	"eval_recall_weighted": 0.8536585365853658,
	"eval_runtime": 0.964,
	"eval_samples_per_second": 170.127,
	"eval_steps_per_second": 11.411,
	"step": 246
	},
	{
	"epoch": 3.024390243902439,
	"grad_norm": 7.524605751037598,
	"learning_rate": 4.4173441734417345e-06,
	"loss": 0.7291,
	"step": 248
	},
	{
	"epoch": 3.073170731707317,
	"grad_norm": 6.1862945556640625,
	"learning_rate": 4.308943089430894e-06,
	"loss": 0.664,
	"step": 252
	},
	{
	"epoch": 3.1219512195121952,
	"grad_norm": 4.109325885772705,
	"learning_rate": 4.200542005420054e-06,
	"loss": 0.5575,
	"step": 256
	},
	{
	"epoch": 3.1707317073170733,
	"grad_norm": 5.083375453948975,
	"learning_rate": 4.092140921409214e-06,
	"loss": 0.5287,
	"step": 260
	},
	{
	"epoch": 3.2195121951219514,
	"grad_norm": 4.418028354644775,
	"learning_rate": 3.983739837398374e-06,
	"loss": 0.4596,
	"step": 264
	},
	{
	"epoch": 3.2682926829268295,
	"grad_norm": 8.103421211242676,
	"learning_rate": 3.875338753387534e-06,
	"loss": 0.5384,
	"step": 268
	},
	{
	"epoch": 3.317073170731707,
	"grad_norm": 9.259288787841797,
	"learning_rate": 3.7669376693766942e-06,
	"loss": 0.6603,
	"step": 272
	},
	{
	"epoch": 3.3658536585365852,
	"grad_norm": 8.9814453125,
	"learning_rate": 3.6585365853658537e-06,
	"loss": 0.614,
	"step": 276
	},
	{
	"epoch": 3.4146341463414633,
	"grad_norm": 7.275993824005127,
	"learning_rate": 3.5501355013550136e-06,
	"loss": 0.6409,
	"step": 280
	},
	{
	"epoch": 3.4634146341463414,
	"grad_norm": 7.694216251373291,
	"learning_rate": 3.4417344173441734e-06,
	"loss": 0.5708,
	"step": 284
	},
	{
	"epoch": 3.5121951219512195,
	"grad_norm": 4.590734481811523,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.4449,
	"step": 288
	},
	{
	"epoch": 3.5609756097560976,
	"grad_norm": 9.011459350585938,
	"learning_rate": 3.224932249322493e-06,
	"loss": 0.764,
	"step": 292
	},
	{
	"epoch": 3.6097560975609757,
	"grad_norm": 6.224943161010742,
	"learning_rate": 3.116531165311653e-06,
	"loss": 0.5983,
	"step": 296
	},
	{
	"epoch": 3.658536585365854,
	"grad_norm": 7.525081157684326,
	"learning_rate": 3.0081300813008134e-06,
	"loss": 0.6081,
	"step": 300
	},
	{
	"epoch": 3.7073170731707314,
	"grad_norm": 7.639159202575684,
	"learning_rate": 2.8997289972899733e-06,
	"loss": 0.5492,
	"step": 304
	},
	{
	"epoch": 3.7560975609756095,
	"grad_norm": 5.162847518920898,
	"learning_rate": 2.791327913279133e-06,
	"loss": 0.489,
	"step": 308
	},
	{
	"epoch": 3.8048780487804876,
	"grad_norm": 6.004736423492432,
	"learning_rate": 2.682926829268293e-06,
	"loss": 0.4218,
	"step": 312
	},
	{
	"epoch": 3.8536585365853657,
	"grad_norm": 5.897964000701904,
	"learning_rate": 2.574525745257453e-06,
	"loss": 0.5438,
	"step": 316
	},
	{
	"epoch": 3.902439024390244,
	"grad_norm": 7.25752592086792,
	"learning_rate": 2.4661246612466128e-06,
	"loss": 0.5559,
	"step": 320
	},
	{
	"epoch": 3.951219512195122,
	"grad_norm": 6.005576133728027,
	"learning_rate": 2.3577235772357727e-06,
	"loss": 0.6216,
	"step": 324
	},
	{
	"epoch": 4.0,
	"grad_norm": 13.720139503479004,
	"learning_rate": 2.2493224932249325e-06,
	"loss": 0.6314,
	"step": 328
	},
	{
	"epoch": 4.0,
	"eval_accuracy": 0.8658536585365854,
	"eval_f1_macro": 0.851601435352396,
	"eval_f1_micro": 0.8658536585365854,
	"eval_f1_weighted": 0.8538194199208925,
	"eval_loss": 0.5200314521789551,
	"eval_precision_macro": 0.8594329005283454,
	"eval_precision_micro": 0.8658536585365854,
	"eval_precision_weighted": 0.8606490578892111,
	"eval_recall_macro": 0.862797619047619,
	"eval_recall_micro": 0.8658536585365854,
	"eval_recall_weighted": 0.8658536585365854,
	"eval_runtime": 0.943,
	"eval_samples_per_second": 173.915,
	"eval_steps_per_second": 11.665,
	"step": 328
	},
	{
	"epoch": 4.048780487804878,
	"grad_norm": 6.544665336608887,
	"learning_rate": 2.1409214092140924e-06,
	"loss": 0.5041,
	"step": 332
	},
	{
	"epoch": 4.097560975609756,
	"grad_norm": 7.109484672546387,
	"learning_rate": 2.0325203252032523e-06,
	"loss": 0.4561,
	"step": 336
	},
	{
	"epoch": 4.146341463414634,
	"grad_norm": 4.8075127601623535,
	"learning_rate": 1.924119241192412e-06,
	"loss": 0.4234,
	"step": 340
	},
	{
	"epoch": 4.195121951219512,
	"grad_norm": 8.269268035888672,
	"learning_rate": 1.8157181571815718e-06,
	"loss": 0.3753,
	"step": 344
	},
	{
	"epoch": 4.2439024390243905,
	"grad_norm": 11.827970504760742,
	"learning_rate": 1.707317073170732e-06,
	"loss": 0.6272,
	"step": 348
	},
	{
	"epoch": 4.2926829268292686,
	"grad_norm": 6.7040228843688965,
	"learning_rate": 1.5989159891598918e-06,
	"loss": 0.4453,
	"step": 352
	},
	{
	"epoch": 4.341463414634147,
	"grad_norm": 4.821525573730469,
	"learning_rate": 1.4905149051490517e-06,
	"loss": 0.4374,
	"step": 356
	},
	{
	"epoch": 4.390243902439025,
	"grad_norm": 5.777258396148682,
	"learning_rate": 1.3821138211382116e-06,
	"loss": 0.4603,
	"step": 360
	},
	{
	"epoch": 4.439024390243903,
	"grad_norm": 4.959315299987793,
	"learning_rate": 1.2737127371273714e-06,
	"loss": 0.49,
	"step": 364
	},
	{
	"epoch": 4.487804878048781,
	"grad_norm": 5.7751898765563965,
	"learning_rate": 1.1653116531165313e-06,
	"loss": 0.5202,
	"step": 368
	},
	{
	"epoch": 4.536585365853659,
	"grad_norm": 8.084724426269531,
	"learning_rate": 1.0569105691056912e-06,
	"loss": 0.5615,
	"step": 372
	},
	{
	"epoch": 4.585365853658536,
	"grad_norm": 4.794303894042969,
	"learning_rate": 9.485094850948511e-07,
	"loss": 0.5217,
	"step": 376
	},
	{
	"epoch": 4.634146341463414,
	"grad_norm": 6.632653713226318,
	"learning_rate": 8.401084010840109e-07,
	"loss": 0.4886,
	"step": 380
	},
	{
	"epoch": 4.682926829268292,
	"grad_norm": 3.7842323780059814,
	"learning_rate": 7.317073170731707e-07,
	"loss": 0.3898,
	"step": 384
	},
	{
	"epoch": 4.7317073170731705,
	"grad_norm": 7.341838836669922,
	"learning_rate": 6.233062330623307e-07,
	"loss": 0.4803,
	"step": 388
	},
	{
	"epoch": 4.780487804878049,
	"grad_norm": 5.619211196899414,
	"learning_rate": 5.149051490514906e-07,
	"loss": 0.4797,
	"step": 392
	},
	{
	"epoch": 4.829268292682927,
	"grad_norm": 6.9567742347717285,
	"learning_rate": 4.0650406504065046e-07,
	"loss": 0.4595,
	"step": 396
	},
	{
	"epoch": 4.878048780487805,
	"grad_norm": 4.7969136238098145,
	"learning_rate": 2.9810298102981034e-07,
	"loss": 0.3441,
	"step": 400
	},
	{
	"epoch": 4.926829268292683,
	"grad_norm": 6.794863700866699,
	"learning_rate": 1.897018970189702e-07,
	"loss": 0.6099,
	"step": 404
	},
	{
	"epoch": 4.975609756097561,
	"grad_norm": 3.76300311088562,
	"learning_rate": 8.130081300813009e-08,
	"loss": 0.4751,
	"step": 408
	},
	{
	"epoch": 5.0,
	"eval_accuracy": 0.8658536585365854,
	"eval_f1_macro": 0.851601435352396,
	"eval_f1_micro": 0.8658536585365854,
	"eval_f1_weighted": 0.8538194199208925,
	"eval_loss": 0.4904100298881531,
	"eval_precision_macro": 0.8594329005283454,
	"eval_precision_micro": 0.8658536585365854,
	"eval_precision_weighted": 0.8606490578892111,
	"eval_recall_macro": 0.862797619047619,
	"eval_recall_micro": 0.8658536585365854,
	"eval_recall_weighted": 0.8658536585365854,
	"eval_runtime": 0.9624,
	"eval_samples_per_second": 170.414,
	"eval_steps_per_second": 11.43,
	"step": 410
	}
	],
	"logging_steps": 4,
	"max_steps": 410,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"total_flos": 431889927536640.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}