Spaces:

kotstantinovskii
/

arxiv_class

Runtime error

App Files Files Community

kotstantinovskii commited on Mar 28, 2022

Commit

28237f0

1 Parent(s): 5cdc0fd

Upload checkpoint-11500/trainer_state.json

Browse files

Files changed (1) hide show

checkpoint-11500/trainer_state.json +752 -0

checkpoint-11500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,752 @@

+{
+  "best_metric": 1.122239351272583,
+  "best_model_checkpoint": "./res_1/checkpoint-8500",
+  "epoch": 3.72168284789644,
+  "global_step": 11500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.5e-05,
+      "loss": 4.4764,
+      "step": 250
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.2770019218449712,
+      "eval_f1_score": 0.15899206409534755,
+      "eval_loss": 3.3759119510650635,
+      "eval_runtime": 78.6208,
+      "eval_samples_per_second": 198.548,
+      "eval_steps_per_second": 2.073,
+      "step": 250
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 5e-05,
+      "loss": 2.7621,
+      "step": 500
+    },
+    {
+      "epoch": 0.16,
+      "eval_accuracy": 0.45624599615631006,
+      "eval_f1_score": 0.37938588394970946,
+      "eval_loss": 2.22213077545166,
+      "eval_runtime": 79.1544,
+      "eval_samples_per_second": 197.21,
+      "eval_steps_per_second": 2.059,
+      "step": 500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.89460370994941e-05,
+      "loss": 2.0369,
+      "step": 750
+    },
+    {
+      "epoch": 0.24,
+      "eval_accuracy": 0.5180653427290198,
+      "eval_f1_score": 0.4651383493082148,
+      "eval_loss": 1.8033452033996582,
+      "eval_runtime": 78.4993,
+      "eval_samples_per_second": 198.855,
+      "eval_steps_per_second": 2.076,
+      "step": 750
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.7892074198988196e-05,
+      "loss": 1.7846,
+      "step": 1000
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.5547085201793722,
+      "eval_f1_score": 0.5145917984904441,
+      "eval_loss": 1.6128593683242798,
+      "eval_runtime": 79.1904,
+      "eval_samples_per_second": 197.12,
+      "eval_steps_per_second": 2.058,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.683811129848229e-05,
+      "loss": 1.5885,
+      "step": 1250
+    },
+    {
+      "epoch": 0.4,
+      "eval_accuracy": 0.5733504163997437,
+      "eval_f1_score": 0.5403077333842975,
+      "eval_loss": 1.5020724534988403,
+      "eval_runtime": 79.2228,
+      "eval_samples_per_second": 197.039,
+      "eval_steps_per_second": 2.057,
+      "step": 1250
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.5784148397976396e-05,
+      "loss": 1.5474,
+      "step": 1500
+    },
+    {
+      "epoch": 0.49,
+      "eval_accuracy": 0.5885970531710442,
+      "eval_f1_score": 0.5598433530383174,
+      "eval_loss": 1.4353328943252563,
+      "eval_runtime": 79.3289,
+      "eval_samples_per_second": 196.776,
+      "eval_steps_per_second": 2.055,
+      "step": 1500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.4730185497470486e-05,
+      "loss": 1.4754,
+      "step": 1750
+    },
+    {
+      "epoch": 0.57,
+      "eval_accuracy": 0.5910954516335682,
+      "eval_f1_score": 0.567613249026739,
+      "eval_loss": 1.4085466861724854,
+      "eval_runtime": 79.2487,
+      "eval_samples_per_second": 196.975,
+      "eval_steps_per_second": 2.057,
+      "step": 1750
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 4.367622259696459e-05,
+      "loss": 1.3951,
+      "step": 2000
+    },
+    {
+      "epoch": 0.65,
+      "eval_accuracy": 0.6080717488789238,
+      "eval_f1_score": 0.5881168924607102,
+      "eval_loss": 1.3425586223602295,
+      "eval_runtime": 79.2258,
+      "eval_samples_per_second": 197.032,
+      "eval_steps_per_second": 2.057,
+      "step": 2000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 4.262225969645869e-05,
+      "loss": 1.3711,
+      "step": 2250
+    },
+    {
+      "epoch": 0.73,
+      "eval_accuracy": 0.6153747597693786,
+      "eval_f1_score": 0.5932326664510665,
+      "eval_loss": 1.3140783309936523,
+      "eval_runtime": 79.1766,
+      "eval_samples_per_second": 197.154,
+      "eval_steps_per_second": 2.059,
+      "step": 2250
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.1568296795952783e-05,
+      "loss": 1.3487,
+      "step": 2500
+    },
+    {
+      "epoch": 0.81,
+      "eval_accuracy": 0.6163997437540039,
+      "eval_f1_score": 0.5956180167874238,
+      "eval_loss": 1.3029619455337524,
+      "eval_runtime": 79.2987,
+      "eval_samples_per_second": 196.851,
+      "eval_steps_per_second": 2.056,
+      "step": 2500
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 4.051433389544688e-05,
+      "loss": 1.325,
+      "step": 2750
+    },
+    {
+      "epoch": 0.89,
+      "eval_accuracy": 0.6240230621396541,
+      "eval_f1_score": 0.6027158431466506,
+      "eval_loss": 1.2634259462356567,
+      "eval_runtime": 79.2608,
+      "eval_samples_per_second": 196.945,
+      "eval_steps_per_second": 2.057,
+      "step": 2750
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 3.9460370994940984e-05,
+      "loss": 1.307,
+      "step": 3000
+    },
+    {
+      "epoch": 0.97,
+      "eval_accuracy": 0.6235105701473415,
+      "eval_f1_score": 0.6034162405543351,
+      "eval_loss": 1.2556581497192383,
+      "eval_runtime": 79.2153,
+      "eval_samples_per_second": 197.058,
+      "eval_steps_per_second": 2.058,
+      "step": 3000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 3.8406408094435074e-05,
+      "loss": 1.2019,
+      "step": 3250
+    },
+    {
+      "epoch": 1.05,
+      "eval_accuracy": 0.6322869955156951,
+      "eval_f1_score": 0.6147432260064974,
+      "eval_loss": 1.227844476699829,
+      "eval_runtime": 79.4547,
+      "eval_samples_per_second": 196.464,
+      "eval_steps_per_second": 2.051,
+      "step": 3250
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 3.735244519392918e-05,
+      "loss": 1.1366,
+      "step": 3500
+    },
+    {
+      "epoch": 1.13,
+      "eval_accuracy": 0.6326713645099296,
+      "eval_f1_score": 0.6163567005428549,
+      "eval_loss": 1.2262649536132812,
+      "eval_runtime": 79.2235,
+      "eval_samples_per_second": 197.037,
+      "eval_steps_per_second": 2.057,
+      "step": 3500
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 3.6298482293423274e-05,
+      "loss": 1.1643,
+      "step": 3750
+    },
+    {
+      "epoch": 1.21,
+      "eval_accuracy": 0.6368994234465086,
+      "eval_f1_score": 0.6215204096974251,
+      "eval_loss": 1.2120453119277954,
+      "eval_runtime": 79.1999,
+      "eval_samples_per_second": 197.096,
+      "eval_steps_per_second": 2.058,
+      "step": 3750
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 3.524451939291737e-05,
+      "loss": 1.1226,
+      "step": 4000
+    },
+    {
+      "epoch": 1.29,
+      "eval_accuracy": 0.6377322229340167,
+      "eval_f1_score": 0.6225832875038563,
+      "eval_loss": 1.2013684511184692,
+      "eval_runtime": 79.3501,
+      "eval_samples_per_second": 196.723,
+      "eval_steps_per_second": 2.054,
+      "step": 4000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 3.419055649241147e-05,
+      "loss": 1.1193,
+      "step": 4250
+    },
+    {
+      "epoch": 1.38,
+      "eval_accuracy": 0.6332479180012812,
+      "eval_f1_score": 0.6195484695149066,
+      "eval_loss": 1.2123792171478271,
+      "eval_runtime": 79.3987,
+      "eval_samples_per_second": 196.603,
+      "eval_steps_per_second": 2.053,
+      "step": 4250
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 3.313659359190557e-05,
+      "loss": 1.1093,
+      "step": 4500
+    },
+    {
+      "epoch": 1.46,
+      "eval_accuracy": 0.6402306213965406,
+      "eval_f1_score": 0.6254312551097587,
+      "eval_loss": 1.1897130012512207,
+      "eval_runtime": 79.5616,
+      "eval_samples_per_second": 196.2,
+      "eval_steps_per_second": 2.049,
+      "step": 4500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 3.208263069139966e-05,
+      "loss": 1.0848,
+      "step": 4750
+    },
+    {
+      "epoch": 1.54,
+      "eval_accuracy": 0.6440102498398462,
+      "eval_f1_score": 0.6291617598687145,
+      "eval_loss": 1.178646445274353,
+      "eval_runtime": 79.2558,
+      "eval_samples_per_second": 196.957,
+      "eval_steps_per_second": 2.057,
+      "step": 4750
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 3.1028667790893765e-05,
+      "loss": 1.1105,
+      "step": 5000
+    },
+    {
+      "epoch": 1.62,
+      "eval_accuracy": 0.649583600256246,
+      "eval_f1_score": 0.6335161931693469,
+      "eval_loss": 1.1682264804840088,
+      "eval_runtime": 79.3313,
+      "eval_samples_per_second": 196.77,
+      "eval_steps_per_second": 2.055,
+      "step": 5000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 2.997470489038786e-05,
+      "loss": 1.1014,
+      "step": 5250
+    },
+    {
+      "epoch": 1.7,
+      "eval_accuracy": 0.6516335682254965,
+      "eval_f1_score": 0.6377925627710681,
+      "eval_loss": 1.156283974647522,
+      "eval_runtime": 79.534,
+      "eval_samples_per_second": 196.268,
+      "eval_steps_per_second": 2.049,
+      "step": 5250
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 2.8920741989881955e-05,
+      "loss": 1.0828,
+      "step": 5500
+    },
+    {
+      "epoch": 1.78,
+      "eval_accuracy": 0.6459961563100577,
+      "eval_f1_score": 0.6313286940706383,
+      "eval_loss": 1.1570398807525635,
+      "eval_runtime": 79.5476,
+      "eval_samples_per_second": 196.235,
+      "eval_steps_per_second": 2.049,
+      "step": 5500
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 2.7866779089376055e-05,
+      "loss": 1.0803,
+      "step": 5750
+    },
+    {
+      "epoch": 1.86,
+      "eval_accuracy": 0.6530429212043561,
+      "eval_f1_score": 0.6404845558613215,
+      "eval_loss": 1.146980881690979,
+      "eval_runtime": 79.2229,
+      "eval_samples_per_second": 197.039,
+      "eval_steps_per_second": 2.057,
+      "step": 5750
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 2.6812816188870155e-05,
+      "loss": 1.0799,
+      "step": 6000
+    },
+    {
+      "epoch": 1.94,
+      "eval_accuracy": 0.6516976297245356,
+      "eval_f1_score": 0.638943219006341,
+      "eval_loss": 1.1435405015945435,
+      "eval_runtime": 79.322,
+      "eval_samples_per_second": 196.793,
+      "eval_steps_per_second": 2.055,
+      "step": 6000
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 2.575885328836425e-05,
+      "loss": 1.0172,
+      "step": 6250
+    },
+    {
+      "epoch": 2.02,
+      "eval_accuracy": 0.647982062780269,
+      "eval_f1_score": 0.6342691459320453,
+      "eval_loss": 1.157272219657898,
+      "eval_runtime": 79.3295,
+      "eval_samples_per_second": 196.774,
+      "eval_steps_per_second": 2.055,
+      "step": 6250
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 2.470489038785835e-05,
+      "loss": 0.8986,
+      "step": 6500
+    },
+    {
+      "epoch": 2.1,
+      "eval_accuracy": 0.6488789237668161,
+      "eval_f1_score": 0.6382130933006974,
+      "eval_loss": 1.1634544134140015,
+      "eval_runtime": 79.298,
+      "eval_samples_per_second": 196.852,
+      "eval_steps_per_second": 2.056,
+      "step": 6500
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 2.3650927487352446e-05,
+      "loss": 0.8871,
+      "step": 6750
+    },
+    {
+      "epoch": 2.18,
+      "eval_accuracy": 0.6540679051889814,
+      "eval_f1_score": 0.6404856756767366,
+      "eval_loss": 1.1588941812515259,
+      "eval_runtime": 79.2578,
+      "eval_samples_per_second": 196.952,
+      "eval_steps_per_second": 2.057,
+      "step": 6750
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 2.2596964586846546e-05,
+      "loss": 0.9066,
+      "step": 7000
+    },
+    {
+      "epoch": 2.27,
+      "eval_accuracy": 0.6515695067264574,
+      "eval_f1_score": 0.6402759354718203,
+      "eval_loss": 1.146422266960144,
+      "eval_runtime": 79.5354,
+      "eval_samples_per_second": 196.265,
+      "eval_steps_per_second": 2.049,
+      "step": 7000
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 2.1543001686340643e-05,
+      "loss": 0.897,
+      "step": 7250
+    },
+    {
+      "epoch": 2.35,
+      "eval_accuracy": 0.650352338244715,
+      "eval_f1_score": 0.6389635569093923,
+      "eval_loss": 1.1561025381088257,
+      "eval_runtime": 79.2894,
+      "eval_samples_per_second": 196.874,
+      "eval_steps_per_second": 2.056,
+      "step": 7250
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 2.048903878583474e-05,
+      "loss": 0.8988,
+      "step": 7500
+    },
+    {
+      "epoch": 2.43,
+      "eval_accuracy": 0.6547725816784112,
+      "eval_f1_score": 0.6425914825215071,
+      "eval_loss": 1.1453956365585327,
+      "eval_runtime": 79.2343,
+      "eval_samples_per_second": 197.011,
+      "eval_steps_per_second": 2.057,
+      "step": 7500
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 1.943507588532884e-05,
+      "loss": 0.9023,
+      "step": 7750
+    },
+    {
+      "epoch": 2.51,
+      "eval_accuracy": 0.6542600896860986,
+      "eval_f1_score": 0.6438243504000527,
+      "eval_loss": 1.1429415941238403,
+      "eval_runtime": 79.2597,
+      "eval_samples_per_second": 196.947,
+      "eval_steps_per_second": 2.057,
+      "step": 7750
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 1.8381112984822936e-05,
+      "loss": 0.8791,
+      "step": 8000
+    },
+    {
+      "epoch": 2.59,
+      "eval_accuracy": 0.6572069186418962,
+      "eval_f1_score": 0.647070357907258,
+      "eval_loss": 1.1421723365783691,
+      "eval_runtime": 79.5074,
+      "eval_samples_per_second": 196.334,
+      "eval_steps_per_second": 2.05,
+      "step": 8000
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 1.7327150084317033e-05,
+      "loss": 0.8971,
+      "step": 8250
+    },
+    {
+      "epoch": 2.67,
+      "eval_accuracy": 0.6581678411274824,
+      "eval_f1_score": 0.6474305978141667,
+      "eval_loss": 1.1367805004119873,
+      "eval_runtime": 79.1975,
+      "eval_samples_per_second": 197.102,
+      "eval_steps_per_second": 2.058,
+      "step": 8250
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 1.627318718381113e-05,
+      "loss": 0.8885,
+      "step": 8500
+    },
+    {
+      "epoch": 2.75,
+      "eval_accuracy": 0.6608584240871236,
+      "eval_f1_score": 0.6487602589453412,
+      "eval_loss": 1.122239351272583,
+      "eval_runtime": 79.2042,
+      "eval_samples_per_second": 197.085,
+      "eval_steps_per_second": 2.058,
+      "step": 8500
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.5219224283305228e-05,
+      "loss": 0.8745,
+      "step": 8750
+    },
+    {
+      "epoch": 2.83,
+      "eval_accuracy": 0.6579756566303652,
+      "eval_f1_score": 0.6483741964856444,
+      "eval_loss": 1.1291719675064087,
+      "eval_runtime": 79.4248,
+      "eval_samples_per_second": 196.538,
+      "eval_steps_per_second": 2.052,
+      "step": 8750
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 1.4165261382799327e-05,
+      "loss": 0.8837,
+      "step": 9000
+    },
+    {
+      "epoch": 2.91,
+      "eval_accuracy": 0.6574631646380525,
+      "eval_f1_score": 0.64725568770933,
+      "eval_loss": 1.1298834085464478,
+      "eval_runtime": 79.278,
+      "eval_samples_per_second": 196.902,
+      "eval_steps_per_second": 2.056,
+      "step": 9000
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 1.3111298482293424e-05,
+      "loss": 0.8604,
+      "step": 9250
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.6556694426649584,
+      "eval_f1_score": 0.6459143709441728,
+      "eval_loss": 1.1267211437225342,
+      "eval_runtime": 79.3015,
+      "eval_samples_per_second": 196.844,
+      "eval_steps_per_second": 2.055,
+      "step": 9250
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 1.205733558178752e-05,
+      "loss": 0.754,
+      "step": 9500
+    },
+    {
+      "epoch": 3.07,
+      "eval_accuracy": 0.657847533632287,
+      "eval_f1_score": 0.6475765832075672,
+      "eval_loss": 1.1378750801086426,
+      "eval_runtime": 79.3879,
+      "eval_samples_per_second": 196.63,
+      "eval_steps_per_second": 2.053,
+      "step": 9500
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 1.1003372681281619e-05,
+      "loss": 0.7371,
+      "step": 9750
+    },
+    {
+      "epoch": 3.16,
+      "eval_accuracy": 0.658744394618834,
+      "eval_f1_score": 0.648976579094328,
+      "eval_loss": 1.1473287343978882,
+      "eval_runtime": 79.2492,
+      "eval_samples_per_second": 196.974,
+      "eval_steps_per_second": 2.057,
+      "step": 9750
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 9.949409780775717e-06,
+      "loss": 0.7418,
+      "step": 10000
+    },
+    {
+      "epoch": 3.24,
+      "eval_accuracy": 0.6577194106342088,
+      "eval_f1_score": 0.6481259620512635,
+      "eval_loss": 1.1429522037506104,
+      "eval_runtime": 79.2653,
+      "eval_samples_per_second": 196.934,
+      "eval_steps_per_second": 2.056,
+      "step": 10000
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 8.895446880269814e-06,
+      "loss": 0.7478,
+      "step": 10250
+    },
+    {
+      "epoch": 3.32,
+      "eval_accuracy": 0.6581678411274824,
+      "eval_f1_score": 0.6480298727343113,
+      "eval_loss": 1.147200107574463,
+      "eval_runtime": 79.3533,
+      "eval_samples_per_second": 196.715,
+      "eval_steps_per_second": 2.054,
+      "step": 10250
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 7.841483979763913e-06,
+      "loss": 0.7214,
+      "step": 10500
+    },
+    {
+      "epoch": 3.4,
+      "eval_accuracy": 0.6593209481101858,
+      "eval_f1_score": 0.6487748216018238,
+      "eval_loss": 1.1483687162399292,
+      "eval_runtime": 79.2151,
+      "eval_samples_per_second": 197.058,
+      "eval_steps_per_second": 2.058,
+      "step": 10500
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 6.787521079258011e-06,
+      "loss": 0.7378,
+      "step": 10750
+    },
+    {
+      "epoch": 3.48,
+      "eval_accuracy": 0.6613709160794362,
+      "eval_f1_score": 0.6515662944938931,
+      "eval_loss": 1.1435444355010986,
+      "eval_runtime": 79.1971,
+      "eval_samples_per_second": 197.103,
+      "eval_steps_per_second": 2.058,
+      "step": 10750
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 5.733558178752108e-06,
+      "loss": 0.746,
+      "step": 11000
+    },
+    {
+      "epoch": 3.56,
+      "eval_accuracy": 0.6582959641255606,
+      "eval_f1_score": 0.649775469900882,
+      "eval_loss": 1.142891764640808,
+      "eval_runtime": 79.304,
+      "eval_samples_per_second": 196.838,
+      "eval_steps_per_second": 2.055,
+      "step": 11000
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 4.6795952782462055e-06,
+      "loss": 0.7355,
+      "step": 11250
+    },
+    {
+      "epoch": 3.64,
+      "eval_accuracy": 0.6614349775784754,
+      "eval_f1_score": 0.6523276061496733,
+      "eval_loss": 1.1420927047729492,
+      "eval_runtime": 79.4328,
+      "eval_samples_per_second": 196.518,
+      "eval_steps_per_second": 2.052,
+      "step": 11250
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 3.625632377740304e-06,
+      "loss": 0.7207,
+      "step": 11500
+    },
+    {
+      "epoch": 3.72,
+      "eval_accuracy": 0.6618193465727098,
+      "eval_f1_score": 0.6531447427234552,
+      "eval_loss": 1.1392197608947754,
+      "eval_runtime": 79.3578,
+      "eval_samples_per_second": 196.704,
+      "eval_steps_per_second": 2.054,
+      "step": 11500
+    }
+  ],
+  "max_steps": 12360,
+  "num_train_epochs": 4,
+  "total_flos": 1.4666146788722688e+17,
+  "trial_name": null,
+  "trial_params": null
+}