End of training

Browse files

Files changed (5) hide show

all_results.json +11 -11
eval_results.json +6 -6
runs/Jul21_17-20-08_9d2c660dfb38/events.out.tfevents.1689969005.9d2c660dfb38.3566.1 +3 -0
train_results.json +6 -6
trainer_state.json +1062 -621

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 11.95,
-    "eval_accuracy": 0.9852216748768473,
-    "eval_loss": 0.09461534023284912,
-    "eval_runtime": 42.4891,
-    "eval_samples_per_second": 28.666,
-    "eval_steps_per_second": 1.812,
-    "total_flos": 7.740923166391597e+18,
-    "train_loss": 0.8764253104900757,
-    "train_runtime": 6223.024,
-    "train_samples_per_second": 7.04,
-    "train_steps_per_second": 0.22
 }

 {
+    "epoch": 14.93,
+    "eval_accuracy": 0.986863711001642,
+    "eval_loss": 0.07206606864929199,
+    "eval_runtime": 37.3968,
+    "eval_samples_per_second": 32.57,
+    "eval_steps_per_second": 2.059,
+    "total_flos": 9.675577376037974e+18,
+    "train_loss": 0.8123349746416884,
+    "train_runtime": 8647.4379,
+    "train_samples_per_second": 6.333,
+    "train_steps_per_second": 0.198
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 11.95,
-    "eval_accuracy": 0.9852216748768473,
-    "eval_loss": 0.09461534023284912,
-    "eval_runtime": 42.4891,
-    "eval_samples_per_second": 28.666,
-    "eval_steps_per_second": 1.812
 }

 {
+    "epoch": 14.93,
+    "eval_accuracy": 0.986863711001642,
+    "eval_loss": 0.07206606864929199,
+    "eval_runtime": 37.3968,
+    "eval_samples_per_second": 32.57,
+    "eval_steps_per_second": 2.059
 }

runs/Jul21_17-20-08_9d2c660dfb38/events.out.tfevents.1689969005.9d2c660dfb38.3566.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf78fe1c185c6c8e1b88ea8dc45c162161ae89130bb350163653a1adc3d6f9a4
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 11.95,
-    "total_flos": 7.740923166391597e+18,
-    "train_loss": 0.8764253104900757,
-    "train_runtime": 6223.024,
-    "train_samples_per_second": 7.04,
-    "train_steps_per_second": 0.22
 }

 {
+    "epoch": 14.93,
+    "total_flos": 9.675577376037974e+18,
+    "train_loss": 0.8123349746416884,
+    "train_runtime": 8647.4379,
+    "train_samples_per_second": 6.333,
+    "train_steps_per_second": 0.198
 }

trainer_state.json CHANGED Viewed

@@ -1,1771 +1,2212 @@
 {
-  "best_metric": 0.9852216748768473,
-  "best_model_checkpoint": "convnextv2-large-1k-224-finetuned-Lesion-Classification-HAM10000-AH-60-20-20-Shuffled/checkpoint-1368",
-  "epoch": 11.947598253275109,
-  "global_step": 1368,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "learning_rate": 2.029220779220779e-07,
-      "loss": 1.9523,
       "step": 5
     },
     {
       "epoch": 0.09,
-      "learning_rate": 4.058441558441558e-07,
-      "loss": 1.9457,
       "step": 10
     },
     {
       "epoch": 0.13,
-      "learning_rate": 6.087662337662339e-07,
-      "loss": 1.9612,
       "step": 15
     },
     {
       "epoch": 0.17,
-      "learning_rate": 8.116883116883116e-07,
-      "loss": 1.9457,
       "step": 20
     },
     {
       "epoch": 0.22,
-      "learning_rate": 1.0146103896103896e-06,
-      "loss": 1.9407,
       "step": 25
     },
     {
       "epoch": 0.26,
-      "learning_rate": 1.2175324675324677e-06,
-      "loss": 1.9508,
       "step": 30
     },
     {
       "epoch": 0.31,
-      "learning_rate": 1.4204545454545456e-06,
-      "loss": 1.9491,
       "step": 35
     },
     {
       "epoch": 0.35,
-      "learning_rate": 1.6233766233766232e-06,
-      "loss": 1.9445,
       "step": 40
     },
     {
       "epoch": 0.39,
-      "learning_rate": 1.8262987012987013e-06,
-      "loss": 1.9434,
       "step": 45
     },
     {
       "epoch": 0.44,
-      "learning_rate": 2.0292207792207792e-06,
-      "loss": 1.9398,
       "step": 50
     },
     {
       "epoch": 0.48,
-      "learning_rate": 2.2321428571428573e-06,
-      "loss": 1.9297,
       "step": 55
     },
     {
       "epoch": 0.52,
-      "learning_rate": 2.4350649350649354e-06,
-      "loss": 1.9422,
       "step": 60
     },
     {
       "epoch": 0.57,
-      "learning_rate": 2.637987012987013e-06,
-      "loss": 1.9275,
       "step": 65
     },
     {
       "epoch": 0.61,
-      "learning_rate": 2.840909090909091e-06,
       "loss": 1.9269,
       "step": 70
     },
     {
       "epoch": 0.66,
-      "learning_rate": 3.043831168831169e-06,
-      "loss": 1.9152,
       "step": 75
     },
     {
       "epoch": 0.7,
-      "learning_rate": 3.2467532467532465e-06,
-      "loss": 1.9336,
       "step": 80
     },
     {
       "epoch": 0.74,
-      "learning_rate": 3.449675324675325e-06,
-      "loss": 1.9233,
       "step": 85
     },
     {
       "epoch": 0.79,
-      "learning_rate": 3.6525974025974027e-06,
-      "loss": 1.9191,
       "step": 90
     },
     {
       "epoch": 0.83,
-      "learning_rate": 3.855519480519481e-06,
-      "loss": 1.9093,
       "step": 95
     },
     {
       "epoch": 0.87,
-      "learning_rate": 4.0584415584415584e-06,
-      "loss": 1.9135,
       "step": 100
     },
     {
       "epoch": 0.92,
-      "learning_rate": 4.2613636363636365e-06,
-      "loss": 1.9034,
       "step": 105
     },
     {
       "epoch": 0.96,
-      "learning_rate": 4.464285714285715e-06,
-      "loss": 1.9014,
       "step": 110
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.3981937602627258,
-      "eval_loss": 1.8872182369232178,
-      "eval_runtime": 273.6883,
-      "eval_samples_per_second": 4.45,
-      "eval_steps_per_second": 0.281,
       "step": 114
     },
     {
       "epoch": 1.0,
-      "learning_rate": 4.667207792207792e-06,
-      "loss": 1.8834,
       "step": 115
     },
     {
       "epoch": 1.05,
-      "learning_rate": 4.870129870129871e-06,
-      "loss": 1.8904,
       "step": 120
     },
     {
       "epoch": 1.09,
-      "learning_rate": 5.073051948051948e-06,
-      "loss": 1.882,
       "step": 125
     },
     {
       "epoch": 1.14,
-      "learning_rate": 5.275974025974026e-06,
-      "loss": 1.8779,
       "step": 130
     },
     {
       "epoch": 1.18,
-      "learning_rate": 5.478896103896104e-06,
-      "loss": 1.8745,
       "step": 135
     },
     {
       "epoch": 1.22,
-      "learning_rate": 5.681818181818182e-06,
-      "loss": 1.8559,
       "step": 140
     },
     {
       "epoch": 1.27,
-      "learning_rate": 5.88474025974026e-06,
-      "loss": 1.8514,
       "step": 145
     },
     {
       "epoch": 1.31,
-      "learning_rate": 6.087662337662338e-06,
-      "loss": 1.8244,
       "step": 150
     },
     {
       "epoch": 1.35,
-      "learning_rate": 6.290584415584417e-06,
-      "loss": 1.82,
       "step": 155
     },
     {
       "epoch": 1.4,
-      "learning_rate": 6.493506493506493e-06,
-      "loss": 1.8196,
       "step": 160
     },
     {
       "epoch": 1.44,
-      "learning_rate": 6.696428571428572e-06,
-      "loss": 1.8163,
       "step": 165
     },
     {
       "epoch": 1.48,
-      "learning_rate": 6.89935064935065e-06,
-      "loss": 1.7813,
       "step": 170
     },
     {
       "epoch": 1.53,
-      "learning_rate": 7.102272727272728e-06,
-      "loss": 1.789,
       "step": 175
     },
     {
       "epoch": 1.57,
-      "learning_rate": 7.305194805194805e-06,
-      "loss": 1.7802,
       "step": 180
     },
     {
       "epoch": 1.62,
-      "learning_rate": 7.5081168831168834e-06,
-      "loss": 1.7511,
       "step": 185
     },
     {
       "epoch": 1.66,
-      "learning_rate": 7.711038961038962e-06,
-      "loss": 1.7404,
       "step": 190
     },
     {
       "epoch": 1.7,
-      "learning_rate": 7.91396103896104e-06,
-      "loss": 1.7345,
       "step": 195
     },
     {
       "epoch": 1.75,
-      "learning_rate": 8.116883116883117e-06,
-      "loss": 1.7248,
       "step": 200
     },
     {
       "epoch": 1.79,
-      "learning_rate": 8.319805194805196e-06,
-      "loss": 1.7112,
       "step": 205
     },
     {
       "epoch": 1.83,
-      "learning_rate": 8.522727272727273e-06,
-      "loss": 1.6794,
       "step": 210
     },
     {
       "epoch": 1.88,
-      "learning_rate": 8.72564935064935e-06,
-      "loss": 1.6574,
       "step": 215
     },
     {
       "epoch": 1.92,
-      "learning_rate": 8.92857142857143e-06,
-      "loss": 1.6914,
       "step": 220
     },
     {
       "epoch": 1.97,
-      "learning_rate": 9.131493506493508e-06,
-      "loss": 1.6303,
       "step": 225
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5927750410509032,
-      "eval_loss": 1.6162906885147095,
-      "eval_runtime": 41.2879,
-      "eval_samples_per_second": 29.5,
-      "eval_steps_per_second": 1.865,
       "step": 229
     },
     {
       "epoch": 2.01,
-      "learning_rate": 9.334415584415584e-06,
-      "loss": 1.608,
       "step": 230
     },
     {
       "epoch": 2.05,
-      "learning_rate": 9.537337662337663e-06,
-      "loss": 1.6109,
       "step": 235
     },
     {
       "epoch": 2.1,
-      "learning_rate": 9.740259740259742e-06,
-      "loss": 1.5838,
       "step": 240
     },
     {
       "epoch": 2.14,
-      "learning_rate": 9.943181818181819e-06,
-      "loss": 1.5902,
       "step": 245
     },
     {
       "epoch": 2.18,
-      "learning_rate": 1.0146103896103896e-05,
-      "loss": 1.5408,
       "step": 250
     },
     {
       "epoch": 2.23,
-      "learning_rate": 1.0349025974025975e-05,
-      "loss": 1.505,
       "step": 255
     },
     {
       "epoch": 2.27,
-      "learning_rate": 1.0551948051948052e-05,
-      "loss": 1.5325,
       "step": 260
     },
     {
       "epoch": 2.31,
-      "learning_rate": 1.075487012987013e-05,
-      "loss": 1.5185,
       "step": 265
     },
     {
       "epoch": 2.36,
-      "learning_rate": 1.0957792207792208e-05,
-      "loss": 1.5277,
       "step": 270
     },
     {
       "epoch": 2.4,
-      "learning_rate": 1.1160714285714287e-05,
-      "loss": 1.5179,
       "step": 275
     },
     {
       "epoch": 2.45,
-      "learning_rate": 1.1363636363636365e-05,
-      "loss": 1.4338,
       "step": 280
     },
     {
       "epoch": 2.49,
-      "learning_rate": 1.1566558441558442e-05,
-      "loss": 1.4783,
       "step": 285
     },
     {
       "epoch": 2.53,
-      "learning_rate": 1.176948051948052e-05,
-      "loss": 1.4104,
       "step": 290
     },
     {
       "epoch": 2.58,
-      "learning_rate": 1.1972402597402598e-05,
-      "loss": 1.4168,
       "step": 295
     },
     {
       "epoch": 2.62,
-      "learning_rate": 1.2175324675324675e-05,
-      "loss": 1.3617,
       "step": 300
     },
     {
       "epoch": 2.66,
-      "learning_rate": 1.2378246753246754e-05,
-      "loss": 1.3425,
       "step": 305
     },
     {
       "epoch": 2.71,
-      "learning_rate": 1.2581168831168833e-05,
-      "loss": 1.317,
       "step": 310
     },
     {
       "epoch": 2.75,
-      "learning_rate": 1.2784090909090909e-05,
-      "loss": 1.4114,
       "step": 315
     },
     {
       "epoch": 2.79,
-      "learning_rate": 1.2987012987012986e-05,
-      "loss": 1.3512,
       "step": 320
     },
     {
       "epoch": 2.84,
-      "learning_rate": 1.3189935064935067e-05,
-      "loss": 1.3026,
       "step": 325
     },
     {
       "epoch": 2.88,
-      "learning_rate": 1.3392857142857144e-05,
-      "loss": 1.3261,
       "step": 330
     },
     {
       "epoch": 2.93,
-      "learning_rate": 1.359577922077922e-05,
-      "loss": 1.3273,
       "step": 335
     },
     {
       "epoch": 2.97,
-      "learning_rate": 1.37987012987013e-05,
-      "loss": 1.291,
       "step": 340
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6773399014778325,
-      "eval_loss": 1.2219544649124146,
-      "eval_runtime": 41.4884,
-      "eval_samples_per_second": 29.358,
-      "eval_steps_per_second": 1.856,
       "step": 343
     },
     {
       "epoch": 3.01,
-      "learning_rate": 1.4001623376623377e-05,
-      "loss": 1.353,
       "step": 345
     },
     {
       "epoch": 3.06,
-      "learning_rate": 1.4204545454545456e-05,
-      "loss": 1.294,
       "step": 350
     },
     {
       "epoch": 3.1,
-      "learning_rate": 1.4407467532467533e-05,
-      "loss": 1.2475,
       "step": 355
     },
     {
       "epoch": 3.14,
-      "learning_rate": 1.461038961038961e-05,
-      "loss": 1.1985,
       "step": 360
     },
     {
       "epoch": 3.19,
-      "learning_rate": 1.481331168831169e-05,
-      "loss": 1.2283,
       "step": 365
     },
     {
       "epoch": 3.23,
-      "learning_rate": 1.5016233766233767e-05,
-      "loss": 1.1886,
       "step": 370
     },
     {
       "epoch": 3.28,
-      "learning_rate": 1.5219155844155844e-05,
-      "loss": 1.1673,
       "step": 375
     },
     {
       "epoch": 3.32,
-      "learning_rate": 1.5422077922077925e-05,
-      "loss": 1.1219,
       "step": 380
     },
     {
       "epoch": 3.36,
-      "learning_rate": 1.5625e-05,
-      "loss": 1.2191,
       "step": 385
     },
     {
       "epoch": 3.41,
-      "learning_rate": 1.582792207792208e-05,
-      "loss": 1.205,
       "step": 390
     },
     {
       "epoch": 3.45,
-      "learning_rate": 1.6030844155844158e-05,
-      "loss": 1.178,
       "step": 395
     },
     {
       "epoch": 3.49,
-      "learning_rate": 1.6233766233766234e-05,
-      "loss": 1.1588,
       "step": 400
     },
     {
       "epoch": 3.54,
-      "learning_rate": 1.6436688311688313e-05,
-      "loss": 1.2004,
       "step": 405
     },
     {
       "epoch": 3.58,
-      "learning_rate": 1.663961038961039e-05,
-      "loss": 1.1484,
       "step": 410
     },
     {
       "epoch": 3.62,
-      "learning_rate": 1.6842532467532467e-05,
-      "loss": 1.2333,
       "step": 415
     },
     {
       "epoch": 3.67,
-      "learning_rate": 1.7045454545454546e-05,
-      "loss": 1.1565,
       "step": 420
     },
     {
       "epoch": 3.71,
-      "learning_rate": 1.7248376623376625e-05,
-      "loss": 1.0677,
       "step": 425
     },
     {
       "epoch": 3.76,
-      "learning_rate": 1.74512987012987e-05,
-      "loss": 1.1271,
       "step": 430
     },
     {
       "epoch": 3.8,
-      "learning_rate": 1.7654220779220783e-05,
-      "loss": 0.9125,
       "step": 435
     },
     {
       "epoch": 3.84,
-      "learning_rate": 1.785714285714286e-05,
-      "loss": 1.1261,
       "step": 440
     },
     {
       "epoch": 3.89,
-      "learning_rate": 1.8060064935064934e-05,
-      "loss": 1.0694,
       "step": 445
     },
     {
       "epoch": 3.93,
-      "learning_rate": 1.8262987012987016e-05,
-      "loss": 1.0313,
       "step": 450
     },
     {
       "epoch": 3.97,
-      "learning_rate": 1.8465909090909092e-05,
-      "loss": 1.0813,
       "step": 455
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.7750410509031199,
-      "eval_loss": 0.9574336409568787,
-      "eval_runtime": 41.7866,
-      "eval_samples_per_second": 29.148,
-      "eval_steps_per_second": 1.843,
       "step": 458
     },
     {
       "epoch": 4.02,
-      "learning_rate": 1.8668831168831167e-05,
-      "loss": 0.9923,
       "step": 460
     },
     {
       "epoch": 4.06,
-      "learning_rate": 1.887175324675325e-05,
-      "loss": 1.0316,
       "step": 465
     },
     {
       "epoch": 4.1,
-      "learning_rate": 1.9074675324675325e-05,
-      "loss": 1.0292,
       "step": 470
     },
     {
       "epoch": 4.15,
-      "learning_rate": 1.9277597402597404e-05,
-      "loss": 1.0028,
       "step": 475
     },
     {
       "epoch": 4.19,
-      "learning_rate": 1.9480519480519483e-05,
-      "loss": 0.9421,
       "step": 480
     },
     {
       "epoch": 4.24,
-      "learning_rate": 1.968344155844156e-05,
-      "loss": 0.9741,
       "step": 485
     },
     {
       "epoch": 4.28,
-      "learning_rate": 1.9886363636363638e-05,
-      "loss": 0.9571,
       "step": 490
     },
     {
       "epoch": 4.32,
-      "learning_rate": 2.0089285714285717e-05,
-      "loss": 1.0524,
       "step": 495
     },
     {
       "epoch": 4.37,
-      "learning_rate": 2.0292207792207792e-05,
-      "loss": 1.0265,
       "step": 500
     },
     {
       "epoch": 4.41,
-      "learning_rate": 2.049512987012987e-05,
-      "loss": 0.9203,
       "step": 505
     },
     {
       "epoch": 4.45,
-      "learning_rate": 2.069805194805195e-05,
-      "loss": 0.8548,
       "step": 510
     },
     {
       "epoch": 4.5,
-      "learning_rate": 2.0900974025974026e-05,
-      "loss": 0.9264,
       "step": 515
     },
     {
       "epoch": 4.54,
-      "learning_rate": 2.1103896103896105e-05,
-      "loss": 0.9069,
       "step": 520
     },
     {
       "epoch": 4.59,
-      "learning_rate": 2.1306818181818183e-05,
-      "loss": 0.8999,
       "step": 525
     },
     {
       "epoch": 4.63,
-      "learning_rate": 2.150974025974026e-05,
-      "loss": 0.8484,
       "step": 530
     },
     {
       "epoch": 4.67,
-      "learning_rate": 2.171266233766234e-05,
-      "loss": 0.9169,
       "step": 535
     },
     {
       "epoch": 4.72,
-      "learning_rate": 2.1915584415584417e-05,
-      "loss": 0.9529,
       "step": 540
     },
     {
       "epoch": 4.76,
-      "learning_rate": 2.2118506493506492e-05,
-      "loss": 0.8057,
       "step": 545
     },
     {
       "epoch": 4.8,
-      "learning_rate": 2.2321428571428575e-05,
-      "loss": 0.9171,
       "step": 550
     },
     {
       "epoch": 4.85,
-      "learning_rate": 2.252435064935065e-05,
-      "loss": 0.8282,
       "step": 555
     },
     {
       "epoch": 4.89,
-      "learning_rate": 2.272727272727273e-05,
-      "loss": 0.753,
       "step": 560
     },
     {
       "epoch": 4.93,
-      "learning_rate": 2.2930194805194808e-05,
-      "loss": 0.9191,
       "step": 565
     },
     {
       "epoch": 4.98,
-      "learning_rate": 2.3133116883116884e-05,
-      "loss": 0.7168,
       "step": 570
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.7602627257799671,
-      "eval_loss": 0.7791566848754883,
-      "eval_runtime": 41.3764,
-      "eval_samples_per_second": 29.437,
-      "eval_steps_per_second": 1.861,
       "step": 572
     },
     {
       "epoch": 5.02,
-      "learning_rate": 2.3336038961038963e-05,
-      "loss": 0.7579,
       "step": 575
     },
     {
       "epoch": 5.07,
-      "learning_rate": 2.353896103896104e-05,
-      "loss": 0.7458,
       "step": 580
     },
     {
       "epoch": 5.11,
-      "learning_rate": 2.3741883116883117e-05,
-      "loss": 0.8286,
       "step": 585
     },
     {
       "epoch": 5.15,
-      "learning_rate": 2.3944805194805196e-05,
-      "loss": 0.7919,
       "step": 590
     },
     {
       "epoch": 5.2,
-      "learning_rate": 2.4147727272727275e-05,
-      "loss": 0.7038,
       "step": 595
     },
     {
       "epoch": 5.24,
-      "learning_rate": 2.435064935064935e-05,
-      "loss": 0.798,
       "step": 600
     },
     {
       "epoch": 5.28,
-      "learning_rate": 2.455357142857143e-05,
-      "loss": 0.9234,
       "step": 605
     },
     {
       "epoch": 5.33,
-      "learning_rate": 2.475649350649351e-05,
-      "loss": 0.8609,
       "step": 610
     },
     {
       "epoch": 5.37,
-      "learning_rate": 2.4959415584415584e-05,
-      "loss": 0.8748,
       "step": 615
     },
     {
       "epoch": 5.41,
-      "learning_rate": 2.5162337662337666e-05,
-      "loss": 0.6842,
       "step": 620
     },
     {
       "epoch": 5.46,
-      "learning_rate": 2.536525974025974e-05,
-      "loss": 0.8199,
       "step": 625
     },
     {
       "epoch": 5.5,
-      "learning_rate": 2.5568181818181817e-05,
-      "loss": 0.6946,
       "step": 630
     },
     {
       "epoch": 5.55,
-      "learning_rate": 2.57711038961039e-05,
-      "loss": 0.8134,
       "step": 635
     },
     {
       "epoch": 5.59,
-      "learning_rate": 2.5974025974025972e-05,
-      "loss": 0.7838,
       "step": 640
     },
     {
       "epoch": 5.63,
-      "learning_rate": 2.617694805194805e-05,
-      "loss": 0.7889,
       "step": 645
     },
     {
       "epoch": 5.68,
-      "learning_rate": 2.6379870129870133e-05,
-      "loss": 0.7277,
       "step": 650
     },
     {
       "epoch": 5.72,
-      "learning_rate": 2.6582792207792205e-05,
-      "loss": 0.678,
       "step": 655
     },
     {
       "epoch": 5.76,
-      "learning_rate": 2.6785714285714288e-05,
-      "loss": 0.7287,
       "step": 660
     },
     {
       "epoch": 5.81,
-      "learning_rate": 2.6988636363636367e-05,
-      "loss": 0.7018,
       "step": 665
     },
     {
       "epoch": 5.85,
-      "learning_rate": 2.719155844155844e-05,
-      "loss": 0.6496,
       "step": 670
     },
     {
       "epoch": 5.9,
-      "learning_rate": 2.739448051948052e-05,
-      "loss": 0.6684,
       "step": 675
     },
     {
       "epoch": 5.94,
-      "learning_rate": 2.75974025974026e-05,
-      "loss": 0.7137,
       "step": 680
     },
     {
       "epoch": 5.98,
-      "learning_rate": 2.780032467532468e-05,
-      "loss": 0.6184,
       "step": 685
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.867816091954023,
-      "eval_loss": 0.5539422631263733,
-      "eval_runtime": 41.7795,
-      "eval_samples_per_second": 29.153,
-      "eval_steps_per_second": 1.843,
       "step": 687
     },
     {
       "epoch": 6.03,
-      "learning_rate": 2.8003246753246755e-05,
-      "loss": 0.6205,
       "step": 690
     },
     {
       "epoch": 6.07,
-      "learning_rate": 2.8206168831168834e-05,
-      "loss": 0.5953,
       "step": 695
     },
     {
       "epoch": 6.11,
-      "learning_rate": 2.8409090909090912e-05,
-      "loss": 0.6818,
       "step": 700
     },
     {
       "epoch": 6.16,
-      "learning_rate": 2.8612012987012988e-05,
-      "loss": 0.6218,
       "step": 705
     },
     {
       "epoch": 6.2,
-      "learning_rate": 2.8814935064935067e-05,
-      "loss": 0.6739,
       "step": 710
     },
     {
       "epoch": 6.24,
-      "learning_rate": 2.9017857142857146e-05,
-      "loss": 0.5568,
       "step": 715
     },
     {
       "epoch": 6.29,
-      "learning_rate": 2.922077922077922e-05,
-      "loss": 0.6172,
       "step": 720
     },
     {
       "epoch": 6.33,
-      "learning_rate": 2.94237012987013e-05,
-      "loss": 0.6714,
       "step": 725
     },
     {
       "epoch": 6.38,
-      "learning_rate": 2.962662337662338e-05,
-      "loss": 0.6831,
       "step": 730
     },
     {
       "epoch": 6.42,
-      "learning_rate": 2.9829545454545455e-05,
-      "loss": 0.5986,
       "step": 735
     },
     {
       "epoch": 6.46,
-      "learning_rate": 3.0032467532467534e-05,
-      "loss": 0.6799,
       "step": 740
     },
     {
       "epoch": 6.51,
-      "learning_rate": 3.0235389610389613e-05,
-      "loss": 0.5172,
       "step": 745
     },
     {
       "epoch": 6.55,
-      "learning_rate": 3.0438311688311688e-05,
-      "loss": 0.6682,
       "step": 750
     },
     {
       "epoch": 6.59,
-      "learning_rate": 3.064123376623377e-05,
-      "loss": 0.5245,
       "step": 755
     },
     {
       "epoch": 6.64,
-      "learning_rate": 3.084415584415585e-05,
-      "loss": 0.6013,
       "step": 760
     },
     {
       "epoch": 6.68,
-      "learning_rate": 3.1047077922077925e-05,
-      "loss": 0.5115,
       "step": 765
     },
     {
       "epoch": 6.72,
-      "learning_rate": 3.125e-05,
-      "loss": 0.5272,
       "step": 770
     },
     {
       "epoch": 6.77,
-      "learning_rate": 3.145292207792208e-05,
-      "loss": 0.485,
       "step": 775
     },
     {
       "epoch": 6.81,
-      "learning_rate": 3.165584415584416e-05,
-      "loss": 0.6588,
       "step": 780
     },
     {
       "epoch": 6.86,
-      "learning_rate": 3.1858766233766234e-05,
-      "loss": 0.5066,
       "step": 785
     },
     {
       "epoch": 6.9,
-      "learning_rate": 3.2061688311688316e-05,
-      "loss": 0.4862,
       "step": 790
     },
     {
       "epoch": 6.94,
-      "learning_rate": 3.226461038961039e-05,
-      "loss": 0.4091,
       "step": 795
     },
     {
       "epoch": 6.99,
-      "learning_rate": 3.246753246753247e-05,
-      "loss": 0.677,
       "step": 800
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.8727422003284072,
-      "eval_loss": 0.4482496976852417,
-      "eval_runtime": 41.5406,
-      "eval_samples_per_second": 29.321,
-      "eval_steps_per_second": 1.854,
       "step": 801
     },
     {
       "epoch": 7.03,
-      "learning_rate": 3.267045454545455e-05,
-      "loss": 0.4498,
       "step": 805
     },
     {
       "epoch": 7.07,
-      "learning_rate": 3.2873376623376625e-05,
-      "loss": 0.5767,
       "step": 810
     },
     {
       "epoch": 7.12,
-      "learning_rate": 3.30762987012987e-05,
-      "loss": 0.5276,
       "step": 815
     },
     {
       "epoch": 7.16,
-      "learning_rate": 3.327922077922078e-05,
-      "loss": 0.4909,
       "step": 820
     },
     {
       "epoch": 7.21,
-      "learning_rate": 3.348214285714286e-05,
-      "loss": 0.5658,
       "step": 825
     },
     {
       "epoch": 7.25,
-      "learning_rate": 3.3685064935064934e-05,
-      "loss": 0.4413,
       "step": 830
     },
     {
       "epoch": 7.29,
-      "learning_rate": 3.388798701298702e-05,
-      "loss": 0.4046,
       "step": 835
     },
     {
       "epoch": 7.34,
-      "learning_rate": 3.409090909090909e-05,
-      "loss": 0.528,
       "step": 840
     },
     {
       "epoch": 7.38,
-      "learning_rate": 3.429383116883117e-05,
-      "loss": 0.3563,
       "step": 845
     },
     {
       "epoch": 7.42,
-      "learning_rate": 3.449675324675325e-05,
-      "loss": 0.7032,
       "step": 850
     },
     {
       "epoch": 7.47,
-      "learning_rate": 3.4699675324675326e-05,
-      "loss": 0.4867,
       "step": 855
     },
     {
       "epoch": 7.51,
-      "learning_rate": 3.49025974025974e-05,
-      "loss": 0.4171,
       "step": 860
     },
     {
       "epoch": 7.55,
-      "learning_rate": 3.5105519480519484e-05,
-      "loss": 0.4876,
       "step": 865
     },
     {
       "epoch": 7.6,
-      "learning_rate": 3.5308441558441566e-05,
-      "loss": 0.5591,
       "step": 870
     },
     {
       "epoch": 7.64,
-      "learning_rate": 3.5511363636363635e-05,
-      "loss": 0.5694,
       "step": 875
     },
     {
       "epoch": 7.69,
-      "learning_rate": 3.571428571428572e-05,
-      "loss": 0.4692,
       "step": 880
     },
     {
       "epoch": 7.73,
-      "learning_rate": 3.59172077922078e-05,
-      "loss": 0.4355,
       "step": 885
     },
     {
       "epoch": 7.77,
-      "learning_rate": 3.612012987012987e-05,
-      "loss": 0.4585,
       "step": 890
     },
     {
       "epoch": 7.82,
-      "learning_rate": 3.632305194805195e-05,
-      "loss": 0.4527,
       "step": 895
     },
     {
       "epoch": 7.86,
-      "learning_rate": 3.652597402597403e-05,
-      "loss": 0.534,
       "step": 900
     },
     {
       "epoch": 7.9,
-      "learning_rate": 3.67288961038961e-05,
-      "loss": 0.5621,
       "step": 905
     },
     {
       "epoch": 7.95,
-      "learning_rate": 3.6931818181818184e-05,
-      "loss": 0.4936,
       "step": 910
     },
     {
       "epoch": 7.99,
-      "learning_rate": 3.7134740259740266e-05,
-      "loss": 0.4876,
       "step": 915
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9269293924466339,
-      "eval_loss": 0.32888495922088623,
-      "eval_runtime": 41.545,
-      "eval_samples_per_second": 29.318,
-      "eval_steps_per_second": 1.853,
       "step": 916
     },
     {
       "epoch": 8.03,
-      "learning_rate": 3.7337662337662335e-05,
-      "loss": 0.3788,
       "step": 920
     },
     {
       "epoch": 8.08,
-      "learning_rate": 3.754058441558442e-05,
-      "loss": 0.4377,
       "step": 925
     },
     {
       "epoch": 8.12,
-      "learning_rate": 3.77435064935065e-05,
-      "loss": 0.4436,
       "step": 930
     },
     {
       "epoch": 8.17,
-      "learning_rate": 3.794642857142857e-05,
-      "loss": 0.5716,
       "step": 935
     },
     {
       "epoch": 8.21,
-      "learning_rate": 3.814935064935065e-05,
-      "loss": 0.5563,
       "step": 940
     },
     {
       "epoch": 8.25,
-      "learning_rate": 3.835227272727273e-05,
-      "loss": 0.526,
       "step": 945
     },
     {
       "epoch": 8.3,
-      "learning_rate": 3.855519480519481e-05,
-      "loss": 0.3903,
       "step": 950
     },
     {
       "epoch": 8.34,
-      "learning_rate": 3.8758116883116884e-05,
-      "loss": 0.3263,
       "step": 955
     },
     {
       "epoch": 8.38,
-      "learning_rate": 3.8961038961038966e-05,
-      "loss": 0.5028,
       "step": 960
     },
     {
       "epoch": 8.43,
-      "learning_rate": 3.916396103896104e-05,
-      "loss": 0.3781,
       "step": 965
     },
     {
       "epoch": 8.47,
-      "learning_rate": 3.936688311688312e-05,
-      "loss": 0.3756,
       "step": 970
     },
     {
       "epoch": 8.52,
-      "learning_rate": 3.95698051948052e-05,
-      "loss": 0.4825,
       "step": 975
     },
     {
       "epoch": 8.56,
-      "learning_rate": 3.9772727272727275e-05,
-      "loss": 0.399,
       "step": 980
     },
     {
       "epoch": 8.6,
-      "learning_rate": 3.997564935064935e-05,
-      "loss": 0.4362,
       "step": 985
     },
     {
       "epoch": 8.65,
-      "learning_rate": 4.017857142857143e-05,
-      "loss": 0.4385,
       "step": 990
     },
     {
       "epoch": 8.69,
-      "learning_rate": 4.038149350649351e-05,
-      "loss": 0.4277,
       "step": 995
     },
     {
       "epoch": 8.73,
-      "learning_rate": 4.0584415584415584e-05,
-      "loss": 0.4211,
       "step": 1000
     },
     {
       "epoch": 8.78,
-      "learning_rate": 4.078733766233767e-05,
-      "loss": 0.3729,
       "step": 1005
     },
     {
       "epoch": 8.82,
-      "learning_rate": 4.099025974025974e-05,
-      "loss": 0.3427,
       "step": 1010
     },
     {
       "epoch": 8.86,
-      "learning_rate": 4.119318181818182e-05,
-      "loss": 0.4221,
       "step": 1015
     },
     {
       "epoch": 8.91,
-      "learning_rate": 4.13961038961039e-05,
-      "loss": 0.316,
       "step": 1020
     },
     {
       "epoch": 8.95,
-      "learning_rate": 4.1599025974025976e-05,
-      "loss": 0.5041,
       "step": 1025
     },
     {
       "epoch": 9.0,
-      "learning_rate": 4.180194805194805e-05,
-      "loss": 0.4,
       "step": 1030
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9499178981937603,
-      "eval_loss": 0.23791643977165222,
-      "eval_runtime": 41.3669,
-      "eval_samples_per_second": 29.444,
-      "eval_steps_per_second": 1.861,
       "step": 1030
     },
     {
       "epoch": 9.04,
-      "learning_rate": 4.2004870129870134e-05,
-      "loss": 0.3897,
       "step": 1035
     },
     {
       "epoch": 9.08,
-      "learning_rate": 4.220779220779221e-05,
-      "loss": 0.3342,
       "step": 1040
     },
     {
       "epoch": 9.13,
-      "learning_rate": 4.2410714285714285e-05,
-      "loss": 0.3891,
       "step": 1045
     },
     {
       "epoch": 9.17,
-      "learning_rate": 4.261363636363637e-05,
-      "loss": 0.379,
       "step": 1050
     },
     {
       "epoch": 9.21,
-      "learning_rate": 4.281655844155844e-05,
-      "loss": 0.4199,
       "step": 1055
     },
     {
       "epoch": 9.26,
-      "learning_rate": 4.301948051948052e-05,
-      "loss": 0.4718,
       "step": 1060
     },
     {
       "epoch": 9.3,
-      "learning_rate": 4.32224025974026e-05,
-      "loss": 0.3834,
       "step": 1065
     },
     {
       "epoch": 9.34,
-      "learning_rate": 4.342532467532468e-05,
-      "loss": 0.3155,
       "step": 1070
     },
     {
       "epoch": 9.39,
-      "learning_rate": 4.362824675324675e-05,
-      "loss": 0.3672,
       "step": 1075
     },
     {
       "epoch": 9.43,
-      "learning_rate": 4.3831168831168834e-05,
-      "loss": 0.3521,
       "step": 1080
     },
     {
       "epoch": 9.48,
-      "learning_rate": 4.4034090909090916e-05,
-      "loss": 0.3689,
       "step": 1085
     },
     {
       "epoch": 9.52,
-      "learning_rate": 4.4237012987012985e-05,
-      "loss": 0.4642,
       "step": 1090
     },
     {
       "epoch": 9.56,
-      "learning_rate": 4.443993506493507e-05,
-      "loss": 0.5208,
       "step": 1095
     },
     {
       "epoch": 9.61,
-      "learning_rate": 4.464285714285715e-05,
-      "loss": 0.4228,
       "step": 1100
     },
     {
       "epoch": 9.65,
-      "learning_rate": 4.484577922077922e-05,
-      "loss": 0.3621,
       "step": 1105
     },
     {
       "epoch": 9.69,
-      "learning_rate": 4.50487012987013e-05,
-      "loss": 0.416,
       "step": 1110
     },
     {
       "epoch": 9.74,
-      "learning_rate": 4.525162337662338e-05,
-      "loss": 0.3168,
       "step": 1115
     },
     {
       "epoch": 9.78,
-      "learning_rate": 4.545454545454546e-05,
-      "loss": 0.3837,
       "step": 1120
     },
     {
       "epoch": 9.83,
-      "learning_rate": 4.5657467532467534e-05,
-      "loss": 0.5365,
       "step": 1125
     },
     {
       "epoch": 9.87,
-      "learning_rate": 4.5860389610389616e-05,
-      "loss": 0.3512,
       "step": 1130
     },
     {
       "epoch": 9.91,
-      "learning_rate": 4.606331168831169e-05,
-      "loss": 0.3027,
       "step": 1135
     },
     {
       "epoch": 9.96,
-      "learning_rate": 4.626623376623377e-05,
-      "loss": 0.3698,
       "step": 1140
     },
     {
       "epoch": 10.0,
-      "learning_rate": 4.646915584415585e-05,
-      "loss": 0.4122,
       "step": 1145
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.9351395730706076,
-      "eval_loss": 0.24517326056957245,
-      "eval_runtime": 41.719,
-      "eval_samples_per_second": 29.195,
-      "eval_steps_per_second": 1.846,
       "step": 1145
     },
     {
       "epoch": 10.04,
-      "learning_rate": 4.6672077922077925e-05,
-      "loss": 0.5587,
       "step": 1150
     },
     {
       "epoch": 10.09,
-      "learning_rate": 4.6875e-05,
-      "loss": 0.526,
       "step": 1155
     },
     {
       "epoch": 10.13,
-      "learning_rate": 4.707792207792208e-05,
-      "loss": 0.3711,
       "step": 1160
     },
     {
       "epoch": 10.17,
-      "learning_rate": 4.728084415584416e-05,
-      "loss": 0.241,
       "step": 1165
     },
     {
       "epoch": 10.22,
-      "learning_rate": 4.7483766233766234e-05,
-      "loss": 0.2986,
       "step": 1170
     },
     {
       "epoch": 10.26,
-      "learning_rate": 4.768668831168832e-05,
-      "loss": 0.3427,
       "step": 1175
     },
     {
       "epoch": 10.31,
-      "learning_rate": 4.788961038961039e-05,
-      "loss": 0.3038,
       "step": 1180
     },
     {
       "epoch": 10.35,
-      "learning_rate": 4.809253246753247e-05,
-      "loss": 0.3751,
       "step": 1185
     },
     {
       "epoch": 10.39,
-      "learning_rate": 4.829545454545455e-05,
-      "loss": 0.4363,
       "step": 1190
     },
     {
       "epoch": 10.44,
-      "learning_rate": 4.8498376623376626e-05,
-      "loss": 0.4679,
       "step": 1195
     },
     {
       "epoch": 10.48,
-      "learning_rate": 4.87012987012987e-05,
-      "loss": 0.4258,
       "step": 1200
     },
     {
       "epoch": 10.52,
-      "learning_rate": 4.8904220779220784e-05,
-      "loss": 0.3684,
       "step": 1205
     },
     {
       "epoch": 10.57,
-      "learning_rate": 4.910714285714286e-05,
-      "loss": 0.3698,
       "step": 1210
     },
     {
       "epoch": 10.61,
-      "learning_rate": 4.9310064935064935e-05,
-      "loss": 0.3574,
       "step": 1215
     },
     {
       "epoch": 10.66,
-      "learning_rate": 4.951298701298702e-05,
-      "loss": 0.2396,
       "step": 1220
     },
     {
       "epoch": 10.7,
-      "learning_rate": 4.971590909090909e-05,
-      "loss": 0.2608,
       "step": 1225
     },
     {
       "epoch": 10.74,
-      "learning_rate": 4.991883116883117e-05,
-      "loss": 0.3136,
       "step": 1230
     },
     {
       "epoch": 10.79,
-      "learning_rate": 4.889705882352941e-05,
-      "loss": 0.4472,
       "step": 1235
     },
     {
       "epoch": 10.83,
-      "learning_rate": 4.705882352941177e-05,
-      "loss": 0.4089,
       "step": 1240
     },
     {
       "epoch": 10.87,
-      "learning_rate": 4.522058823529412e-05,
-      "loss": 0.3355,
       "step": 1245
     },
     {
       "epoch": 10.92,
-      "learning_rate": 4.3382352941176474e-05,
-      "loss": 0.4199,
       "step": 1250
     },
     {
       "epoch": 10.96,
-      "learning_rate": 4.154411764705883e-05,
-      "loss": 0.4494,
       "step": 1255
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.958128078817734,
-      "eval_loss": 0.17895229160785675,
-      "eval_runtime": 41.7173,
-      "eval_samples_per_second": 29.197,
-      "eval_steps_per_second": 1.846,
       "step": 1259
     },
     {
       "epoch": 11.0,
-      "learning_rate": 3.970588235294117e-05,
-      "loss": 0.307,
       "step": 1260
     },
     {
       "epoch": 11.05,
-      "learning_rate": 3.786764705882353e-05,
-      "loss": 0.4496,
       "step": 1265
     },
     {
       "epoch": 11.09,
-      "learning_rate": 3.6029411764705886e-05,
-      "loss": 0.2769,
       "step": 1270
     },
     {
       "epoch": 11.14,
-      "learning_rate": 3.4191176470588236e-05,
-      "loss": 0.3289,
       "step": 1275
     },
     {
       "epoch": 11.18,
-      "learning_rate": 3.235294117647059e-05,
-      "loss": 0.2077,
       "step": 1280
     },
     {
       "epoch": 11.22,
-      "learning_rate": 3.0514705882352945e-05,
-      "loss": 0.287,
       "step": 1285
     },
     {
       "epoch": 11.27,
-      "learning_rate": 2.8676470588235295e-05,
-      "loss": 0.3158,
       "step": 1290
     },
     {
       "epoch": 11.31,
-      "learning_rate": 2.6838235294117648e-05,
-      "loss": 0.2375,
       "step": 1295
     },
     {
       "epoch": 11.35,
-      "learning_rate": 2.5e-05,
-      "loss": 0.2261,
       "step": 1300
     },
     {
       "epoch": 11.4,
-      "learning_rate": 2.3161764705882354e-05,
-      "loss": 0.3138,
       "step": 1305
     },
     {
       "epoch": 11.44,
-      "learning_rate": 2.1323529411764707e-05,
-      "loss": 0.1571,
       "step": 1310
     },
     {
       "epoch": 11.48,
-      "learning_rate": 1.948529411764706e-05,
-      "loss": 0.2473,
       "step": 1315
     },
     {
       "epoch": 11.53,
-      "learning_rate": 1.7647058823529414e-05,
-      "loss": 0.2055,
       "step": 1320
     },
     {
       "epoch": 11.57,
-      "learning_rate": 1.5808823529411763e-05,
-      "loss": 0.2225,
       "step": 1325
     },
     {
       "epoch": 11.62,
-      "learning_rate": 1.3970588235294118e-05,
-      "loss": 0.2046,
       "step": 1330
     },
     {
       "epoch": 11.66,
-      "learning_rate": 1.2132352941176471e-05,
-      "loss": 0.1629,
       "step": 1335
     },
     {
       "epoch": 11.7,
-      "learning_rate": 1.0294117647058824e-05,
-      "loss": 0.2075,
       "step": 1340
     },
     {
       "epoch": 11.75,
-      "learning_rate": 8.455882352941177e-06,
-      "loss": 0.2251,
       "step": 1345
     },
     {
       "epoch": 11.79,
-      "learning_rate": 6.61764705882353e-06,
-      "loss": 0.1449,
       "step": 1350
     },
     {
       "epoch": 11.83,
-      "learning_rate": 4.779411764705882e-06,
-      "loss": 0.2342,
       "step": 1355
     },
     {
       "epoch": 11.88,
-      "learning_rate": 2.9411764705882355e-06,
-      "loss": 0.1518,
       "step": 1360
     },
     {
       "epoch": 11.92,
-      "learning_rate": 1.1029411764705884e-06,
-      "loss": 0.2026,
       "step": 1365
     },
     {
-      "epoch": 11.95,
-      "eval_accuracy": 0.9852216748768473,
-      "eval_loss": 0.09461534023284912,
-      "eval_runtime": 41.5773,
-      "eval_samples_per_second": 29.295,
-      "eval_steps_per_second": 1.852,
-      "step": 1368
     },
     {
-      "epoch": 11.95,
-      "step": 1368,
-      "total_flos": 7.740923166391597e+18,
-      "train_loss": 0.8764253104900757,
-      "train_runtime": 6223.024,
-      "train_samples_per_second": 7.04,
-      "train_steps_per_second": 0.22
     }
   ],
-  "max_steps": 1368,
-  "num_train_epochs": 12,
-  "total_flos": 7.740923166391597e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.986863711001642,
+  "best_model_checkpoint": "convnextv2-large-1k-224-finetuned-Lesion-Classification-HAM10000-AH-60-20-20-Shuffled/checkpoint-1710",
+  "epoch": 14.934497816593886,
+  "global_step": 1710,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "learning_rate": 1.6244314489928526e-07,
+      "loss": 1.9453,
       "step": 5
     },
     {
       "epoch": 0.09,
+      "learning_rate": 3.248862897985705e-07,
+      "loss": 1.9411,
       "step": 10
     },
     {
       "epoch": 0.13,
+      "learning_rate": 4.873294346978557e-07,
+      "loss": 1.9441,
       "step": 15
     },
     {
       "epoch": 0.17,
+      "learning_rate": 6.49772579597141e-07,
+      "loss": 1.9426,
       "step": 20
     },
     {
       "epoch": 0.22,
+      "learning_rate": 8.122157244964262e-07,
+      "loss": 1.941,
       "step": 25
     },
     {
       "epoch": 0.26,
+      "learning_rate": 9.746588693957115e-07,
+      "loss": 1.9436,
       "step": 30
     },
     {
       "epoch": 0.31,
+      "learning_rate": 1.1371020142949968e-06,
+      "loss": 1.9444,
       "step": 35
     },
     {
       "epoch": 0.35,
+      "learning_rate": 1.299545159194282e-06,
+      "loss": 1.942,
       "step": 40
     },
     {
       "epoch": 0.39,
+      "learning_rate": 1.4619883040935671e-06,
+      "loss": 1.9417,
       "step": 45
     },
     {
       "epoch": 0.44,
+      "learning_rate": 1.6244314489928524e-06,
+      "loss": 1.9413,
       "step": 50
     },
     {
       "epoch": 0.48,
+      "learning_rate": 1.7868745938921377e-06,
+      "loss": 1.9417,
       "step": 55
     },
     {
       "epoch": 0.52,
+      "learning_rate": 1.949317738791423e-06,
+      "loss": 1.9326,
       "step": 60
     },
     {
       "epoch": 0.57,
+      "learning_rate": 2.1117608836907083e-06,
+      "loss": 1.9317,
       "step": 65
     },
     {
       "epoch": 0.61,
+      "learning_rate": 2.2742040285899936e-06,
       "loss": 1.9269,
       "step": 70
     },
     {
       "epoch": 0.66,
+      "learning_rate": 2.436647173489279e-06,
+      "loss": 1.9216,
       "step": 75
     },
     {
       "epoch": 0.7,
+      "learning_rate": 2.599090318388564e-06,
+      "loss": 1.9201,
       "step": 80
     },
     {
       "epoch": 0.74,
+      "learning_rate": 2.7615334632878494e-06,
+      "loss": 1.926,
       "step": 85
     },
     {
       "epoch": 0.79,
+      "learning_rate": 2.9239766081871343e-06,
+      "loss": 1.9273,
       "step": 90
     },
     {
       "epoch": 0.83,
+      "learning_rate": 3.0864197530864196e-06,
+      "loss": 1.9209,
       "step": 95
     },
     {
       "epoch": 0.87,
+      "learning_rate": 3.248862897985705e-06,
+      "loss": 1.9173,
       "step": 100
     },
     {
       "epoch": 0.92,
+      "learning_rate": 3.41130604288499e-06,
+      "loss": 1.911,
       "step": 105
     },
     {
       "epoch": 0.96,
+      "learning_rate": 3.5737491877842754e-06,
+      "loss": 1.8937,
       "step": 110
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.31444991789819376,
+      "eval_loss": 1.904041051864624,
+      "eval_runtime": 616.7304,
+      "eval_samples_per_second": 1.975,
+      "eval_steps_per_second": 0.125,
       "step": 114
     },
     {
       "epoch": 1.0,
+      "learning_rate": 3.7361923326835607e-06,
+      "loss": 1.9124,
       "step": 115
     },
     {
       "epoch": 1.05,
+      "learning_rate": 3.898635477582846e-06,
+      "loss": 1.8871,
       "step": 120
     },
     {
       "epoch": 1.09,
+      "learning_rate": 4.061078622482131e-06,
+      "loss": 1.8914,
       "step": 125
     },
     {
       "epoch": 1.14,
+      "learning_rate": 4.2235217673814166e-06,
+      "loss": 1.8914,
       "step": 130
     },
     {
       "epoch": 1.18,
+      "learning_rate": 4.3859649122807014e-06,
+      "loss": 1.8827,
       "step": 135
     },
     {
       "epoch": 1.22,
+      "learning_rate": 4.548408057179987e-06,
+      "loss": 1.8704,
       "step": 140
     },
     {
       "epoch": 1.27,
+      "learning_rate": 4.710851202079272e-06,
+      "loss": 1.8753,
       "step": 145
     },
     {
       "epoch": 1.31,
+      "learning_rate": 4.873294346978558e-06,
+      "loss": 1.8738,
       "step": 150
     },
     {
       "epoch": 1.35,
+      "learning_rate": 5.0357374918778426e-06,
+      "loss": 1.8556,
       "step": 155
     },
     {
       "epoch": 1.4,
+      "learning_rate": 5.198180636777128e-06,
+      "loss": 1.8545,
       "step": 160
     },
     {
       "epoch": 1.44,
+      "learning_rate": 5.360623781676413e-06,
+      "loss": 1.8496,
       "step": 165
     },
     {
       "epoch": 1.48,
+      "learning_rate": 5.523066926575699e-06,
+      "loss": 1.8479,
       "step": 170
     },
     {
       "epoch": 1.53,
+      "learning_rate": 5.685510071474984e-06,
+      "loss": 1.8349,
       "step": 175
     },
     {
       "epoch": 1.57,
+      "learning_rate": 5.8479532163742686e-06,
+      "loss": 1.8179,
       "step": 180
     },
     {
       "epoch": 1.62,
+      "learning_rate": 6.010396361273554e-06,
+      "loss": 1.8176,
       "step": 185
     },
     {
       "epoch": 1.66,
+      "learning_rate": 6.172839506172839e-06,
+      "loss": 1.792,
       "step": 190
     },
     {
       "epoch": 1.7,
+      "learning_rate": 6.335282651072125e-06,
+      "loss": 1.7878,
       "step": 195
     },
     {
       "epoch": 1.75,
+      "learning_rate": 6.49772579597141e-06,
+      "loss": 1.7465,
       "step": 200
     },
     {
       "epoch": 1.79,
+      "learning_rate": 6.660168940870695e-06,
+      "loss": 1.7532,
       "step": 205
     },
     {
       "epoch": 1.83,
+      "learning_rate": 6.82261208576998e-06,
+      "loss": 1.745,
       "step": 210
     },
     {
       "epoch": 1.88,
+      "learning_rate": 6.985055230669266e-06,
+      "loss": 1.7252,
       "step": 215
     },
     {
       "epoch": 1.92,
+      "learning_rate": 7.147498375568551e-06,
+      "loss": 1.7058,
       "step": 220
     },
     {
       "epoch": 1.97,
+      "learning_rate": 7.3099415204678366e-06,
+      "loss": 1.7208,
       "step": 225
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5632183908045977,
+      "eval_loss": 1.6890546083450317,
+      "eval_runtime": 40.5734,
+      "eval_samples_per_second": 30.02,
+      "eval_steps_per_second": 1.898,
       "step": 229
     },
     {
       "epoch": 2.01,
+      "learning_rate": 7.4723846653671214e-06,
+      "loss": 1.6461,
       "step": 230
     },
     {
       "epoch": 2.05,
+      "learning_rate": 7.634827810266407e-06,
+      "loss": 1.6444,
       "step": 235
     },
     {
       "epoch": 2.1,
+      "learning_rate": 7.797270955165692e-06,
+      "loss": 1.6875,
       "step": 240
     },
     {
       "epoch": 2.14,
+      "learning_rate": 7.959714100064977e-06,
+      "loss": 1.6254,
       "step": 245
     },
     {
       "epoch": 2.18,
+      "learning_rate": 8.122157244964262e-06,
+      "loss": 1.6179,
       "step": 250
     },
     {
       "epoch": 2.23,
+      "learning_rate": 8.284600389863548e-06,
+      "loss": 1.5889,
       "step": 255
     },
     {
       "epoch": 2.27,
+      "learning_rate": 8.447043534762833e-06,
+      "loss": 1.6202,
       "step": 260
     },
     {
       "epoch": 2.31,
+      "learning_rate": 8.609486679662118e-06,
+      "loss": 1.5886,
       "step": 265
     },
     {
       "epoch": 2.36,
+      "learning_rate": 8.771929824561403e-06,
+      "loss": 1.5682,
       "step": 270
     },
     {
       "epoch": 2.4,
+      "learning_rate": 8.93437296946069e-06,
+      "loss": 1.5373,
       "step": 275
     },
     {
       "epoch": 2.45,
+      "learning_rate": 9.096816114359974e-06,
+      "loss": 1.5263,
       "step": 280
     },
     {
       "epoch": 2.49,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 1.5475,
       "step": 285
     },
     {
       "epoch": 2.53,
+      "learning_rate": 9.421702404158544e-06,
+      "loss": 1.505,
       "step": 290
     },
     {
       "epoch": 2.58,
+      "learning_rate": 9.584145549057829e-06,
+      "loss": 1.5201,
       "step": 295
     },
     {
       "epoch": 2.62,
+      "learning_rate": 9.746588693957115e-06,
+      "loss": 1.5083,
       "step": 300
     },
     {
       "epoch": 2.66,
+      "learning_rate": 9.9090318388564e-06,
+      "loss": 1.4397,
       "step": 305
     },
     {
       "epoch": 2.71,
+      "learning_rate": 1.0071474983755685e-05,
+      "loss": 1.4664,
       "step": 310
     },
     {
       "epoch": 2.75,
+      "learning_rate": 1.023391812865497e-05,
+      "loss": 1.5037,
       "step": 315
     },
     {
       "epoch": 2.79,
+      "learning_rate": 1.0396361273554257e-05,
+      "loss": 1.4622,
       "step": 320
     },
     {
       "epoch": 2.84,
+      "learning_rate": 1.0558804418453541e-05,
+      "loss": 1.4399,
       "step": 325
     },
     {
       "epoch": 2.88,
+      "learning_rate": 1.0721247563352826e-05,
+      "loss": 1.4542,
       "step": 330
     },
     {
       "epoch": 2.93,
+      "learning_rate": 1.0883690708252111e-05,
+      "loss": 1.3944,
       "step": 335
     },
     {
       "epoch": 2.97,
+      "learning_rate": 1.1046133853151398e-05,
+      "loss": 1.3822,
       "step": 340
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6896551724137931,
+      "eval_loss": 1.3553680181503296,
+      "eval_runtime": 40.9111,
+      "eval_samples_per_second": 29.772,
+      "eval_steps_per_second": 1.882,
       "step": 343
     },
     {
       "epoch": 3.01,
+      "learning_rate": 1.1208576998050683e-05,
+      "loss": 1.4175,
       "step": 345
     },
     {
       "epoch": 3.06,
+      "learning_rate": 1.1371020142949967e-05,
+      "loss": 1.3444,
       "step": 350
     },
     {
       "epoch": 3.1,
+      "learning_rate": 1.1533463287849252e-05,
+      "loss": 1.3079,
       "step": 355
     },
     {
       "epoch": 3.14,
+      "learning_rate": 1.1695906432748537e-05,
+      "loss": 1.3218,
       "step": 360
     },
     {
       "epoch": 3.19,
+      "learning_rate": 1.1858349577647824e-05,
+      "loss": 1.4138,
       "step": 365
     },
     {
       "epoch": 3.23,
+      "learning_rate": 1.2020792722547109e-05,
+      "loss": 1.2797,
       "step": 370
     },
     {
       "epoch": 3.28,
+      "learning_rate": 1.2183235867446393e-05,
+      "loss": 1.2803,
       "step": 375
     },
     {
       "epoch": 3.32,
+      "learning_rate": 1.2345679012345678e-05,
+      "loss": 1.2611,
       "step": 380
     },
     {
       "epoch": 3.36,
+      "learning_rate": 1.2508122157244965e-05,
+      "loss": 1.2967,
       "step": 385
     },
     {
       "epoch": 3.41,
+      "learning_rate": 1.267056530214425e-05,
+      "loss": 1.2756,
       "step": 390
     },
     {
       "epoch": 3.45,
+      "learning_rate": 1.2833008447043535e-05,
+      "loss": 1.2863,
       "step": 395
     },
     {
       "epoch": 3.49,
+      "learning_rate": 1.299545159194282e-05,
+      "loss": 1.2217,
       "step": 400
     },
     {
       "epoch": 3.54,
+      "learning_rate": 1.3157894736842106e-05,
+      "loss": 1.2313,
       "step": 405
     },
     {
       "epoch": 3.58,
+      "learning_rate": 1.332033788174139e-05,
+      "loss": 1.159,
       "step": 410
     },
     {
       "epoch": 3.62,
+      "learning_rate": 1.3482781026640676e-05,
+      "loss": 1.1975,
       "step": 415
     },
     {
       "epoch": 3.67,
+      "learning_rate": 1.364522417153996e-05,
+      "loss": 1.1318,
       "step": 420
     },
     {
       "epoch": 3.71,
+      "learning_rate": 1.3807667316439245e-05,
+      "loss": 1.2315,
       "step": 425
     },
     {
       "epoch": 3.76,
+      "learning_rate": 1.3970110461338532e-05,
+      "loss": 1.1827,
       "step": 430
     },
     {
       "epoch": 3.8,
+      "learning_rate": 1.4132553606237817e-05,
+      "loss": 1.1353,
       "step": 435
     },
     {
       "epoch": 3.84,
+      "learning_rate": 1.4294996751137102e-05,
+      "loss": 1.1391,
       "step": 440
     },
     {
       "epoch": 3.89,
+      "learning_rate": 1.4457439896036387e-05,
+      "loss": 1.1578,
       "step": 445
     },
     {
       "epoch": 3.93,
+      "learning_rate": 1.4619883040935673e-05,
+      "loss": 1.0354,
       "step": 450
     },
     {
       "epoch": 3.97,
+      "learning_rate": 1.4782326185834958e-05,
+      "loss": 1.1497,
       "step": 455
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.5755336617405583,
+      "eval_loss": 1.2437011003494263,
+      "eval_runtime": 40.5859,
+      "eval_samples_per_second": 30.01,
+      "eval_steps_per_second": 1.897,
       "step": 458
     },
     {
       "epoch": 4.02,
+      "learning_rate": 1.4944769330734243e-05,
+      "loss": 1.1786,
       "step": 460
     },
     {
       "epoch": 4.06,
+      "learning_rate": 1.5107212475633528e-05,
+      "loss": 1.1497,
       "step": 465
     },
     {
       "epoch": 4.1,
+      "learning_rate": 1.5269655620532814e-05,
+      "loss": 0.97,
       "step": 470
     },
     {
       "epoch": 4.15,
+      "learning_rate": 1.54320987654321e-05,
+      "loss": 1.0531,
       "step": 475
     },
     {
       "epoch": 4.19,
+      "learning_rate": 1.5594541910331384e-05,
+      "loss": 1.0656,
       "step": 480
     },
     {
       "epoch": 4.24,
+      "learning_rate": 1.575698505523067e-05,
+      "loss": 1.0906,
       "step": 485
     },
     {
       "epoch": 4.28,
+      "learning_rate": 1.5919428200129954e-05,
+      "loss": 1.055,
       "step": 490
     },
     {
       "epoch": 4.32,
+      "learning_rate": 1.608187134502924e-05,
+      "loss": 0.9732,
       "step": 495
     },
     {
       "epoch": 4.37,
+      "learning_rate": 1.6244314489928523e-05,
+      "loss": 0.9716,
       "step": 500
     },
     {
       "epoch": 4.41,
+      "learning_rate": 1.640675763482781e-05,
+      "loss": 0.9626,
       "step": 505
     },
     {
       "epoch": 4.45,
+      "learning_rate": 1.6569200779727097e-05,
+      "loss": 1.0368,
       "step": 510
     },
     {
       "epoch": 4.5,
+      "learning_rate": 1.673164392462638e-05,
+      "loss": 1.0035,
       "step": 515
     },
     {
       "epoch": 4.54,
+      "learning_rate": 1.6894087069525666e-05,
+      "loss": 1.0017,
       "step": 520
     },
     {
       "epoch": 4.59,
+      "learning_rate": 1.705653021442495e-05,
+      "loss": 1.0096,
       "step": 525
     },
     {
       "epoch": 4.63,
+      "learning_rate": 1.7218973359324236e-05,
+      "loss": 0.9619,
       "step": 530
     },
     {
       "epoch": 4.67,
+      "learning_rate": 1.738141650422352e-05,
+      "loss": 1.0007,
       "step": 535
     },
     {
       "epoch": 4.72,
+      "learning_rate": 1.7543859649122806e-05,
+      "loss": 1.011,
       "step": 540
     },
     {
       "epoch": 4.76,
+      "learning_rate": 1.770630279402209e-05,
+      "loss": 0.9446,
       "step": 545
     },
     {
       "epoch": 4.8,
+      "learning_rate": 1.786874593892138e-05,
+      "loss": 0.9822,
       "step": 550
     },
     {
       "epoch": 4.85,
+      "learning_rate": 1.8031189083820664e-05,
+      "loss": 0.893,
       "step": 555
     },
     {
       "epoch": 4.89,
+      "learning_rate": 1.819363222871995e-05,
+      "loss": 0.9674,
       "step": 560
     },
     {
       "epoch": 4.93,
+      "learning_rate": 1.8356075373619233e-05,
+      "loss": 0.9752,
       "step": 565
     },
     {
       "epoch": 4.98,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.8979,
       "step": 570
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7701149425287356,
+      "eval_loss": 0.8547766208648682,
+      "eval_runtime": 40.6835,
+      "eval_samples_per_second": 29.938,
+      "eval_steps_per_second": 1.893,
       "step": 572
     },
     {
       "epoch": 5.02,
+      "learning_rate": 1.8680961663417803e-05,
+      "loss": 0.8804,
       "step": 575
     },
     {
       "epoch": 5.07,
+      "learning_rate": 1.8843404808317088e-05,
+      "loss": 0.8632,
       "step": 580
     },
     {
       "epoch": 5.11,
+      "learning_rate": 1.9005847953216373e-05,
+      "loss": 0.8972,
       "step": 585
     },
     {
       "epoch": 5.15,
+      "learning_rate": 1.9168291098115658e-05,
+      "loss": 0.9237,
       "step": 590
     },
     {
       "epoch": 5.2,
+      "learning_rate": 1.9330734243014946e-05,
+      "loss": 0.8721,
       "step": 595
     },
     {
       "epoch": 5.24,
+      "learning_rate": 1.949317738791423e-05,
+      "loss": 0.877,
       "step": 600
     },
     {
       "epoch": 5.28,
+      "learning_rate": 1.9655620532813516e-05,
+      "loss": 0.7675,
       "step": 605
     },
     {
       "epoch": 5.33,
+      "learning_rate": 1.98180636777128e-05,
+      "loss": 0.8211,
       "step": 610
     },
     {
       "epoch": 5.37,
+      "learning_rate": 1.9980506822612085e-05,
+      "loss": 0.8718,
       "step": 615
     },
     {
       "epoch": 5.41,
+      "learning_rate": 2.014294996751137e-05,
+      "loss": 0.8683,
       "step": 620
     },
     {
       "epoch": 5.46,
+      "learning_rate": 2.0305393112410655e-05,
+      "loss": 0.8462,
       "step": 625
     },
     {
       "epoch": 5.5,
+      "learning_rate": 2.046783625730994e-05,
+      "loss": 0.7876,
       "step": 630
     },
     {
       "epoch": 5.55,
+      "learning_rate": 2.0630279402209228e-05,
+      "loss": 0.7767,
       "step": 635
     },
     {
       "epoch": 5.59,
+      "learning_rate": 2.0792722547108513e-05,
+      "loss": 0.807,
       "step": 640
     },
     {
       "epoch": 5.63,
+      "learning_rate": 2.0955165692007798e-05,
+      "loss": 0.8431,
       "step": 645
     },
     {
       "epoch": 5.68,
+      "learning_rate": 2.1117608836907083e-05,
+      "loss": 0.8107,
       "step": 650
     },
     {
       "epoch": 5.72,
+      "learning_rate": 2.1280051981806368e-05,
+      "loss": 0.7945,
       "step": 655
     },
     {
       "epoch": 5.76,
+      "learning_rate": 2.1442495126705653e-05,
+      "loss": 0.8266,
       "step": 660
     },
     {
       "epoch": 5.81,
+      "learning_rate": 2.1604938271604937e-05,
+      "loss": 0.6723,
       "step": 665
     },
     {
       "epoch": 5.85,
+      "learning_rate": 2.1767381416504222e-05,
+      "loss": 0.7881,
       "step": 670
     },
     {
       "epoch": 5.9,
+      "learning_rate": 2.1929824561403507e-05,
+      "loss": 0.7899,
       "step": 675
     },
     {
       "epoch": 5.94,
+      "learning_rate": 2.2092267706302795e-05,
+      "loss": 0.7952,
       "step": 680
     },
     {
       "epoch": 5.98,
+      "learning_rate": 2.225471085120208e-05,
+      "loss": 0.6382,
       "step": 685
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8423645320197044,
+      "eval_loss": 0.635892391204834,
+      "eval_runtime": 40.9628,
+      "eval_samples_per_second": 29.734,
+      "eval_steps_per_second": 1.88,
       "step": 687
     },
     {
       "epoch": 6.03,
+      "learning_rate": 2.2417153996101365e-05,
+      "loss": 0.6826,
       "step": 690
     },
     {
       "epoch": 6.07,
+      "learning_rate": 2.257959714100065e-05,
+      "loss": 0.7219,
       "step": 695
     },
     {
       "epoch": 6.11,
+      "learning_rate": 2.2742040285899935e-05,
+      "loss": 0.6355,
       "step": 700
     },
     {
       "epoch": 6.16,
+      "learning_rate": 2.290448343079922e-05,
+      "loss": 0.7145,
       "step": 705
     },
     {
       "epoch": 6.2,
+      "learning_rate": 2.3066926575698505e-05,
+      "loss": 0.776,
       "step": 710
     },
     {
       "epoch": 6.24,
+      "learning_rate": 2.322936972059779e-05,
+      "loss": 0.7932,
       "step": 715
     },
     {
       "epoch": 6.29,
+      "learning_rate": 2.3391812865497074e-05,
+      "loss": 0.7708,
       "step": 720
     },
     {
       "epoch": 6.33,
+      "learning_rate": 2.3554256010396363e-05,
+      "loss": 1.0012,
       "step": 725
     },
     {
       "epoch": 6.38,
+      "learning_rate": 2.3716699155295647e-05,
+      "loss": 0.877,
       "step": 730
     },
     {
       "epoch": 6.42,
+      "learning_rate": 2.3879142300194932e-05,
+      "loss": 0.853,
       "step": 735
     },
     {
       "epoch": 6.46,
+      "learning_rate": 2.4041585445094217e-05,
+      "loss": 0.7479,
       "step": 740
     },
     {
       "epoch": 6.51,
+      "learning_rate": 2.4204028589993502e-05,
+      "loss": 0.7461,
       "step": 745
     },
     {
       "epoch": 6.55,
+      "learning_rate": 2.4366471734892787e-05,
+      "loss": 0.69,
       "step": 750
     },
     {
       "epoch": 6.59,
+      "learning_rate": 2.4528914879792072e-05,
+      "loss": 0.7074,
       "step": 755
     },
     {
       "epoch": 6.64,
+      "learning_rate": 2.4691358024691357e-05,
+      "loss": 0.8053,
       "step": 760
     },
     {
       "epoch": 6.68,
+      "learning_rate": 2.485380116959064e-05,
+      "loss": 0.7961,
       "step": 765
     },
     {
       "epoch": 6.72,
+      "learning_rate": 2.501624431448993e-05,
+      "loss": 0.5924,
       "step": 770
     },
     {
       "epoch": 6.77,
+      "learning_rate": 2.5178687459389218e-05,
+      "loss": 0.7107,
       "step": 775
     },
     {
       "epoch": 6.81,
+      "learning_rate": 2.53411306042885e-05,
+      "loss": 0.6898,
       "step": 780
     },
     {
       "epoch": 6.86,
+      "learning_rate": 2.5503573749187788e-05,
+      "loss": 0.4885,
       "step": 785
     },
     {
       "epoch": 6.9,
+      "learning_rate": 2.566601689408707e-05,
+      "loss": 0.506,
       "step": 790
     },
     {
       "epoch": 6.94,
+      "learning_rate": 2.5828460038986357e-05,
+      "loss": 0.62,
       "step": 795
     },
     {
       "epoch": 6.99,
+      "learning_rate": 2.599090318388564e-05,
+      "loss": 0.583,
       "step": 800
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.896551724137931,
+      "eval_loss": 0.4686902165412903,
+      "eval_runtime": 40.488,
+      "eval_samples_per_second": 30.083,
+      "eval_steps_per_second": 1.902,
       "step": 801
     },
     {
       "epoch": 7.03,
+      "learning_rate": 2.6153346328784927e-05,
+      "loss": 0.4595,
       "step": 805
     },
     {
       "epoch": 7.07,
+      "learning_rate": 2.6315789473684212e-05,
+      "loss": 0.7041,
       "step": 810
     },
     {
       "epoch": 7.12,
+      "learning_rate": 2.6478232618583497e-05,
+      "loss": 0.6583,
       "step": 815
     },
     {
       "epoch": 7.16,
+      "learning_rate": 2.664067576348278e-05,
+      "loss": 0.5882,
       "step": 820
     },
     {
       "epoch": 7.21,
+      "learning_rate": 2.680311890838207e-05,
+      "loss": 0.6583,
       "step": 825
     },
     {
       "epoch": 7.25,
+      "learning_rate": 2.696556205328135e-05,
+      "loss": 0.5782,
       "step": 830
     },
     {
       "epoch": 7.29,
+      "learning_rate": 2.712800519818064e-05,
+      "loss": 0.6136,
       "step": 835
     },
     {
       "epoch": 7.34,
+      "learning_rate": 2.729044834307992e-05,
+      "loss": 0.5521,
       "step": 840
     },
     {
       "epoch": 7.38,
+      "learning_rate": 2.745289148797921e-05,
+      "loss": 0.5885,
       "step": 845
     },
     {
       "epoch": 7.42,
+      "learning_rate": 2.761533463287849e-05,
+      "loss": 0.6475,
       "step": 850
     },
     {
       "epoch": 7.47,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.5424,
       "step": 855
     },
     {
       "epoch": 7.51,
+      "learning_rate": 2.7940220922677064e-05,
+      "loss": 0.5995,
       "step": 860
     },
     {
       "epoch": 7.55,
+      "learning_rate": 2.8102664067576352e-05,
+      "loss": 0.4372,
       "step": 865
     },
     {
       "epoch": 7.6,
+      "learning_rate": 2.8265107212475634e-05,
+      "loss": 0.6169,
       "step": 870
     },
     {
       "epoch": 7.64,
+      "learning_rate": 2.8427550357374922e-05,
+      "loss": 0.7263,
       "step": 875
     },
     {
       "epoch": 7.69,
+      "learning_rate": 2.8589993502274203e-05,
+      "loss": 0.5229,
       "step": 880
     },
     {
       "epoch": 7.73,
+      "learning_rate": 2.875243664717349e-05,
+      "loss": 0.5604,
       "step": 885
     },
     {
       "epoch": 7.77,
+      "learning_rate": 2.8914879792072773e-05,
+      "loss": 0.649,
       "step": 890
     },
     {
       "epoch": 7.82,
+      "learning_rate": 2.907732293697206e-05,
+      "loss": 0.5875,
       "step": 895
     },
     {
       "epoch": 7.86,
+      "learning_rate": 2.9239766081871346e-05,
+      "loss": 0.6519,
       "step": 900
     },
     {
       "epoch": 7.9,
+      "learning_rate": 2.9402209226770635e-05,
+      "loss": 0.4926,
       "step": 905
     },
     {
       "epoch": 7.95,
+      "learning_rate": 2.9564652371669916e-05,
+      "loss": 0.5014,
       "step": 910
     },
     {
       "epoch": 7.99,
+      "learning_rate": 2.9727095516569204e-05,
+      "loss": 0.6295,
       "step": 915
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8456486042692939,
+      "eval_loss": 0.502933144569397,
+      "eval_runtime": 40.6293,
+      "eval_samples_per_second": 29.978,
+      "eval_steps_per_second": 1.895,
       "step": 916
     },
     {
       "epoch": 8.03,
+      "learning_rate": 2.9889538661468486e-05,
+      "loss": 0.5978,
       "step": 920
     },
     {
       "epoch": 8.08,
+      "learning_rate": 3.0051981806367774e-05,
+      "loss": 0.5042,
       "step": 925
     },
     {
       "epoch": 8.12,
+      "learning_rate": 3.0214424951267055e-05,
+      "loss": 0.4356,
       "step": 930
     },
     {
       "epoch": 8.17,
+      "learning_rate": 3.0376868096166344e-05,
+      "loss": 0.4456,
       "step": 935
     },
     {
       "epoch": 8.21,
+      "learning_rate": 3.053931124106563e-05,
+      "loss": 0.458,
       "step": 940
     },
     {
       "epoch": 8.25,
+      "learning_rate": 3.0701754385964913e-05,
+      "loss": 0.5482,
       "step": 945
     },
     {
       "epoch": 8.3,
+      "learning_rate": 3.08641975308642e-05,
+      "loss": 0.4893,
       "step": 950
     },
     {
       "epoch": 8.34,
+      "learning_rate": 3.102664067576348e-05,
+      "loss": 0.5415,
       "step": 955
     },
     {
       "epoch": 8.38,
+      "learning_rate": 3.118908382066277e-05,
+      "loss": 0.4136,
       "step": 960
     },
     {
       "epoch": 8.43,
+      "learning_rate": 3.135152696556205e-05,
+      "loss": 0.4674,
       "step": 965
     },
     {
       "epoch": 8.47,
+      "learning_rate": 3.151397011046134e-05,
+      "loss": 0.4243,
       "step": 970
     },
     {
       "epoch": 8.52,
+      "learning_rate": 3.167641325536063e-05,
+      "loss": 0.6295,
       "step": 975
     },
     {
       "epoch": 8.56,
+      "learning_rate": 3.183885640025991e-05,
+      "loss": 0.5712,
       "step": 980
     },
     {
       "epoch": 8.6,
+      "learning_rate": 3.20012995451592e-05,
+      "loss": 0.5626,
       "step": 985
     },
     {
       "epoch": 8.65,
+      "learning_rate": 3.216374269005848e-05,
+      "loss": 0.6171,
       "step": 990
     },
     {
       "epoch": 8.69,
+      "learning_rate": 3.232618583495777e-05,
+      "loss": 0.5435,
       "step": 995
     },
     {
       "epoch": 8.73,
+      "learning_rate": 3.248862897985705e-05,
+      "loss": 0.4296,
       "step": 1000
     },
     {
       "epoch": 8.78,
+      "learning_rate": 3.265107212475634e-05,
+      "loss": 0.4617,
       "step": 1005
     },
     {
       "epoch": 8.82,
+      "learning_rate": 3.281351526965562e-05,
+      "loss": 0.4562,
       "step": 1010
     },
     {
       "epoch": 8.86,
+      "learning_rate": 3.297595841455491e-05,
+      "loss": 0.5265,
       "step": 1015
     },
     {
       "epoch": 8.91,
+      "learning_rate": 3.313840155945419e-05,
+      "loss": 0.3641,
       "step": 1020
     },
     {
       "epoch": 8.95,
+      "learning_rate": 3.330084470435348e-05,
+      "loss": 0.5487,
       "step": 1025
     },
     {
       "epoch": 9.0,
+      "learning_rate": 3.346328784925276e-05,
+      "loss": 0.5367,
       "step": 1030
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.8669950738916257,
+      "eval_loss": 0.47418925166130066,
+      "eval_runtime": 40.7104,
+      "eval_samples_per_second": 29.919,
+      "eval_steps_per_second": 1.891,
       "step": 1030
     },
     {
       "epoch": 9.04,
+      "learning_rate": 3.362573099415205e-05,
+      "loss": 0.6724,
       "step": 1035
     },
     {
       "epoch": 9.08,
+      "learning_rate": 3.378817413905133e-05,
+      "loss": 0.6034,
       "step": 1040
     },
     {
       "epoch": 9.13,
+      "learning_rate": 3.395061728395062e-05,
+      "loss": 0.644,
       "step": 1045
     },
     {
       "epoch": 9.17,
+      "learning_rate": 3.41130604288499e-05,
+      "loss": 0.4588,
       "step": 1050
     },
     {
       "epoch": 9.21,
+      "learning_rate": 3.427550357374919e-05,
+      "loss": 0.477,
       "step": 1055
     },
     {
       "epoch": 9.26,
+      "learning_rate": 3.443794671864847e-05,
+      "loss": 0.4355,
       "step": 1060
     },
     {
       "epoch": 9.3,
+      "learning_rate": 3.4600389863547764e-05,
+      "loss": 0.4206,
       "step": 1065
     },
     {
       "epoch": 9.34,
+      "learning_rate": 3.476283300844704e-05,
+      "loss": 0.4886,
       "step": 1070
     },
     {
       "epoch": 9.39,
+      "learning_rate": 3.492527615334633e-05,
+      "loss": 0.361,
       "step": 1075
     },
     {
       "epoch": 9.43,
+      "learning_rate": 3.508771929824561e-05,
+      "loss": 0.3122,
       "step": 1080
     },
     {
       "epoch": 9.48,
+      "learning_rate": 3.52501624431449e-05,
+      "loss": 0.3294,
       "step": 1085
     },
     {
       "epoch": 9.52,
+      "learning_rate": 3.541260558804418e-05,
+      "loss": 0.4127,
       "step": 1090
     },
     {
       "epoch": 9.56,
+      "learning_rate": 3.557504873294347e-05,
+      "loss": 0.4817,
       "step": 1095
     },
     {
       "epoch": 9.61,
+      "learning_rate": 3.573749187784276e-05,
+      "loss": 0.3645,
       "step": 1100
     },
     {
       "epoch": 9.65,
+      "learning_rate": 3.589993502274204e-05,
+      "loss": 0.3088,
       "step": 1105
     },
     {
       "epoch": 9.69,
+      "learning_rate": 3.606237816764133e-05,
+      "loss": 0.364,
       "step": 1110
     },
     {
       "epoch": 9.74,
+      "learning_rate": 3.622482131254061e-05,
+      "loss": 0.3626,
       "step": 1115
     },
     {
       "epoch": 9.78,
+      "learning_rate": 3.63872644574399e-05,
+      "loss": 0.3565,
       "step": 1120
     },
     {
       "epoch": 9.83,
+      "learning_rate": 3.654970760233918e-05,
+      "loss": 0.3839,
       "step": 1125
     },
     {
       "epoch": 9.87,
+      "learning_rate": 3.671215074723847e-05,
+      "loss": 0.397,
       "step": 1130
     },
     {
       "epoch": 9.91,
+      "learning_rate": 3.687459389213775e-05,
+      "loss": 0.5443,
       "step": 1135
     },
     {
       "epoch": 9.96,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.4872,
       "step": 1140
     },
     {
       "epoch": 10.0,
+      "learning_rate": 3.719948018193632e-05,
+      "loss": 0.5091,
       "step": 1145
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.9211822660098522,
+      "eval_loss": 0.3038104474544525,
+      "eval_runtime": 40.7057,
+      "eval_samples_per_second": 29.922,
+      "eval_steps_per_second": 1.892,
       "step": 1145
     },
     {
       "epoch": 10.04,
+      "learning_rate": 3.7361923326835606e-05,
+      "loss": 0.2693,
       "step": 1150
     },
     {
       "epoch": 10.09,
+      "learning_rate": 3.75243664717349e-05,
+      "loss": 0.258,
       "step": 1155
     },
     {
       "epoch": 10.13,
+      "learning_rate": 3.7686809616634176e-05,
+      "loss": 0.4722,
       "step": 1160
     },
     {
       "epoch": 10.17,
+      "learning_rate": 3.784925276153347e-05,
+      "loss": 0.3623,
       "step": 1165
     },
     {
       "epoch": 10.22,
+      "learning_rate": 3.8011695906432746e-05,
+      "loss": 0.4347,
       "step": 1170
     },
     {
       "epoch": 10.26,
+      "learning_rate": 3.817413905133204e-05,
+      "loss": 0.5497,
       "step": 1175
     },
     {
       "epoch": 10.31,
+      "learning_rate": 3.8336582196231315e-05,
+      "loss": 0.4095,
       "step": 1180
     },
     {
       "epoch": 10.35,
+      "learning_rate": 3.849902534113061e-05,
+      "loss": 0.3934,
       "step": 1185
     },
     {
       "epoch": 10.39,
+      "learning_rate": 3.866146848602989e-05,
+      "loss": 0.4325,
       "step": 1190
     },
     {
       "epoch": 10.44,
+      "learning_rate": 3.882391163092918e-05,
+      "loss": 0.5688,
       "step": 1195
     },
     {
       "epoch": 10.48,
+      "learning_rate": 3.898635477582846e-05,
+      "loss": 0.5056,
       "step": 1200
     },
     {
       "epoch": 10.52,
+      "learning_rate": 3.9148797920727747e-05,
+      "loss": 0.5651,
       "step": 1205
     },
     {
       "epoch": 10.57,
+      "learning_rate": 3.931124106562703e-05,
+      "loss": 0.3713,
       "step": 1210
     },
     {
       "epoch": 10.61,
+      "learning_rate": 3.9473684210526316e-05,
+      "loss": 0.4504,
       "step": 1215
     },
     {
       "epoch": 10.66,
+      "learning_rate": 3.96361273554256e-05,
+      "loss": 0.4941,
       "step": 1220
     },
     {
       "epoch": 10.7,
+      "learning_rate": 3.9798570500324886e-05,
+      "loss": 0.4764,
       "step": 1225
     },
     {
       "epoch": 10.74,
+      "learning_rate": 3.996101364522417e-05,
+      "loss": 0.392,
       "step": 1230
     },
     {
       "epoch": 10.79,
+      "learning_rate": 4.012345679012346e-05,
+      "loss": 0.5135,
       "step": 1235
     },
     {
       "epoch": 10.83,
+      "learning_rate": 4.028589993502274e-05,
+      "loss": 0.3799,
       "step": 1240
     },
     {
       "epoch": 10.87,
+      "learning_rate": 4.044834307992203e-05,
+      "loss": 0.3701,
       "step": 1245
     },
     {
       "epoch": 10.92,
+      "learning_rate": 4.061078622482131e-05,
+      "loss": 0.3229,
       "step": 1250
     },
     {
       "epoch": 10.96,
+      "learning_rate": 4.07732293697206e-05,
+      "loss": 0.3521,
       "step": 1255
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.9605911330049262,
+      "eval_loss": 0.18549488484859467,
+      "eval_runtime": 40.628,
+      "eval_samples_per_second": 29.979,
+      "eval_steps_per_second": 1.895,
       "step": 1259
     },
     {
       "epoch": 11.0,
+      "learning_rate": 4.093567251461988e-05,
+      "loss": 0.3195,
       "step": 1260
     },
     {
       "epoch": 11.05,
+      "learning_rate": 4.109811565951917e-05,
+      "loss": 0.3136,
       "step": 1265
     },
     {
       "epoch": 11.09,
+      "learning_rate": 4.1260558804418457e-05,
+      "loss": 0.2692,
       "step": 1270
     },
     {
       "epoch": 11.14,
+      "learning_rate": 4.142300194931774e-05,
+      "loss": 0.3812,
       "step": 1275
     },
     {
       "epoch": 11.18,
+      "learning_rate": 4.1585445094217026e-05,
+      "loss": 0.375,
       "step": 1280
     },
     {
       "epoch": 11.22,
+      "learning_rate": 4.174788823911631e-05,
+      "loss": 0.3822,
       "step": 1285
     },
     {
       "epoch": 11.27,
+      "learning_rate": 4.1910331384015596e-05,
+      "loss": 0.3694,
       "step": 1290
     },
     {
       "epoch": 11.31,
+      "learning_rate": 4.207277452891488e-05,
+      "loss": 0.341,
       "step": 1295
     },
     {
       "epoch": 11.35,
+      "learning_rate": 4.2235217673814166e-05,
+      "loss": 0.2623,
       "step": 1300
     },
     {
       "epoch": 11.4,
+      "learning_rate": 4.239766081871345e-05,
+      "loss": 0.4251,
       "step": 1305
     },
     {
       "epoch": 11.44,
+      "learning_rate": 4.2560103963612735e-05,
+      "loss": 0.489,
       "step": 1310
     },
     {
       "epoch": 11.48,
+      "learning_rate": 4.272254710851202e-05,
+      "loss": 0.2665,
       "step": 1315
     },
     {
       "epoch": 11.53,
+      "learning_rate": 4.2884990253411305e-05,
+      "loss": 0.2983,
       "step": 1320
     },
     {
       "epoch": 11.57,
+      "learning_rate": 4.30474333983106e-05,
+      "loss": 0.3795,
       "step": 1325
     },
     {
       "epoch": 11.62,
+      "learning_rate": 4.3209876543209875e-05,
+      "loss": 0.2786,
       "step": 1330
     },
     {
       "epoch": 11.66,
+      "learning_rate": 4.3372319688109166e-05,
+      "loss": 0.2519,
       "step": 1335
     },
     {
       "epoch": 11.7,
+      "learning_rate": 4.3534762833008445e-05,
+      "loss": 0.3996,
       "step": 1340
     },
     {
       "epoch": 11.75,
+      "learning_rate": 4.3697205977907736e-05,
+      "loss": 0.4282,
       "step": 1345
     },
     {
       "epoch": 11.79,
+      "learning_rate": 4.3859649122807014e-05,
+      "loss": 0.5874,
       "step": 1350
     },
     {
       "epoch": 11.83,
+      "learning_rate": 4.4022092267706306e-05,
+      "loss": 0.4892,
       "step": 1355
     },
     {
       "epoch": 11.88,
+      "learning_rate": 4.418453541260559e-05,
+      "loss": 0.3275,
       "step": 1360
     },
     {
       "epoch": 11.92,
+      "learning_rate": 4.4346978557504876e-05,
+      "loss": 0.2496,
       "step": 1365
     },
     {
+      "epoch": 11.97,
+      "learning_rate": 4.450942170240416e-05,
+      "loss": 0.318,
+      "step": 1370
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.9573070607553367,
+      "eval_loss": 0.1892772614955902,
+      "eval_runtime": 40.7256,
+      "eval_samples_per_second": 29.908,
+      "eval_steps_per_second": 1.891,
+      "step": 1374
+    },
+    {
+      "epoch": 12.01,
+      "learning_rate": 4.4671864847303445e-05,
+      "loss": 0.2485,
+      "step": 1375
+    },
+    {
+      "epoch": 12.05,
+      "learning_rate": 4.483430799220273e-05,
+      "loss": 0.2923,
+      "step": 1380
+    },
+    {
+      "epoch": 12.1,
+      "learning_rate": 4.4996751137102015e-05,
+      "loss": 0.2871,
+      "step": 1385
+    },
+    {
+      "epoch": 12.14,
+      "learning_rate": 4.51591942820013e-05,
+      "loss": 0.4304,
+      "step": 1390
+    },
+    {
+      "epoch": 12.18,
+      "learning_rate": 4.5321637426900585e-05,
+      "loss": 0.374,
+      "step": 1395
+    },
+    {
+      "epoch": 12.23,
+      "learning_rate": 4.548408057179987e-05,
+      "loss": 0.3159,
+      "step": 1400
+    },
+    {
+      "epoch": 12.27,
+      "learning_rate": 4.5646523716699155e-05,
+      "loss": 0.3889,
+      "step": 1405
+    },
+    {
+      "epoch": 12.31,
+      "learning_rate": 4.580896686159844e-05,
+      "loss": 0.3718,
+      "step": 1410
+    },
+    {
+      "epoch": 12.36,
+      "learning_rate": 4.597141000649773e-05,
+      "loss": 0.235,
+      "step": 1415
+    },
+    {
+      "epoch": 12.4,
+      "learning_rate": 4.613385315139701e-05,
+      "loss": 0.3755,
+      "step": 1420
+    },
+    {
+      "epoch": 12.45,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.3717,
+      "step": 1425
+    },
+    {
+      "epoch": 12.49,
+      "learning_rate": 4.645873944119558e-05,
+      "loss": 0.2505,
+      "step": 1430
+    },
+    {
+      "epoch": 12.53,
+      "learning_rate": 4.662118258609487e-05,
+      "loss": 0.2414,
+      "step": 1435
+    },
+    {
+      "epoch": 12.58,
+      "learning_rate": 4.678362573099415e-05,
+      "loss": 0.2584,
+      "step": 1440
+    },
+    {
+      "epoch": 12.62,
+      "learning_rate": 4.694606887589344e-05,
+      "loss": 0.2999,
+      "step": 1445
+    },
+    {
+      "epoch": 12.66,
+      "learning_rate": 4.7108512020792725e-05,
+      "loss": 0.2287,
+      "step": 1450
+    },
+    {
+      "epoch": 12.71,
+      "learning_rate": 4.727095516569201e-05,
+      "loss": 0.2235,
+      "step": 1455
+    },
+    {
+      "epoch": 12.75,
+      "learning_rate": 4.7433398310591295e-05,
+      "loss": 0.2618,
+      "step": 1460
+    },
+    {
+      "epoch": 12.79,
+      "learning_rate": 4.759584145549058e-05,
+      "loss": 0.3309,
+      "step": 1465
+    },
+    {
+      "epoch": 12.84,
+      "learning_rate": 4.7758284600389865e-05,
+      "loss": 0.3737,
+      "step": 1470
+    },
+    {
+      "epoch": 12.88,
+      "learning_rate": 4.792072774528915e-05,
+      "loss": 0.3204,
+      "step": 1475
+    },
+    {
+      "epoch": 12.93,
+      "learning_rate": 4.8083170890188434e-05,
+      "loss": 0.3666,
+      "step": 1480
+    },
+    {
+      "epoch": 12.97,
+      "learning_rate": 4.824561403508772e-05,
+      "loss": 0.2725,
+      "step": 1485
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.9408866995073891,
+      "eval_loss": 0.22919727861881256,
+      "eval_runtime": 40.7292,
+      "eval_samples_per_second": 29.905,
+      "eval_steps_per_second": 1.891,
+      "step": 1488
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 4.8408057179987004e-05,
+      "loss": 0.2363,
+      "step": 1490
+    },
+    {
+      "epoch": 13.06,
+      "learning_rate": 4.857050032488629e-05,
+      "loss": 0.3268,
+      "step": 1495
+    },
+    {
+      "epoch": 13.1,
+      "learning_rate": 4.8732943469785574e-05,
+      "loss": 0.3668,
+      "step": 1500
+    },
+    {
+      "epoch": 13.14,
+      "learning_rate": 4.8895386614684865e-05,
+      "loss": 0.3087,
+      "step": 1505
+    },
+    {
+      "epoch": 13.19,
+      "learning_rate": 4.9057829759584143e-05,
+      "loss": 0.26,
+      "step": 1510
+    },
+    {
+      "epoch": 13.23,
+      "learning_rate": 4.9220272904483435e-05,
+      "loss": 0.3764,
+      "step": 1515
+    },
+    {
+      "epoch": 13.28,
+      "learning_rate": 4.938271604938271e-05,
+      "loss": 0.4524,
+      "step": 1520
+    },
+    {
+      "epoch": 13.32,
+      "learning_rate": 4.9545159194282005e-05,
+      "loss": 0.3772,
+      "step": 1525
+    },
+    {
+      "epoch": 13.36,
+      "learning_rate": 4.970760233918128e-05,
+      "loss": 0.3396,
+      "step": 1530
+    },
+    {
+      "epoch": 13.41,
+      "learning_rate": 4.9870045484080575e-05,
+      "loss": 0.3826,
+      "step": 1535
+    },
+    {
+      "epoch": 13.45,
+      "learning_rate": 4.970760233918128e-05,
+      "loss": 0.2902,
+      "step": 1540
+    },
+    {
+      "epoch": 13.49,
+      "learning_rate": 4.824561403508772e-05,
+      "loss": 0.2995,
+      "step": 1545
+    },
+    {
+      "epoch": 13.54,
+      "learning_rate": 4.678362573099415e-05,
+      "loss": 0.2406,
+      "step": 1550
+    },
+    {
+      "epoch": 13.58,
+      "learning_rate": 4.5321637426900585e-05,
+      "loss": 0.2968,
+      "step": 1555
+    },
+    {
+      "epoch": 13.62,
+      "learning_rate": 4.3859649122807014e-05,
+      "loss": 0.2552,
+      "step": 1560
+    },
+    {
+      "epoch": 13.67,
+      "learning_rate": 4.239766081871345e-05,
+      "loss": 0.2546,
+      "step": 1565
+    },
+    {
+      "epoch": 13.71,
+      "learning_rate": 4.093567251461988e-05,
+      "loss": 0.3931,
+      "step": 1570
+    },
+    {
+      "epoch": 13.76,
+      "learning_rate": 3.9473684210526316e-05,
+      "loss": 0.177,
+      "step": 1575
+    },
+    {
+      "epoch": 13.8,
+      "learning_rate": 3.8011695906432746e-05,
+      "loss": 0.2625,
+      "step": 1580
+    },
+    {
+      "epoch": 13.84,
+      "learning_rate": 3.654970760233918e-05,
+      "loss": 0.3622,
+      "step": 1585
+    },
+    {
+      "epoch": 13.89,
+      "learning_rate": 3.508771929824561e-05,
+      "loss": 0.1971,
+      "step": 1590
+    },
+    {
+      "epoch": 13.93,
+      "learning_rate": 3.362573099415205e-05,
+      "loss": 0.2986,
+      "step": 1595
+    },
+    {
+      "epoch": 13.97,
+      "learning_rate": 3.216374269005848e-05,
+      "loss": 0.2937,
+      "step": 1600
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9835796387520526,
+      "eval_loss": 0.08656656742095947,
+      "eval_runtime": 40.617,
+      "eval_samples_per_second": 29.987,
+      "eval_steps_per_second": 1.896,
+      "step": 1603
+    },
+    {
+      "epoch": 14.02,
+      "learning_rate": 3.0701754385964913e-05,
+      "loss": 0.2555,
+      "step": 1605
+    },
+    {
+      "epoch": 14.06,
+      "learning_rate": 2.9239766081871346e-05,
+      "loss": 0.1262,
+      "step": 1610
+    },
+    {
+      "epoch": 14.1,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.2058,
+      "step": 1615
+    },
+    {
+      "epoch": 14.15,
+      "learning_rate": 2.6315789473684212e-05,
+      "loss": 0.3217,
+      "step": 1620
+    },
+    {
+      "epoch": 14.19,
+      "learning_rate": 2.485380116959064e-05,
+      "loss": 0.1943,
+      "step": 1625
+    },
+    {
+      "epoch": 14.24,
+      "learning_rate": 2.3391812865497074e-05,
+      "loss": 0.1544,
+      "step": 1630
+    },
+    {
+      "epoch": 14.28,
+      "learning_rate": 2.1929824561403507e-05,
+      "loss": 0.142,
+      "step": 1635
+    },
+    {
+      "epoch": 14.32,
+      "learning_rate": 2.046783625730994e-05,
+      "loss": 0.1831,
+      "step": 1640
+    },
+    {
+      "epoch": 14.37,
+      "learning_rate": 1.9005847953216373e-05,
+      "loss": 0.1592,
+      "step": 1645
+    },
+    {
+      "epoch": 14.41,
+      "learning_rate": 1.7543859649122806e-05,
+      "loss": 0.1605,
+      "step": 1650
+    },
+    {
+      "epoch": 14.45,
+      "learning_rate": 1.608187134502924e-05,
+      "loss": 0.2399,
+      "step": 1655
+    },
+    {
+      "epoch": 14.5,
+      "learning_rate": 1.4619883040935673e-05,
+      "loss": 0.169,
+      "step": 1660
+    },
+    {
+      "epoch": 14.54,
+      "learning_rate": 1.3157894736842106e-05,
+      "loss": 0.3231,
+      "step": 1665
+    },
+    {
+      "epoch": 14.59,
+      "learning_rate": 1.1695906432748537e-05,
+      "loss": 0.2028,
+      "step": 1670
+    },
+    {
+      "epoch": 14.63,
+      "learning_rate": 1.023391812865497e-05,
+      "loss": 0.1459,
+      "step": 1675
+    },
+    {
+      "epoch": 14.67,
+      "learning_rate": 8.771929824561403e-06,
+      "loss": 0.139,
+      "step": 1680
+    },
+    {
+      "epoch": 14.72,
+      "learning_rate": 7.3099415204678366e-06,
+      "loss": 0.2303,
+      "step": 1685
+    },
+    {
+      "epoch": 14.76,
+      "learning_rate": 5.8479532163742686e-06,
+      "loss": 0.1616,
+      "step": 1690
+    },
+    {
+      "epoch": 14.8,
+      "learning_rate": 4.3859649122807014e-06,
+      "loss": 0.1633,
+      "step": 1695
+    },
+    {
+      "epoch": 14.85,
+      "learning_rate": 2.9239766081871343e-06,
+      "loss": 0.2043,
+      "step": 1700
+    },
+    {
+      "epoch": 14.89,
+      "learning_rate": 1.4619883040935671e-06,
+      "loss": 0.1392,
+      "step": 1705
+    },
+    {
+      "epoch": 14.93,
+      "learning_rate": 0.0,
+      "loss": 0.1185,
+      "step": 1710
+    },
+    {
+      "epoch": 14.93,
+      "eval_accuracy": 0.986863711001642,
+      "eval_loss": 0.07206606864929199,
+      "eval_runtime": 40.6097,
+      "eval_samples_per_second": 29.993,
+      "eval_steps_per_second": 1.896,
+      "step": 1710
     },
     {
+      "epoch": 14.93,
+      "step": 1710,
+      "total_flos": 9.675577376037974e+18,
+      "train_loss": 0.8123349746416884,
+      "train_runtime": 8647.4379,
+      "train_samples_per_second": 6.333,
+      "train_steps_per_second": 0.198
     }
   ],
+  "max_steps": 1710,
+  "num_train_epochs": 15,
+  "total_flos": 9.675577376037974e+18,
   "trial_name": null,
   "trial_params": null
 }