End of training

Browse files

Files changed (5) hide show

all_results.json +9 -9
eval_results.json +5 -5
runs/Jul11_19-14-19_15fcd4b534d1/events.out.tfevents.1689108114.15fcd4b534d1.2772.5 +3 -0
train_results.json +4 -4
trainer_state.json +215 -215

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 4.96,
-    "eval_accuracy": 0.9995570321151717,
-    "eval_loss": 0.001114627462811768,
-    "eval_runtime": 195.9028,
-    "eval_samples_per_second": 23.047,
-    "eval_steps_per_second": 1.445,
     "total_flos": 8.138660625246413e+18,
-    "train_loss": 0.10703883119408161,
-    "train_runtime": 7147.9833,
-    "train_samples_per_second": 4.186,
-    "train_steps_per_second": 0.065
 }

 {
     "epoch": 4.96,
+    "eval_accuracy": 0.9805094130675526,
+    "eval_loss": 0.04738219827413559,
+    "eval_runtime": 194.8962,
+    "eval_samples_per_second": 23.166,
+    "eval_steps_per_second": 1.452,
     "total_flos": 8.138660625246413e+18,
+    "train_loss": 0.23329446437538312,
+    "train_runtime": 4933.7001,
+    "train_samples_per_second": 6.065,
+    "train_steps_per_second": 0.094
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.96,
-    "eval_accuracy": 0.9995570321151717,
-    "eval_loss": 0.001114627462811768,
-    "eval_runtime": 195.9028,
-    "eval_samples_per_second": 23.047,
-    "eval_steps_per_second": 1.445
 }

 {
     "epoch": 4.96,
+    "eval_accuracy": 0.9805094130675526,
+    "eval_loss": 0.04738219827413559,
+    "eval_runtime": 194.8962,
+    "eval_samples_per_second": 23.166,
+    "eval_steps_per_second": 1.452
 }

runs/Jul11_19-14-19_15fcd4b534d1/events.out.tfevents.1689108114.15fcd4b534d1.2772.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a2dfdaf22c4157f99130fcec28a4cbc20d89775c2f999c1ce6fc839a0368254
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.96,
     "total_flos": 8.138660625246413e+18,
-    "train_loss": 0.10703883119408161,
-    "train_runtime": 7147.9833,
-    "train_samples_per_second": 4.186,
-    "train_steps_per_second": 0.065
 }

 {
     "epoch": 4.96,
     "total_flos": 8.138660625246413e+18,
+    "train_loss": 0.23329446437538312,
+    "train_runtime": 4933.7001,
+    "train_samples_per_second": 6.065,
+    "train_steps_per_second": 0.094
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.9995570321151717,
   "best_model_checkpoint": "beit-large-patch16-224-finetuned-LungCancer-Classification-LC25000-AH-40-30-30/checkpoint-465",
   "epoch": 4.96,
   "global_step": 465,
@@ -9,615 +9,615 @@
   "log_history": [
     {
       "epoch": 0.05,
-      "learning_rate": 1.0729613733905579e-06,
-      "loss": 1.1839,
       "step": 5
     },
     {
       "epoch": 0.11,
-      "learning_rate": 2.1459227467811158e-06,
-      "loss": 0.9886,
       "step": 10
     },
     {
       "epoch": 0.16,
-      "learning_rate": 3.218884120171674e-06,
-      "loss": 0.742,
       "step": 15
     },
     {
       "epoch": 0.21,
-      "learning_rate": 4.2918454935622316e-06,
-      "loss": 0.4725,
       "step": 20
     },
     {
       "epoch": 0.27,
-      "learning_rate": 5.36480686695279e-06,
-      "loss": 0.2834,
       "step": 25
     },
     {
       "epoch": 0.32,
-      "learning_rate": 6.437768240343348e-06,
-      "loss": 0.2146,
       "step": 30
     },
     {
       "epoch": 0.37,
-      "learning_rate": 7.510729613733906e-06,
-      "loss": 0.1667,
       "step": 35
     },
     {
       "epoch": 0.43,
-      "learning_rate": 8.583690987124463e-06,
-      "loss": 0.129,
       "step": 40
     },
     {
       "epoch": 0.48,
-      "learning_rate": 9.65665236051502e-06,
-      "loss": 0.1718,
       "step": 45
     },
     {
       "epoch": 0.53,
-      "learning_rate": 1.072961373390558e-05,
-      "loss": 0.1387,
       "step": 50
     },
     {
       "epoch": 0.59,
-      "learning_rate": 1.1802575107296138e-05,
-      "loss": 0.1188,
       "step": 55
     },
     {
       "epoch": 0.64,
-      "learning_rate": 1.2875536480686696e-05,
-      "loss": 0.0936,
       "step": 60
     },
     {
       "epoch": 0.69,
-      "learning_rate": 1.3948497854077253e-05,
-      "loss": 0.1547,
       "step": 65
     },
     {
       "epoch": 0.75,
-      "learning_rate": 1.5021459227467813e-05,
-      "loss": 0.1528,
       "step": 70
     },
     {
       "epoch": 0.8,
-      "learning_rate": 1.609442060085837e-05,
-      "loss": 0.1509,
       "step": 75
     },
     {
       "epoch": 0.85,
-      "learning_rate": 1.7167381974248926e-05,
-      "loss": 0.1046,
       "step": 80
     },
     {
       "epoch": 0.91,
-      "learning_rate": 1.8240343347639486e-05,
-      "loss": 0.1003,
       "step": 85
     },
     {
       "epoch": 0.96,
-      "learning_rate": 1.931330472103004e-05,
-      "loss": 0.0508,
       "step": 90
     },
     {
       "epoch": 0.99,
-      "eval_accuracy": 0.9756367663344407,
-      "eval_loss": 0.06337086111307144,
-      "eval_runtime": 1162.9787,
-      "eval_samples_per_second": 3.882,
-      "eval_steps_per_second": 0.243,
       "step": 93
     },
     {
       "epoch": 1.01,
-      "learning_rate": 2.0386266094420604e-05,
-      "loss": 0.0488,
       "step": 95
     },
     {
       "epoch": 1.07,
-      "learning_rate": 2.145922746781116e-05,
-      "loss": 0.0625,
       "step": 100
     },
     {
       "epoch": 1.12,
-      "learning_rate": 2.2532188841201716e-05,
-      "loss": 0.1041,
       "step": 105
     },
     {
       "epoch": 1.17,
-      "learning_rate": 2.3605150214592276e-05,
-      "loss": 0.096,
       "step": 110
     },
     {
       "epoch": 1.23,
-      "learning_rate": 2.467811158798283e-05,
-      "loss": 0.0872,
       "step": 115
     },
     {
       "epoch": 1.28,
-      "learning_rate": 2.575107296137339e-05,
-      "loss": 0.119,
       "step": 120
     },
     {
       "epoch": 1.33,
-      "learning_rate": 2.6824034334763947e-05,
-      "loss": 0.0861,
       "step": 125
     },
     {
       "epoch": 1.39,
-      "learning_rate": 2.7896995708154506e-05,
-      "loss": 0.1535,
       "step": 130
     },
     {
       "epoch": 1.44,
-      "learning_rate": 2.896995708154507e-05,
-      "loss": 0.1654,
       "step": 135
     },
     {
       "epoch": 1.49,
-      "learning_rate": 3.0042918454935625e-05,
-      "loss": 0.0787,
       "step": 140
     },
     {
       "epoch": 1.55,
-      "learning_rate": 3.1115879828326185e-05,
-      "loss": 0.0531,
       "step": 145
     },
     {
       "epoch": 1.6,
-      "learning_rate": 3.218884120171674e-05,
-      "loss": 0.0825,
       "step": 150
     },
     {
       "epoch": 1.65,
-      "learning_rate": 3.3261802575107297e-05,
-      "loss": 0.0922,
       "step": 155
     },
     {
       "epoch": 1.71,
-      "learning_rate": 3.433476394849785e-05,
-      "loss": 0.0717,
       "step": 160
     },
     {
       "epoch": 1.76,
-      "learning_rate": 3.5407725321888415e-05,
-      "loss": 0.0787,
       "step": 165
     },
     {
       "epoch": 1.81,
-      "learning_rate": 3.648068669527897e-05,
-      "loss": 0.0244,
       "step": 170
     },
     {
       "epoch": 1.87,
-      "learning_rate": 3.755364806866953e-05,
-      "loss": 0.0837,
       "step": 175
     },
     {
       "epoch": 1.92,
-      "learning_rate": 3.862660944206008e-05,
-      "loss": 0.0572,
       "step": 180
     },
     {
       "epoch": 1.97,
-      "learning_rate": 3.9699570815450646e-05,
-      "loss": 0.0909,
       "step": 185
     },
     {
       "epoch": 1.99,
-      "eval_accuracy": 0.991140642303433,
-      "eval_loss": 0.022178057581186295,
-      "eval_runtime": 195.0995,
-      "eval_samples_per_second": 23.142,
-      "eval_steps_per_second": 1.451,
       "step": 187
     },
     {
       "epoch": 2.03,
-      "learning_rate": 4.077253218884121e-05,
-      "loss": 0.0909,
       "step": 190
     },
     {
       "epoch": 2.08,
-      "learning_rate": 4.1845493562231765e-05,
-      "loss": 0.0431,
       "step": 195
     },
     {
       "epoch": 2.13,
-      "learning_rate": 4.291845493562232e-05,
-      "loss": 0.0511,
       "step": 200
     },
     {
       "epoch": 2.19,
-      "learning_rate": 4.399141630901288e-05,
-      "loss": 0.0787,
       "step": 205
     },
     {
       "epoch": 2.24,
-      "learning_rate": 4.506437768240343e-05,
-      "loss": 0.0467,
       "step": 210
     },
     {
       "epoch": 2.29,
-      "learning_rate": 4.6137339055793995e-05,
-      "loss": 0.1184,
       "step": 215
     },
     {
       "epoch": 2.35,
-      "learning_rate": 4.721030042918455e-05,
-      "loss": 0.1344,
       "step": 220
     },
     {
       "epoch": 2.4,
-      "learning_rate": 4.828326180257511e-05,
-      "loss": 0.1384,
       "step": 225
     },
     {
       "epoch": 2.45,
-      "learning_rate": 4.935622317596566e-05,
-      "loss": 0.0953,
       "step": 230
     },
     {
       "epoch": 2.51,
-      "learning_rate": 4.9568965517241384e-05,
-      "loss": 0.0667,
       "step": 235
     },
     {
       "epoch": 2.56,
-      "learning_rate": 4.849137931034483e-05,
-      "loss": 0.0576,
       "step": 240
     },
     {
       "epoch": 2.61,
-      "learning_rate": 4.741379310344828e-05,
-      "loss": 0.1106,
       "step": 245
     },
     {
       "epoch": 2.67,
-      "learning_rate": 4.633620689655173e-05,
-      "loss": 0.1455,
       "step": 250
     },
     {
       "epoch": 2.72,
-      "learning_rate": 4.5258620689655176e-05,
-      "loss": 0.0161,
       "step": 255
     },
     {
       "epoch": 2.77,
-      "learning_rate": 4.418103448275862e-05,
-      "loss": 0.0959,
       "step": 260
     },
     {
       "epoch": 2.83,
-      "learning_rate": 4.3103448275862066e-05,
-      "loss": 0.1851,
       "step": 265
     },
     {
       "epoch": 2.88,
-      "learning_rate": 4.202586206896552e-05,
-      "loss": 0.0497,
       "step": 270
     },
     {
       "epoch": 2.93,
-      "learning_rate": 4.094827586206897e-05,
-      "loss": 0.0799,
       "step": 275
     },
     {
       "epoch": 2.99,
-      "learning_rate": 3.9870689655172416e-05,
-      "loss": 0.0641,
       "step": 280
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9913621262458472,
-      "eval_loss": 0.022775284945964813,
-      "eval_runtime": 195.3033,
-      "eval_samples_per_second": 23.118,
-      "eval_steps_per_second": 1.449,
       "step": 281
     },
     {
       "epoch": 3.04,
-      "learning_rate": 3.8793103448275865e-05,
-      "loss": 0.0663,
       "step": 285
     },
     {
       "epoch": 3.09,
-      "learning_rate": 3.771551724137931e-05,
-      "loss": 0.045,
       "step": 290
     },
     {
       "epoch": 3.15,
-      "learning_rate": 3.663793103448276e-05,
-      "loss": 0.0787,
       "step": 295
     },
     {
       "epoch": 3.2,
-      "learning_rate": 3.556034482758621e-05,
-      "loss": 0.04,
       "step": 300
     },
     {
       "epoch": 3.25,
-      "learning_rate": 3.4482758620689657e-05,
-      "loss": 0.0534,
       "step": 305
     },
     {
       "epoch": 3.31,
-      "learning_rate": 3.3405172413793105e-05,
-      "loss": 0.0578,
       "step": 310
     },
     {
       "epoch": 3.36,
-      "learning_rate": 3.232758620689655e-05,
-      "loss": 0.021,
       "step": 315
     },
     {
       "epoch": 3.41,
-      "learning_rate": 3.125e-05,
-      "loss": 0.0138,
       "step": 320
     },
     {
       "epoch": 3.47,
-      "learning_rate": 3.017241379310345e-05,
-      "loss": 0.0461,
       "step": 325
     },
     {
       "epoch": 3.52,
-      "learning_rate": 2.9094827586206897e-05,
-      "loss": 0.0791,
       "step": 330
     },
     {
       "epoch": 3.57,
-      "learning_rate": 2.8017241379310345e-05,
-      "loss": 0.0544,
       "step": 335
     },
     {
       "epoch": 3.63,
-      "learning_rate": 2.6939655172413796e-05,
-      "loss": 0.0455,
       "step": 340
     },
     {
       "epoch": 3.68,
-      "learning_rate": 2.5862068965517244e-05,
-      "loss": 0.0334,
       "step": 345
     },
     {
       "epoch": 3.73,
-      "learning_rate": 2.4784482758620692e-05,
-      "loss": 0.0099,
       "step": 350
     },
     {
       "epoch": 3.79,
-      "learning_rate": 2.370689655172414e-05,
-      "loss": 0.0274,
       "step": 355
     },
     {
       "epoch": 3.84,
-      "learning_rate": 2.2629310344827588e-05,
-      "loss": 0.0298,
       "step": 360
     },
     {
       "epoch": 3.89,
-      "learning_rate": 2.1551724137931033e-05,
-      "loss": 0.0238,
       "step": 365
     },
     {
       "epoch": 3.95,
-      "learning_rate": 2.0474137931034484e-05,
-      "loss": 0.025,
       "step": 370
     },
     {
       "epoch": 4.0,
-      "learning_rate": 1.9396551724137932e-05,
-      "loss": 0.0717,
       "step": 375
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9982281284606866,
-      "eval_loss": 0.005040737800300121,
-      "eval_runtime": 195.0025,
-      "eval_samples_per_second": 23.154,
-      "eval_steps_per_second": 1.451,
       "step": 375
     },
     {
       "epoch": 4.05,
-      "learning_rate": 1.831896551724138e-05,
-      "loss": 0.0287,
       "step": 380
     },
     {
       "epoch": 4.11,
-      "learning_rate": 1.7241379310344828e-05,
-      "loss": 0.0194,
       "step": 385
     },
     {
       "epoch": 4.16,
-      "learning_rate": 1.6163793103448276e-05,
-      "loss": 0.0255,
       "step": 390
     },
     {
       "epoch": 4.21,
-      "learning_rate": 1.5086206896551724e-05,
-      "loss": 0.0315,
       "step": 395
     },
     {
       "epoch": 4.27,
-      "learning_rate": 1.4008620689655172e-05,
-      "loss": 0.0677,
       "step": 400
     },
     {
       "epoch": 4.32,
-      "learning_rate": 1.2931034482758622e-05,
-      "loss": 0.0137,
       "step": 405
     },
     {
       "epoch": 4.37,
-      "learning_rate": 1.185344827586207e-05,
-      "loss": 0.0165,
       "step": 410
     },
     {
       "epoch": 4.43,
-      "learning_rate": 1.0775862068965516e-05,
-      "loss": 0.0133,
       "step": 415
     },
     {
       "epoch": 4.48,
-      "learning_rate": 9.698275862068966e-06,
-      "loss": 0.0235,
       "step": 420
     },
     {
       "epoch": 4.53,
-      "learning_rate": 8.620689655172414e-06,
-      "loss": 0.0158,
       "step": 425
     },
     {
       "epoch": 4.59,
-      "learning_rate": 7.543103448275862e-06,
-      "loss": 0.0428,
       "step": 430
     },
     {
       "epoch": 4.64,
-      "learning_rate": 6.465517241379311e-06,
-      "loss": 0.04,
       "step": 435
     },
     {
       "epoch": 4.69,
-      "learning_rate": 5.387931034482758e-06,
-      "loss": 0.0048,
       "step": 440
     },
     {
       "epoch": 4.75,
-      "learning_rate": 4.310344827586207e-06,
-      "loss": 0.0242,
       "step": 445
     },
     {
       "epoch": 4.8,
-      "learning_rate": 3.2327586206896555e-06,
-      "loss": 0.0141,
       "step": 450
     },
     {
       "epoch": 4.85,
-      "learning_rate": 2.1551724137931035e-06,
-      "loss": 0.0076,
       "step": 455
     },
     {
       "epoch": 4.91,
-      "learning_rate": 1.0775862068965518e-06,
-      "loss": 0.0206,
       "step": 460
     },
     {
       "epoch": 4.96,
       "learning_rate": 0.0,
-      "loss": 0.0012,
       "step": 465
     },
     {
       "epoch": 4.96,
-      "eval_accuracy": 0.9995570321151717,
-      "eval_loss": 0.001114627462811768,
-      "eval_runtime": 194.5559,
-      "eval_samples_per_second": 23.207,
-      "eval_steps_per_second": 1.455,
       "step": 465
     },
     {
       "epoch": 4.96,
       "step": 465,
       "total_flos": 8.138660625246413e+18,
-      "train_loss": 0.10703883119408161,
-      "train_runtime": 7147.9833,
-      "train_samples_per_second": 4.186,
-      "train_steps_per_second": 0.065
     }
   ],
   "max_steps": 465,

 {
+  "best_metric": 0.9805094130675526,
   "best_model_checkpoint": "beit-large-patch16-224-finetuned-LungCancer-Classification-LC25000-AH-40-30-30/checkpoint-465",
   "epoch": 4.96,
   "global_step": 465,
   "log_history": [
     {
       "epoch": 0.05,
+      "learning_rate": 1.072961373390558e-05,
+      "loss": 0.8808,
       "step": 5
     },
     {
       "epoch": 0.11,
+      "learning_rate": 2.145922746781116e-05,
+      "loss": 0.3702,
       "step": 10
     },
     {
       "epoch": 0.16,
+      "learning_rate": 3.2188841201716734e-05,
+      "loss": 0.2654,
       "step": 15
     },
     {
       "epoch": 0.21,
+      "learning_rate": 4.291845493562232e-05,
+      "loss": 0.2283,
       "step": 20
     },
     {
       "epoch": 0.27,
+      "learning_rate": 5.36480686695279e-05,
+      "loss": 0.1849,
       "step": 25
     },
     {
       "epoch": 0.32,
+      "learning_rate": 6.437768240343347e-05,
+      "loss": 0.1441,
       "step": 30
     },
     {
       "epoch": 0.37,
+      "learning_rate": 7.510729613733907e-05,
+      "loss": 0.4052,
       "step": 35
     },
     {
       "epoch": 0.43,
+      "learning_rate": 8.583690987124464e-05,
+      "loss": 0.1893,
       "step": 40
     },
     {
       "epoch": 0.48,
+      "learning_rate": 9.656652360515021e-05,
+      "loss": 0.1277,
       "step": 45
     },
     {
       "epoch": 0.53,
+      "learning_rate": 0.0001072961373390558,
+      "loss": 0.0835,
       "step": 50
     },
     {
       "epoch": 0.59,
+      "learning_rate": 0.00011802575107296138,
+      "loss": 0.3402,
       "step": 55
     },
     {
       "epoch": 0.64,
+      "learning_rate": 0.00012875536480686693,
+      "loss": 0.2402,
       "step": 60
     },
     {
       "epoch": 0.69,
+      "learning_rate": 0.00013948497854077252,
+      "loss": 0.1546,
       "step": 65
     },
     {
       "epoch": 0.75,
+      "learning_rate": 0.00015021459227467814,
+      "loss": 0.1784,
       "step": 70
     },
     {
       "epoch": 0.8,
+      "learning_rate": 0.0001609442060085837,
+      "loss": 0.3537,
       "step": 75
     },
     {
       "epoch": 0.85,
+      "learning_rate": 0.00017167381974248928,
+      "loss": 0.2355,
       "step": 80
     },
     {
       "epoch": 0.91,
+      "learning_rate": 0.00018240343347639484,
+      "loss": 0.2231,
       "step": 85
     },
     {
       "epoch": 0.96,
+      "learning_rate": 0.00019313304721030043,
+      "loss": 0.2312,
       "step": 90
     },
     {
       "epoch": 0.99,
+      "eval_accuracy": 0.9452934662236988,
+      "eval_loss": 0.18224409222602844,
+      "eval_runtime": 194.4559,
+      "eval_samples_per_second": 23.219,
+      "eval_steps_per_second": 1.455,
       "step": 93
     },
     {
       "epoch": 1.01,
+      "learning_rate": 0.00020386266094420602,
+      "loss": 0.1662,
       "step": 95
     },
     {
       "epoch": 1.07,
+      "learning_rate": 0.0002145922746781116,
+      "loss": 0.2914,
       "step": 100
     },
     {
       "epoch": 1.12,
+      "learning_rate": 0.00022532188841201716,
+      "loss": 0.3028,
       "step": 105
     },
     {
       "epoch": 1.17,
+      "learning_rate": 0.00023605150214592275,
+      "loss": 0.2727,
       "step": 110
     },
     {
       "epoch": 1.23,
+      "learning_rate": 0.0002467811158798283,
+      "loss": 0.1559,
       "step": 115
     },
     {
       "epoch": 1.28,
+      "learning_rate": 0.00025751072961373387,
+      "loss": 0.2356,
       "step": 120
     },
     {
       "epoch": 1.33,
+      "learning_rate": 0.0002682403433476395,
+      "loss": 0.1691,
       "step": 125
     },
     {
       "epoch": 1.39,
+      "learning_rate": 0.00027896995708154504,
+      "loss": 0.1779,
       "step": 130
     },
     {
       "epoch": 1.44,
+      "learning_rate": 0.00028969957081545066,
+      "loss": 0.242,
       "step": 135
     },
     {
       "epoch": 1.49,
+      "learning_rate": 0.00030042918454935627,
+      "loss": 0.4023,
       "step": 140
     },
     {
       "epoch": 1.55,
+      "learning_rate": 0.00031115879828326183,
+      "loss": 0.2509,
       "step": 145
     },
     {
       "epoch": 1.6,
+      "learning_rate": 0.0003218884120171674,
+      "loss": 0.4505,
       "step": 150
     },
     {
       "epoch": 1.65,
+      "learning_rate": 0.00033261802575107295,
+      "loss": 0.2701,
       "step": 155
     },
     {
       "epoch": 1.71,
+      "learning_rate": 0.00034334763948497857,
+      "loss": 0.2335,
       "step": 160
     },
     {
       "epoch": 1.76,
+      "learning_rate": 0.0003540772532188841,
+      "loss": 0.2924,
       "step": 165
     },
     {
       "epoch": 1.81,
+      "learning_rate": 0.0003648068669527897,
+      "loss": 0.2749,
       "step": 170
     },
     {
       "epoch": 1.87,
+      "learning_rate": 0.00037553648068669525,
+      "loss": 0.4105,
       "step": 175
     },
     {
       "epoch": 1.92,
+      "learning_rate": 0.00038626609442060086,
+      "loss": 0.4208,
       "step": 180
     },
     {
       "epoch": 1.97,
+      "learning_rate": 0.0003969957081545064,
+      "loss": 0.3817,
       "step": 185
     },
     {
       "epoch": 1.99,
+      "eval_accuracy": 0.9182724252491694,
+      "eval_loss": 0.210577130317688,
+      "eval_runtime": 194.2162,
+      "eval_samples_per_second": 23.247,
+      "eval_steps_per_second": 1.457,
       "step": 187
     },
     {
       "epoch": 2.03,
+      "learning_rate": 0.00040772532188841203,
+      "loss": 0.457,
       "step": 190
     },
     {
       "epoch": 2.08,
+      "learning_rate": 0.00041845493562231765,
+      "loss": 0.2274,
       "step": 195
     },
     {
       "epoch": 2.13,
+      "learning_rate": 0.0004291845493562232,
+      "loss": 0.192,
       "step": 200
     },
     {
       "epoch": 2.19,
+      "learning_rate": 0.00043991416309012877,
+      "loss": 0.344,
       "step": 205
     },
     {
       "epoch": 2.24,
+      "learning_rate": 0.0004506437768240343,
+      "loss": 0.227,
       "step": 210
     },
     {
       "epoch": 2.29,
+      "learning_rate": 0.00046137339055793994,
+      "loss": 0.4637,
       "step": 215
     },
     {
       "epoch": 2.35,
+      "learning_rate": 0.0004721030042918455,
+      "loss": 0.2279,
       "step": 220
     },
     {
       "epoch": 2.4,
+      "learning_rate": 0.00048283261802575106,
+      "loss": 0.2592,
       "step": 225
     },
     {
       "epoch": 2.45,
+      "learning_rate": 0.0004935622317596566,
+      "loss": 0.1698,
       "step": 230
     },
     {
       "epoch": 2.51,
+      "learning_rate": 0.0004956896551724138,
+      "loss": 0.3807,
       "step": 235
     },
     {
       "epoch": 2.56,
+      "learning_rate": 0.0004849137931034483,
+      "loss": 0.4219,
       "step": 240
     },
     {
       "epoch": 2.61,
+      "learning_rate": 0.00047413793103448276,
+      "loss": 0.1977,
       "step": 245
     },
     {
       "epoch": 2.67,
+      "learning_rate": 0.00046336206896551726,
+      "loss": 0.162,
       "step": 250
     },
     {
       "epoch": 2.72,
+      "learning_rate": 0.0004525862068965517,
+      "loss": 0.2464,
       "step": 255
     },
     {
       "epoch": 2.77,
+      "learning_rate": 0.0004418103448275862,
+      "loss": 0.554,
       "step": 260
     },
     {
       "epoch": 2.83,
+      "learning_rate": 0.0004310344827586207,
+      "loss": 0.4732,
       "step": 265
     },
     {
       "epoch": 2.88,
+      "learning_rate": 0.0004202586206896552,
+      "loss": 0.3694,
       "step": 270
     },
     {
       "epoch": 2.93,
+      "learning_rate": 0.00040948275862068967,
+      "loss": 0.2819,
       "step": 275
     },
     {
       "epoch": 2.99,
+      "learning_rate": 0.00039870689655172416,
+      "loss": 0.2217,
       "step": 280
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9284606866002215,
+      "eval_loss": 0.190183624625206,
+      "eval_runtime": 193.8722,
+      "eval_samples_per_second": 23.289,
+      "eval_steps_per_second": 1.46,
       "step": 281
     },
     {
       "epoch": 3.04,
+      "learning_rate": 0.0003879310344827586,
+      "loss": 0.192,
       "step": 285
     },
     {
       "epoch": 3.09,
+      "learning_rate": 0.0003771551724137931,
+      "loss": 0.2674,
       "step": 290
     },
     {
       "epoch": 3.15,
+      "learning_rate": 0.0003663793103448276,
+      "loss": 0.2207,
       "step": 295
     },
     {
       "epoch": 3.2,
+      "learning_rate": 0.00035560344827586203,
+      "loss": 0.2125,
       "step": 300
     },
     {
       "epoch": 3.25,
+      "learning_rate": 0.0003448275862068966,
+      "loss": 0.2431,
       "step": 305
     },
     {
       "epoch": 3.31,
+      "learning_rate": 0.0003340517241379311,
+      "loss": 0.1755,
       "step": 310
     },
     {
       "epoch": 3.36,
+      "learning_rate": 0.0003232758620689655,
+      "loss": 0.1636,
       "step": 315
     },
     {
       "epoch": 3.41,
+      "learning_rate": 0.0003125,
+      "loss": 0.1787,
       "step": 320
     },
     {
       "epoch": 3.47,
+      "learning_rate": 0.0003017241379310345,
+      "loss": 0.2748,
       "step": 325
     },
     {
       "epoch": 3.52,
+      "learning_rate": 0.00029094827586206894,
+      "loss": 0.315,
       "step": 330
     },
     {
       "epoch": 3.57,
+      "learning_rate": 0.00028017241379310343,
+      "loss": 0.1869,
       "step": 335
     },
     {
       "epoch": 3.63,
+      "learning_rate": 0.000269396551724138,
+      "loss": 0.1631,
       "step": 340
     },
     {
       "epoch": 3.68,
+      "learning_rate": 0.0002586206896551724,
+      "loss": 0.1704,
       "step": 345
     },
     {
       "epoch": 3.73,
+      "learning_rate": 0.0002478448275862069,
+      "loss": 0.1518,
       "step": 350
     },
     {
       "epoch": 3.79,
+      "learning_rate": 0.00023706896551724138,
+      "loss": 0.0793,
       "step": 355
     },
     {
       "epoch": 3.84,
+      "learning_rate": 0.00022629310344827585,
+      "loss": 0.1535,
       "step": 360
     },
     {
       "epoch": 3.89,
+      "learning_rate": 0.00021551724137931034,
+      "loss": 0.1496,
       "step": 365
     },
     {
       "epoch": 3.95,
+      "learning_rate": 0.00020474137931034484,
+      "loss": 0.2077,
       "step": 370
     },
     {
       "epoch": 4.0,
+      "learning_rate": 0.0001939655172413793,
+      "loss": 0.1667,
       "step": 375
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9583610188261351,
+      "eval_loss": 0.11267491430044174,
+      "eval_runtime": 193.9805,
+      "eval_samples_per_second": 23.276,
+      "eval_steps_per_second": 1.459,
       "step": 375
     },
     {
       "epoch": 4.05,
+      "learning_rate": 0.0001831896551724138,
+      "loss": 0.1267,
       "step": 380
     },
     {
       "epoch": 4.11,
+      "learning_rate": 0.0001724137931034483,
+      "loss": 0.1083,
       "step": 385
     },
     {
       "epoch": 4.16,
+      "learning_rate": 0.00016163793103448276,
+      "loss": 0.1441,
       "step": 390
     },
     {
       "epoch": 4.21,
+      "learning_rate": 0.00015086206896551725,
+      "loss": 0.1187,
       "step": 395
     },
     {
       "epoch": 4.27,
+      "learning_rate": 0.00014008620689655172,
+      "loss": 0.1174,
       "step": 400
     },
     {
       "epoch": 4.32,
+      "learning_rate": 0.0001293103448275862,
+      "loss": 0.0663,
       "step": 405
     },
     {
       "epoch": 4.37,
+      "learning_rate": 0.00011853448275862069,
+      "loss": 0.075,
       "step": 410
     },
     {
       "epoch": 4.43,
+      "learning_rate": 0.00010775862068965517,
+      "loss": 0.1271,
       "step": 415
     },
     {
       "epoch": 4.48,
+      "learning_rate": 9.698275862068965e-05,
+      "loss": 0.1644,
       "step": 420
     },
     {
       "epoch": 4.53,
+      "learning_rate": 8.620689655172414e-05,
+      "loss": 0.1401,
       "step": 425
     },
     {
       "epoch": 4.59,
+      "learning_rate": 7.543103448275863e-05,
+      "loss": 0.12,
       "step": 430
     },
     {
       "epoch": 4.64,
+      "learning_rate": 6.46551724137931e-05,
+      "loss": 0.1086,
       "step": 435
     },
     {
       "epoch": 4.69,
+      "learning_rate": 5.3879310344827585e-05,
+      "loss": 0.1067,
       "step": 440
     },
     {
       "epoch": 4.75,
+      "learning_rate": 4.310344827586207e-05,
+      "loss": 0.0789,
       "step": 445
     },
     {
       "epoch": 4.8,
+      "learning_rate": 3.232758620689655e-05,
+      "loss": 0.0696,
       "step": 450
     },
     {
       "epoch": 4.85,
+      "learning_rate": 2.1551724137931036e-05,
+      "loss": 0.0584,
       "step": 455
     },
     {
       "epoch": 4.91,
+      "learning_rate": 1.0775862068965518e-05,
+      "loss": 0.1217,
       "step": 460
     },
     {
       "epoch": 4.96,
       "learning_rate": 0.0,
+      "loss": 0.0572,
       "step": 465
     },
     {
       "epoch": 4.96,
+      "eval_accuracy": 0.9805094130675526,
+      "eval_loss": 0.04738219827413559,
+      "eval_runtime": 193.9079,
+      "eval_samples_per_second": 23.284,
+      "eval_steps_per_second": 1.459,
       "step": 465
     },
     {
       "epoch": 4.96,
       "step": 465,
       "total_flos": 8.138660625246413e+18,
+      "train_loss": 0.23329446437538312,
+      "train_runtime": 4933.7001,
+      "train_samples_per_second": 6.065,
+      "train_steps_per_second": 0.094
     }
   ],
   "max_steps": 465,