End of training

Browse files

Files changed (6) hide show

README.md +3 -3
all_results.json +10 -10
eval_results.json +6 -6
runs/Jun12_16-44-11_DESKTOP-SKBE9FB/events.out.tfevents.1718232539.DESKTOP-SKBE9FB.1696.1 +3 -0
train_results.json +5 -5
trainer_state.json +467 -710

README.md CHANGED Viewed

@@ -21,7 +21,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.717391304347826
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -31,8 +31,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7888
-- Accuracy: 0.7174
 ## Model description

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8260869565217391
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [MBZUAI/swiftformer-xs](https://huggingface.co/MBZUAI/swiftformer-xs) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7132
+- Accuracy: 0.8261
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 92.31,
-    "eval_accuracy": 0.8478260869565217,
-    "eval_loss": 0.6640377044677734,
-    "eval_runtime": 0.7832,
-    "eval_samples_per_second": 58.731,
-    "eval_steps_per_second": 2.554,
-    "train_loss": 0.2747100231051445,
-    "train_runtime": 347.4081,
-    "train_samples_per_second": 235.746,
-    "train_steps_per_second": 1.727
 }

 {
+    "epoch": 73.85,
+    "eval_accuracy": 0.8260869565217391,
+    "eval_loss": 0.7131932973861694,
+    "eval_runtime": 0.8658,
+    "eval_samples_per_second": 53.128,
+    "eval_steps_per_second": 2.31,
+    "train_loss": 0.38448232350250083,
+    "train_runtime": 275.3303,
+    "train_samples_per_second": 237.969,
+    "train_steps_per_second": 1.743
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 92.31,
-    "eval_accuracy": 0.8478260869565217,
-    "eval_loss": 0.6640377044677734,
-    "eval_runtime": 0.7832,
-    "eval_samples_per_second": 58.731,
-    "eval_steps_per_second": 2.554
 }

 {
+    "epoch": 73.85,
+    "eval_accuracy": 0.8260869565217391,
+    "eval_loss": 0.7131932973861694,
+    "eval_runtime": 0.8658,
+    "eval_samples_per_second": 53.128,
+    "eval_steps_per_second": 2.31
 }

runs/Jun12_16-44-11_DESKTOP-SKBE9FB/events.out.tfevents.1718232539.DESKTOP-SKBE9FB.1696.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95eb7b37dd4ee87694e5117e63d5295ef4af86e361ef6b06836124036f0f668b
+size 411

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 92.31,
-    "train_loss": 0.2747100231051445,
-    "train_runtime": 347.4081,
-    "train_samples_per_second": 235.746,
-    "train_steps_per_second": 1.727
 }

 {
+    "epoch": 73.85,
+    "train_loss": 0.38448232350250083,
+    "train_runtime": 275.3303,
+    "train_samples_per_second": 237.969,
+    "train_steps_per_second": 1.743
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.8478260869565217,
-  "best_model_checkpoint": "swiftformer-xs-ve-U13-b-80\\checkpoint-175",
-  "epoch": 92.3076923076923,
   "eval_steps": 500,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,1216 +11,973 @@
     {
       "epoch": 0.92,
       "eval_accuracy": 0.2391304347826087,
-      "eval_loss": 1.385766863822937,
-      "eval_runtime": 0.6016,
-      "eval_samples_per_second": 76.463,
-      "eval_steps_per_second": 3.324,
       "step": 6
     },
     {
       "epoch": 1.54,
-      "learning_rate": 4.9999999999999996e-05,
-      "loss": 1.3856,
       "step": 10
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.2826086956521739,
-      "eval_loss": 1.382806420326233,
-      "eval_runtime": 0.5574,
-      "eval_samples_per_second": 82.519,
-      "eval_steps_per_second": 3.588,
       "step": 13
     },
     {
       "epoch": 2.92,
       "eval_accuracy": 0.1956521739130435,
-      "eval_loss": 1.3768857717514038,
-      "eval_runtime": 0.5369,
-      "eval_samples_per_second": 85.684,
-      "eval_steps_per_second": 3.725,
       "step": 19
     },
     {
       "epoch": 3.08,
-      "learning_rate": 9.999999999999999e-05,
-      "loss": 1.3734,
       "step": 20
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.13043478260869565,
-      "eval_loss": 1.3624433279037476,
-      "eval_runtime": 0.5605,
-      "eval_samples_per_second": 82.064,
-      "eval_steps_per_second": 3.568,
       "step": 26
     },
     {
       "epoch": 4.62,
-      "learning_rate": 0.00015,
-      "loss": 1.2978,
       "step": 30
     },
     {
       "epoch": 4.92,
       "eval_accuracy": 0.15217391304347827,
-      "eval_loss": 1.3553236722946167,
-      "eval_runtime": 0.5527,
-      "eval_samples_per_second": 83.233,
-      "eval_steps_per_second": 3.619,
       "step": 32
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.08695652173913043,
-      "eval_loss": 1.412070870399475,
-      "eval_runtime": 0.5682,
-      "eval_samples_per_second": 80.963,
-      "eval_steps_per_second": 3.52,
       "step": 39
     },
     {
       "epoch": 6.15,
-      "learning_rate": 0.00019999999999999998,
-      "loss": 1.1702,
       "step": 40
     },
     {
       "epoch": 6.92,
-      "eval_accuracy": 0.2391304347826087,
-      "eval_loss": 1.3719676733016968,
-      "eval_runtime": 0.5522,
-      "eval_samples_per_second": 83.302,
-      "eval_steps_per_second": 3.622,
       "step": 45
     },
     {
       "epoch": 7.69,
-      "learning_rate": 0.00025,
-      "loss": 1.0743,
       "step": 50
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.34782608695652173,
-      "eval_loss": 1.3162317276000977,
-      "eval_runtime": 0.5693,
-      "eval_samples_per_second": 80.8,
-      "eval_steps_per_second": 3.513,
       "step": 52
     },
     {
       "epoch": 8.92,
       "eval_accuracy": 0.3695652173913043,
-      "eval_loss": 1.2251616716384888,
-      "eval_runtime": 0.6192,
-      "eval_samples_per_second": 74.295,
-      "eval_steps_per_second": 3.23,
       "step": 58
     },
     {
       "epoch": 9.23,
-      "learning_rate": 0.0003,
-      "loss": 0.9504,
       "step": 60
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.43478260869565216,
-      "eval_loss": 1.168912649154663,
-      "eval_runtime": 0.6842,
-      "eval_samples_per_second": 67.23,
-      "eval_steps_per_second": 2.923,
       "step": 65
     },
     {
       "epoch": 10.77,
-      "learning_rate": 0.00029444444444444445,
-      "loss": 0.8305,
       "step": 70
     },
     {
       "epoch": 10.92,
-      "eval_accuracy": 0.5869565217391305,
-      "eval_loss": 1.0516129732131958,
-      "eval_runtime": 0.5642,
-      "eval_samples_per_second": 81.528,
-      "eval_steps_per_second": 3.545,
       "step": 71
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.9548317193984985,
-      "eval_runtime": 0.5661,
-      "eval_samples_per_second": 81.254,
-      "eval_steps_per_second": 3.533,
       "step": 78
     },
     {
       "epoch": 12.31,
-      "learning_rate": 0.0002888888888888888,
-      "loss": 0.7374,
       "step": 80
     },
     {
       "epoch": 12.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.9137820601463318,
-      "eval_runtime": 0.5482,
-      "eval_samples_per_second": 83.916,
-      "eval_steps_per_second": 3.649,
       "step": 84
     },
     {
       "epoch": 13.85,
-      "learning_rate": 0.0002833333333333333,
-      "loss": 0.6207,
       "step": 90
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.9353066086769104,
-      "eval_runtime": 0.5551,
-      "eval_samples_per_second": 82.864,
-      "eval_steps_per_second": 3.603,
       "step": 91
     },
     {
       "epoch": 14.92,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 0.8639649152755737,
-      "eval_runtime": 0.5605,
-      "eval_samples_per_second": 82.076,
-      "eval_steps_per_second": 3.569,
       "step": 97
     },
     {
       "epoch": 15.38,
-      "learning_rate": 0.0002777777777777778,
-      "loss": 0.5184,
       "step": 100
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.8121959567070007,
-      "eval_runtime": 0.5575,
-      "eval_samples_per_second": 82.517,
-      "eval_steps_per_second": 3.588,
       "step": 104
     },
     {
       "epoch": 16.92,
-      "learning_rate": 0.0002722222222222222,
-      "loss": 0.4606,
       "step": 110
     },
     {
       "epoch": 16.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.7136393189430237,
-      "eval_runtime": 0.5537,
-      "eval_samples_per_second": 83.08,
-      "eval_steps_per_second": 3.612,
       "step": 110
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.7955167293548584,
-      "eval_runtime": 0.5778,
-      "eval_samples_per_second": 79.616,
-      "eval_steps_per_second": 3.462,
       "step": 117
     },
     {
       "epoch": 18.46,
-      "learning_rate": 0.0002666666666666666,
-      "loss": 0.4332,
       "step": 120
     },
     {
       "epoch": 18.92,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 0.7789567112922668,
-      "eval_runtime": 0.5435,
-      "eval_samples_per_second": 84.632,
-      "eval_steps_per_second": 3.68,
       "step": 123
     },
     {
       "epoch": 20.0,
-      "learning_rate": 0.0002611111111111111,
-      "loss": 0.3315,
       "step": 130
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.8116961717605591,
-      "eval_runtime": 0.6158,
-      "eval_samples_per_second": 74.701,
-      "eval_steps_per_second": 3.248,
       "step": 130
     },
     {
       "epoch": 20.92,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.8068195581436157,
-      "eval_runtime": 0.5397,
-      "eval_samples_per_second": 85.24,
-      "eval_steps_per_second": 3.706,
       "step": 136
     },
     {
       "epoch": 21.54,
-      "learning_rate": 0.00025555555555555553,
-      "loss": 0.3229,
       "step": 140
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.8786293268203735,
-      "eval_runtime": 0.5594,
-      "eval_samples_per_second": 82.233,
-      "eval_steps_per_second": 3.575,
       "step": 143
     },
     {
       "epoch": 22.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.9029754996299744,
-      "eval_runtime": 0.5517,
-      "eval_samples_per_second": 83.385,
-      "eval_steps_per_second": 3.625,
       "step": 149
     },
     {
       "epoch": 23.08,
-      "learning_rate": 0.00025,
-      "loss": 0.3065,
       "step": 150
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.6521739130434783,
-      "eval_loss": 0.8253074884414673,
-      "eval_runtime": 0.578,
-      "eval_samples_per_second": 79.588,
-      "eval_steps_per_second": 3.46,
       "step": 156
     },
     {
       "epoch": 24.62,
-      "learning_rate": 0.00024444444444444443,
-      "loss": 0.2315,
       "step": 160
     },
     {
       "epoch": 24.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.739804208278656,
-      "eval_runtime": 0.5608,
-      "eval_samples_per_second": 82.024,
-      "eval_steps_per_second": 3.566,
       "step": 162
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.7938594222068787,
-      "eval_runtime": 0.5501,
-      "eval_samples_per_second": 83.615,
-      "eval_steps_per_second": 3.635,
       "step": 169
     },
     {
       "epoch": 26.15,
-      "learning_rate": 0.00023888888888888885,
-      "loss": 0.222,
       "step": 170
     },
     {
       "epoch": 26.92,
-      "eval_accuracy": 0.8478260869565217,
-      "eval_loss": 0.6640377044677734,
-      "eval_runtime": 0.5452,
-      "eval_samples_per_second": 84.37,
-      "eval_steps_per_second": 3.668,
       "step": 175
     },
     {
       "epoch": 27.69,
-      "learning_rate": 0.0002333333333333333,
-      "loss": 0.1756,
       "step": 180
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.850994348526001,
-      "eval_runtime": 0.5442,
-      "eval_samples_per_second": 84.525,
-      "eval_steps_per_second": 3.675,
       "step": 182
     },
     {
       "epoch": 28.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.9861403107643127,
-      "eval_runtime": 0.5468,
-      "eval_samples_per_second": 84.118,
-      "eval_steps_per_second": 3.657,
       "step": 188
     },
     {
       "epoch": 29.23,
-      "learning_rate": 0.00022777777777777778,
-      "loss": 0.1702,
       "step": 190
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 1.1060209274291992,
-      "eval_runtime": 0.5662,
-      "eval_samples_per_second": 81.238,
-      "eval_steps_per_second": 3.532,
       "step": 195
     },
     {
       "epoch": 30.77,
-      "learning_rate": 0.00022222222222222218,
-      "loss": 0.202,
       "step": 200
     },
     {
       "epoch": 30.92,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 1.0928934812545776,
-      "eval_runtime": 0.5568,
-      "eval_samples_per_second": 82.617,
-      "eval_steps_per_second": 3.592,
       "step": 201
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.8670152425765991,
-      "eval_runtime": 0.5807,
-      "eval_samples_per_second": 79.209,
-      "eval_steps_per_second": 3.444,
       "step": 208
     },
     {
       "epoch": 32.31,
-      "learning_rate": 0.00021666666666666666,
-      "loss": 0.1665,
       "step": 210
     },
     {
       "epoch": 32.92,
       "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.8032902479171753,
-      "eval_runtime": 0.5451,
-      "eval_samples_per_second": 84.381,
-      "eval_steps_per_second": 3.669,
       "step": 214
     },
     {
       "epoch": 33.85,
-      "learning_rate": 0.0002111111111111111,
-      "loss": 0.1695,
       "step": 220
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.7234715819358826,
-      "eval_runtime": 0.5632,
-      "eval_samples_per_second": 81.673,
-      "eval_steps_per_second": 3.551,
       "step": 221
     },
     {
       "epoch": 34.92,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.8916966915130615,
-      "eval_runtime": 0.5518,
-      "eval_samples_per_second": 83.363,
-      "eval_steps_per_second": 3.624,
       "step": 227
     },
     {
       "epoch": 35.38,
-      "learning_rate": 0.00020555555555555556,
-      "loss": 0.1807,
       "step": 230
     },
     {
       "epoch": 36.0,
       "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.9215289950370789,
-      "eval_runtime": 0.5536,
-      "eval_samples_per_second": 83.099,
-      "eval_steps_per_second": 3.613,
       "step": 234
     },
     {
       "epoch": 36.92,
-      "learning_rate": 0.00019999999999999998,
-      "loss": 0.1289,
       "step": 240
     },
     {
       "epoch": 36.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.8231099247932434,
-      "eval_runtime": 0.5624,
-      "eval_samples_per_second": 81.787,
-      "eval_steps_per_second": 3.556,
       "step": 240
     },
     {
       "epoch": 38.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.9255649447441101,
-      "eval_runtime": 0.5579,
-      "eval_samples_per_second": 82.459,
-      "eval_steps_per_second": 3.585,
       "step": 247
     },
     {
       "epoch": 38.46,
-      "learning_rate": 0.00019444444444444443,
-      "loss": 0.145,
       "step": 250
     },
     {
       "epoch": 38.92,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.8866252303123474,
-      "eval_runtime": 0.5578,
-      "eval_samples_per_second": 82.469,
-      "eval_steps_per_second": 3.586,
       "step": 253
     },
     {
       "epoch": 40.0,
-      "learning_rate": 0.00018888888888888888,
-      "loss": 0.1422,
       "step": 260
     },
     {
       "epoch": 40.0,
-      "eval_accuracy": 0.8260869565217391,
-      "eval_loss": 0.8511058688163757,
-      "eval_runtime": 0.5658,
-      "eval_samples_per_second": 81.305,
-      "eval_steps_per_second": 3.535,
       "step": 260
     },
     {
       "epoch": 40.92,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.9955706596374512,
-      "eval_runtime": 0.5459,
-      "eval_samples_per_second": 84.265,
-      "eval_steps_per_second": 3.664,
       "step": 266
     },
     {
       "epoch": 41.54,
-      "learning_rate": 0.00018333333333333334,
-      "loss": 0.1313,
       "step": 270
     },
     {
       "epoch": 42.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 1.3004724979400635,
-      "eval_runtime": 0.5565,
-      "eval_samples_per_second": 82.654,
-      "eval_steps_per_second": 3.594,
       "step": 273
     },
     {
       "epoch": 42.92,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 1.1531860828399658,
-      "eval_runtime": 0.5577,
-      "eval_samples_per_second": 82.479,
-      "eval_steps_per_second": 3.586,
       "step": 279
     },
     {
       "epoch": 43.08,
-      "learning_rate": 0.00017777777777777776,
-      "loss": 0.1128,
       "step": 280
     },
     {
       "epoch": 44.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 1.0891470909118652,
-      "eval_runtime": 0.5553,
-      "eval_samples_per_second": 82.842,
-      "eval_steps_per_second": 3.602,
       "step": 286
     },
     {
       "epoch": 44.62,
-      "learning_rate": 0.0001722222222222222,
-      "loss": 0.1213,
       "step": 290
     },
     {
       "epoch": 44.92,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 1.0764859914779663,
-      "eval_runtime": 0.5645,
-      "eval_samples_per_second": 81.483,
-      "eval_steps_per_second": 3.543,
       "step": 292
     },
     {
       "epoch": 46.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.9141591191291809,
-      "eval_runtime": 0.5767,
-      "eval_samples_per_second": 79.768,
-      "eval_steps_per_second": 3.468,
       "step": 299
     },
     {
       "epoch": 46.15,
-      "learning_rate": 0.00016666666666666666,
-      "loss": 0.1161,
       "step": 300
     },
     {
       "epoch": 46.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.909971296787262,
-      "eval_runtime": 0.5553,
-      "eval_samples_per_second": 82.834,
-      "eval_steps_per_second": 3.601,
       "step": 305
     },
     {
       "epoch": 47.69,
-      "learning_rate": 0.0001611111111111111,
-      "loss": 0.1123,
       "step": 310
     },
     {
       "epoch": 48.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.8906996250152588,
-      "eval_runtime": 0.545,
-      "eval_samples_per_second": 84.409,
-      "eval_steps_per_second": 3.67,
       "step": 312
     },
     {
       "epoch": 48.92,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.9461659789085388,
-      "eval_runtime": 0.5617,
-      "eval_samples_per_second": 81.888,
-      "eval_steps_per_second": 3.56,
       "step": 318
     },
     {
       "epoch": 49.23,
-      "learning_rate": 0.00015555555555555554,
-      "loss": 0.1107,
       "step": 320
     },
     {
       "epoch": 50.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.8591524958610535,
-      "eval_runtime": 0.5836,
-      "eval_samples_per_second": 78.822,
-      "eval_steps_per_second": 3.427,
       "step": 325
     },
     {
       "epoch": 50.77,
-      "learning_rate": 0.00015,
-      "loss": 0.0915,
       "step": 330
     },
     {
       "epoch": 50.92,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.9894090890884399,
-      "eval_runtime": 0.5586,
-      "eval_samples_per_second": 82.348,
-      "eval_steps_per_second": 3.58,
       "step": 331
     },
     {
       "epoch": 52.0,
       "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 1.1094378232955933,
-      "eval_runtime": 0.5369,
-      "eval_samples_per_second": 85.67,
-      "eval_steps_per_second": 3.725,
       "step": 338
     },
     {
       "epoch": 52.31,
-      "learning_rate": 0.0001444444444444444,
-      "loss": 0.0981,
       "step": 340
     },
     {
       "epoch": 52.92,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 1.1955540180206299,
-      "eval_runtime": 0.5652,
-      "eval_samples_per_second": 81.388,
-      "eval_steps_per_second": 3.539,
       "step": 344
     },
     {
       "epoch": 53.85,
-      "learning_rate": 0.0001388888888888889,
-      "loss": 0.0762,
       "step": 350
     },
     {
       "epoch": 54.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 1.0078867673873901,
-      "eval_runtime": 0.5486,
-      "eval_samples_per_second": 83.844,
-      "eval_steps_per_second": 3.645,
       "step": 351
     },
     {
       "epoch": 54.92,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 0.9898611307144165,
-      "eval_runtime": 0.5586,
-      "eval_samples_per_second": 82.345,
-      "eval_steps_per_second": 3.58,
       "step": 357
     },
     {
       "epoch": 55.38,
-      "learning_rate": 0.0001333333333333333,
-      "loss": 0.1083,
       "step": 360
     },
     {
       "epoch": 56.0,
-      "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.9164445996284485,
-      "eval_runtime": 0.5694,
-      "eval_samples_per_second": 80.79,
-      "eval_steps_per_second": 3.513,
       "step": 364
     },
     {
       "epoch": 56.92,
-      "learning_rate": 0.00012777777777777776,
-      "loss": 0.1087,
       "step": 370
     },
     {
       "epoch": 56.92,
       "eval_accuracy": 0.782608695652174,
-      "eval_loss": 0.9263260960578918,
-      "eval_runtime": 0.567,
-      "eval_samples_per_second": 81.133,
-      "eval_steps_per_second": 3.528,
       "step": 370
     },
     {
       "epoch": 58.0,
       "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.9160030484199524,
-      "eval_runtime": 0.6023,
-      "eval_samples_per_second": 76.371,
-      "eval_steps_per_second": 3.32,
       "step": 377
     },
     {
       "epoch": 58.46,
-      "learning_rate": 0.00012222222222222221,
-      "loss": 0.0871,
       "step": 380
     },
     {
       "epoch": 58.92,
       "eval_accuracy": 0.717391304347826,
-      "eval_loss": 1.0178961753845215,
-      "eval_runtime": 0.5547,
-      "eval_samples_per_second": 82.923,
-      "eval_steps_per_second": 3.605,
       "step": 383
     },
     {
       "epoch": 60.0,
-      "learning_rate": 0.00011666666666666665,
-      "loss": 0.0852,
       "step": 390
     },
     {
       "epoch": 60.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 0.9246215224266052,
-      "eval_runtime": 0.5641,
-      "eval_samples_per_second": 81.551,
-      "eval_steps_per_second": 3.546,
       "step": 390
     },
     {
       "epoch": 60.92,
-      "eval_accuracy": 0.8043478260869565,
-      "eval_loss": 0.8928539156913757,
-      "eval_runtime": 0.5647,
-      "eval_samples_per_second": 81.457,
-      "eval_steps_per_second": 3.542,
       "step": 396
     },
     {
       "epoch": 61.54,
-      "learning_rate": 0.00011111111111111109,
-      "loss": 0.0613,
       "step": 400
     },
     {
       "epoch": 62.0,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.9988526105880737,
-      "eval_runtime": 0.5653,
-      "eval_samples_per_second": 81.37,
-      "eval_steps_per_second": 3.538,
       "step": 403
     },
     {
       "epoch": 62.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 1.0367439985275269,
-      "eval_runtime": 0.5583,
-      "eval_samples_per_second": 82.397,
-      "eval_steps_per_second": 3.582,
       "step": 409
     },
     {
       "epoch": 63.08,
-      "learning_rate": 0.00010555555555555555,
-      "loss": 0.0899,
       "step": 410
     },
     {
       "epoch": 64.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.1212767362594604,
-      "eval_runtime": 0.6169,
-      "eval_samples_per_second": 74.561,
-      "eval_steps_per_second": 3.242,
       "step": 416
     },
     {
       "epoch": 64.62,
-      "learning_rate": 9.999999999999999e-05,
-      "loss": 0.0669,
       "step": 420
     },
     {
       "epoch": 64.92,
-      "eval_accuracy": 0.7608695652173914,
-      "eval_loss": 1.0092602968215942,
-      "eval_runtime": 0.5458,
-      "eval_samples_per_second": 84.281,
-      "eval_steps_per_second": 3.664,
       "step": 422
     },
     {
       "epoch": 66.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 1.0128601789474487,
-      "eval_runtime": 0.5653,
-      "eval_samples_per_second": 81.375,
-      "eval_steps_per_second": 3.538,
       "step": 429
     },
     {
       "epoch": 66.15,
-      "learning_rate": 9.444444444444444e-05,
-      "loss": 0.0791,
       "step": 430
     },
     {
       "epoch": 66.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.9979057908058167,
-      "eval_runtime": 0.5593,
-      "eval_samples_per_second": 82.241,
-      "eval_steps_per_second": 3.576,
       "step": 435
     },
     {
       "epoch": 67.69,
-      "learning_rate": 8.888888888888888e-05,
-      "loss": 0.0848,
       "step": 440
     },
     {
       "epoch": 68.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 1.0137319564819336,
-      "eval_runtime": 0.5679,
-      "eval_samples_per_second": 81.003,
-      "eval_steps_per_second": 3.522,
       "step": 442
     },
     {
       "epoch": 68.92,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.0760867595672607,
-      "eval_runtime": 0.5572,
-      "eval_samples_per_second": 82.55,
-      "eval_steps_per_second": 3.589,
       "step": 448
     },
     {
       "epoch": 69.23,
-      "learning_rate": 8.333333333333333e-05,
-      "loss": 0.0799,
       "step": 450
     },
     {
       "epoch": 70.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.0152040719985962,
-      "eval_runtime": 0.56,
-      "eval_samples_per_second": 82.145,
-      "eval_steps_per_second": 3.572,
       "step": 455
     },
     {
       "epoch": 70.77,
-      "learning_rate": 7.777777777777777e-05,
-      "loss": 0.0727,
       "step": 460
     },
     {
       "epoch": 70.92,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.130175232887268,
-      "eval_runtime": 0.5554,
-      "eval_samples_per_second": 82.818,
-      "eval_steps_per_second": 3.601,
       "step": 461
     },
     {
       "epoch": 72.0,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 1.046817421913147,
-      "eval_runtime": 0.5592,
-      "eval_samples_per_second": 82.253,
-      "eval_steps_per_second": 3.576,
       "step": 468
     },
     {
       "epoch": 72.31,
-      "learning_rate": 7.22222222222222e-05,
-      "loss": 0.0763,
       "step": 470
     },
     {
       "epoch": 72.92,
-      "eval_accuracy": 0.6739130434782609,
-      "eval_loss": 1.0759297609329224,
-      "eval_runtime": 0.5607,
-      "eval_samples_per_second": 82.046,
-      "eval_steps_per_second": 3.567,
       "step": 474
     },
     {
       "epoch": 73.85,
-      "learning_rate": 6.666666666666666e-05,
-      "loss": 0.06,
       "step": 480
     },
     {
-      "epoch": 74.0,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 1.0803240537643433,
-      "eval_runtime": 0.553,
-      "eval_samples_per_second": 83.183,
-      "eval_steps_per_second": 3.617,
-      "step": 481
-    },
-    {
-      "epoch": 74.92,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.0483999252319336,
-      "eval_runtime": 0.5749,
-      "eval_samples_per_second": 80.02,
-      "eval_steps_per_second": 3.479,
-      "step": 487
-    },
-    {
-      "epoch": 75.38,
-      "learning_rate": 6.111111111111111e-05,
-      "loss": 0.0746,
-      "step": 490
-    },
-    {
-      "epoch": 76.0,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.999907374382019,
-      "eval_runtime": 0.6218,
-      "eval_samples_per_second": 73.983,
-      "eval_steps_per_second": 3.217,
-      "step": 494
-    },
-    {
-      "epoch": 76.92,
-      "learning_rate": 5.5555555555555545e-05,
-      "loss": 0.0687,
-      "step": 500
-    },
-    {
-      "epoch": 76.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 0.993706226348877,
-      "eval_runtime": 0.5757,
-      "eval_samples_per_second": 79.899,
-      "eval_steps_per_second": 3.474,
-      "step": 500
-    },
-    {
-      "epoch": 78.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.1188522577285767,
-      "eval_runtime": 0.5575,
-      "eval_samples_per_second": 82.513,
-      "eval_steps_per_second": 3.588,
-      "step": 507
-    },
-    {
-      "epoch": 78.46,
-      "learning_rate": 4.9999999999999996e-05,
-      "loss": 0.0761,
-      "step": 510
-    },
-    {
-      "epoch": 78.92,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.1013031005859375,
-      "eval_runtime": 0.6076,
-      "eval_samples_per_second": 75.709,
-      "eval_steps_per_second": 3.292,
-      "step": 513
-    },
-    {
-      "epoch": 80.0,
-      "learning_rate": 4.444444444444444e-05,
-      "loss": 0.0729,
-      "step": 520
-    },
-    {
-      "epoch": 80.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.029362678527832,
-      "eval_runtime": 0.5744,
-      "eval_samples_per_second": 80.09,
-      "eval_steps_per_second": 3.482,
-      "step": 520
-    },
-    {
-      "epoch": 80.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 1.0859981775283813,
-      "eval_runtime": 0.5737,
-      "eval_samples_per_second": 80.176,
-      "eval_steps_per_second": 3.486,
-      "step": 526
-    },
-    {
-      "epoch": 81.54,
-      "learning_rate": 3.8888888888888884e-05,
-      "loss": 0.0472,
-      "step": 530
-    },
-    {
-      "epoch": 82.0,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 1.03272545337677,
-      "eval_runtime": 0.5693,
-      "eval_samples_per_second": 80.807,
-      "eval_steps_per_second": 3.513,
-      "step": 533
-    },
-    {
-      "epoch": 82.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 1.0224952697753906,
-      "eval_runtime": 0.5731,
-      "eval_samples_per_second": 80.269,
-      "eval_steps_per_second": 3.49,
-      "step": 539
-    },
-    {
-      "epoch": 83.08,
-      "learning_rate": 3.333333333333333e-05,
-      "loss": 0.0519,
-      "step": 540
-    },
-    {
-      "epoch": 84.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.1345374584197998,
-      "eval_runtime": 0.5627,
-      "eval_samples_per_second": 81.748,
-      "eval_steps_per_second": 3.554,
-      "step": 546
-    },
-    {
-      "epoch": 84.62,
-      "learning_rate": 2.7777777777777772e-05,
-      "loss": 0.0688,
-      "step": 550
-    },
-    {
-      "epoch": 84.92,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.092256784439087,
-      "eval_runtime": 0.577,
-      "eval_samples_per_second": 79.728,
-      "eval_steps_per_second": 3.466,
-      "step": 552
-    },
-    {
-      "epoch": 86.0,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 1.087559700012207,
-      "eval_runtime": 0.5661,
-      "eval_samples_per_second": 81.256,
-      "eval_steps_per_second": 3.533,
-      "step": 559
-    },
-    {
-      "epoch": 86.15,
-      "learning_rate": 2.222222222222222e-05,
-      "loss": 0.0462,
-      "step": 560
-    },
-    {
-      "epoch": 86.92,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.0740270614624023,
-      "eval_runtime": 0.6474,
-      "eval_samples_per_second": 71.049,
-      "eval_steps_per_second": 3.089,
-      "step": 565
-    },
-    {
-      "epoch": 87.69,
-      "learning_rate": 1.6666666666666664e-05,
-      "loss": 0.0457,
-      "step": 570
-    },
-    {
-      "epoch": 88.0,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.1073704957962036,
-      "eval_runtime": 0.5747,
-      "eval_samples_per_second": 80.036,
-      "eval_steps_per_second": 3.48,
-      "step": 572
-    },
-    {
-      "epoch": 88.92,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.077661395072937,
-      "eval_runtime": 0.5678,
-      "eval_samples_per_second": 81.01,
-      "eval_steps_per_second": 3.522,
-      "step": 578
-    },
-    {
-      "epoch": 89.23,
-      "learning_rate": 1.111111111111111e-05,
-      "loss": 0.0482,
-      "step": 580
-    },
-    {
-      "epoch": 90.0,
-      "eval_accuracy": 0.7391304347826086,
-      "eval_loss": 1.0495113134384155,
-      "eval_runtime": 0.5757,
-      "eval_samples_per_second": 79.909,
-      "eval_steps_per_second": 3.474,
-      "step": 585
-    },
-    {
-      "epoch": 90.77,
-      "learning_rate": 5.555555555555555e-06,
-      "loss": 0.0464,
-      "step": 590
-    },
-    {
-      "epoch": 90.92,
-      "eval_accuracy": 0.717391304347826,
-      "eval_loss": 1.039515495300293,
-      "eval_runtime": 0.5732,
-      "eval_samples_per_second": 80.246,
-      "eval_steps_per_second": 3.489,
-      "step": 591
-    },
-    {
-      "epoch": 92.0,
       "eval_accuracy": 0.717391304347826,
-      "eval_loss": 1.1445815563201904,
-      "eval_runtime": 0.5643,
-      "eval_samples_per_second": 81.522,
-      "eval_steps_per_second": 3.544,
-      "step": 598
-    },
-    {
-      "epoch": 92.31,
-      "learning_rate": 0.0,
-      "loss": 0.0578,
-      "step": 600
     },
     {
-      "epoch": 92.31,
-      "eval_accuracy": 0.6956521739130435,
-      "eval_loss": 1.0596117973327637,
-      "eval_runtime": 0.6055,
-      "eval_samples_per_second": 75.965,
-      "eval_steps_per_second": 3.303,
-      "step": 600
-    },
-    {
-      "epoch": 92.31,
-      "step": 600,
-      "total_flos": 2.072479896260444e+17,
-      "train_loss": 0.2747100231051445,
-      "train_runtime": 347.4081,
-      "train_samples_per_second": 235.746,
-      "train_steps_per_second": 1.727
     }
   ],
   "logging_steps": 10,
-  "max_steps": 600,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 100,
   "save_steps": 500,
-  "total_flos": 2.072479896260444e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8260869565217391,
+  "best_model_checkpoint": "swiftformer-xs-ve-U13-b-80\\checkpoint-136",
+  "epoch": 73.84615384615384,
   "eval_steps": 500,
+  "global_step": 480,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.92,
       "eval_accuracy": 0.2391304347826087,
+      "eval_loss": 1.3858562707901,
+      "eval_runtime": 0.6151,
+      "eval_samples_per_second": 74.782,
+      "eval_steps_per_second": 3.251,
       "step": 6
     },
     {
       "epoch": 1.54,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 1.3857,
       "step": 10
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.2826086956521739,
+      "eval_loss": 1.383385419845581,
+      "eval_runtime": 0.5892,
+      "eval_samples_per_second": 78.066,
+      "eval_steps_per_second": 3.394,
       "step": 13
     },
     {
       "epoch": 2.92,
       "eval_accuracy": 0.1956521739130435,
+      "eval_loss": 1.3788952827453613,
+      "eval_runtime": 0.6135,
+      "eval_samples_per_second": 74.979,
+      "eval_steps_per_second": 3.26,
       "step": 19
     },
     {
       "epoch": 3.08,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 1.3767,
       "step": 20
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.15217391304347827,
+      "eval_loss": 1.3666234016418457,
+      "eval_runtime": 0.5852,
+      "eval_samples_per_second": 78.61,
+      "eval_steps_per_second": 3.418,
       "step": 26
     },
     {
       "epoch": 4.62,
+      "learning_rate": 0.000125,
+      "loss": 1.3226,
       "step": 30
     },
     {
       "epoch": 4.92,
       "eval_accuracy": 0.15217391304347827,
+      "eval_loss": 1.356500506401062,
+      "eval_runtime": 0.5925,
+      "eval_samples_per_second": 77.636,
+      "eval_steps_per_second": 3.375,
       "step": 32
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.10869565217391304,
+      "eval_loss": 1.3901711702346802,
+      "eval_runtime": 0.5997,
+      "eval_samples_per_second": 76.711,
+      "eval_steps_per_second": 3.335,
       "step": 39
     },
     {
       "epoch": 6.15,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 1.1987,
       "step": 40
     },
     {
       "epoch": 6.92,
+      "eval_accuracy": 0.21739130434782608,
+      "eval_loss": 1.3712323904037476,
+      "eval_runtime": 0.5757,
+      "eval_samples_per_second": 79.903,
+      "eval_steps_per_second": 3.474,
       "step": 45
     },
     {
       "epoch": 7.69,
+      "learning_rate": 0.0001990740740740741,
+      "loss": 1.1075,
       "step": 50
     },
     {
       "epoch": 8.0,
       "eval_accuracy": 0.34782608695652173,
+      "eval_loss": 1.3196704387664795,
+      "eval_runtime": 0.5987,
+      "eval_samples_per_second": 76.833,
+      "eval_steps_per_second": 3.341,
       "step": 52
     },
     {
       "epoch": 8.92,
       "eval_accuracy": 0.3695652173913043,
+      "eval_loss": 1.3648946285247803,
+      "eval_runtime": 0.5855,
+      "eval_samples_per_second": 78.566,
+      "eval_steps_per_second": 3.416,
       "step": 58
     },
     {
       "epoch": 9.23,
+      "learning_rate": 0.00019444444444444446,
+      "loss": 0.9988,
       "step": 60
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.3695652173913043,
+      "eval_loss": 1.2583398818969727,
+      "eval_runtime": 0.6118,
+      "eval_samples_per_second": 75.188,
+      "eval_steps_per_second": 3.269,
       "step": 65
     },
     {
       "epoch": 10.77,
+      "learning_rate": 0.00018981481481481483,
+      "loss": 0.8863,
       "step": 70
     },
     {
       "epoch": 10.92,
+      "eval_accuracy": 0.3695652173913043,
+      "eval_loss": 1.2484155893325806,
+      "eval_runtime": 0.5738,
+      "eval_samples_per_second": 80.169,
+      "eval_steps_per_second": 3.486,
       "step": 71
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.41304347826086957,
+      "eval_loss": 1.286899447441101,
+      "eval_runtime": 0.6289,
+      "eval_samples_per_second": 73.144,
+      "eval_steps_per_second": 3.18,
       "step": 78
     },
     {
       "epoch": 12.31,
+      "learning_rate": 0.0001851851851851852,
+      "loss": 0.8228,
       "step": 80
     },
     {
       "epoch": 12.92,
+      "eval_accuracy": 0.4782608695652174,
+      "eval_loss": 1.1677778959274292,
+      "eval_runtime": 0.5616,
+      "eval_samples_per_second": 81.902,
+      "eval_steps_per_second": 3.561,
       "step": 84
     },
     {
       "epoch": 13.85,
+      "learning_rate": 0.00018055555555555557,
+      "loss": 0.7456,
       "step": 90
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 1.0274546146392822,
+      "eval_runtime": 0.5647,
+      "eval_samples_per_second": 81.465,
+      "eval_steps_per_second": 3.542,
       "step": 91
     },
     {
       "epoch": 14.92,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.9701868891716003,
+      "eval_runtime": 0.5987,
+      "eval_samples_per_second": 76.834,
+      "eval_steps_per_second": 3.341,
       "step": 97
     },
     {
       "epoch": 15.38,
+      "learning_rate": 0.00017592592592592595,
+      "loss": 0.6595,
       "step": 100
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.9103245139122009,
+      "eval_runtime": 0.5651,
+      "eval_samples_per_second": 81.4,
+      "eval_steps_per_second": 3.539,
       "step": 104
     },
     {
       "epoch": 16.92,
+      "learning_rate": 0.00017129629629629632,
+      "loss": 0.5995,
       "step": 110
     },
     {
       "epoch": 16.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8506172895431519,
+      "eval_runtime": 0.6113,
+      "eval_samples_per_second": 75.248,
+      "eval_steps_per_second": 3.272,
       "step": 110
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.8514139652252197,
+      "eval_runtime": 0.5699,
+      "eval_samples_per_second": 80.723,
+      "eval_steps_per_second": 3.51,
       "step": 117
     },
     {
       "epoch": 18.46,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 0.5826,
       "step": 120
     },
     {
       "epoch": 18.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8963512182235718,
+      "eval_runtime": 0.5992,
+      "eval_samples_per_second": 76.774,
+      "eval_steps_per_second": 3.338,
       "step": 123
     },
     {
       "epoch": 20.0,
+      "learning_rate": 0.00016203703703703706,
+      "loss": 0.4818,
       "step": 130
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.8549758195877075,
+      "eval_runtime": 0.5779,
+      "eval_samples_per_second": 79.599,
+      "eval_steps_per_second": 3.461,
       "step": 130
     },
     {
       "epoch": 20.92,
+      "eval_accuracy": 0.8260869565217391,
+      "eval_loss": 0.7131932973861694,
+      "eval_runtime": 0.5892,
+      "eval_samples_per_second": 78.073,
+      "eval_steps_per_second": 3.394,
       "step": 136
     },
     {
       "epoch": 21.54,
+      "learning_rate": 0.00015740740740740743,
+      "loss": 0.4553,
       "step": 140
     },
     {
       "epoch": 22.0,
       "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.6972543597221375,
+      "eval_runtime": 0.6311,
+      "eval_samples_per_second": 72.888,
+      "eval_steps_per_second": 3.169,
       "step": 143
     },
     {
       "epoch": 22.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.749606728553772,
+      "eval_runtime": 0.6069,
+      "eval_samples_per_second": 75.792,
+      "eval_steps_per_second": 3.295,
       "step": 149
     },
     {
       "epoch": 23.08,
+      "learning_rate": 0.00015277777777777777,
+      "loss": 0.4276,
       "step": 150
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.9087320566177368,
+      "eval_runtime": 0.6537,
+      "eval_samples_per_second": 70.367,
+      "eval_steps_per_second": 3.059,
       "step": 156
     },
     {
       "epoch": 24.62,
+      "learning_rate": 0.00014814814814814815,
+      "loss": 0.3375,
       "step": 160
     },
     {
       "epoch": 24.92,
+      "eval_accuracy": 0.8260869565217391,
+      "eval_loss": 0.7786810398101807,
+      "eval_runtime": 0.588,
+      "eval_samples_per_second": 78.229,
+      "eval_steps_per_second": 3.401,
       "step": 162
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.8043478260869565,
+      "eval_loss": 0.7131972312927246,
+      "eval_runtime": 0.5899,
+      "eval_samples_per_second": 77.976,
+      "eval_steps_per_second": 3.39,
       "step": 169
     },
     {
       "epoch": 26.15,
+      "learning_rate": 0.00014351851851851852,
+      "loss": 0.3199,
       "step": 170
     },
     {
       "epoch": 26.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.7569522261619568,
+      "eval_runtime": 0.5879,
+      "eval_samples_per_second": 78.242,
+      "eval_steps_per_second": 3.402,
       "step": 175
     },
     {
       "epoch": 27.69,
+      "learning_rate": 0.0001388888888888889,
+      "loss": 0.2756,
       "step": 180
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.787326455116272,
+      "eval_runtime": 0.5846,
+      "eval_samples_per_second": 78.69,
+      "eval_steps_per_second": 3.421,
       "step": 182
     },
     {
       "epoch": 28.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7894624471664429,
+      "eval_runtime": 0.6067,
+      "eval_samples_per_second": 75.814,
+      "eval_steps_per_second": 3.296,
       "step": 188
     },
     {
       "epoch": 29.23,
+      "learning_rate": 0.00013425925925925926,
+      "loss": 0.2254,
       "step": 190
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.8043478260869565,
+      "eval_loss": 0.7443256378173828,
+      "eval_runtime": 0.6221,
+      "eval_samples_per_second": 73.946,
+      "eval_steps_per_second": 3.215,
       "step": 195
     },
     {
       "epoch": 30.77,
+      "learning_rate": 0.00012962962962962963,
+      "loss": 0.2576,
       "step": 200
     },
     {
       "epoch": 30.92,
+      "eval_accuracy": 0.6739130434782609,
+      "eval_loss": 0.9623061418533325,
+      "eval_runtime": 0.6026,
+      "eval_samples_per_second": 76.332,
+      "eval_steps_per_second": 3.319,
       "step": 201
     },
     {
       "epoch": 32.0,
       "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.7348794341087341,
+      "eval_runtime": 0.5766,
+      "eval_samples_per_second": 79.779,
+      "eval_steps_per_second": 3.469,
       "step": 208
     },
     {
       "epoch": 32.31,
+      "learning_rate": 0.000125,
+      "loss": 0.2113,
       "step": 210
     },
     {
       "epoch": 32.92,
       "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7886755466461182,
+      "eval_runtime": 0.6103,
+      "eval_samples_per_second": 75.378,
+      "eval_steps_per_second": 3.277,
       "step": 214
     },
     {
       "epoch": 33.85,
+      "learning_rate": 0.00012037037037037037,
+      "loss": 0.1978,
       "step": 220
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8920990228652954,
+      "eval_runtime": 0.573,
+      "eval_samples_per_second": 80.278,
+      "eval_steps_per_second": 3.49,
       "step": 221
     },
     {
       "epoch": 34.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8102229833602905,
+      "eval_runtime": 0.6072,
+      "eval_samples_per_second": 75.756,
+      "eval_steps_per_second": 3.294,
       "step": 227
     },
     {
       "epoch": 35.38,
+      "learning_rate": 0.00011574074074074075,
+      "loss": 0.2455,
       "step": 230
     },
     {
       "epoch": 36.0,
       "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.894730269908905,
+      "eval_runtime": 0.6442,
+      "eval_samples_per_second": 71.406,
+      "eval_steps_per_second": 3.105,
       "step": 234
     },
     {
       "epoch": 36.92,
+      "learning_rate": 0.00011111111111111112,
+      "loss": 0.1809,
       "step": 240
     },
     {
       "epoch": 36.92,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.8143943548202515,
+      "eval_runtime": 0.5823,
+      "eval_samples_per_second": 78.995,
+      "eval_steps_per_second": 3.435,
       "step": 240
     },
     {
       "epoch": 38.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.829043984413147,
+      "eval_runtime": 0.573,
+      "eval_samples_per_second": 80.275,
+      "eval_steps_per_second": 3.49,
       "step": 247
     },
     {
       "epoch": 38.46,
+      "learning_rate": 0.00010648148148148149,
+      "loss": 0.1967,
       "step": 250
     },
     {
       "epoch": 38.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.8135195374488831,
+      "eval_runtime": 0.5896,
+      "eval_samples_per_second": 78.014,
+      "eval_steps_per_second": 3.392,
       "step": 253
     },
     {
       "epoch": 40.0,
+      "learning_rate": 0.00010185185185185186,
+      "loss": 0.1608,
       "step": 260
     },
     {
       "epoch": 40.0,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.8064969182014465,
+      "eval_runtime": 0.6144,
+      "eval_samples_per_second": 74.87,
+      "eval_steps_per_second": 3.255,
       "step": 260
     },
     {
       "epoch": 40.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.739860475063324,
+      "eval_runtime": 0.5769,
+      "eval_samples_per_second": 79.736,
+      "eval_steps_per_second": 3.467,
       "step": 266
     },
     {
       "epoch": 41.54,
+      "learning_rate": 9.722222222222223e-05,
+      "loss": 0.1704,
       "step": 270
     },
     {
       "epoch": 42.0,
+      "eval_accuracy": 0.8043478260869565,
+      "eval_loss": 0.7099208235740662,
+      "eval_runtime": 0.5722,
+      "eval_samples_per_second": 80.394,
+      "eval_steps_per_second": 3.495,
       "step": 273
     },
     {
       "epoch": 42.92,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.7569423913955688,
+      "eval_runtime": 0.5853,
+      "eval_samples_per_second": 78.596,
+      "eval_steps_per_second": 3.417,
       "step": 279
     },
     {
       "epoch": 43.08,
+      "learning_rate": 9.25925925925926e-05,
+      "loss": 0.1682,
       "step": 280
     },
     {
       "epoch": 44.0,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.8458698987960815,
+      "eval_runtime": 0.6104,
+      "eval_samples_per_second": 75.362,
+      "eval_steps_per_second": 3.277,
       "step": 286
     },
     {
       "epoch": 44.62,
+      "learning_rate": 8.796296296296297e-05,
+      "loss": 0.1607,
       "step": 290
     },
     {
       "epoch": 44.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7311373353004456,
+      "eval_runtime": 0.5835,
+      "eval_samples_per_second": 78.829,
+      "eval_steps_per_second": 3.427,
       "step": 292
     },
     {
       "epoch": 46.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.783256471157074,
+      "eval_runtime": 0.619,
+      "eval_samples_per_second": 74.311,
+      "eval_steps_per_second": 3.231,
       "step": 299
     },
     {
       "epoch": 46.15,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 0.1589,
       "step": 300
     },
     {
       "epoch": 46.92,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8072806596755981,
+      "eval_runtime": 0.6425,
+      "eval_samples_per_second": 71.594,
+      "eval_steps_per_second": 3.113,
       "step": 305
     },
     {
       "epoch": 47.69,
+      "learning_rate": 7.870370370370372e-05,
+      "loss": 0.1524,
       "step": 310
     },
     {
       "epoch": 48.0,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7472575902938843,
+      "eval_runtime": 0.6,
+      "eval_samples_per_second": 76.668,
+      "eval_steps_per_second": 3.333,
       "step": 312
     },
     {
       "epoch": 48.92,
+      "eval_accuracy": 0.8043478260869565,
+      "eval_loss": 0.6779573559761047,
+      "eval_runtime": 0.5961,
+      "eval_samples_per_second": 77.169,
+      "eval_steps_per_second": 3.355,
       "step": 318
     },
     {
       "epoch": 49.23,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 0.1586,
       "step": 320
     },
     {
       "epoch": 50.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.7573379874229431,
+      "eval_runtime": 0.6092,
+      "eval_samples_per_second": 75.504,
+      "eval_steps_per_second": 3.283,
       "step": 325
     },
     {
       "epoch": 50.77,
+      "learning_rate": 6.944444444444444e-05,
+      "loss": 0.128,
       "step": 330
     },
     {
       "epoch": 50.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.7614392638206482,
+      "eval_runtime": 0.5939,
+      "eval_samples_per_second": 77.451,
+      "eval_steps_per_second": 3.367,
       "step": 331
     },
     {
       "epoch": 52.0,
       "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7338166236877441,
+      "eval_runtime": 0.6299,
+      "eval_samples_per_second": 73.033,
+      "eval_steps_per_second": 3.175,
       "step": 338
     },
     {
       "epoch": 52.31,
+      "learning_rate": 6.481481481481482e-05,
+      "loss": 0.1254,
       "step": 340
     },
     {
       "epoch": 52.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.7666023373603821,
+      "eval_runtime": 0.6065,
+      "eval_samples_per_second": 75.848,
+      "eval_steps_per_second": 3.298,
       "step": 344
     },
     {
       "epoch": 53.85,
+      "learning_rate": 6.018518518518519e-05,
+      "loss": 0.1206,
       "step": 350
     },
     {
       "epoch": 54.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.8433414101600647,
+      "eval_runtime": 0.6112,
+      "eval_samples_per_second": 75.257,
+      "eval_steps_per_second": 3.272,
       "step": 351
     },
     {
       "epoch": 54.92,
+      "eval_accuracy": 0.6956521739130435,
+      "eval_loss": 0.8747164011001587,
+      "eval_runtime": 0.6225,
+      "eval_samples_per_second": 73.894,
+      "eval_steps_per_second": 3.213,
       "step": 357
     },
     {
       "epoch": 55.38,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 0.1398,
       "step": 360
     },
     {
       "epoch": 56.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.8940105438232422,
+      "eval_runtime": 0.5972,
+      "eval_samples_per_second": 77.026,
+      "eval_steps_per_second": 3.349,
       "step": 364
     },
     {
       "epoch": 56.92,
+      "learning_rate": 5.092592592592593e-05,
+      "loss": 0.1536,
       "step": 370
     },
     {
       "epoch": 56.92,
       "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.7780929803848267,
+      "eval_runtime": 0.5998,
+      "eval_samples_per_second": 76.693,
+      "eval_steps_per_second": 3.334,
       "step": 370
     },
     {
       "epoch": 58.0,
       "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.7350872159004211,
+      "eval_runtime": 0.6081,
+      "eval_samples_per_second": 75.64,
+      "eval_steps_per_second": 3.289,
       "step": 377
     },
     {
       "epoch": 58.46,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.1281,
       "step": 380
     },
     {
       "epoch": 58.92,
       "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.7600933313369751,
+      "eval_runtime": 0.5822,
+      "eval_samples_per_second": 79.008,
+      "eval_steps_per_second": 3.435,
       "step": 383
     },
     {
       "epoch": 60.0,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.1156,
       "step": 390
     },
     {
       "epoch": 60.0,
+      "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.7990931868553162,
+      "eval_runtime": 0.6251,
+      "eval_samples_per_second": 73.589,
+      "eval_steps_per_second": 3.2,
       "step": 390
     },
     {
       "epoch": 60.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7775823473930359,
+      "eval_runtime": 0.5922,
+      "eval_samples_per_second": 77.678,
+      "eval_steps_per_second": 3.377,
       "step": 396
     },
     {
       "epoch": 61.54,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0852,
       "step": 400
     },
     {
       "epoch": 62.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.78378826379776,
+      "eval_runtime": 0.6126,
+      "eval_samples_per_second": 75.09,
+      "eval_steps_per_second": 3.265,
       "step": 403
     },
     {
       "epoch": 62.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7752338647842407,
+      "eval_runtime": 0.594,
+      "eval_samples_per_second": 77.443,
+      "eval_steps_per_second": 3.367,
       "step": 409
     },
     {
       "epoch": 63.08,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 0.1106,
       "step": 410
     },
     {
       "epoch": 64.0,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7541300058364868,
+      "eval_runtime": 0.6316,
+      "eval_samples_per_second": 72.826,
+      "eval_steps_per_second": 3.166,
       "step": 416
     },
     {
       "epoch": 64.62,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0817,
       "step": 420
     },
     {
       "epoch": 64.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.7536001801490784,
+      "eval_runtime": 0.6469,
+      "eval_samples_per_second": 71.106,
+      "eval_steps_per_second": 3.092,
       "step": 422
     },
     {
       "epoch": 66.0,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.8129211068153381,
+      "eval_runtime": 0.5986,
+      "eval_samples_per_second": 76.844,
+      "eval_steps_per_second": 3.341,
       "step": 429
     },
     {
       "epoch": 66.15,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.1211,
       "step": 430
     },
     {
       "epoch": 66.92,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.7883771061897278,
+      "eval_runtime": 0.6108,
+      "eval_samples_per_second": 75.306,
+      "eval_steps_per_second": 3.274,
       "step": 435
     },
     {
       "epoch": 67.69,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0944,
       "step": 440
     },
     {
       "epoch": 68.0,
+      "eval_accuracy": 0.7608695652173914,
+      "eval_loss": 0.8011212348937988,
+      "eval_runtime": 0.5979,
+      "eval_samples_per_second": 76.93,
+      "eval_steps_per_second": 3.345,
       "step": 442
     },
     {
       "epoch": 68.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.806803822517395,
+      "eval_runtime": 0.5931,
+      "eval_samples_per_second": 77.56,
+      "eval_steps_per_second": 3.372,
       "step": 448
     },
     {
       "epoch": 69.23,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.1187,
       "step": 450
     },
     {
       "epoch": 70.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.7795934081077576,
+      "eval_runtime": 0.6317,
+      "eval_samples_per_second": 72.821,
+      "eval_steps_per_second": 3.166,
       "step": 455
     },
     {
       "epoch": 70.77,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.0935,
       "step": 460
     },
     {
       "epoch": 70.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.793422281742096,
+      "eval_runtime": 0.5934,
+      "eval_samples_per_second": 77.523,
+      "eval_steps_per_second": 3.371,
       "step": 461
     },
     {
       "epoch": 72.0,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.736743152141571,
+      "eval_runtime": 0.6082,
+      "eval_samples_per_second": 75.631,
+      "eval_steps_per_second": 3.288,
       "step": 468
     },
     {
       "epoch": 72.31,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.109,
       "step": 470
     },
     {
       "epoch": 72.92,
+      "eval_accuracy": 0.7391304347826086,
+      "eval_loss": 0.7514945268630981,
+      "eval_runtime": 0.604,
+      "eval_samples_per_second": 76.157,
+      "eval_steps_per_second": 3.311,
       "step": 474
     },
     {
       "epoch": 73.85,
+      "learning_rate": 0.0,
+      "loss": 0.1006,
       "step": 480
     },
     {
+      "epoch": 73.85,
       "eval_accuracy": 0.717391304347826,
+      "eval_loss": 0.7887920141220093,
+      "eval_runtime": 0.613,
+      "eval_samples_per_second": 75.037,
+      "eval_steps_per_second": 3.262,
+      "step": 480
     },
     {
+      "epoch": 73.85,
+      "step": 480,
+      "total_flos": 1.6581977329862246e+17,
+      "train_loss": 0.38448232350250083,
+      "train_runtime": 275.3303,
+      "train_samples_per_second": 237.969,
+      "train_steps_per_second": 1.743
     }
   ],
   "logging_steps": 10,
+  "max_steps": 480,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 80,
   "save_steps": 500,
+  "total_flos": 1.6581977329862246e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null