matthieulel
/

convnextv2-tiny-1k-224-finetuned-galaxy10-decals

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: facebook/convnextv2-tiny-1k-224
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -18,13 +20,13 @@ should probably proofread and complete it, then remove this comment. -->
 # convnextv2-tiny-1k-224-finetuned-galaxy10-decals
-This model is a fine-tuned version of [facebook/convnextv2-tiny-1k-224](https://huggingface.co/facebook/convnextv2-tiny-1k-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4343
-- Accuracy: 0.8664
-- Precision: 0.8648
-- Recall: 0.8664
-- F1: 0.8649
 ## Model description

 license: apache-2.0
 base_model: facebook/convnextv2-tiny-1k-224
 tags:
+- image-classification
+- vision
 - generated_from_trainer
 metrics:
 - accuracy
 # convnextv2-tiny-1k-224-finetuned-galaxy10-decals
+This model is a fine-tuned version of [facebook/convnextv2-tiny-1k-224](https://huggingface.co/facebook/convnextv2-tiny-1k-224) on the matthieulel/galaxy10_decals dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3993
+- Accuracy: 0.8732
+- Precision: 0.8714
+- Recall: 0.8732
+- F1: 0.8715
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,15 @@
 {
-    "epoch": 19.879759519038075,
-    "eval_accuracy": 0.8703494926719278,
-    "eval_loss": 0.4261245131492615,
-    "eval_runtime": 25.4134,
-    "eval_samples_per_second": 69.806,
-    "eval_steps_per_second": 2.204,
-    "total_flos": 7.988705158075343e+18,
-    "train_loss": 0.5653726263392356,
-    "train_runtime": 5886.8979,
-    "train_samples_per_second": 54.229,
-    "train_steps_per_second": 0.421
 }

 {
+    "epoch": 29.76,
+    "eval_accuracy": 0.8731679819616686,
+    "eval_f1": 0.8715392270157274,
+    "eval_loss": 0.3992723822593689,
+    "eval_precision": 0.8713942778118218,
+    "eval_recall": 0.8731679819616686,
+    "eval_runtime": 11.3947,
+    "eval_samples_per_second": 155.686,
+    "eval_steps_per_second": 2.457,
+    "train_loss": 0.5325898121762019,
+    "train_runtime": 4135.2976,
+    "train_samples_per_second": 115.798,
+    "train_steps_per_second": 0.45
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,11 @@
 {
-    "epoch": 19.879759519038075,
-    "eval_accuracy": 0.8703494926719278,
-    "eval_loss": 0.4261245131492615,
-    "eval_runtime": 25.4134,
-    "eval_samples_per_second": 69.806,
-    "eval_steps_per_second": 2.204
 }

 {
+    "epoch": 29.76,
+    "eval_accuracy": 0.8731679819616686,
+    "eval_f1": 0.8715392270157274,
+    "eval_loss": 0.3992723822593689,
+    "eval_precision": 0.8713942778118218,
+    "eval_recall": 0.8731679819616686,
+    "eval_runtime": 11.3947,
+    "eval_samples_per_second": 155.686,
+    "eval_steps_per_second": 2.457
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,7 @@
 {
-    "epoch": 19.879759519038075,
-    "total_flos": 7.988705158075343e+18,
-    "train_loss": 0.5653726263392356,
-    "train_runtime": 5886.8979,
-    "train_samples_per_second": 54.229,
-    "train_steps_per_second": 0.421
 }

 {
+    "epoch": 29.76,
+    "train_loss": 0.5325898121762019,
+    "train_runtime": 4135.2976,
+    "train_samples_per_second": 115.798,
+    "train_steps_per_second": 0.45
 }

trainer_state.json CHANGED Viewed

@@ -1,1946 +1,1506 @@
 {
-  "best_metric": 0.8703494926719278,
-  "best_model_checkpoint": "convnextv2-tiny-1k-224-finetuned-galaxy10-decals/checkpoint-2480",
-  "epoch": 19.879759519038075,
   "eval_steps": 500,
-  "global_step": 2480,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.08016032064128256,
-      "grad_norm": 5.443685531616211,
-      "learning_rate": 2.0161290322580646e-06,
-      "loss": 2.3476,
       "step": 10
     },
     {
-      "epoch": 0.16032064128256512,
-      "grad_norm": 5.888722896575928,
-      "learning_rate": 4.032258064516129e-06,
-      "loss": 2.3134,
       "step": 20
     },
     {
-      "epoch": 0.24048096192384769,
-      "grad_norm": 3.9038140773773193,
-      "learning_rate": 6.048387096774194e-06,
-      "loss": 2.2707,
       "step": 30
     },
     {
-      "epoch": 0.32064128256513025,
-      "grad_norm": 2.5614984035491943,
-      "learning_rate": 8.064516129032258e-06,
-      "loss": 2.2183,
       "step": 40
     },
     {
-      "epoch": 0.40080160320641284,
-      "grad_norm": 5.785397052764893,
-      "learning_rate": 1.0080645161290323e-05,
-      "loss": 2.1604,
       "step": 50
     },
     {
-      "epoch": 0.48096192384769537,
-      "grad_norm": 5.09072208404541,
-      "learning_rate": 1.2096774193548388e-05,
-      "loss": 2.0969,
       "step": 60
     },
     {
-      "epoch": 0.561122244488978,
-      "grad_norm": 2.9109528064727783,
-      "learning_rate": 1.4112903225806454e-05,
-      "loss": 2.0283,
       "step": 70
     },
     {
-      "epoch": 0.6412825651302605,
-      "grad_norm": 7.426329135894775,
-      "learning_rate": 1.6129032258064517e-05,
-      "loss": 1.9125,
       "step": 80
     },
     {
-      "epoch": 0.7214428857715431,
-      "grad_norm": 8.441859245300293,
-      "learning_rate": 1.8145161290322583e-05,
-      "loss": 1.7735,
       "step": 90
     },
     {
-      "epoch": 0.8016032064128257,
-      "grad_norm": 5.191440582275391,
-      "learning_rate": 2.0161290322580645e-05,
-      "loss": 1.6402,
       "step": 100
     },
     {
-      "epoch": 0.8817635270541082,
-      "grad_norm": 6.325778007507324,
-      "learning_rate": 2.217741935483871e-05,
-      "loss": 1.5225,
       "step": 110
     },
     {
-      "epoch": 0.9619238476953907,
-      "grad_norm": 7.641424655914307,
-      "learning_rate": 2.4193548387096777e-05,
-      "loss": 1.4287,
       "step": 120
     },
     {
-      "epoch": 0.9939879759519038,
-      "eval_accuracy": 0.5851183765501691,
-      "eval_loss": 1.2978211641311646,
-      "eval_runtime": 23.4495,
-      "eval_samples_per_second": 75.652,
-      "eval_steps_per_second": 2.388,
-      "step": 124
     },
     {
-      "epoch": 1.0420841683366733,
-      "grad_norm": 9.333320617675781,
-      "learning_rate": 2.620967741935484e-05,
-      "loss": 1.3617,
       "step": 130
     },
     {
-      "epoch": 1.122244488977956,
-      "grad_norm": 10.036263465881348,
-      "learning_rate": 2.822580645161291e-05,
-      "loss": 1.3084,
       "step": 140
     },
     {
-      "epoch": 1.2024048096192386,
-      "grad_norm": 11.795063018798828,
-      "learning_rate": 3.024193548387097e-05,
-      "loss": 1.2472,
       "step": 150
     },
     {
-      "epoch": 1.282565130260521,
-      "grad_norm": 11.583420753479004,
-      "learning_rate": 3.2258064516129034e-05,
-      "loss": 1.1335,
       "step": 160
     },
     {
-      "epoch": 1.3627254509018036,
-      "grad_norm": 14.882524490356445,
-      "learning_rate": 3.427419354838709e-05,
-      "loss": 1.102,
       "step": 170
     },
     {
-      "epoch": 1.4428857715430863,
-      "grad_norm": 14.157336235046387,
-      "learning_rate": 3.6290322580645165e-05,
-      "loss": 1.049,
       "step": 180
     },
     {
-      "epoch": 1.5230460921843687,
-      "grad_norm": 10.484189987182617,
-      "learning_rate": 3.8306451612903224e-05,
-      "loss": 1.0445,
       "step": 190
     },
     {
-      "epoch": 1.6032064128256514,
-      "grad_norm": 14.128747940063477,
-      "learning_rate": 4.032258064516129e-05,
-      "loss": 0.995,
       "step": 200
     },
     {
-      "epoch": 1.6833667334669338,
-      "grad_norm": 9.768001556396484,
-      "learning_rate": 4.2338709677419356e-05,
-      "loss": 0.9573,
       "step": 210
     },
     {
-      "epoch": 1.7635270541082164,
-      "grad_norm": 13.823319435119629,
-      "learning_rate": 4.435483870967742e-05,
-      "loss": 0.9072,
       "step": 220
     },
     {
-      "epoch": 1.843687374749499,
-      "grad_norm": 9.132129669189453,
-      "learning_rate": 4.637096774193548e-05,
-      "loss": 0.8156,
       "step": 230
     },
     {
-      "epoch": 1.9238476953907817,
-      "grad_norm": 18.744123458862305,
       "learning_rate": 4.8387096774193554e-05,
-      "loss": 0.8329,
       "step": 240
     },
     {
-      "epoch": 1.9959919839679359,
-      "eval_accuracy": 0.7728297632468997,
-      "eval_loss": 0.6986980438232422,
-      "eval_runtime": 11.7756,
-      "eval_samples_per_second": 150.65,
-      "eval_steps_per_second": 4.756,
-      "step": 249
     },
     {
-      "epoch": 2.004008016032064,
-      "grad_norm": 8.23229694366455,
-      "learning_rate": 4.995519713261649e-05,
-      "loss": 0.8108,
       "step": 250
     },
     {
-      "epoch": 2.0841683366733466,
-      "grad_norm": 13.277573585510254,
-      "learning_rate": 4.973118279569893e-05,
-      "loss": 0.7733,
       "step": 260
     },
     {
-      "epoch": 2.164328657314629,
-      "grad_norm": 13.641548156738281,
-      "learning_rate": 4.950716845878137e-05,
-      "loss": 0.7904,
       "step": 270
     },
     {
-      "epoch": 2.244488977955912,
-      "grad_norm": 18.69782829284668,
-      "learning_rate": 4.92831541218638e-05,
-      "loss": 0.7419,
       "step": 280
     },
     {
-      "epoch": 2.3246492985971945,
-      "grad_norm": 15.437073707580566,
-      "learning_rate": 4.905913978494624e-05,
-      "loss": 0.7647,
       "step": 290
     },
     {
-      "epoch": 2.404809619238477,
-      "grad_norm": 21.065357208251953,
-      "learning_rate": 4.8835125448028677e-05,
-      "loss": 0.7303,
       "step": 300
     },
     {
-      "epoch": 2.4849699398797593,
-      "grad_norm": 16.6332950592041,
-      "learning_rate": 4.8611111111111115e-05,
-      "loss": 0.764,
       "step": 310
     },
     {
-      "epoch": 2.565130260521042,
-      "grad_norm": 13.331892967224121,
-      "learning_rate": 4.8387096774193554e-05,
-      "loss": 0.7586,
       "step": 320
     },
     {
-      "epoch": 2.6452905811623246,
-      "grad_norm": 18.221023559570312,
-      "learning_rate": 4.8163082437275986e-05,
-      "loss": 0.7078,
       "step": 330
     },
     {
-      "epoch": 2.7254509018036073,
-      "grad_norm": 16.339580535888672,
-      "learning_rate": 4.7939068100358424e-05,
-      "loss": 0.7008,
       "step": 340
     },
     {
-      "epoch": 2.80561122244489,
-      "grad_norm": 12.270729064941406,
-      "learning_rate": 4.771505376344086e-05,
-      "loss": 0.7941,
       "step": 350
     },
     {
-      "epoch": 2.8857715430861726,
-      "grad_norm": 10.448567390441895,
-      "learning_rate": 4.74910394265233e-05,
-      "loss": 0.6575,
       "step": 360
     },
     {
-      "epoch": 2.9659318637274548,
-      "grad_norm": 12.076117515563965,
-      "learning_rate": 4.726702508960574e-05,
-      "loss": 0.7348,
       "step": 370
     },
     {
-      "epoch": 2.997995991983968,
-      "eval_accuracy": 0.8179255918827508,
-      "eval_loss": 0.5658715963363647,
-      "eval_runtime": 12.6995,
-      "eval_samples_per_second": 139.691,
-      "eval_steps_per_second": 4.41,
-      "step": 374
     },
     {
-      "epoch": 3.0460921843687374,
-      "grad_norm": 10.130627632141113,
-      "learning_rate": 4.704301075268818e-05,
-      "loss": 0.6752,
       "step": 380
     },
     {
-      "epoch": 3.12625250501002,
-      "grad_norm": 15.763223648071289,
-      "learning_rate": 4.681899641577061e-05,
-      "loss": 0.6367,
       "step": 390
     },
     {
-      "epoch": 3.2064128256513027,
-      "grad_norm": 13.580248832702637,
-      "learning_rate": 4.659498207885305e-05,
-      "loss": 0.6239,
       "step": 400
     },
     {
-      "epoch": 3.2865731462925853,
-      "grad_norm": 11.084284782409668,
-      "learning_rate": 4.637096774193548e-05,
-      "loss": 0.6857,
       "step": 410
     },
     {
-      "epoch": 3.3667334669338675,
-      "grad_norm": 12.55604362487793,
-      "learning_rate": 4.614695340501792e-05,
-      "loss": 0.6603,
       "step": 420
     },
     {
-      "epoch": 3.44689378757515,
-      "grad_norm": 9.201930046081543,
-      "learning_rate": 4.5922939068100365e-05,
-      "loss": 0.6514,
       "step": 430
     },
     {
-      "epoch": 3.527054108216433,
-      "grad_norm": 12.60409927368164,
-      "learning_rate": 4.56989247311828e-05,
-      "loss": 0.6237,
       "step": 440
     },
     {
-      "epoch": 3.6072144288577155,
-      "grad_norm": 21.13867950439453,
-      "learning_rate": 4.5474910394265236e-05,
-      "loss": 0.6698,
       "step": 450
     },
     {
-      "epoch": 3.687374749498998,
-      "grad_norm": 15.415425300598145,
-      "learning_rate": 4.5250896057347674e-05,
-      "loss": 0.6016,
       "step": 460
     },
     {
-      "epoch": 3.7675350701402808,
-      "grad_norm": 10.865119934082031,
-      "learning_rate": 4.5026881720430106e-05,
-      "loss": 0.633,
       "step": 470
     },
     {
-      "epoch": 3.847695390781563,
-      "grad_norm": 12.04747200012207,
-      "learning_rate": 4.4802867383512545e-05,
-      "loss": 0.686,
       "step": 480
     },
     {
-      "epoch": 3.9278557114228456,
-      "grad_norm": 15.560898780822754,
-      "learning_rate": 4.4578853046594983e-05,
-      "loss": 0.611,
       "step": 490
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.8297632468996617,
-      "eval_loss": 0.5378695726394653,
-      "eval_runtime": 12.4744,
-      "eval_samples_per_second": 142.212,
-      "eval_steps_per_second": 4.489,
-      "step": 499
-    },
-    {
-      "epoch": 4.008016032064128,
-      "grad_norm": 12.36653995513916,
-      "learning_rate": 4.435483870967742e-05,
-      "loss": 0.6783,
       "step": 500
     },
     {
-      "epoch": 4.0881763527054105,
-      "grad_norm": 12.612045288085938,
-      "learning_rate": 4.413082437275986e-05,
-      "loss": 0.6591,
       "step": 510
     },
     {
-      "epoch": 4.168336673346693,
-      "grad_norm": 9.516498565673828,
-      "learning_rate": 4.390681003584229e-05,
-      "loss": 0.6409,
       "step": 520
     },
     {
-      "epoch": 4.248496993987976,
-      "grad_norm": 10.227922439575195,
-      "learning_rate": 4.368279569892473e-05,
-      "loss": 0.6113,
       "step": 530
     },
     {
-      "epoch": 4.328657314629258,
-      "grad_norm": 9.941215515136719,
-      "learning_rate": 4.345878136200717e-05,
-      "loss": 0.5545,
       "step": 540
     },
     {
-      "epoch": 4.408817635270541,
-      "grad_norm": 11.132833480834961,
-      "learning_rate": 4.323476702508961e-05,
-      "loss": 0.5876,
       "step": 550
     },
     {
-      "epoch": 4.488977955911824,
-      "grad_norm": 17.30998992919922,
-      "learning_rate": 4.301075268817205e-05,
-      "loss": 0.6059,
       "step": 560
     },
     {
-      "epoch": 4.569138276553106,
-      "grad_norm": 12.370113372802734,
-      "learning_rate": 4.2786738351254486e-05,
-      "loss": 0.572,
       "step": 570
     },
     {
-      "epoch": 4.649298597194389,
-      "grad_norm": 8.4649019241333,
-      "learning_rate": 4.256272401433692e-05,
-      "loss": 0.5474,
       "step": 580
     },
     {
-      "epoch": 4.729458917835672,
-      "grad_norm": 13.911017417907715,
-      "learning_rate": 4.2338709677419356e-05,
-      "loss": 0.5745,
       "step": 590
     },
     {
-      "epoch": 4.809619238476954,
-      "grad_norm": 13.061511993408203,
-      "learning_rate": 4.2114695340501795e-05,
-      "loss": 0.6151,
       "step": 600
     },
     {
-      "epoch": 4.889779559118237,
-      "grad_norm": 17.543981552124023,
-      "learning_rate": 4.1890681003584233e-05,
-      "loss": 0.5702,
       "step": 610
     },
     {
-      "epoch": 4.969939879759519,
-      "grad_norm": 14.352049827575684,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.5929,
       "step": 620
     },
     {
-      "epoch": 4.993987975951904,
-      "eval_accuracy": 0.8376550169109357,
-      "eval_loss": 0.4972485899925232,
-      "eval_runtime": 30.5452,
-      "eval_samples_per_second": 58.078,
-      "eval_steps_per_second": 1.833,
-      "step": 623
     },
     {
-      "epoch": 5.050100200400801,
-      "grad_norm": 12.319650650024414,
-      "learning_rate": 4.1442652329749104e-05,
-      "loss": 0.6066,
       "step": 630
     },
     {
-      "epoch": 5.130260521042084,
-      "grad_norm": 13.590569496154785,
-      "learning_rate": 4.121863799283154e-05,
-      "loss": 0.561,
       "step": 640
     },
     {
-      "epoch": 5.210420841683367,
-      "grad_norm": 6.548098087310791,
-      "learning_rate": 4.099462365591398e-05,
-      "loss": 0.5747,
       "step": 650
     },
     {
-      "epoch": 5.290581162324649,
-      "grad_norm": 11.081100463867188,
-      "learning_rate": 4.077060931899642e-05,
-      "loss": 0.5469,
       "step": 660
     },
     {
-      "epoch": 5.370741482965932,
-      "grad_norm": 11.028233528137207,
-      "learning_rate": 4.054659498207886e-05,
-      "loss": 0.5913,
       "step": 670
     },
     {
-      "epoch": 5.4509018036072145,
-      "grad_norm": 16.77172088623047,
-      "learning_rate": 4.032258064516129e-05,
-      "loss": 0.5454,
       "step": 680
     },
     {
-      "epoch": 5.531062124248497,
-      "grad_norm": 12.664057731628418,
-      "learning_rate": 4.009856630824373e-05,
-      "loss": 0.5376,
       "step": 690
     },
     {
-      "epoch": 5.61122244488978,
-      "grad_norm": 16.970354080200195,
-      "learning_rate": 3.987455197132617e-05,
-      "loss": 0.6195,
       "step": 700
     },
     {
-      "epoch": 5.6913827655310625,
-      "grad_norm": 20.813093185424805,
-      "learning_rate": 3.96505376344086e-05,
-      "loss": 0.5759,
       "step": 710
     },
     {
-      "epoch": 5.771543086172345,
-      "grad_norm": 12.778873443603516,
-      "learning_rate": 3.9426523297491045e-05,
-      "loss": 0.5636,
       "step": 720
     },
     {
-      "epoch": 5.851703406813627,
-      "grad_norm": 9.49085521697998,
-      "learning_rate": 3.9202508960573483e-05,
-      "loss": 0.5213,
       "step": 730
     },
     {
-      "epoch": 5.9318637274549095,
-      "grad_norm": 16.53606605529785,
-      "learning_rate": 3.8978494623655915e-05,
-      "loss": 0.5227,
       "step": 740
     },
     {
-      "epoch": 5.995991983967936,
-      "eval_accuracy": 0.8478015783540023,
-      "eval_loss": 0.4714604616165161,
-      "eval_runtime": 11.6058,
-      "eval_samples_per_second": 152.855,
-      "eval_steps_per_second": 4.825,
-      "step": 748
     },
     {
-      "epoch": 6.012024048096192,
-      "grad_norm": 15.601022720336914,
-      "learning_rate": 3.8754480286738354e-05,
-      "loss": 0.5287,
       "step": 750
     },
     {
-      "epoch": 6.092184368737475,
-      "grad_norm": 10.821127891540527,
-      "learning_rate": 3.8530465949820786e-05,
-      "loss": 0.5278,
       "step": 760
     },
     {
-      "epoch": 6.1723446893787575,
-      "grad_norm": 15.051136016845703,
-      "learning_rate": 3.8306451612903224e-05,
-      "loss": 0.5491,
       "step": 770
     },
     {
-      "epoch": 6.25250501002004,
-      "grad_norm": 13.785345077514648,
-      "learning_rate": 3.808243727598566e-05,
-      "loss": 0.4941,
       "step": 780
     },
     {
-      "epoch": 6.332665330661323,
-      "grad_norm": 12.571328163146973,
-      "learning_rate": 3.78584229390681e-05,
-      "loss": 0.4668,
       "step": 790
     },
     {
-      "epoch": 6.412825651302605,
-      "grad_norm": 14.443199157714844,
-      "learning_rate": 3.763440860215054e-05,
-      "loss": 0.5502,
       "step": 800
     },
     {
-      "epoch": 6.492985971943888,
-      "grad_norm": 12.781950950622559,
-      "learning_rate": 3.741039426523298e-05,
-      "loss": 0.5049,
       "step": 810
     },
     {
-      "epoch": 6.573146292585171,
-      "grad_norm": 8.832810401916504,
-      "learning_rate": 3.718637992831541e-05,
-      "loss": 0.5654,
       "step": 820
     },
     {
-      "epoch": 6.653306613226453,
-      "grad_norm": 13.026018142700195,
-      "learning_rate": 3.696236559139785e-05,
-      "loss": 0.5289,
       "step": 830
     },
     {
-      "epoch": 6.733466933867735,
-      "grad_norm": 11.173068046569824,
-      "learning_rate": 3.673835125448029e-05,
-      "loss": 0.5262,
       "step": 840
     },
     {
-      "epoch": 6.813627254509018,
-      "grad_norm": 15.73713207244873,
-      "learning_rate": 3.651433691756273e-05,
-      "loss": 0.5239,
       "step": 850
     },
     {
-      "epoch": 6.8937875751503,
-      "grad_norm": 11.182281494140625,
-      "learning_rate": 3.6290322580645165e-05,
-      "loss": 0.5269,
       "step": 860
     },
     {
-      "epoch": 6.973947895791583,
-      "grad_norm": 11.750397682189941,
-      "learning_rate": 3.60663082437276e-05,
-      "loss": 0.5166,
       "step": 870
     },
     {
-      "epoch": 6.997995991983968,
-      "eval_accuracy": 0.8494926719278467,
-      "eval_loss": 0.47609812021255493,
-      "eval_runtime": 22.6677,
-      "eval_samples_per_second": 78.261,
-      "eval_steps_per_second": 2.47,
-      "step": 873
     },
     {
-      "epoch": 7.054108216432866,
-      "grad_norm": 13.769631385803223,
-      "learning_rate": 3.5842293906810036e-05,
-      "loss": 0.5207,
       "step": 880
     },
     {
-      "epoch": 7.134268537074148,
-      "grad_norm": 13.10180377960205,
-      "learning_rate": 3.5618279569892474e-05,
-      "loss": 0.5231,
       "step": 890
     },
     {
-      "epoch": 7.214428857715431,
-      "grad_norm": 9.971457481384277,
-      "learning_rate": 3.539426523297491e-05,
-      "loss": 0.518,
       "step": 900
     },
     {
-      "epoch": 7.294589178356714,
-      "grad_norm": 12.092657089233398,
-      "learning_rate": 3.517025089605735e-05,
-      "loss": 0.5034,
       "step": 910
     },
     {
-      "epoch": 7.374749498997996,
-      "grad_norm": 19.348663330078125,
-      "learning_rate": 3.494623655913979e-05,
-      "loss": 0.4927,
       "step": 920
     },
     {
-      "epoch": 7.454909819639279,
-      "grad_norm": 10.206799507141113,
-      "learning_rate": 3.472222222222222e-05,
-      "loss": 0.5062,
       "step": 930
     },
     {
-      "epoch": 7.5350701402805615,
-      "grad_norm": 9.899465560913086,
-      "learning_rate": 3.449820788530466e-05,
-      "loss": 0.5037,
       "step": 940
     },
     {
-      "epoch": 7.615230460921843,
-      "grad_norm": 13.186443328857422,
-      "learning_rate": 3.427419354838709e-05,
-      "loss": 0.5159,
       "step": 950
     },
     {
-      "epoch": 7.695390781563126,
-      "grad_norm": 9.82767391204834,
-      "learning_rate": 3.405017921146954e-05,
-      "loss": 0.479,
       "step": 960
     },
     {
-      "epoch": 7.775551102204409,
-      "grad_norm": 9.09422492980957,
-      "learning_rate": 3.382616487455198e-05,
-      "loss": 0.5146,
       "step": 970
     },
     {
-      "epoch": 7.855711422845691,
-      "grad_norm": 11.1051025390625,
-      "learning_rate": 3.360215053763441e-05,
-      "loss": 0.4908,
       "step": 980
     },
     {
-      "epoch": 7.935871743486974,
-      "grad_norm": 9.16980266571045,
-      "learning_rate": 3.337813620071685e-05,
-      "loss": 0.4992,
       "step": 990
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.8562570462232244,
-      "eval_loss": 0.432047575712204,
-      "eval_runtime": 17.8346,
-      "eval_samples_per_second": 99.469,
-      "eval_steps_per_second": 3.14,
-      "step": 998
     },
     {
-      "epoch": 8.016032064128256,
-      "grad_norm": 8.514852523803711,
-      "learning_rate": 3.3154121863799286e-05,
-      "loss": 0.4702,
       "step": 1000
     },
     {
-      "epoch": 8.09619238476954,
-      "grad_norm": 10.90427017211914,
-      "learning_rate": 3.293010752688172e-05,
-      "loss": 0.4809,
       "step": 1010
     },
     {
-      "epoch": 8.176352705410821,
-      "grad_norm": 13.75596809387207,
-      "learning_rate": 3.270609318996416e-05,
-      "loss": 0.4769,
       "step": 1020
     },
     {
-      "epoch": 8.256513026052104,
-      "grad_norm": 14.506204605102539,
-      "learning_rate": 3.24820788530466e-05,
-      "loss": 0.5157,
       "step": 1030
     },
     {
-      "epoch": 8.336673346693386,
-      "grad_norm": 10.074383735656738,
-      "learning_rate": 3.2258064516129034e-05,
-      "loss": 0.4916,
       "step": 1040
     },
     {
-      "epoch": 8.41683366733467,
-      "grad_norm": 13.06877326965332,
-      "learning_rate": 3.203405017921147e-05,
-      "loss": 0.4953,
       "step": 1050
     },
     {
-      "epoch": 8.496993987975952,
-      "grad_norm": 7.9596171379089355,
-      "learning_rate": 3.1810035842293904e-05,
-      "loss": 0.4879,
       "step": 1060
     },
     {
-      "epoch": 8.577154308617235,
-      "grad_norm": 11.05156135559082,
-      "learning_rate": 3.158602150537634e-05,
-      "loss": 0.4397,
       "step": 1070
     },
     {
-      "epoch": 8.657314629258517,
-      "grad_norm": 9.935453414916992,
-      "learning_rate": 3.136200716845878e-05,
-      "loss": 0.5141,
       "step": 1080
     },
     {
-      "epoch": 8.7374749498998,
-      "grad_norm": 9.928804397583008,
-      "learning_rate": 3.113799283154122e-05,
-      "loss": 0.4781,
       "step": 1090
     },
     {
-      "epoch": 8.817635270541082,
-      "grad_norm": 7.301691055297852,
-      "learning_rate": 3.091397849462366e-05,
-      "loss": 0.4484,
       "step": 1100
     },
     {
-      "epoch": 8.897795591182366,
-      "grad_norm": 13.609901428222656,
-      "learning_rate": 3.06899641577061e-05,
-      "loss": 0.4656,
       "step": 1110
     },
     {
-      "epoch": 8.977955911823647,
-      "grad_norm": 10.269015312194824,
-      "learning_rate": 3.046594982078853e-05,
-      "loss": 0.4528,
       "step": 1120
     },
     {
-      "epoch": 8.993987975951903,
-      "eval_accuracy": 0.8641488162344984,
-      "eval_loss": 0.4410019814968109,
-      "eval_runtime": 27.5679,
-      "eval_samples_per_second": 64.35,
-      "eval_steps_per_second": 2.031,
-      "step": 1122
-    },
-    {
-      "epoch": 9.05811623246493,
-      "grad_norm": 8.7766695022583,
-      "learning_rate": 3.024193548387097e-05,
-      "loss": 0.4843,
       "step": 1130
     },
     {
-      "epoch": 9.138276553106213,
-      "grad_norm": 10.279314994812012,
-      "learning_rate": 3.0017921146953403e-05,
-      "loss": 0.5017,
       "step": 1140
     },
     {
-      "epoch": 9.218436873747494,
-      "grad_norm": 13.840995788574219,
-      "learning_rate": 2.979390681003584e-05,
-      "loss": 0.4443,
       "step": 1150
     },
     {
-      "epoch": 9.298597194388778,
-      "grad_norm": 14.21786117553711,
-      "learning_rate": 2.9569892473118284e-05,
-      "loss": 0.4319,
       "step": 1160
     },
     {
-      "epoch": 9.37875751503006,
-      "grad_norm": 9.682762145996094,
-      "learning_rate": 2.9345878136200715e-05,
-      "loss": 0.4692,
       "step": 1170
     },
     {
-      "epoch": 9.458917835671343,
-      "grad_norm": 12.985733985900879,
-      "learning_rate": 2.9121863799283154e-05,
-      "loss": 0.4221,
       "step": 1180
     },
     {
-      "epoch": 9.539078156312625,
-      "grad_norm": 12.35405445098877,
-      "learning_rate": 2.8897849462365596e-05,
-      "loss": 0.4835,
       "step": 1190
     },
     {
-      "epoch": 9.619238476953909,
-      "grad_norm": 7.067807197570801,
-      "learning_rate": 2.8673835125448028e-05,
-      "loss": 0.4548,
       "step": 1200
     },
     {
-      "epoch": 9.69939879759519,
-      "grad_norm": 10.279123306274414,
-      "learning_rate": 2.8449820788530467e-05,
-      "loss": 0.4791,
       "step": 1210
     },
     {
-      "epoch": 9.779559118236474,
-      "grad_norm": 12.814294815063477,
-      "learning_rate": 2.822580645161291e-05,
-      "loss": 0.4551,
       "step": 1220
     },
     {
-      "epoch": 9.859719438877756,
-      "grad_norm": 15.132489204406738,
-      "learning_rate": 2.800179211469534e-05,
-      "loss": 0.3957,
       "step": 1230
     },
     {
-      "epoch": 9.939879759519037,
-      "grad_norm": 11.959942817687988,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.4566,
       "step": 1240
     },
     {
-      "epoch": 9.995991983967937,
-      "eval_accuracy": 0.8641488162344984,
-      "eval_loss": 0.42970511317253113,
-      "eval_runtime": 16.9001,
-      "eval_samples_per_second": 104.97,
-      "eval_steps_per_second": 3.314,
-      "step": 1247
     },
     {
-      "epoch": 10.02004008016032,
-      "grad_norm": 12.989178657531738,
-      "learning_rate": 2.7553763440860214e-05,
-      "loss": 0.4402,
       "step": 1250
     },
     {
-      "epoch": 10.100200400801603,
-      "grad_norm": 11.985700607299805,
-      "learning_rate": 2.7329749103942653e-05,
-      "loss": 0.4544,
       "step": 1260
     },
     {
-      "epoch": 10.180360721442886,
-      "grad_norm": 17.515514373779297,
-      "learning_rate": 2.710573476702509e-05,
-      "loss": 0.3676,
       "step": 1270
     },
     {
-      "epoch": 10.260521042084168,
-      "grad_norm": 11.017400741577148,
-      "learning_rate": 2.6881720430107527e-05,
-      "loss": 0.4534,
       "step": 1280
     },
     {
-      "epoch": 10.340681362725451,
-      "grad_norm": 7.939273357391357,
-      "learning_rate": 2.6657706093189965e-05,
-      "loss": 0.4719,
       "step": 1290
     },
     {
-      "epoch": 10.420841683366733,
-      "grad_norm": 13.53430461883545,
-      "learning_rate": 2.6433691756272404e-05,
-      "loss": 0.4162,
       "step": 1300
     },
     {
-      "epoch": 10.501002004008017,
-      "grad_norm": 9.599760055541992,
-      "learning_rate": 2.620967741935484e-05,
-      "loss": 0.46,
       "step": 1310
     },
     {
-      "epoch": 10.581162324649299,
-      "grad_norm": 7.481749057769775,
-      "learning_rate": 2.5985663082437278e-05,
-      "loss": 0.405,
       "step": 1320
     },
     {
-      "epoch": 10.661322645290582,
-      "grad_norm": 17.151025772094727,
-      "learning_rate": 2.5761648745519713e-05,
-      "loss": 0.4484,
       "step": 1330
     },
     {
-      "epoch": 10.741482965931864,
-      "grad_norm": 11.18791389465332,
-      "learning_rate": 2.5537634408602152e-05,
-      "loss": 0.4461,
       "step": 1340
     },
     {
-      "epoch": 10.821643286573146,
-      "grad_norm": 9.898661613464355,
-      "learning_rate": 2.531362007168459e-05,
-      "loss": 0.3958,
       "step": 1350
     },
     {
-      "epoch": 10.901803607214429,
-      "grad_norm": 9.442924499511719,
-      "learning_rate": 2.5089605734767026e-05,
-      "loss": 0.4279,
       "step": 1360
     },
     {
-      "epoch": 10.98196392785571,
-      "grad_norm": 11.045487403869629,
-      "learning_rate": 2.4865591397849464e-05,
-      "loss": 0.4294,
       "step": 1370
     },
     {
-      "epoch": 10.997995991983968,
-      "eval_accuracy": 0.8607666290868095,
-      "eval_loss": 0.42823219299316406,
-      "eval_runtime": 26.2766,
-      "eval_samples_per_second": 67.512,
-      "eval_steps_per_second": 2.131,
-      "step": 1372
     },
     {
-      "epoch": 11.062124248496994,
-      "grad_norm": 9.318482398986816,
-      "learning_rate": 2.46415770609319e-05,
-      "loss": 0.4314,
       "step": 1380
     },
     {
-      "epoch": 11.142284569138276,
-      "grad_norm": 16.068525314331055,
-      "learning_rate": 2.4417562724014338e-05,
-      "loss": 0.3944,
       "step": 1390
     },
     {
-      "epoch": 11.22244488977956,
-      "grad_norm": 6.959997177124023,
-      "learning_rate": 2.4193548387096777e-05,
-      "loss": 0.4251,
       "step": 1400
     },
     {
-      "epoch": 11.302605210420841,
-      "grad_norm": 11.282358169555664,
-      "learning_rate": 2.3969534050179212e-05,
-      "loss": 0.4074,
       "step": 1410
     },
     {
-      "epoch": 11.382765531062125,
-      "grad_norm": 8.684910774230957,
-      "learning_rate": 2.374551971326165e-05,
-      "loss": 0.4426,
       "step": 1420
     },
     {
-      "epoch": 11.462925851703407,
-      "grad_norm": 11.480581283569336,
-      "learning_rate": 2.352150537634409e-05,
-      "loss": 0.413,
       "step": 1430
     },
     {
-      "epoch": 11.54308617234469,
-      "grad_norm": 10.927531242370605,
-      "learning_rate": 2.3297491039426525e-05,
-      "loss": 0.4338,
       "step": 1440
     },
     {
-      "epoch": 11.623246492985972,
-      "grad_norm": 10.118310928344727,
-      "learning_rate": 2.307347670250896e-05,
-      "loss": 0.4536,
       "step": 1450
     },
     {
-      "epoch": 11.703406813627254,
-      "grad_norm": 10.131954193115234,
-      "learning_rate": 2.28494623655914e-05,
-      "loss": 0.4164,
       "step": 1460
     },
     {
-      "epoch": 11.783567134268537,
-      "grad_norm": 14.58598804473877,
-      "learning_rate": 2.2625448028673837e-05,
-      "loss": 0.4342,
       "step": 1470
     },
     {
-      "epoch": 11.863727454909819,
-      "grad_norm": 12.672148704528809,
-      "learning_rate": 2.2401433691756272e-05,
-      "loss": 0.4393,
       "step": 1480
     },
     {
-      "epoch": 11.943887775551103,
-      "grad_norm": 11.871652603149414,
-      "learning_rate": 2.217741935483871e-05,
-      "loss": 0.3771,
       "step": 1490
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.85456595264938,
-      "eval_loss": 0.4546312391757965,
-      "eval_runtime": 21.2281,
-      "eval_samples_per_second": 83.569,
-      "eval_steps_per_second": 2.638,
-      "step": 1497
     },
     {
-      "epoch": 12.024048096192384,
-      "grad_norm": 12.87192440032959,
-      "learning_rate": 2.1953405017921146e-05,
-      "loss": 0.404,
       "step": 1500
     },
     {
-      "epoch": 12.104208416833668,
-      "grad_norm": 11.67623519897461,
-      "learning_rate": 2.1729390681003585e-05,
-      "loss": 0.3968,
       "step": 1510
     },
     {
-      "epoch": 12.18436873747495,
-      "grad_norm": 11.608409881591797,
-      "learning_rate": 2.1505376344086024e-05,
-      "loss": 0.3809,
       "step": 1520
     },
     {
-      "epoch": 12.264529058116233,
-      "grad_norm": 9.568375587463379,
-      "learning_rate": 2.128136200716846e-05,
-      "loss": 0.4135,
       "step": 1530
     },
     {
-      "epoch": 12.344689378757515,
-      "grad_norm": 10.64120864868164,
-      "learning_rate": 2.1057347670250897e-05,
-      "loss": 0.411,
       "step": 1540
     },
     {
-      "epoch": 12.424849699398798,
-      "grad_norm": 9.730778694152832,
-      "learning_rate": 2.0833333333333336e-05,
-      "loss": 0.3948,
       "step": 1550
     },
     {
-      "epoch": 12.50501002004008,
-      "grad_norm": 11.325265884399414,
-      "learning_rate": 2.060931899641577e-05,
-      "loss": 0.403,
       "step": 1560
     },
     {
-      "epoch": 12.585170340681362,
-      "grad_norm": 13.892471313476562,
-      "learning_rate": 2.038530465949821e-05,
-      "loss": 0.4393,
       "step": 1570
     },
     {
-      "epoch": 12.665330661322646,
-      "grad_norm": 14.78463363647461,
-      "learning_rate": 2.0161290322580645e-05,
-      "loss": 0.3784,
       "step": 1580
     },
     {
-      "epoch": 12.745490981963927,
-      "grad_norm": 14.130833625793457,
-      "learning_rate": 1.9937275985663084e-05,
-      "loss": 0.425,
       "step": 1590
     },
     {
-      "epoch": 12.82565130260521,
-      "grad_norm": 8.856616973876953,
-      "learning_rate": 1.9713261648745522e-05,
-      "loss": 0.3804,
       "step": 1600
     },
     {
-      "epoch": 12.905811623246493,
-      "grad_norm": 10.982331275939941,
-      "learning_rate": 1.9489247311827958e-05,
-      "loss": 0.4252,
       "step": 1610
     },
     {
-      "epoch": 12.985971943887776,
-      "grad_norm": 9.618106842041016,
-      "learning_rate": 1.9265232974910393e-05,
-      "loss": 0.4224,
       "step": 1620
     },
     {
-      "epoch": 12.993987975951903,
-      "eval_accuracy": 0.8624577226606539,
-      "eval_loss": 0.448898583650589,
-      "eval_runtime": 17.755,
-      "eval_samples_per_second": 99.916,
-      "eval_steps_per_second": 3.154,
-      "step": 1621
     },
     {
-      "epoch": 13.066132264529058,
-      "grad_norm": 18.403636932373047,
-      "learning_rate": 1.904121863799283e-05,
-      "loss": 0.4142,
       "step": 1630
     },
     {
-      "epoch": 13.146292585170341,
-      "grad_norm": 12.012832641601562,
-      "learning_rate": 1.881720430107527e-05,
-      "loss": 0.3976,
       "step": 1640
     },
     {
-      "epoch": 13.226452905811623,
-      "grad_norm": 10.503453254699707,
-      "learning_rate": 1.8593189964157705e-05,
-      "loss": 0.3707,
       "step": 1650
     },
     {
-      "epoch": 13.306613226452907,
-      "grad_norm": 12.286235809326172,
-      "learning_rate": 1.8369175627240144e-05,
-      "loss": 0.4056,
       "step": 1660
     },
     {
-      "epoch": 13.386773547094188,
-      "grad_norm": 9.312376976013184,
-      "learning_rate": 1.8145161290322583e-05,
-      "loss": 0.4226,
       "step": 1670
     },
     {
-      "epoch": 13.46693386773547,
-      "grad_norm": 9.602310180664062,
-      "learning_rate": 1.7921146953405018e-05,
-      "loss": 0.3638,
       "step": 1680
     },
     {
-      "epoch": 13.547094188376754,
-      "grad_norm": 10.584216117858887,
-      "learning_rate": 1.7697132616487457e-05,
-      "loss": 0.3955,
       "step": 1690
     },
     {
-      "epoch": 13.627254509018035,
-      "grad_norm": 9.666451454162598,
-      "learning_rate": 1.7473118279569895e-05,
-      "loss": 0.3895,
       "step": 1700
     },
     {
-      "epoch": 13.707414829659319,
-      "grad_norm": 14.383480072021484,
-      "learning_rate": 1.724910394265233e-05,
-      "loss": 0.4076,
       "step": 1710
     },
     {
-      "epoch": 13.7875751503006,
-      "grad_norm": 9.302132606506348,
-      "learning_rate": 1.702508960573477e-05,
-      "loss": 0.4342,
       "step": 1720
     },
     {
-      "epoch": 13.867735470941884,
-      "grad_norm": 24.193918228149414,
-      "learning_rate": 1.6801075268817204e-05,
-      "loss": 0.4005,
       "step": 1730
     },
     {
-      "epoch": 13.947895791583166,
-      "grad_norm": 14.272506713867188,
-      "learning_rate": 1.6577060931899643e-05,
-      "loss": 0.4099,
       "step": 1740
     },
     {
-      "epoch": 13.995991983967937,
-      "eval_accuracy": 0.8624577226606539,
-      "eval_loss": 0.4411380887031555,
-      "eval_runtime": 11.1197,
-      "eval_samples_per_second": 159.537,
-      "eval_steps_per_second": 5.036,
-      "step": 1746
     },
     {
-      "epoch": 14.02805611222445,
-      "grad_norm": 10.529751777648926,
-      "learning_rate": 1.635304659498208e-05,
-      "loss": 0.3849,
       "step": 1750
     },
     {
-      "epoch": 14.108216432865731,
-      "grad_norm": 9.820696830749512,
-      "learning_rate": 1.6129032258064517e-05,
-      "loss": 0.4455,
       "step": 1760
     },
     {
-      "epoch": 14.188376753507015,
-      "grad_norm": 8.576085090637207,
-      "learning_rate": 1.5905017921146952e-05,
-      "loss": 0.3852,
       "step": 1770
     },
     {
-      "epoch": 14.268537074148297,
-      "grad_norm": 11.380485534667969,
-      "learning_rate": 1.568100358422939e-05,
-      "loss": 0.367,
       "step": 1780
     },
     {
-      "epoch": 14.348697394789578,
-      "grad_norm": 12.20594310760498,
-      "learning_rate": 1.545698924731183e-05,
-      "loss": 0.3974,
       "step": 1790
     },
     {
-      "epoch": 14.428857715430862,
-      "grad_norm": 11.483406066894531,
-      "learning_rate": 1.5232974910394265e-05,
-      "loss": 0.3949,
       "step": 1800
     },
     {
-      "epoch": 14.509018036072144,
-      "grad_norm": 9.642448425292969,
-      "learning_rate": 1.5008960573476701e-05,
-      "loss": 0.4097,
       "step": 1810
     },
     {
-      "epoch": 14.589178356713427,
-      "grad_norm": 10.316274642944336,
-      "learning_rate": 1.4784946236559142e-05,
-      "loss": 0.3393,
       "step": 1820
     },
     {
-      "epoch": 14.669338677354709,
-      "grad_norm": 10.923069953918457,
-      "learning_rate": 1.4560931899641577e-05,
-      "loss": 0.3562,
       "step": 1830
     },
     {
-      "epoch": 14.749498997995993,
-      "grad_norm": 9.884988784790039,
-      "learning_rate": 1.4336917562724014e-05,
-      "loss": 0.3581,
       "step": 1840
     },
     {
-      "epoch": 14.829659318637274,
-      "grad_norm": 8.461724281311035,
-      "learning_rate": 1.4112903225806454e-05,
-      "loss": 0.3775,
       "step": 1850
     },
     {
-      "epoch": 14.909819639278558,
-      "grad_norm": 8.028816223144531,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.3968,
       "step": 1860
     },
     {
-      "epoch": 14.98997995991984,
-      "grad_norm": 13.816071510314941,
-      "learning_rate": 1.3664874551971326e-05,
-      "loss": 0.3759,
-      "step": 1870
-    },
-    {
-      "epoch": 14.997995991983968,
-      "eval_accuracy": 0.8652762119503946,
-      "eval_loss": 0.43173447251319885,
-      "eval_runtime": 13.0155,
-      "eval_samples_per_second": 136.299,
-      "eval_steps_per_second": 4.303,
-      "step": 1871
-    },
-    {
-      "epoch": 15.070140280561123,
-      "grad_norm": 10.104082107543945,
-      "learning_rate": 1.3440860215053763e-05,
-      "loss": 0.3643,
-      "step": 1880
-    },
-    {
-      "epoch": 15.150300601202405,
-      "grad_norm": 9.357542991638184,
-      "learning_rate": 1.3216845878136202e-05,
-      "loss": 0.3912,
-      "step": 1890
-    },
-    {
-      "epoch": 15.230460921843687,
-      "grad_norm": 9.616016387939453,
-      "learning_rate": 1.2992831541218639e-05,
-      "loss": 0.3554,
-      "step": 1900
-    },
-    {
-      "epoch": 15.31062124248497,
-      "grad_norm": 11.787483215332031,
-      "learning_rate": 1.2768817204301076e-05,
-      "loss": 0.3695,
-      "step": 1910
-    },
-    {
-      "epoch": 15.390781563126252,
-      "grad_norm": 12.30813980102539,
-      "learning_rate": 1.2544802867383513e-05,
-      "loss": 0.4177,
-      "step": 1920
-    },
-    {
-      "epoch": 15.470941883767535,
-      "grad_norm": 12.10972785949707,
-      "learning_rate": 1.232078853046595e-05,
-      "loss": 0.3606,
-      "step": 1930
-    },
-    {
-      "epoch": 15.551102204408817,
-      "grad_norm": 9.871501922607422,
-      "learning_rate": 1.2096774193548388e-05,
-      "loss": 0.3627,
-      "step": 1940
-    },
-    {
-      "epoch": 15.6312625250501,
-      "grad_norm": 9.91009521484375,
-      "learning_rate": 1.1872759856630825e-05,
-      "loss": 0.363,
-      "step": 1950
-    },
-    {
-      "epoch": 15.711422845691382,
-      "grad_norm": 9.586908340454102,
-      "learning_rate": 1.1648745519713262e-05,
-      "loss": 0.3761,
-      "step": 1960
-    },
-    {
-      "epoch": 15.791583166332666,
-      "grad_norm": 13.530887603759766,
-      "learning_rate": 1.14247311827957e-05,
-      "loss": 0.3437,
-      "step": 1970
-    },
-    {
-      "epoch": 15.871743486973948,
-      "grad_norm": 10.21368408203125,
-      "learning_rate": 1.1200716845878136e-05,
-      "loss": 0.3575,
-      "step": 1980
-    },
-    {
-      "epoch": 15.951903807615231,
-      "grad_norm": 10.05925178527832,
-      "learning_rate": 1.0976702508960573e-05,
-      "loss": 0.3692,
-      "step": 1990
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.863021420518602,
-      "eval_loss": 0.43041756749153137,
-      "eval_runtime": 13.2621,
-      "eval_samples_per_second": 133.765,
-      "eval_steps_per_second": 4.223,
-      "step": 1996
-    },
-    {
-      "epoch": 16.03206412825651,
-      "grad_norm": 8.98168659210205,
-      "learning_rate": 1.0752688172043012e-05,
-      "loss": 0.3292,
-      "step": 2000
-    },
-    {
-      "epoch": 16.112224448897795,
-      "grad_norm": 13.636373519897461,
-      "learning_rate": 1.0528673835125449e-05,
-      "loss": 0.3546,
-      "step": 2010
-    },
-    {
-      "epoch": 16.19238476953908,
-      "grad_norm": 8.504558563232422,
-      "learning_rate": 1.0304659498207886e-05,
-      "loss": 0.3346,
-      "step": 2020
-    },
-    {
-      "epoch": 16.272545090180362,
-      "grad_norm": 12.934548377990723,
-      "learning_rate": 1.0080645161290323e-05,
-      "loss": 0.3453,
-      "step": 2030
-    },
-    {
-      "epoch": 16.352705410821642,
-      "grad_norm": 10.473663330078125,
-      "learning_rate": 9.856630824372761e-06,
-      "loss": 0.3545,
-      "step": 2040
-    },
-    {
-      "epoch": 16.432865731462925,
-      "grad_norm": 12.263561248779297,
-      "learning_rate": 9.632616487455196e-06,
-      "loss": 0.3487,
-      "step": 2050
-    },
-    {
-      "epoch": 16.51302605210421,
-      "grad_norm": 8.574410438537598,
-      "learning_rate": 9.408602150537635e-06,
-      "loss": 0.4023,
-      "step": 2060
-    },
-    {
-      "epoch": 16.593186372745492,
-      "grad_norm": 20.604251861572266,
-      "learning_rate": 9.184587813620072e-06,
-      "loss": 0.3941,
-      "step": 2070
-    },
-    {
-      "epoch": 16.673346693386772,
-      "grad_norm": 15.173372268676758,
-      "learning_rate": 8.960573476702509e-06,
-      "loss": 0.3716,
-      "step": 2080
-    },
-    {
-      "epoch": 16.753507014028056,
-      "grad_norm": 10.56511116027832,
-      "learning_rate": 8.736559139784948e-06,
-      "loss": 0.3873,
-      "step": 2090
-    },
-    {
-      "epoch": 16.83366733466934,
-      "grad_norm": 12.560215950012207,
-      "learning_rate": 8.512544802867385e-06,
-      "loss": 0.332,
-      "step": 2100
-    },
-    {
-      "epoch": 16.91382765531062,
-      "grad_norm": 12.049774169921875,
-      "learning_rate": 8.288530465949821e-06,
-      "loss": 0.3394,
-      "step": 2110
-    },
-    {
-      "epoch": 16.993987975951903,
-      "grad_norm": 12.533961296081543,
-      "learning_rate": 8.064516129032258e-06,
-      "loss": 0.364,
-      "step": 2120
-    },
-    {
-      "epoch": 16.993987975951903,
       "eval_accuracy": 0.8664036076662909,
-      "eval_loss": 0.4329654276371002,
-      "eval_runtime": 11.1171,
-      "eval_samples_per_second": 159.574,
-      "eval_steps_per_second": 5.037,
-      "step": 2120
-    },
-    {
-      "epoch": 17.074148296593187,
-      "grad_norm": 11.729970932006836,
-      "learning_rate": 7.840501792114695e-06,
-      "loss": 0.3719,
-      "step": 2130
-    },
-    {
-      "epoch": 17.15430861723447,
-      "grad_norm": 8.87394905090332,
-      "learning_rate": 7.616487455197132e-06,
-      "loss": 0.3165,
-      "step": 2140
-    },
-    {
-      "epoch": 17.23446893787575,
-      "grad_norm": 11.172150611877441,
-      "learning_rate": 7.392473118279571e-06,
-      "loss": 0.371,
-      "step": 2150
-    },
-    {
-      "epoch": 17.314629258517034,
-      "grad_norm": 17.362049102783203,
-      "learning_rate": 7.168458781362007e-06,
-      "loss": 0.3607,
-      "step": 2160
-    },
-    {
-      "epoch": 17.394789579158317,
-      "grad_norm": 9.348087310791016,
-      "learning_rate": 6.944444444444445e-06,
-      "loss": 0.3837,
-      "step": 2170
-    },
-    {
-      "epoch": 17.4749498997996,
-      "grad_norm": 11.758851051330566,
-      "learning_rate": 6.720430107526882e-06,
-      "loss": 0.3847,
-      "step": 2180
-    },
-    {
-      "epoch": 17.55511022044088,
-      "grad_norm": 12.436318397521973,
-      "learning_rate": 6.4964157706093195e-06,
-      "loss": 0.3541,
-      "step": 2190
-    },
-    {
-      "epoch": 17.635270541082164,
-      "grad_norm": 8.334653854370117,
-      "learning_rate": 6.2724014336917564e-06,
-      "loss": 0.3638,
-      "step": 2200
-    },
-    {
-      "epoch": 17.715430861723448,
-      "grad_norm": 13.402957916259766,
-      "learning_rate": 6.048387096774194e-06,
-      "loss": 0.3178,
-      "step": 2210
-    },
-    {
-      "epoch": 17.79559118236473,
-      "grad_norm": 7.792669296264648,
-      "learning_rate": 5.824372759856631e-06,
-      "loss": 0.3553,
-      "step": 2220
-    },
-    {
-      "epoch": 17.87575150300601,
-      "grad_norm": 16.891786575317383,
-      "learning_rate": 5.600358422939068e-06,
-      "loss": 0.357,
-      "step": 2230
-    },
-    {
-      "epoch": 17.955911823647295,
-      "grad_norm": 8.470565795898438,
-      "learning_rate": 5.376344086021506e-06,
-      "loss": 0.3636,
-      "step": 2240
-    },
-    {
-      "epoch": 17.995991983967937,
-      "eval_accuracy": 0.8680947012401353,
-      "eval_loss": 0.4249646067619324,
-      "eval_runtime": 23.3665,
-      "eval_samples_per_second": 75.921,
-      "eval_steps_per_second": 2.397,
-      "step": 2245
-    },
-    {
-      "epoch": 18.03607214428858,
-      "grad_norm": 8.499645233154297,
-      "learning_rate": 5.152329749103943e-06,
-      "loss": 0.3596,
-      "step": 2250
-    },
-    {
-      "epoch": 18.11623246492986,
-      "grad_norm": 12.444930076599121,
-      "learning_rate": 4.928315412186381e-06,
-      "loss": 0.2935,
-      "step": 2260
-    },
-    {
-      "epoch": 18.196392785571142,
-      "grad_norm": 11.180887222290039,
-      "learning_rate": 4.7043010752688175e-06,
-      "loss": 0.3253,
-      "step": 2270
-    },
-    {
-      "epoch": 18.276553106212425,
-      "grad_norm": 8.559268951416016,
-      "learning_rate": 4.4802867383512545e-06,
-      "loss": 0.3427,
-      "step": 2280
-    },
-    {
-      "epoch": 18.35671342685371,
-      "grad_norm": 15.954803466796875,
-      "learning_rate": 4.256272401433692e-06,
-      "loss": 0.3657,
-      "step": 2290
-    },
-    {
-      "epoch": 18.43687374749499,
-      "grad_norm": 12.122089385986328,
-      "learning_rate": 4.032258064516129e-06,
-      "loss": 0.3101,
-      "step": 2300
-    },
-    {
-      "epoch": 18.517034068136272,
-      "grad_norm": 7.729813575744629,
-      "learning_rate": 3.808243727598566e-06,
-      "loss": 0.3266,
-      "step": 2310
-    },
-    {
-      "epoch": 18.597194388777556,
-      "grad_norm": 8.754435539245605,
-      "learning_rate": 3.5842293906810035e-06,
-      "loss": 0.3337,
-      "step": 2320
-    },
-    {
-      "epoch": 18.677354709418836,
-      "grad_norm": 12.22318172454834,
-      "learning_rate": 3.360215053763441e-06,
-      "loss": 0.3262,
-      "step": 2330
-    },
-    {
-      "epoch": 18.75751503006012,
-      "grad_norm": 11.190741539001465,
-      "learning_rate": 3.1362007168458782e-06,
-      "loss": 0.3537,
-      "step": 2340
-    },
-    {
-      "epoch": 18.837675350701403,
-      "grad_norm": 12.088068008422852,
-      "learning_rate": 2.9121863799283156e-06,
-      "loss": 0.3034,
-      "step": 2350
-    },
-    {
-      "epoch": 18.917835671342687,
-      "grad_norm": 8.4877347946167,
-      "learning_rate": 2.688172043010753e-06,
-      "loss": 0.3537,
-      "step": 2360
-    },
-    {
-      "epoch": 18.997995991983966,
-      "grad_norm": 12.145883560180664,
-      "learning_rate": 2.4641577060931903e-06,
-      "loss": 0.3396,
-      "step": 2370
-    },
-    {
-      "epoch": 18.997995991983966,
-      "eval_accuracy": 0.8675310033821871,
-      "eval_loss": 0.4275255799293518,
-      "eval_runtime": 20.9813,
-      "eval_samples_per_second": 84.551,
-      "eval_steps_per_second": 2.669,
-      "step": 2370
-    },
-    {
-      "epoch": 19.07815631262525,
-      "grad_norm": 12.138285636901855,
-      "learning_rate": 2.2401433691756272e-06,
-      "loss": 0.3464,
-      "step": 2380
-    },
-    {
-      "epoch": 19.158316633266534,
-      "grad_norm": 15.26742172241211,
-      "learning_rate": 2.0161290322580646e-06,
-      "loss": 0.342,
-      "step": 2390
-    },
-    {
-      "epoch": 19.238476953907817,
-      "grad_norm": 11.72075080871582,
-      "learning_rate": 1.7921146953405017e-06,
-      "loss": 0.3159,
-      "step": 2400
-    },
-    {
-      "epoch": 19.318637274549097,
-      "grad_norm": 8.406167984008789,
-      "learning_rate": 1.5681003584229391e-06,
-      "loss": 0.2976,
-      "step": 2410
-    },
-    {
-      "epoch": 19.39879759519038,
-      "grad_norm": 9.558813095092773,
-      "learning_rate": 1.3440860215053765e-06,
-      "loss": 0.3713,
-      "step": 2420
-    },
-    {
-      "epoch": 19.478957915831664,
-      "grad_norm": 12.249772071838379,
-      "learning_rate": 1.1200716845878136e-06,
-      "loss": 0.3353,
-      "step": 2430
-    },
-    {
-      "epoch": 19.559118236472948,
-      "grad_norm": 14.776098251342773,
-      "learning_rate": 8.960573476702509e-07,
-      "loss": 0.3507,
-      "step": 2440
-    },
-    {
-      "epoch": 19.639278557114228,
-      "grad_norm": 12.802459716796875,
-      "learning_rate": 6.720430107526882e-07,
-      "loss": 0.3144,
-      "step": 2450
-    },
-    {
-      "epoch": 19.71943887775551,
-      "grad_norm": 11.719756126403809,
-      "learning_rate": 4.4802867383512544e-07,
-      "loss": 0.3283,
-      "step": 2460
-    },
-    {
-      "epoch": 19.799599198396795,
-      "grad_norm": 11.714187622070312,
-      "learning_rate": 2.2401433691756272e-07,
-      "loss": 0.3198,
-      "step": 2470
     },
     {
-      "epoch": 19.879759519038075,
-      "grad_norm": 12.341629028320312,
-      "learning_rate": 0.0,
-      "loss": 0.3057,
-      "step": 2480
-    },
-    {
-      "epoch": 19.879759519038075,
-      "eval_accuracy": 0.8703494926719278,
-      "eval_loss": 0.4261245131492615,
-      "eval_runtime": 20.7326,
-      "eval_samples_per_second": 85.566,
-      "eval_steps_per_second": 2.701,
-      "step": 2480
-    },
-    {
-      "epoch": 19.879759519038075,
-      "step": 2480,
-      "total_flos": 7.988705158075343e+18,
-      "train_loss": 0.5653726263392356,
-      "train_runtime": 5886.8979,
-      "train_samples_per_second": 54.229,
-      "train_steps_per_second": 0.421
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2480,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 500,
-  "total_flos": 7.988705158075343e+18,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.8731679819616686,
+  "best_model_checkpoint": "convnextv2-tiny-1k-224-finetuned-galaxy10-decals/checkpoint-1000",
+  "epoch": 29.76,
   "eval_steps": 500,
+  "global_step": 1860,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.16,
+      "learning_rate": 2.688172043010753e-06,
+      "loss": 2.2704,
       "step": 10
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 5.376344086021506e-06,
+      "loss": 2.2378,
       "step": 20
     },
     {
+      "epoch": 0.48,
+      "learning_rate": 8.064516129032258e-06,
+      "loss": 2.178,
       "step": 30
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 1.0752688172043012e-05,
+      "loss": 2.0852,
       "step": 40
     },
     {
+      "epoch": 0.8,
+      "learning_rate": 1.3440860215053763e-05,
+      "loss": 1.9773,
       "step": 50
     },
     {
+      "epoch": 0.96,
+      "learning_rate": 1.6129032258064517e-05,
+      "loss": 1.8139,
       "step": 60
     },
     {
+      "epoch": 0.99,
+      "eval_accuracy": 0.4627959413754228,
+      "eval_f1": 0.38359918051050657,
+      "eval_loss": 1.680330753326416,
+      "eval_precision": 0.45892076428360695,
+      "eval_recall": 0.4627959413754228,
+      "eval_runtime": 11.3332,
+      "eval_samples_per_second": 156.531,
+      "eval_steps_per_second": 2.471,
+      "step": 62
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.881720430107527e-05,
+      "loss": 1.701,
       "step": 70
     },
     {
+      "epoch": 1.28,
+      "learning_rate": 2.1505376344086024e-05,
+      "loss": 1.5359,
       "step": 80
     },
     {
+      "epoch": 1.44,
+      "learning_rate": 2.4193548387096777e-05,
+      "loss": 1.4034,
       "step": 90
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 2.6881720430107527e-05,
+      "loss": 1.2758,
       "step": 100
     },
     {
+      "epoch": 1.76,
+      "learning_rate": 2.9569892473118284e-05,
+      "loss": 1.1609,
       "step": 110
     },
     {
+      "epoch": 1.92,
+      "learning_rate": 3.2258064516129034e-05,
+      "loss": 1.0894,
       "step": 120
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6984216459977453,
+      "eval_f1": 0.6800074860053551,
+      "eval_loss": 0.9304336309432983,
+      "eval_precision": 0.6965064367557816,
+      "eval_recall": 0.6984216459977453,
+      "eval_runtime": 11.3969,
+      "eval_samples_per_second": 155.656,
+      "eval_steps_per_second": 2.457,
+      "step": 125
     },
     {
+      "epoch": 2.08,
+      "learning_rate": 3.494623655913979e-05,
+      "loss": 1.0171,
       "step": 130
     },
     {
+      "epoch": 2.24,
+      "learning_rate": 3.763440860215054e-05,
+      "loss": 0.9665,
       "step": 140
     },
     {
+      "epoch": 2.4,
+      "learning_rate": 4.032258064516129e-05,
+      "loss": 0.92,
       "step": 150
     },
     {
+      "epoch": 2.56,
+      "learning_rate": 4.301075268817205e-05,
+      "loss": 0.89,
       "step": 160
     },
     {
+      "epoch": 2.72,
+      "learning_rate": 4.56989247311828e-05,
+      "loss": 0.8431,
       "step": 170
     },
     {
+      "epoch": 2.88,
+      "learning_rate": 4.8387096774193554e-05,
+      "loss": 0.8423,
       "step": 180
     },
     {
+      "epoch": 2.99,
+      "eval_accuracy": 0.7880496054114995,
+      "eval_f1": 0.7826469411285015,
+      "eval_loss": 0.6629873514175415,
+      "eval_precision": 0.7857712570838746,
+      "eval_recall": 0.7880496054114995,
+      "eval_runtime": 11.3899,
+      "eval_samples_per_second": 155.752,
+      "eval_steps_per_second": 2.458,
+      "step": 187
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 4.98805256869773e-05,
+      "loss": 0.8397,
       "step": 190
     },
     {
+      "epoch": 3.2,
+      "learning_rate": 4.9581839904420555e-05,
+      "loss": 0.7614,
       "step": 200
     },
     {
+      "epoch": 3.36,
+      "learning_rate": 4.92831541218638e-05,
+      "loss": 0.7422,
       "step": 210
     },
     {
+      "epoch": 3.52,
+      "learning_rate": 4.898446833930705e-05,
+      "loss": 0.7404,
       "step": 220
     },
     {
+      "epoch": 3.68,
+      "learning_rate": 4.86857825567503e-05,
+      "loss": 0.6788,
       "step": 230
     },
     {
+      "epoch": 3.84,
       "learning_rate": 4.8387096774193554e-05,
+      "loss": 0.707,
       "step": 240
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 4.80884109916368e-05,
+      "loss": 0.6564,
+      "step": 250
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8055242390078917,
+      "eval_f1": 0.7970106642101435,
+      "eval_loss": 0.5768761038780212,
+      "eval_precision": 0.809101286313039,
+      "eval_recall": 0.8055242390078917,
+      "eval_runtime": 11.4354,
+      "eval_samples_per_second": 155.132,
+      "eval_steps_per_second": 2.449,
       "step": 250
     },
     {
+      "epoch": 4.16,
+      "learning_rate": 4.778972520908005e-05,
+      "loss": 0.6858,
       "step": 260
     },
     {
+      "epoch": 4.32,
+      "learning_rate": 4.74910394265233e-05,
+      "loss": 0.6578,
       "step": 270
     },
     {
+      "epoch": 4.48,
+      "learning_rate": 4.7192353643966546e-05,
+      "loss": 0.6443,
       "step": 280
     },
     {
+      "epoch": 4.64,
+      "learning_rate": 4.6893667861409805e-05,
+      "loss": 0.6287,
       "step": 290
     },
     {
+      "epoch": 4.8,
+      "learning_rate": 4.659498207885305e-05,
+      "loss": 0.6375,
       "step": 300
     },
     {
+      "epoch": 4.96,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.5927,
       "step": 310
     },
     {
+      "epoch": 4.99,
+      "eval_accuracy": 0.8241262683201804,
+      "eval_f1": 0.8239882015815169,
+      "eval_loss": 0.5283271670341492,
+      "eval_precision": 0.8276054967197602,
+      "eval_recall": 0.8241262683201804,
+      "eval_runtime": 11.3542,
+      "eval_samples_per_second": 156.241,
+      "eval_steps_per_second": 2.466,
+      "step": 312
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 4.5997610513739546e-05,
+      "loss": 0.618,
       "step": 320
     },
     {
+      "epoch": 5.28,
+      "learning_rate": 4.56989247311828e-05,
+      "loss": 0.6453,
       "step": 330
     },
     {
+      "epoch": 5.44,
+      "learning_rate": 4.540023894862604e-05,
+      "loss": 0.6046,
       "step": 340
     },
     {
+      "epoch": 5.6,
+      "learning_rate": 4.51015531660693e-05,
+      "loss": 0.6194,
       "step": 350
     },
     {
+      "epoch": 5.76,
+      "learning_rate": 4.4802867383512545e-05,
+      "loss": 0.5644,
       "step": 360
     },
     {
+      "epoch": 5.92,
+      "learning_rate": 4.4504181600955796e-05,
+      "loss": 0.5853,
       "step": 370
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8303269447576099,
+      "eval_f1": 0.8237434042132331,
+      "eval_loss": 0.5106052756309509,
+      "eval_precision": 0.8341704566904773,
+      "eval_recall": 0.8303269447576099,
+      "eval_runtime": 11.3574,
+      "eval_samples_per_second": 156.198,
+      "eval_steps_per_second": 2.465,
+      "step": 375
     },
     {
+      "epoch": 6.08,
+      "learning_rate": 4.420549581839905e-05,
+      "loss": 0.5698,
       "step": 380
     },
     {
+      "epoch": 6.24,
+      "learning_rate": 4.390681003584229e-05,
+      "loss": 0.5972,
       "step": 390
     },
     {
+      "epoch": 6.4,
+      "learning_rate": 4.360812425328555e-05,
+      "loss": 0.5527,
       "step": 400
     },
     {
+      "epoch": 6.56,
+      "learning_rate": 4.3309438470728796e-05,
+      "loss": 0.5587,
       "step": 410
     },
     {
+      "epoch": 6.72,
+      "learning_rate": 4.301075268817205e-05,
+      "loss": 0.5453,
       "step": 420
     },
     {
+      "epoch": 6.88,
+      "learning_rate": 4.271206690561529e-05,
+      "loss": 0.5757,
       "step": 430
     },
     {
+      "epoch": 6.99,
+      "eval_accuracy": 0.8540022547914318,
+      "eval_f1": 0.8520514608126245,
+      "eval_loss": 0.4490196108818054,
+      "eval_precision": 0.8513618375103614,
+      "eval_recall": 0.8540022547914318,
+      "eval_runtime": 11.3566,
+      "eval_samples_per_second": 156.209,
+      "eval_steps_per_second": 2.466,
+      "step": 437
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 4.241338112305854e-05,
+      "loss": 0.5822,
       "step": 440
     },
     {
+      "epoch": 7.2,
+      "learning_rate": 4.2114695340501795e-05,
+      "loss": 0.5688,
       "step": 450
     },
     {
+      "epoch": 7.36,
+      "learning_rate": 4.1816009557945046e-05,
+      "loss": 0.5332,
       "step": 460
     },
     {
+      "epoch": 7.52,
+      "learning_rate": 4.15173237753883e-05,
+      "loss": 0.5638,
       "step": 470
     },
     {
+      "epoch": 7.68,
+      "learning_rate": 4.121863799283154e-05,
+      "loss": 0.5169,
       "step": 480
     },
     {
+      "epoch": 7.84,
+      "learning_rate": 4.0919952210274794e-05,
+      "loss": 0.5287,
       "step": 490
     },
     {
+      "epoch": 8.0,
+      "learning_rate": 4.062126642771804e-05,
+      "loss": 0.5235,
+      "step": 500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.85456595264938,
+      "eval_f1": 0.8535659055836636,
+      "eval_loss": 0.4650891423225403,
+      "eval_precision": 0.8577979643283368,
+      "eval_recall": 0.85456595264938,
+      "eval_runtime": 11.3033,
+      "eval_samples_per_second": 156.945,
+      "eval_steps_per_second": 2.477,
       "step": 500
     },
     {
+      "epoch": 8.16,
+      "learning_rate": 4.032258064516129e-05,
+      "loss": 0.5065,
       "step": 510
     },
     {
+      "epoch": 8.32,
+      "learning_rate": 4.002389486260454e-05,
+      "loss": 0.5212,
       "step": 520
     },
     {
+      "epoch": 8.48,
+      "learning_rate": 3.972520908004779e-05,
+      "loss": 0.5606,
       "step": 530
     },
     {
+      "epoch": 8.64,
+      "learning_rate": 3.9426523297491045e-05,
+      "loss": 0.52,
       "step": 540
     },
     {
+      "epoch": 8.8,
+      "learning_rate": 3.912783751493429e-05,
+      "loss": 0.5197,
       "step": 550
     },
     {
+      "epoch": 8.96,
+      "learning_rate": 3.882915173237754e-05,
+      "loss": 0.5166,
       "step": 560
     },
     {
+      "epoch": 8.99,
+      "eval_accuracy": 0.8562570462232244,
+      "eval_f1": 0.852332152275921,
+      "eval_loss": 0.4501070976257324,
+      "eval_precision": 0.8550579857352882,
+      "eval_recall": 0.8562570462232244,
+      "eval_runtime": 11.3234,
+      "eval_samples_per_second": 156.666,
+      "eval_steps_per_second": 2.473,
+      "step": 562
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 3.8530465949820786e-05,
+      "loss": 0.5062,
       "step": 570
     },
     {
+      "epoch": 9.28,
+      "learning_rate": 3.8231780167264044e-05,
+      "loss": 0.5019,
       "step": 580
     },
     {
+      "epoch": 9.44,
+      "learning_rate": 3.793309438470729e-05,
+      "loss": 0.4911,
       "step": 590
     },
     {
+      "epoch": 9.6,
+      "learning_rate": 3.763440860215054e-05,
+      "loss": 0.5189,
       "step": 600
     },
     {
+      "epoch": 9.76,
+      "learning_rate": 3.7335722819593785e-05,
+      "loss": 0.4748,
       "step": 610
     },
     {
+      "epoch": 9.92,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.486,
       "step": 620
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8647125140924464,
+      "eval_f1": 0.8625777402324905,
+      "eval_loss": 0.435234397649765,
+      "eval_precision": 0.8623704183527241,
+      "eval_recall": 0.8647125140924464,
+      "eval_runtime": 11.3525,
+      "eval_samples_per_second": 156.265,
+      "eval_steps_per_second": 2.466,
+      "step": 625
     },
     {
+      "epoch": 10.08,
+      "learning_rate": 3.673835125448029e-05,
+      "loss": 0.4807,
       "step": 630
     },
     {
+      "epoch": 10.24,
+      "learning_rate": 3.643966547192354e-05,
+      "loss": 0.5013,
       "step": 640
     },
     {
+      "epoch": 10.4,
+      "learning_rate": 3.614097968936679e-05,
+      "loss": 0.5115,
       "step": 650
     },
     {
+      "epoch": 10.56,
+      "learning_rate": 3.5842293906810036e-05,
+      "loss": 0.4871,
       "step": 660
     },
     {
+      "epoch": 10.72,
+      "learning_rate": 3.554360812425329e-05,
+      "loss": 0.4749,
       "step": 670
     },
     {
+      "epoch": 10.88,
+      "learning_rate": 3.524492234169653e-05,
+      "loss": 0.4882,
       "step": 680
     },
     {
+      "epoch": 10.99,
+      "eval_accuracy": 0.8613303269447576,
+      "eval_f1": 0.8596792821092483,
+      "eval_loss": 0.4295591711997986,
+      "eval_precision": 0.8594435915941816,
+      "eval_recall": 0.8613303269447576,
+      "eval_runtime": 11.334,
+      "eval_samples_per_second": 156.52,
+      "eval_steps_per_second": 2.47,
+      "step": 687
+    },
+    {
+      "epoch": 11.04,
+      "learning_rate": 3.494623655913979e-05,
+      "loss": 0.4606,
       "step": 690
     },
     {
+      "epoch": 11.2,
+      "learning_rate": 3.4647550776583035e-05,
+      "loss": 0.4595,
       "step": 700
     },
     {
+      "epoch": 11.36,
+      "learning_rate": 3.4348864994026287e-05,
+      "loss": 0.4458,
       "step": 710
     },
     {
+      "epoch": 11.52,
+      "learning_rate": 3.405017921146954e-05,
+      "loss": 0.4487,
       "step": 720
     },
     {
+      "epoch": 11.68,
+      "learning_rate": 3.375149342891278e-05,
+      "loss": 0.4612,
       "step": 730
     },
     {
+      "epoch": 11.84,
+      "learning_rate": 3.3452807646356034e-05,
+      "loss": 0.4749,
       "step": 740
     },
     {
+      "epoch": 12.0,
+      "learning_rate": 3.3154121863799286e-05,
+      "loss": 0.4426,
+      "step": 750
     },
     {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8579481397970687,
+      "eval_f1": 0.8566171897858843,
+      "eval_loss": 0.4313582181930542,
+      "eval_precision": 0.8613542440383073,
+      "eval_recall": 0.8579481397970687,
+      "eval_runtime": 11.619,
+      "eval_samples_per_second": 152.68,
+      "eval_steps_per_second": 2.41,
       "step": 750
     },
     {
+      "epoch": 12.16,
+      "learning_rate": 3.285543608124254e-05,
+      "loss": 0.4486,
       "step": 760
     },
     {
+      "epoch": 12.32,
+      "learning_rate": 3.255675029868578e-05,
+      "loss": 0.4277,
       "step": 770
     },
     {
+      "epoch": 12.48,
+      "learning_rate": 3.2258064516129034e-05,
+      "loss": 0.4382,
       "step": 780
     },
     {
+      "epoch": 12.64,
+      "learning_rate": 3.195937873357228e-05,
+      "loss": 0.479,
       "step": 790
     },
     {
+      "epoch": 12.8,
+      "learning_rate": 3.1660692951015537e-05,
+      "loss": 0.4518,
       "step": 800
     },
     {
+      "epoch": 12.96,
+      "learning_rate": 3.136200716845878e-05,
+      "loss": 0.457,
       "step": 810
     },
     {
+      "epoch": 12.99,
+      "eval_accuracy": 0.8641488162344984,
+      "eval_f1": 0.8624331298292777,
+      "eval_loss": 0.42256152629852295,
+      "eval_precision": 0.8641897541546097,
+      "eval_recall": 0.8641488162344984,
+      "eval_runtime": 11.3681,
+      "eval_samples_per_second": 156.051,
+      "eval_steps_per_second": 2.463,
+      "step": 812
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 3.106332138590203e-05,
+      "loss": 0.4215,
       "step": 820
     },
     {
+      "epoch": 13.28,
+      "learning_rate": 3.0764635603345284e-05,
+      "loss": 0.4431,
       "step": 830
     },
     {
+      "epoch": 13.44,
+      "learning_rate": 3.046594982078853e-05,
+      "loss": 0.4638,
       "step": 840
     },
     {
+      "epoch": 13.6,
+      "learning_rate": 3.016726403823178e-05,
+      "loss": 0.4183,
       "step": 850
     },
     {
+      "epoch": 13.76,
+      "learning_rate": 2.9868578255675032e-05,
+      "loss": 0.4443,
       "step": 860
     },
     {
+      "epoch": 13.92,
+      "learning_rate": 2.9569892473118284e-05,
+      "loss": 0.4512,
       "step": 870
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8618940248027057,
+      "eval_f1": 0.8591308923605184,
+      "eval_loss": 0.4318734407424927,
+      "eval_precision": 0.8652836540373022,
+      "eval_recall": 0.8618940248027057,
+      "eval_runtime": 11.4244,
+      "eval_samples_per_second": 155.281,
+      "eval_steps_per_second": 2.451,
+      "step": 875
     },
     {
+      "epoch": 14.08,
+      "learning_rate": 2.9271206690561532e-05,
+      "loss": 0.4222,
       "step": 880
     },
     {
+      "epoch": 14.24,
+      "learning_rate": 2.897252090800478e-05,
+      "loss": 0.402,
       "step": 890
     },
     {
+      "epoch": 14.4,
+      "learning_rate": 2.8673835125448028e-05,
+      "loss": 0.4204,
       "step": 900
     },
     {
+      "epoch": 14.56,
+      "learning_rate": 2.8375149342891276e-05,
+      "loss": 0.4332,
       "step": 910
     },
     {
+      "epoch": 14.72,
+      "learning_rate": 2.807646356033453e-05,
+      "loss": 0.4259,
       "step": 920
     },
     {
+      "epoch": 14.88,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.4059,
       "step": 930
     },
     {
+      "epoch": 14.99,
+      "eval_accuracy": 0.8692220969560316,
+      "eval_f1": 0.8681415581180257,
+      "eval_loss": 0.41241493821144104,
+      "eval_precision": 0.8675098461893633,
+      "eval_recall": 0.8692220969560316,
+      "eval_runtime": 11.3633,
+      "eval_samples_per_second": 156.116,
+      "eval_steps_per_second": 2.464,
+      "step": 937
+    },
+    {
+      "epoch": 15.04,
+      "learning_rate": 2.747909199522103e-05,
+      "loss": 0.4225,
       "step": 940
     },
     {
+      "epoch": 15.2,
+      "learning_rate": 2.718040621266428e-05,
+      "loss": 0.4051,
       "step": 950
     },
     {
+      "epoch": 15.36,
+      "learning_rate": 2.6881720430107527e-05,
+      "loss": 0.4049,
       "step": 960
     },
     {
+      "epoch": 15.52,
+      "learning_rate": 2.6583034647550775e-05,
+      "loss": 0.4083,
       "step": 970
     },
     {
+      "epoch": 15.68,
+      "learning_rate": 2.628434886499403e-05,
+      "loss": 0.3946,
       "step": 980
     },
     {
+      "epoch": 15.84,
+      "learning_rate": 2.5985663082437278e-05,
+      "loss": 0.4245,
       "step": 990
     },
     {
+      "epoch": 16.0,
+      "learning_rate": 2.5686977299880526e-05,
+      "loss": 0.4147,
+      "step": 1000
     },
     {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8731679819616686,
+      "eval_f1": 0.8715392270157274,
+      "eval_loss": 0.3992723822593689,
+      "eval_precision": 0.8713942778118218,
+      "eval_recall": 0.8731679819616686,
+      "eval_runtime": 11.371,
+      "eval_samples_per_second": 156.01,
+      "eval_steps_per_second": 2.462,
       "step": 1000
     },
     {
+      "epoch": 16.16,
+      "learning_rate": 2.5388291517323774e-05,
+      "loss": 0.4053,
       "step": 1010
     },
     {
+      "epoch": 16.32,
+      "learning_rate": 2.5089605734767026e-05,
+      "loss": 0.3736,
       "step": 1020
     },
     {
+      "epoch": 16.48,
+      "learning_rate": 2.4790919952210277e-05,
+      "loss": 0.3975,
       "step": 1030
     },
     {
+      "epoch": 16.64,
+      "learning_rate": 2.4492234169653525e-05,
+      "loss": 0.4279,
       "step": 1040
     },
     {
+      "epoch": 16.8,
+      "learning_rate": 2.4193548387096777e-05,
+      "loss": 0.4226,
       "step": 1050
     },
     {
+      "epoch": 16.96,
+      "learning_rate": 2.3894862604540025e-05,
+      "loss": 0.3721,
       "step": 1060
     },
     {
+      "epoch": 16.99,
+      "eval_accuracy": 0.8635851183765502,
+      "eval_f1": 0.8603713855611707,
+      "eval_loss": 0.41156694293022156,
+      "eval_precision": 0.8608699827873674,
+      "eval_recall": 0.8635851183765502,
+      "eval_runtime": 11.3444,
+      "eval_samples_per_second": 156.376,
+      "eval_steps_per_second": 2.468,
+      "step": 1062
+    },
+    {
+      "epoch": 17.12,
+      "learning_rate": 2.3596176821983273e-05,
+      "loss": 0.3907,
       "step": 1070
     },
     {
+      "epoch": 17.28,
+      "learning_rate": 2.3297491039426525e-05,
+      "loss": 0.3977,
       "step": 1080
     },
     {
+      "epoch": 17.44,
+      "learning_rate": 2.2998805256869773e-05,
+      "loss": 0.4212,
       "step": 1090
     },
     {
+      "epoch": 17.6,
+      "learning_rate": 2.270011947431302e-05,
+      "loss": 0.4003,
       "step": 1100
     },
     {
+      "epoch": 17.76,
+      "learning_rate": 2.2401433691756272e-05,
+      "loss": 0.3935,
       "step": 1110
     },
     {
+      "epoch": 17.92,
+      "learning_rate": 2.2102747909199524e-05,
+      "loss": 0.3908,
       "step": 1120
     },
     {
+      "epoch": 18.0,
+      "eval_accuracy": 0.8675310033821871,
+      "eval_f1": 0.8665163939313644,
+      "eval_loss": 0.4097813665866852,
+      "eval_precision": 0.8662922949250341,
+      "eval_recall": 0.8675310033821871,
+      "eval_runtime": 11.2915,
+      "eval_samples_per_second": 157.109,
+      "eval_steps_per_second": 2.48,
+      "step": 1125
+    },
+    {
+      "epoch": 18.08,
+      "learning_rate": 2.1804062126642775e-05,
+      "loss": 0.3916,
       "step": 1130
     },
     {
+      "epoch": 18.24,
+      "learning_rate": 2.1505376344086024e-05,
+      "loss": 0.3678,
       "step": 1140
     },
     {
+      "epoch": 18.4,
+      "learning_rate": 2.120669056152927e-05,
+      "loss": 0.3728,
       "step": 1150
     },
     {
+      "epoch": 18.56,
+      "learning_rate": 2.0908004778972523e-05,
+      "loss": 0.3687,
       "step": 1160
     },
     {
+      "epoch": 18.72,
+      "learning_rate": 2.060931899641577e-05,
+      "loss": 0.36,
       "step": 1170
     },
     {
+      "epoch": 18.88,
+      "learning_rate": 2.031063321385902e-05,
+      "loss": 0.3836,
       "step": 1180
     },
     {
+      "epoch": 18.99,
+      "eval_accuracy": 0.8669673055242391,
+      "eval_f1": 0.865073253058059,
+      "eval_loss": 0.4187908470630646,
+      "eval_precision": 0.8650614031620987,
+      "eval_recall": 0.8669673055242391,
+      "eval_runtime": 11.3694,
+      "eval_samples_per_second": 156.033,
+      "eval_steps_per_second": 2.463,
+      "step": 1187
+    },
+    {
+      "epoch": 19.04,
+      "learning_rate": 2.001194743130227e-05,
+      "loss": 0.3843,
       "step": 1190
     },
     {
+      "epoch": 19.2,
+      "learning_rate": 1.9713261648745522e-05,
+      "loss": 0.3595,
       "step": 1200
     },
     {
+      "epoch": 19.36,
+      "learning_rate": 1.941457586618877e-05,
+      "loss": 0.3767,
       "step": 1210
     },
     {
+      "epoch": 19.52,
+      "learning_rate": 1.9115890083632022e-05,
+      "loss": 0.3733,
       "step": 1220
     },
     {
+      "epoch": 19.68,
+      "learning_rate": 1.881720430107527e-05,
+      "loss": 0.358,
       "step": 1230
     },
     {
+      "epoch": 19.84,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.3791,
       "step": 1240
     },
     {
+      "epoch": 20.0,
+      "learning_rate": 1.821983273596177e-05,
+      "loss": 0.3716,
+      "step": 1250
     },
     {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8680947012401353,
+      "eval_f1": 0.8660818222180284,
+      "eval_loss": 0.4172397553920746,
+      "eval_precision": 0.8652671455119367,
+      "eval_recall": 0.8680947012401353,
+      "eval_runtime": 11.3218,
+      "eval_samples_per_second": 156.688,
+      "eval_steps_per_second": 2.473,
       "step": 1250
     },
     {
+      "epoch": 20.16,
+      "learning_rate": 1.7921146953405018e-05,
+      "loss": 0.3653,
       "step": 1260
     },
     {
+      "epoch": 20.32,
+      "learning_rate": 1.7622461170848266e-05,
+      "loss": 0.3742,
       "step": 1270
     },
     {
+      "epoch": 20.48,
+      "learning_rate": 1.7323775388291518e-05,
+      "loss": 0.3427,
       "step": 1280
     },
     {
+      "epoch": 20.64,
+      "learning_rate": 1.702508960573477e-05,
+      "loss": 0.3493,
       "step": 1290
     },
     {
+      "epoch": 20.8,
+      "learning_rate": 1.6726403823178017e-05,
+      "loss": 0.3844,
       "step": 1300
     },
     {
+      "epoch": 20.96,
+      "learning_rate": 1.642771804062127e-05,
+      "loss": 0.3484,
       "step": 1310
     },
     {
+      "epoch": 20.99,
+      "eval_accuracy": 0.8652762119503946,
+      "eval_f1": 0.8627527816664449,
+      "eval_loss": 0.44043925404548645,
+      "eval_precision": 0.864901928025251,
+      "eval_recall": 0.8652762119503946,
+      "eval_runtime": 11.3629,
+      "eval_samples_per_second": 156.123,
+      "eval_steps_per_second": 2.464,
+      "step": 1312
+    },
+    {
+      "epoch": 21.12,
+      "learning_rate": 1.6129032258064517e-05,
+      "loss": 0.3456,
       "step": 1320
     },
     {
+      "epoch": 21.28,
+      "learning_rate": 1.5830346475507768e-05,
+      "loss": 0.3706,
       "step": 1330
     },
     {
+      "epoch": 21.44,
+      "learning_rate": 1.5531660692951016e-05,
+      "loss": 0.3379,
       "step": 1340
     },
     {
+      "epoch": 21.6,
+      "learning_rate": 1.5232974910394265e-05,
+      "loss": 0.3426,
       "step": 1350
     },
     {
+      "epoch": 21.76,
+      "learning_rate": 1.4934289127837516e-05,
+      "loss": 0.3654,
       "step": 1360
     },
     {
+      "epoch": 21.92,
+      "learning_rate": 1.4635603345280766e-05,
+      "loss": 0.3895,
       "step": 1370
     },
     {
+      "epoch": 22.0,
+      "eval_accuracy": 0.8697857948139797,
+      "eval_f1": 0.8687732649987957,
+      "eval_loss": 0.4193563163280487,
+      "eval_precision": 0.8688636665976943,
+      "eval_recall": 0.8697857948139797,
+      "eval_runtime": 11.3215,
+      "eval_samples_per_second": 156.693,
+      "eval_steps_per_second": 2.473,
+      "step": 1375
     },
     {
+      "epoch": 22.08,
+      "learning_rate": 1.4336917562724014e-05,
+      "loss": 0.3527,
       "step": 1380
     },
     {
+      "epoch": 22.24,
+      "learning_rate": 1.4038231780167265e-05,
+      "loss": 0.3275,
       "step": 1390
     },
     {
+      "epoch": 22.4,
+      "learning_rate": 1.3739545997610515e-05,
+      "loss": 0.3393,
       "step": 1400
     },
     {
+      "epoch": 22.56,
+      "learning_rate": 1.3440860215053763e-05,
+      "loss": 0.3436,
       "step": 1410
     },
     {
+      "epoch": 22.72,
+      "learning_rate": 1.3142174432497015e-05,
+      "loss": 0.369,
       "step": 1420
     },
     {
+      "epoch": 22.88,
+      "learning_rate": 1.2843488649940263e-05,
+      "loss": 0.3452,
       "step": 1430
     },
     {
+      "epoch": 22.99,
+      "eval_accuracy": 0.863021420518602,
+      "eval_f1": 0.8620671500872396,
+      "eval_loss": 0.44474315643310547,
+      "eval_precision": 0.8634151923929667,
+      "eval_recall": 0.863021420518602,
+      "eval_runtime": 11.367,
+      "eval_samples_per_second": 156.066,
+      "eval_steps_per_second": 2.463,
+      "step": 1437
+    },
+    {
+      "epoch": 23.04,
+      "learning_rate": 1.2544802867383513e-05,
+      "loss": 0.3501,
       "step": 1440
     },
     {
+      "epoch": 23.2,
+      "learning_rate": 1.2246117084826763e-05,
+      "loss": 0.331,
       "step": 1450
     },
     {
+      "epoch": 23.36,
+      "learning_rate": 1.1947431302270013e-05,
+      "loss": 0.349,
       "step": 1460
     },
     {
+      "epoch": 23.52,
+      "learning_rate": 1.1648745519713262e-05,
+      "loss": 0.3386,
       "step": 1470
     },
     {
+      "epoch": 23.68,
+      "learning_rate": 1.135005973715651e-05,
+      "loss": 0.3661,
       "step": 1480
     },
     {
+      "epoch": 23.84,
+      "learning_rate": 1.1051373954599762e-05,
+      "loss": 0.3107,
       "step": 1490
     },
     {
+      "epoch": 24.0,
+      "learning_rate": 1.0752688172043012e-05,
+      "loss": 0.341,
+      "step": 1500
     },
     {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8720405862457723,
+      "eval_f1": 0.8711651878727846,
+      "eval_loss": 0.42527639865875244,
+      "eval_precision": 0.8722350399074861,
+      "eval_recall": 0.8720405862457723,
+      "eval_runtime": 11.3403,
+      "eval_samples_per_second": 156.433,
+      "eval_steps_per_second": 2.469,
       "step": 1500
     },
     {
+      "epoch": 24.16,
+      "learning_rate": 1.0454002389486262e-05,
+      "loss": 0.3511,
       "step": 1510
     },
     {
+      "epoch": 24.32,
+      "learning_rate": 1.015531660692951e-05,
+      "loss": 0.3576,
       "step": 1520
     },
     {
+      "epoch": 24.48,
+      "learning_rate": 9.856630824372761e-06,
+      "loss": 0.3334,
       "step": 1530
     },
     {
+      "epoch": 24.64,
+      "learning_rate": 9.557945041816011e-06,
+      "loss": 0.3263,
       "step": 1540
     },
     {
+      "epoch": 24.8,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.3252,
       "step": 1550
     },
     {
+      "epoch": 24.96,
+      "learning_rate": 8.960573476702509e-06,
+      "loss": 0.3481,
       "step": 1560
     },
     {
+      "epoch": 24.99,
+      "eval_accuracy": 0.8680947012401353,
+      "eval_f1": 0.8658162123248111,
+      "eval_loss": 0.4325413107872009,
+      "eval_precision": 0.8656054104200498,
+      "eval_recall": 0.8680947012401353,
+      "eval_runtime": 11.3709,
+      "eval_samples_per_second": 156.012,
+      "eval_steps_per_second": 2.462,
+      "step": 1562
+    },
+    {
+      "epoch": 25.12,
+      "learning_rate": 8.661887694145759e-06,
+      "loss": 0.3205,
       "step": 1570
     },
     {
+      "epoch": 25.28,
+      "learning_rate": 8.363201911589009e-06,
+      "loss": 0.3269,
       "step": 1580
     },
     {
+      "epoch": 25.44,
+      "learning_rate": 8.064516129032258e-06,
+      "loss": 0.3289,
       "step": 1590
     },
     {
+      "epoch": 25.6,
+      "learning_rate": 7.765830346475508e-06,
+      "loss": 0.3391,
       "step": 1600
     },
     {
+      "epoch": 25.76,
+      "learning_rate": 7.467144563918758e-06,
+      "loss": 0.3125,
       "step": 1610
     },
     {
+      "epoch": 25.92,
+      "learning_rate": 7.168458781362007e-06,
+      "loss": 0.3115,
       "step": 1620
     },
     {
+      "epoch": 26.0,
+      "eval_accuracy": 0.8618940248027057,
+      "eval_f1": 0.8603314065925552,
+      "eval_loss": 0.4340175688266754,
+      "eval_precision": 0.860904069861223,
+      "eval_recall": 0.8618940248027057,
+      "eval_runtime": 11.3497,
+      "eval_samples_per_second": 156.304,
+      "eval_steps_per_second": 2.467,
+      "step": 1625
     },
     {
+      "epoch": 26.08,
+      "learning_rate": 6.869772998805258e-06,
+      "loss": 0.3204,
       "step": 1630
     },
     {
+      "epoch": 26.24,
+      "learning_rate": 6.5710872162485075e-06,
+      "loss": 0.3478,
       "step": 1640
     },
     {
+      "epoch": 26.4,
+      "learning_rate": 6.2724014336917564e-06,
+      "loss": 0.3258,
       "step": 1650
     },
     {
+      "epoch": 26.56,
+      "learning_rate": 5.973715651135006e-06,
+      "loss": 0.3103,
       "step": 1660
     },
     {
+      "epoch": 26.72,
+      "learning_rate": 5.675029868578255e-06,
+      "loss": 0.3281,
       "step": 1670
     },
     {
+      "epoch": 26.88,
+      "learning_rate": 5.376344086021506e-06,
+      "loss": 0.313,
       "step": 1680
     },
     {
+      "epoch": 26.99,
+      "eval_accuracy": 0.8652762119503946,
+      "eval_f1": 0.8643891028825178,
+      "eval_loss": 0.4329146146774292,
+      "eval_precision": 0.8643550368131425,
+      "eval_recall": 0.8652762119503946,
+      "eval_runtime": 11.334,
+      "eval_samples_per_second": 156.52,
+      "eval_steps_per_second": 2.47,
+      "step": 1687
+    },
+    {
+      "epoch": 27.04,
+      "learning_rate": 5.077658303464755e-06,
+      "loss": 0.3256,
       "step": 1690
     },
     {
+      "epoch": 27.2,
+      "learning_rate": 4.7789725209080055e-06,
+      "loss": 0.3197,
       "step": 1700
     },
     {
+      "epoch": 27.36,
+      "learning_rate": 4.4802867383512545e-06,
+      "loss": 0.3184,
       "step": 1710
     },
     {
+      "epoch": 27.52,
+      "learning_rate": 4.181600955794504e-06,
+      "loss": 0.3345,
       "step": 1720
     },
     {
+      "epoch": 27.68,
+      "learning_rate": 3.882915173237754e-06,
+      "loss": 0.2934,
       "step": 1730
     },
     {
+      "epoch": 27.84,
+      "learning_rate": 3.5842293906810035e-06,
+      "loss": 0.3231,
       "step": 1740
     },
     {
+      "epoch": 28.0,
+      "learning_rate": 3.2855436081242537e-06,
+      "loss": 0.3362,
+      "step": 1750
     },
     {
+      "epoch": 28.0,
+      "eval_accuracy": 0.8652762119503946,
+      "eval_f1": 0.863885373181298,
+      "eval_loss": 0.43286800384521484,
+      "eval_precision": 0.8636274719014579,
+      "eval_recall": 0.8652762119503946,
+      "eval_runtime": 11.6971,
+      "eval_samples_per_second": 151.662,
+      "eval_steps_per_second": 2.394,
       "step": 1750
     },
     {
+      "epoch": 28.16,
+      "learning_rate": 2.986857825567503e-06,
+      "loss": 0.3134,
       "step": 1760
     },
     {
+      "epoch": 28.32,
+      "learning_rate": 2.688172043010753e-06,
+      "loss": 0.3069,
       "step": 1770
     },
     {
+      "epoch": 28.48,
+      "learning_rate": 2.3894862604540028e-06,
+      "loss": 0.3044,
       "step": 1780
     },
     {
+      "epoch": 28.64,
+      "learning_rate": 2.090800477897252e-06,
+      "loss": 0.3244,
       "step": 1790
     },
     {
+      "epoch": 28.8,
+      "learning_rate": 1.7921146953405017e-06,
+      "loss": 0.316,
       "step": 1800
     },
     {
+      "epoch": 28.96,
+      "learning_rate": 1.4934289127837516e-06,
+      "loss": 0.3056,
       "step": 1810
     },
     {
+      "epoch": 28.99,
+      "eval_accuracy": 0.8658399098083427,
+      "eval_f1": 0.8644313781868497,
+      "eval_loss": 0.43418213725090027,
+      "eval_precision": 0.8644562679876783,
+      "eval_recall": 0.8658399098083427,
+      "eval_runtime": 11.3525,
+      "eval_samples_per_second": 156.265,
+      "eval_steps_per_second": 2.466,
+      "step": 1812
+    },
+    {
+      "epoch": 29.12,
+      "learning_rate": 1.1947431302270014e-06,
+      "loss": 0.3272,
       "step": 1820
     },
     {
+      "epoch": 29.28,
+      "learning_rate": 8.960573476702509e-07,
+      "loss": 0.3052,
       "step": 1830
     },
     {
+      "epoch": 29.44,
+      "learning_rate": 5.973715651135007e-07,
+      "loss": 0.3096,
       "step": 1840
     },
     {
+      "epoch": 29.6,
+      "learning_rate": 2.9868578255675034e-07,
+      "loss": 0.3065,
       "step": 1850
     },
     {
+      "epoch": 29.76,
+      "learning_rate": 0.0,
+      "loss": 0.3206,
       "step": 1860
     },
     {
+      "epoch": 29.76,
       "eval_accuracy": 0.8664036076662909,
+      "eval_f1": 0.8648666259619948,
+      "eval_loss": 0.4342886209487915,
+      "eval_precision": 0.8648251466747676,
+      "eval_recall": 0.8664036076662909,
+      "eval_runtime": 11.3529,
+      "eval_samples_per_second": 156.26,
+      "eval_steps_per_second": 2.466,
+      "step": 1860
     },
     {
+      "epoch": 29.76,
+      "step": 1860,
+      "total_flos": 1.1959619744316432e+19,
+      "train_loss": 0.5325898121762019,
+      "train_runtime": 4135.2976,
+      "train_samples_per_second": 115.798,
+      "train_steps_per_second": 0.45
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1860,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
   "save_steps": 500,
+  "total_flos": 1.1959619744316432e+19,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }