Evaluation on the test set completed on 2024_09_10.

Browse files

Files changed (8) hide show

README.md +123 -0
all_results.json +17 -0
logs/events.out.tfevents.1725859043.datavisu2 +2 -2
logs/events.out.tfevents.1725967888.datavisu2 +3 -0
model.safetensors +1 -1
test_results.json +12 -0
train_results.json +9 -0
trainer_state.json +1043 -0

README.md ADDED Viewed

	@@ -0,0 +1,123 @@

+---
+license: apache-2.0
+base_model: facebook/dinov2-base
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: dinov2-base-2024_09_09-batch-size32_epochs150_freeze
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# dinov2-base-2024_09_09-batch-size32_epochs150_freeze
+This model is a fine-tuned version of [facebook/dinov2-base](https://huggingface.co/facebook/dinov2-base) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.1321
+- F1 Micro: 0.8069
+- F1 Macro: 0.7121
+- Roc Auc: 0.8742
+- Accuracy: 0.2869
+- Learning Rate: 0.0000
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 150
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step  | Validation Loss | F1 Micro | F1 Macro | Roc Auc | Accuracy | Rate   |
+|:-------------:|:-----:|:-----:|:---------------:|:--------:|:--------:|:-------:|:--------:|:------:|
+| No log        | 1.0   | 273   | 0.1601          | 0.7634   | 0.6251   | 0.8453  | 0.2328   | 0.001  |
+| 0.1759        | 2.0   | 546   | 0.1504          | 0.7780   | 0.6462   | 0.8546  | 0.2498   | 0.001  |
+| 0.1759        | 3.0   | 819   | 0.1483          | 0.7817   | 0.6644   | 0.8583  | 0.2564   | 0.001  |
+| 0.1474        | 4.0   | 1092  | 0.1464          | 0.7863   | 0.6809   | 0.8634  | 0.2554   | 0.001  |
+| 0.1474        | 5.0   | 1365  | 0.1423          | 0.7891   | 0.6919   | 0.8572  | 0.2682   | 0.001  |
+| 0.1397        | 6.0   | 1638  | 0.1440          | 0.7902   | 0.6988   | 0.8629  | 0.2651   | 0.001  |
+| 0.1397        | 7.0   | 1911  | 0.1425          | 0.7938   | 0.6850   | 0.8647  | 0.2682   | 0.001  |
+| 0.1356        | 8.0   | 2184  | 0.1429          | 0.7931   | 0.6880   | 0.8700  | 0.2637   | 0.001  |
+| 0.1356        | 9.0   | 2457  | 0.1463          | 0.7927   | 0.6885   | 0.8704  | 0.2557   | 0.001  |
+| 0.1315        | 10.0  | 2730  | 0.1392          | 0.8009   | 0.7050   | 0.8729  | 0.2744   | 0.001  |
+| 0.1308        | 11.0  | 3003  | 0.1443          | 0.7853   | 0.6892   | 0.8519  | 0.2699   | 0.001  |
+| 0.1308        | 12.0  | 3276  | 0.1452          | 0.7888   | 0.6976   | 0.8670  | 0.2713   | 0.001  |
+| 0.1277        | 13.0  | 3549  | 0.1370          | 0.8007   | 0.7032   | 0.8680  | 0.2765   | 0.001  |
+| 0.1277        | 14.0  | 3822  | 0.1401          | 0.7984   | 0.6875   | 0.8694  | 0.2730   | 0.001  |
+| 0.1257        | 15.0  | 4095  | 0.1379          | 0.8049   | 0.7001   | 0.8748  | 0.2817   | 0.001  |
+| 0.1257        | 16.0  | 4368  | 0.1429          | 0.7969   | 0.7063   | 0.8675  | 0.2682   | 0.001  |
+| 0.1257        | 17.0  | 4641  | 0.1451          | 0.7956   | 0.6861   | 0.8728  | 0.2613   | 0.001  |
+| 0.1257        | 18.0  | 4914  | 0.1418          | 0.7906   | 0.6849   | 0.8574  | 0.2713   | 0.001  |
+| 0.1251        | 19.0  | 5187  | 0.1438          | 0.7900   | 0.6794   | 0.8556  | 0.2654   | 0.001  |
+| 0.1251        | 20.0  | 5460  | 0.1319          | 0.8068   | 0.7202   | 0.8705  | 0.2866   | 0.0001 |
+| 0.1161        | 21.0  | 5733  | 0.1312          | 0.8081   | 0.7237   | 0.8715  | 0.2876   | 0.0001 |
+| 0.1109        | 22.0  | 6006  | 0.1310          | 0.8101   | 0.7222   | 0.8788  | 0.2935   | 0.0001 |
+| 0.1109        | 23.0  | 6279  | 0.1305          | 0.8120   | 0.7226   | 0.8776  | 0.2935   | 0.0001 |
+| 0.1103        | 24.0  | 6552  | 0.1309          | 0.8096   | 0.7238   | 0.8769  | 0.2952   | 0.0001 |
+| 0.1103        | 25.0  | 6825  | 0.1308          | 0.8093   | 0.7171   | 0.8735  | 0.2949   | 0.0001 |
+| 0.1099        | 26.0  | 7098  | 0.1301          | 0.8100   | 0.7200   | 0.8745  | 0.2911   | 0.0001 |
+| 0.1099        | 27.0  | 7371  | 0.1303          | 0.8082   | 0.7208   | 0.8727  | 0.2924   | 0.0001 |
+| 0.1107        | 28.0  | 7644  | 0.1302          | 0.8103   | 0.7218   | 0.8752  | 0.2970   | 0.0001 |
+| 0.1107        | 29.0  | 7917  | 0.1302          | 0.8104   | 0.7237   | 0.8766  | 0.2963   | 0.0001 |
+| 0.1103        | 30.0  | 8190  | 0.1303          | 0.8097   | 0.7181   | 0.8745  | 0.2956   | 0.0001 |
+| 0.1103        | 31.0  | 8463  | 0.1301          | 0.8092   | 0.7190   | 0.8739  | 0.2959   | 0.0001 |
+| 0.1104        | 32.0  | 8736  | 0.1301          | 0.8098   | 0.7210   | 0.8740  | 0.2928   | 0.0001 |
+| 0.1093        | 33.0  | 9009  | 0.1296          | 0.8100   | 0.7204   | 0.8738  | 0.2963   | 1e-05  |
+| 0.1093        | 34.0  | 9282  | 0.1296          | 0.8101   | 0.7222   | 0.8745  | 0.2956   | 1e-05  |
+| 0.1084        | 35.0  | 9555  | 0.1295          | 0.8109   | 0.7220   | 0.8758  | 0.2956   | 1e-05  |
+| 0.1084        | 36.0  | 9828  | 0.1295          | 0.8105   | 0.7212   | 0.8746  | 0.2931   | 1e-05  |
+| 0.1091        | 37.0  | 10101 | 0.1295          | 0.8119   | 0.7239   | 0.8757  | 0.2963   | 1e-05  |
+| 0.1091        | 38.0  | 10374 | 0.1295          | 0.8104   | 0.7213   | 0.8744  | 0.2959   | 1e-05  |
+| 0.1075        | 39.0  | 10647 | 0.1295          | 0.8106   | 0.7222   | 0.8752  | 0.2966   | 1e-05  |
+| 0.1075        | 40.0  | 10920 | 0.1295          | 0.8113   | 0.7233   | 0.8768  | 0.2956   | 1e-05  |
+| 0.1088        | 41.0  | 11193 | 0.1295          | 0.8100   | 0.7223   | 0.8739  | 0.2945   | 1e-05  |
+| 0.1088        | 42.0  | 11466 | 0.1295          | 0.8111   | 0.7219   | 0.8750  | 0.2973   | 1e-05  |
+| 0.1085        | 43.0  | 11739 | 0.1294          | 0.8098   | 0.7212   | 0.8738  | 0.2931   | 1e-05  |
+| 0.1084        | 44.0  | 12012 | 0.1295          | 0.8108   | 0.7212   | 0.8746  | 0.2970   | 1e-05  |
+| 0.1084        | 45.0  | 12285 | 0.1294          | 0.8104   | 0.7218   | 0.8749  | 0.2945   | 1e-05  |
+| 0.1083        | 46.0  | 12558 | 0.1294          | 0.8113   | 0.7233   | 0.8759  | 0.2976   | 1e-05  |
+| 0.1083        | 47.0  | 12831 | 0.1294          | 0.8107   | 0.7229   | 0.8753  | 0.2945   | 1e-05  |
+| 0.109         | 48.0  | 13104 | 0.1294          | 0.8103   | 0.7209   | 0.8742  | 0.2956   | 1e-05  |
+| 0.109         | 49.0  | 13377 | 0.1293          | 0.8111   | 0.7215   | 0.8755  | 0.2959   | 1e-05  |
+| 0.108         | 50.0  | 13650 | 0.1294          | 0.8107   | 0.7211   | 0.8750  | 0.2966   | 1e-05  |
+| 0.108         | 51.0  | 13923 | 0.1294          | 0.8099   | 0.7224   | 0.8742  | 0.2924   | 1e-05  |
+| 0.1084        | 52.0  | 14196 | 0.1294          | 0.8110   | 0.7224   | 0.8755  | 0.2973   | 1e-05  |
+| 0.1084        | 53.0  | 14469 | 0.1295          | 0.8111   | 0.7225   | 0.8757  | 0.2980   | 1e-05  |
+| 0.1086        | 54.0  | 14742 | 0.1294          | 0.8105   | 0.7222   | 0.8752  | 0.2963   | 1e-05  |
+| 0.1083        | 55.0  | 15015 | 0.1293          | 0.8107   | 0.7231   | 0.8754  | 0.2956   | 1e-05  |
+| 0.1083        | 56.0  | 15288 | 0.1294          | 0.8107   | 0.7227   | 0.8753  | 0.2959   | 0.0000 |
+| 0.108         | 57.0  | 15561 | 0.1293          | 0.8111   | 0.7231   | 0.8754  | 0.2956   | 0.0000 |
+| 0.108         | 58.0  | 15834 | 0.1294          | 0.8112   | 0.7230   | 0.8755  | 0.2966   | 0.0000 |
+| 0.1089        | 59.0  | 16107 | 0.1294          | 0.8110   | 0.7227   | 0.8753  | 0.2966   | 0.0000 |
+### Framework versions
+- Transformers 4.41.1
+- Pytorch 2.3.0+cu121
+- Datasets 2.19.1
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 59.0,
+    "eval_accuracy": 0.28685121107266437,
+    "eval_f1_macro": 0.7121206032252584,
+    "eval_f1_micro": 0.8069197820934004,
+    "eval_loss": 0.13205093145370483,
+    "eval_roc_auc": 0.874152531963206,
+    "eval_runtime": 445.2138,
+    "eval_samples_per_second": 6.491,
+    "eval_steps_per_second": 0.204,
+    "learning_rate": 1.0000000000000002e-06,
+    "total_flos": 2.151593295698903e+20,
+    "train_loss": 0.11777938241923686,
+    "train_runtime": 108362.28,
+    "train_samples_per_second": 12.065,
+    "train_steps_per_second": 0.378
+}

logs/events.out.tfevents.1725859043.datavisu2 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e5a109151fb370258667f532789be425f5549fa61b2b8f1d4be05316475c5e6
-size 44133

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed78969fc172629185bbd0d12d933445325207acf164f92dbcd5f4cd20abe8b7
+size 45828

logs/events.out.tfevents.1725967888.datavisu2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e86a994d18dfb9c6af1ce27f74b500329062e5be0e16f43ab231104b68b0028
+size 40

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:036dd94dfd2b59639a25cd5657c9ab0b3662a68389a35e6121c546ccfe2392af
 size 346538228

 version https://git-lfs.github.com/spec/v1
+oid sha256:09e94bfc07f1f2cd594e8b888632c2d8f81041d757cf35ada9aa6911fdc928a6
 size 346538228

test_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 59.0,
+    "eval_accuracy": 0.28685121107266437,
+    "eval_f1_macro": 0.7121206032252584,
+    "eval_f1_micro": 0.8069197820934004,
+    "eval_loss": 0.13205093145370483,
+    "eval_roc_auc": 0.874152531963206,
+    "eval_runtime": 445.2138,
+    "eval_samples_per_second": 6.491,
+    "eval_steps_per_second": 0.204,
+    "learning_rate": 1.0000000000000002e-06
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 59.0,
+    "learning_rate": 1.0000000000000002e-06,
+    "total_flos": 2.151593295698903e+20,
+    "train_loss": 0.11777938241923686,
+    "train_runtime": 108362.28,
+    "train_samples_per_second": 12.065,
+    "train_steps_per_second": 0.378
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1043 @@

+{
+  "best_metric": 0.12932655215263367,
+  "best_model_checkpoint": "/home/datawork-iot-nos/Seatizen/models/multilabel/fine_scale/dinov2-base-2024_09_09-batch-size32_epochs150_freeze/checkpoint-13377",
+  "epoch": 59.0,
+  "eval_steps": 500,
+  "global_step": 16107,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.23284823284823286,
+      "eval_f1_macro": 0.6250897780499145,
+      "eval_f1_micro": 0.7633800438966739,
+      "eval_loss": 0.16006726026535034,
+      "eval_roc_auc": 0.8452995641064989,
+      "eval_runtime": 455.8596,
+      "eval_samples_per_second": 6.331,
+      "eval_steps_per_second": 0.2,
+      "learning_rate": 0.001,
+      "step": 273
+    },
+    {
+      "epoch": 1.8315018315018317,
+      "grad_norm": 0.4072045385837555,
+      "learning_rate": 0.001,
+      "loss": 0.1759,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.24982674982674982,
+      "eval_f1_macro": 0.646165211379598,
+      "eval_f1_micro": 0.7780064686856808,
+      "eval_loss": 0.150440976023674,
+      "eval_roc_auc": 0.8546135818062216,
+      "eval_runtime": 451.8319,
+      "eval_samples_per_second": 6.387,
+      "eval_steps_per_second": 0.201,
+      "learning_rate": 0.001,
+      "step": 546
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.2564102564102564,
+      "eval_f1_macro": 0.6644318154557648,
+      "eval_f1_micro": 0.7816936696175046,
+      "eval_loss": 0.14829224348068237,
+      "eval_roc_auc": 0.8582657995297673,
+      "eval_runtime": 444.7156,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 0.205,
+      "learning_rate": 0.001,
+      "step": 819
+    },
+    {
+      "epoch": 3.663003663003663,
+      "grad_norm": 0.4122166037559509,
+      "learning_rate": 0.001,
+      "loss": 0.1474,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.2553707553707554,
+      "eval_f1_macro": 0.680888104485521,
+      "eval_f1_micro": 0.7862639635912287,
+      "eval_loss": 0.14641565084457397,
+      "eval_roc_auc": 0.8633757977162271,
+      "eval_runtime": 456.1173,
+      "eval_samples_per_second": 6.327,
+      "eval_steps_per_second": 0.2,
+      "learning_rate": 0.001,
+      "step": 1092
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.2681912681912682,
+      "eval_f1_macro": 0.6919100708566497,
+      "eval_f1_micro": 0.7891243298442687,
+      "eval_loss": 0.14226503670215607,
+      "eval_roc_auc": 0.8571516929773072,
+      "eval_runtime": 446.9545,
+      "eval_samples_per_second": 6.457,
+      "eval_steps_per_second": 0.204,
+      "learning_rate": 0.001,
+      "step": 1365
+    },
+    {
+      "epoch": 5.4945054945054945,
+      "grad_norm": 0.4282256066799164,
+      "learning_rate": 0.001,
+      "loss": 0.1397,
+      "step": 1500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.26507276507276506,
+      "eval_f1_macro": 0.6987715680115144,
+      "eval_f1_micro": 0.7901946045268521,
+      "eval_loss": 0.1439608633518219,
+      "eval_roc_auc": 0.8629406419717581,
+      "eval_runtime": 465.0998,
+      "eval_samples_per_second": 6.205,
+      "eval_steps_per_second": 0.196,
+      "learning_rate": 0.001,
+      "step": 1638
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.2681912681912682,
+      "eval_f1_macro": 0.6849790066180481,
+      "eval_f1_micro": 0.7937821236053655,
+      "eval_loss": 0.1425073742866516,
+      "eval_roc_auc": 0.8647460265764118,
+      "eval_runtime": 459.0682,
+      "eval_samples_per_second": 6.287,
+      "eval_steps_per_second": 0.198,
+      "learning_rate": 0.001,
+      "step": 1911
+    },
+    {
+      "epoch": 7.326007326007326,
+      "grad_norm": 0.4099022448062897,
+      "learning_rate": 0.001,
+      "loss": 0.1356,
+      "step": 2000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.2636867636867637,
+      "eval_f1_macro": 0.6880365824342907,
+      "eval_f1_micro": 0.793083667950504,
+      "eval_loss": 0.14294348657131195,
+      "eval_roc_auc": 0.8699640457613058,
+      "eval_runtime": 467.5382,
+      "eval_samples_per_second": 6.173,
+      "eval_steps_per_second": 0.195,
+      "learning_rate": 0.001,
+      "step": 2184
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.25571725571725573,
+      "eval_f1_macro": 0.6884565577441364,
+      "eval_f1_micro": 0.7926595005517636,
+      "eval_loss": 0.14630228281021118,
+      "eval_roc_auc": 0.8704441778385391,
+      "eval_runtime": 469.2736,
+      "eval_samples_per_second": 6.15,
+      "eval_steps_per_second": 0.194,
+      "learning_rate": 0.001,
+      "step": 2457
+    },
+    {
+      "epoch": 9.157509157509157,
+      "grad_norm": 0.35209059715270996,
+      "learning_rate": 0.001,
+      "loss": 0.1315,
+      "step": 2500
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.27442827442827444,
+      "eval_f1_macro": 0.7049759390767861,
+      "eval_f1_micro": 0.8009224940284985,
+      "eval_loss": 0.13922064006328583,
+      "eval_roc_auc": 0.8728939594088932,
+      "eval_runtime": 446.1349,
+      "eval_samples_per_second": 6.469,
+      "eval_steps_per_second": 0.204,
+      "learning_rate": 0.001,
+      "step": 2730
+    },
+    {
+      "epoch": 10.989010989010989,
+      "grad_norm": 0.47372138500213623,
+      "learning_rate": 0.001,
+      "loss": 0.1308,
+      "step": 3000
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.26992376992376993,
+      "eval_f1_macro": 0.6892328865834217,
+      "eval_f1_micro": 0.785345272946444,
+      "eval_loss": 0.14429208636283875,
+      "eval_roc_auc": 0.8519184223488243,
+      "eval_runtime": 447.1698,
+      "eval_samples_per_second": 6.454,
+      "eval_steps_per_second": 0.204,
+      "learning_rate": 0.001,
+      "step": 3003
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.2713097713097713,
+      "eval_f1_macro": 0.6976448599197044,
+      "eval_f1_micro": 0.7888341543513957,
+      "eval_loss": 0.14520499110221863,
+      "eval_roc_auc": 0.867032334670059,
+      "eval_runtime": 443.567,
+      "eval_samples_per_second": 6.506,
+      "eval_steps_per_second": 0.205,
+      "learning_rate": 0.001,
+      "step": 3276
+    },
+    {
+      "epoch": 12.820512820512821,
+      "grad_norm": 0.40755951404571533,
+      "learning_rate": 0.001,
+      "loss": 0.1277,
+      "step": 3500
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.2765072765072765,
+      "eval_f1_macro": 0.7032121010324246,
+      "eval_f1_micro": 0.8007200870802982,
+      "eval_loss": 0.13695523142814636,
+      "eval_roc_auc": 0.8680389701881897,
+      "eval_runtime": 444.0658,
+      "eval_samples_per_second": 6.499,
+      "eval_steps_per_second": 0.205,
+      "learning_rate": 0.001,
+      "step": 3549
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.273042273042273,
+      "eval_f1_macro": 0.6875097222118577,
+      "eval_f1_micro": 0.7983576642335767,
+      "eval_loss": 0.14012356102466583,
+      "eval_roc_auc": 0.869430406200805,
+      "eval_runtime": 440.0286,
+      "eval_samples_per_second": 6.559,
+      "eval_steps_per_second": 0.207,
+      "learning_rate": 0.001,
+      "step": 3822
+    },
+    {
+      "epoch": 14.652014652014651,
+      "grad_norm": 0.3442566990852356,
+      "learning_rate": 0.001,
+      "loss": 0.1257,
+      "step": 4000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.2817047817047817,
+      "eval_f1_macro": 0.7001361694791496,
+      "eval_f1_micro": 0.8048810652595126,
+      "eval_loss": 0.13785772025585175,
+      "eval_roc_auc": 0.8748105574865406,
+      "eval_runtime": 441.6171,
+      "eval_samples_per_second": 6.535,
+      "eval_steps_per_second": 0.206,
+      "learning_rate": 0.001,
+      "step": 4095
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.2681912681912682,
+      "eval_f1_macro": 0.7063273106998997,
+      "eval_f1_micro": 0.7968854097268487,
+      "eval_loss": 0.1429404616355896,
+      "eval_roc_auc": 0.8674701731662587,
+      "eval_runtime": 440.4364,
+      "eval_samples_per_second": 6.553,
+      "eval_steps_per_second": 0.207,
+      "learning_rate": 0.001,
+      "step": 4368
+    },
+    {
+      "epoch": 16.483516483516482,
+      "grad_norm": 0.44264066219329834,
+      "learning_rate": 0.001,
+      "loss": 0.1257,
+      "step": 4500
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.26126126126126126,
+      "eval_f1_macro": 0.6860743816280108,
+      "eval_f1_micro": 0.7956287718153646,
+      "eval_loss": 0.1451471894979477,
+      "eval_roc_auc": 0.8727966023485881,
+      "eval_runtime": 445.5579,
+      "eval_samples_per_second": 6.477,
+      "eval_steps_per_second": 0.204,
+      "learning_rate": 0.001,
+      "step": 4641
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.2713097713097713,
+      "eval_f1_macro": 0.6849355289660601,
+      "eval_f1_micro": 0.7906203368151778,
+      "eval_loss": 0.141770601272583,
+      "eval_roc_auc": 0.8574113028622815,
+      "eval_runtime": 440.4062,
+      "eval_samples_per_second": 6.553,
+      "eval_steps_per_second": 0.207,
+      "learning_rate": 0.001,
+      "step": 4914
+    },
+    {
+      "epoch": 18.315018315018314,
+      "grad_norm": 0.38295412063598633,
+      "learning_rate": 0.001,
+      "loss": 0.1251,
+      "step": 5000
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.2654192654192654,
+      "eval_f1_macro": 0.6794374521554336,
+      "eval_f1_micro": 0.7899699957136733,
+      "eval_loss": 0.14384245872497559,
+      "eval_roc_auc": 0.8555935775996669,
+      "eval_runtime": 441.9996,
+      "eval_samples_per_second": 6.529,
+      "eval_steps_per_second": 0.206,
+      "learning_rate": 0.001,
+      "step": 5187
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.28655578655578656,
+      "eval_f1_macro": 0.7201978132992005,
+      "eval_f1_micro": 0.8068363147728227,
+      "eval_loss": 0.13193023204803467,
+      "eval_roc_auc": 0.8705382753554913,
+      "eval_runtime": 445.6167,
+      "eval_samples_per_second": 6.476,
+      "eval_steps_per_second": 0.204,
+      "learning_rate": 0.0001,
+      "step": 5460
+    },
+    {
+      "epoch": 20.146520146520146,
+      "grad_norm": 0.34160131216049194,
+      "learning_rate": 0.0001,
+      "loss": 0.1161,
+      "step": 5500
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.2875952875952876,
+      "eval_f1_macro": 0.7236910659256566,
+      "eval_f1_micro": 0.8080536912751679,
+      "eval_loss": 0.13121400773525238,
+      "eval_roc_auc": 0.8715230464470173,
+      "eval_runtime": 442.006,
+      "eval_samples_per_second": 6.529,
+      "eval_steps_per_second": 0.206,
+      "learning_rate": 0.0001,
+      "step": 5733
+    },
+    {
+      "epoch": 21.978021978021978,
+      "grad_norm": 0.25530439615249634,
+      "learning_rate": 0.0001,
+      "loss": 0.1109,
+      "step": 6000
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.2934857934857935,
+      "eval_f1_macro": 0.7222147145142929,
+      "eval_f1_micro": 0.810120343368793,
+      "eval_loss": 0.1310088187456131,
+      "eval_roc_auc": 0.8788407212738992,
+      "eval_runtime": 442.6084,
+      "eval_samples_per_second": 6.52,
+      "eval_steps_per_second": 0.206,
+      "learning_rate": 0.0001,
+      "step": 6006
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.2934857934857935,
+      "eval_f1_macro": 0.7226400439644629,
+      "eval_f1_micro": 0.8120394137616957,
+      "eval_loss": 0.1304517388343811,
+      "eval_roc_auc": 0.8775576952587192,
+      "eval_runtime": 443.2768,
+      "eval_samples_per_second": 6.511,
+      "eval_steps_per_second": 0.205,
+      "learning_rate": 0.0001,
+      "step": 6279
+    },
+    {
+      "epoch": 23.80952380952381,
+      "grad_norm": 0.31216299533843994,
+      "learning_rate": 0.0001,
+      "loss": 0.1103,
+      "step": 6500
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.29521829521829523,
+      "eval_f1_macro": 0.7237916982943077,
+      "eval_f1_micro": 0.8096162584162916,
+      "eval_loss": 0.13093852996826172,
+      "eval_roc_auc": 0.8768767860419646,
+      "eval_runtime": 445.0523,
+      "eval_samples_per_second": 6.485,
+      "eval_steps_per_second": 0.204,
+      "learning_rate": 0.0001,
+      "step": 6552
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.2948717948717949,
+      "eval_f1_macro": 0.7170657451815683,
+      "eval_f1_micro": 0.8093388464269307,
+      "eval_loss": 0.13081994652748108,
+      "eval_roc_auc": 0.8734838965144617,
+      "eval_runtime": 438.7401,
+      "eval_samples_per_second": 6.578,
+      "eval_steps_per_second": 0.207,
+      "learning_rate": 0.0001,
+      "step": 6825
+    },
+    {
+      "epoch": 25.641025641025642,
+      "grad_norm": 0.38898253440856934,
+      "learning_rate": 0.0001,
+      "loss": 0.1099,
+      "step": 7000
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.2910602910602911,
+      "eval_f1_macro": 0.7200172245050901,
+      "eval_f1_micro": 0.8099862459884133,
+      "eval_loss": 0.13007444143295288,
+      "eval_roc_auc": 0.8744510016858411,
+      "eval_runtime": 440.3465,
+      "eval_samples_per_second": 6.554,
+      "eval_steps_per_second": 0.207,
+      "learning_rate": 0.0001,
+      "step": 7098
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.29244629244629244,
+      "eval_f1_macro": 0.7207907434740295,
+      "eval_f1_micro": 0.8082065853250877,
+      "eval_loss": 0.13034380972385406,
+      "eval_roc_auc": 0.8727246375334137,
+      "eval_runtime": 441.8582,
+      "eval_samples_per_second": 6.532,
+      "eval_steps_per_second": 0.206,
+      "learning_rate": 0.0001,
+      "step": 7371
+    },
+    {
+      "epoch": 27.47252747252747,
+      "grad_norm": 0.23454292118549347,
+      "learning_rate": 0.0001,
+      "loss": 0.1107,
+      "step": 7500
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.29695079695079696,
+      "eval_f1_macro": 0.7217805682073449,
+      "eval_f1_micro": 0.810349848163401,
+      "eval_loss": 0.13018907606601715,
+      "eval_roc_auc": 0.8752133458313793,
+      "eval_runtime": 442.3473,
+      "eval_samples_per_second": 6.524,
+      "eval_steps_per_second": 0.206,
+      "learning_rate": 0.0001,
+      "step": 7644
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.29625779625779625,
+      "eval_f1_macro": 0.723719101965087,
+      "eval_f1_micro": 0.8104190823256585,
+      "eval_loss": 0.13019531965255737,
+      "eval_roc_auc": 0.8765812809388343,
+      "eval_runtime": 443.3045,
+      "eval_samples_per_second": 6.51,
+      "eval_steps_per_second": 0.205,
+      "learning_rate": 0.0001,
+      "step": 7917
+    },
+    {
+      "epoch": 29.304029304029303,
+      "grad_norm": 0.30432701110839844,
+      "learning_rate": 0.0001,
+      "loss": 0.1103,
+      "step": 8000
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.2955647955647956,
+      "eval_f1_macro": 0.718144679800513,
+      "eval_f1_micro": 0.8096606287736832,
+      "eval_loss": 0.13030356168746948,
+      "eval_roc_auc": 0.87453866059864,
+      "eval_runtime": 441.0327,
+      "eval_samples_per_second": 6.544,
+      "eval_steps_per_second": 0.206,
+      "learning_rate": 0.0001,
+      "step": 8190
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.2959112959112959,
+      "eval_f1_macro": 0.7189603352791966,
+      "eval_f1_micro": 0.8092418049879057,
+      "eval_loss": 0.1301266849040985,
+      "eval_roc_auc": 0.8738562356271575,
+      "eval_runtime": 443.1469,
+      "eval_samples_per_second": 6.513,
+      "eval_steps_per_second": 0.205,
+      "learning_rate": 0.0001,
+      "step": 8463
+    },
+    {
+      "epoch": 31.135531135531135,
+      "grad_norm": 0.3088095188140869,
+      "learning_rate": 0.0001,
+      "loss": 0.1104,
+      "step": 8500
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.2927927927927928,
+      "eval_f1_macro": 0.7210148516296496,
+      "eval_f1_micro": 0.8097980303789017,
+      "eval_loss": 0.1301257312297821,
+      "eval_roc_auc": 0.8739934717919385,
+      "eval_runtime": 440.0353,
+      "eval_samples_per_second": 6.559,
+      "eval_steps_per_second": 0.207,
+      "learning_rate": 0.0001,
+      "step": 8736
+    },
+    {
+      "epoch": 32.967032967032964,
+      "grad_norm": 0.3049701750278473,
+      "learning_rate": 1e-05,
+      "loss": 0.1093,
+      "step": 9000
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.29625779625779625,
+      "eval_f1_macro": 0.7204264964359948,
+      "eval_f1_micro": 0.8099594769603543,
+      "eval_loss": 0.12959885597229004,
+      "eval_roc_auc": 0.8737537142697711,
+      "eval_runtime": 441.033,
+      "eval_samples_per_second": 6.544,
+      "eval_steps_per_second": 0.206,
+      "learning_rate": 1e-05,
+      "step": 9009
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.2955647955647956,
+      "eval_f1_macro": 0.722168676552786,
+      "eval_f1_micro": 0.8100854344655136,
+      "eval_loss": 0.12959957122802734,
+      "eval_roc_auc": 0.874530303826999,
+      "eval_runtime": 444.1246,
+      "eval_samples_per_second": 6.498,
+      "eval_steps_per_second": 0.205,
+      "learning_rate": 1e-05,
+      "step": 9282
+    },
+    {
+      "epoch": 34.798534798534796,
+      "grad_norm": 0.3583316504955292,
+      "learning_rate": 1e-05,
+      "loss": 0.1084,
+      "step": 9500
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.2955647955647956,
+      "eval_f1_macro": 0.7220033007887567,
+      "eval_f1_micro": 0.8108894430590192,
+      "eval_loss": 0.12954092025756836,
+      "eval_roc_auc": 0.875769077852382,
+      "eval_runtime": 441.2982,
+      "eval_samples_per_second": 6.54,
+      "eval_steps_per_second": 0.206,
+      "learning_rate": 1e-05,
+      "step": 9555
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.29313929313929316,
+      "eval_f1_macro": 0.7211650841899886,
+      "eval_f1_micro": 0.8104569713142095,
+      "eval_loss": 0.12953610718250275,
+      "eval_roc_auc": 0.8746018662294139,
+      "eval_runtime": 447.4449,
+      "eval_samples_per_second": 6.45,
+      "eval_steps_per_second": 0.203,
+      "learning_rate": 1e-05,
+      "step": 9828
+    },
+    {
+      "epoch": 36.63003663003663,
+      "grad_norm": 0.3639417588710785,
+      "learning_rate": 1e-05,
+      "loss": 0.1091,
+      "step": 10000
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.29625779625779625,
+      "eval_f1_macro": 0.7239071903959954,
+      "eval_f1_micro": 0.8118778893007372,
+      "eval_loss": 0.1295497566461563,
+      "eval_roc_auc": 0.8757186018785701,
+      "eval_runtime": 444.3576,
+      "eval_samples_per_second": 6.495,
+      "eval_steps_per_second": 0.205,
+      "learning_rate": 1e-05,
+      "step": 10101
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.2959112959112959,
+      "eval_f1_macro": 0.7212977755433345,
+      "eval_f1_micro": 0.8104318798247445,
+      "eval_loss": 0.12949061393737793,
+      "eval_roc_auc": 0.8743562200671975,
+      "eval_runtime": 450.6653,
+      "eval_samples_per_second": 6.404,
+      "eval_steps_per_second": 0.202,
+      "learning_rate": 1e-05,
+      "step": 10374
+    },
+    {
+      "epoch": 38.46153846153846,
+      "grad_norm": 0.30328261852264404,
+      "learning_rate": 1e-05,
+      "loss": 0.1075,
+      "step": 10500
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.2966042966042966,
+      "eval_f1_macro": 0.7221707642640621,
+      "eval_f1_micro": 0.8106218263547823,
+      "eval_loss": 0.12945865094661713,
+      "eval_roc_auc": 0.8752056060926364,
+      "eval_runtime": 456.2278,
+      "eval_samples_per_second": 6.326,
+      "eval_steps_per_second": 0.199,
+      "learning_rate": 1e-05,
+      "step": 10647
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.2955647955647956,
+      "eval_f1_macro": 0.7232749192333074,
+      "eval_f1_micro": 0.8113418729013804,
+      "eval_loss": 0.12946291267871857,
+      "eval_roc_auc": 0.8767900795060302,
+      "eval_runtime": 456.1604,
+      "eval_samples_per_second": 6.327,
+      "eval_steps_per_second": 0.199,
+      "learning_rate": 1e-05,
+      "step": 10920
+    },
+    {
+      "epoch": 40.29304029304029,
+      "grad_norm": 0.3177196681499481,
+      "learning_rate": 1e-05,
+      "loss": 0.1088,
+      "step": 11000
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.2945252945252945,
+      "eval_f1_macro": 0.722313917509489,
+      "eval_f1_micro": 0.8100071001962995,
+      "eval_loss": 0.1294611394405365,
+      "eval_roc_auc": 0.8738531504626673,
+      "eval_runtime": 455.3171,
+      "eval_samples_per_second": 6.338,
+      "eval_steps_per_second": 0.2,
+      "learning_rate": 1e-05,
+      "step": 11193
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.2972972972972973,
+      "eval_f1_macro": 0.7219276596712088,
+      "eval_f1_micro": 0.8111398315684148,
+      "eval_loss": 0.12951640784740448,
+      "eval_roc_auc": 0.8750042655752517,
+      "eval_runtime": 453.9232,
+      "eval_samples_per_second": 6.358,
+      "eval_steps_per_second": 0.2,
+      "learning_rate": 1e-05,
+      "step": 11466
+    },
+    {
+      "epoch": 42.124542124542124,
+      "grad_norm": 0.3328670561313629,
+      "learning_rate": 1e-05,
+      "loss": 0.1085,
+      "step": 11500
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.29313929313929316,
+      "eval_f1_macro": 0.7212066160587719,
+      "eval_f1_micro": 0.8097862391449566,
+      "eval_loss": 0.12940654158592224,
+      "eval_roc_auc": 0.8738407561496718,
+      "eval_runtime": 457.3356,
+      "eval_samples_per_second": 6.31,
+      "eval_steps_per_second": 0.199,
+      "learning_rate": 1e-05,
+      "step": 11739
+    },
+    {
+      "epoch": 43.956043956043956,
+      "grad_norm": 0.2574955224990845,
+      "learning_rate": 1e-05,
+      "loss": 0.1084,
+      "step": 12000
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.29695079695079696,
+      "eval_f1_macro": 0.7211905265653523,
+      "eval_f1_micro": 0.8108311081441923,
+      "eval_loss": 0.12948854267597198,
+      "eval_roc_auc": 0.8746136435095113,
+      "eval_runtime": 457.7561,
+      "eval_samples_per_second": 6.305,
+      "eval_steps_per_second": 0.199,
+      "learning_rate": 1e-05,
+      "step": 12012
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.2945252945252945,
+      "eval_f1_macro": 0.7217673828508766,
+      "eval_f1_micro": 0.8103943697164036,
+      "eval_loss": 0.12943118810653687,
+      "eval_roc_auc": 0.8749209258927392,
+      "eval_runtime": 454.0903,
+      "eval_samples_per_second": 6.356,
+      "eval_steps_per_second": 0.2,
+      "learning_rate": 1e-05,
+      "step": 12285
+    },
+    {
+      "epoch": 45.78754578754579,
+      "grad_norm": 0.35246723890304565,
+      "learning_rate": 1e-05,
+      "loss": 0.1083,
+      "step": 12500
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.29764379764379767,
+      "eval_f1_macro": 0.7232663108413819,
+      "eval_f1_micro": 0.8113435070065285,
+      "eval_loss": 0.12941767275333405,
+      "eval_roc_auc": 0.8758867969983227,
+      "eval_runtime": 464.2204,
+      "eval_samples_per_second": 6.217,
+      "eval_steps_per_second": 0.196,
+      "learning_rate": 1e-05,
+      "step": 12558
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.2945252945252945,
+      "eval_f1_macro": 0.7229077354567445,
+      "eval_f1_micro": 0.8107185952648442,
+      "eval_loss": 0.12936843931674957,
+      "eval_roc_auc": 0.8753446933561116,
+      "eval_runtime": 462.6765,
+      "eval_samples_per_second": 6.238,
+      "eval_steps_per_second": 0.197,
+      "learning_rate": 1e-05,
+      "step": 12831
+    },
+    {
+      "epoch": 47.61904761904762,
+      "grad_norm": 0.23883384466171265,
+      "learning_rate": 1e-05,
+      "loss": 0.109,
+      "step": 13000
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.2955647955647956,
+      "eval_f1_macro": 0.7208766406208041,
+      "eval_f1_micro": 0.8102512730611904,
+      "eval_loss": 0.12944123148918152,
+      "eval_roc_auc": 0.8741709760601966,
+      "eval_runtime": 461.7262,
+      "eval_samples_per_second": 6.25,
+      "eval_steps_per_second": 0.197,
+      "learning_rate": 1e-05,
+      "step": 13104
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.2959112959112959,
+      "eval_f1_macro": 0.7215165769975259,
+      "eval_f1_micro": 0.8111032502392942,
+      "eval_loss": 0.12932655215263367,
+      "eval_roc_auc": 0.875509186278476,
+      "eval_runtime": 467.4634,
+      "eval_samples_per_second": 6.174,
+      "eval_steps_per_second": 0.195,
+      "learning_rate": 1e-05,
+      "step": 13377
+    },
+    {
+      "epoch": 49.45054945054945,
+      "grad_norm": 0.37183043360710144,
+      "learning_rate": 1e-05,
+      "loss": 0.108,
+      "step": 13500
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.2966042966042966,
+      "eval_f1_macro": 0.7210862927892402,
+      "eval_f1_micro": 0.8106959890041235,
+      "eval_loss": 0.1294257938861847,
+      "eval_roc_auc": 0.8750392620715779,
+      "eval_runtime": 461.0793,
+      "eval_samples_per_second": 6.259,
+      "eval_steps_per_second": 0.197,
+      "learning_rate": 1e-05,
+      "step": 13650
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.29244629244629244,
+      "eval_f1_macro": 0.7224236625273444,
+      "eval_f1_micro": 0.8098573930447837,
+      "eval_loss": 0.12937645614147186,
+      "eval_roc_auc": 0.8742456236271018,
+      "eval_runtime": 450.9312,
+      "eval_samples_per_second": 6.4,
+      "eval_steps_per_second": 0.202,
+      "learning_rate": 1e-05,
+      "step": 13923
+    },
+    {
+      "epoch": 51.282051282051285,
+      "grad_norm": 0.2766432762145996,
+      "learning_rate": 1e-05,
+      "loss": 0.1084,
+      "step": 14000
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.2972972972972973,
+      "eval_f1_macro": 0.7223932851056244,
+      "eval_f1_micro": 0.8110019973368842,
+      "eval_loss": 0.12941104173660278,
+      "eval_roc_auc": 0.8754896692596356,
+      "eval_runtime": 461.8073,
+      "eval_samples_per_second": 6.249,
+      "eval_steps_per_second": 0.197,
+      "learning_rate": 1e-05,
+      "step": 14196
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.29799029799029797,
+      "eval_f1_macro": 0.7225026360610024,
+      "eval_f1_micro": 0.8110783049860689,
+      "eval_loss": 0.12947481870651245,
+      "eval_roc_auc": 0.8757151813701134,
+      "eval_runtime": 469.6848,
+      "eval_samples_per_second": 6.145,
+      "eval_steps_per_second": 0.194,
+      "learning_rate": 1e-05,
+      "step": 14469
+    },
+    {
+      "epoch": 53.11355311355312,
+      "grad_norm": 0.3167434334754944,
+      "learning_rate": 1e-05,
+      "loss": 0.1086,
+      "step": 14500
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.29625779625779625,
+      "eval_f1_macro": 0.7221711249170111,
+      "eval_f1_micro": 0.8104531646623112,
+      "eval_loss": 0.12942463159561157,
+      "eval_roc_auc": 0.8751730777279024,
+      "eval_runtime": 467.6515,
+      "eval_samples_per_second": 6.171,
+      "eval_steps_per_second": 0.195,
+      "learning_rate": 1e-05,
+      "step": 14742
+    },
+    {
+      "epoch": 54.94505494505494,
+      "grad_norm": 0.39026910066604614,
+      "learning_rate": 1e-05,
+      "loss": 0.1083,
+      "step": 15000
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.2955647955647956,
+      "eval_f1_macro": 0.7231230527181782,
+      "eval_f1_micro": 0.8107163657542226,
+      "eval_loss": 0.12934881448745728,
+      "eval_roc_auc": 0.875404478478429,
+      "eval_runtime": 485.1549,
+      "eval_samples_per_second": 5.949,
+      "eval_steps_per_second": 0.188,
+      "learning_rate": 1e-05,
+      "step": 15015
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.2959112959112959,
+      "eval_f1_macro": 0.7226955143721722,
+      "eval_f1_micro": 0.810738813735692,
+      "eval_loss": 0.12935101985931396,
+      "eval_roc_auc": 0.875258268509109,
+      "eval_runtime": 477.6234,
+      "eval_samples_per_second": 6.042,
+      "eval_steps_per_second": 0.191,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 15288
+    },
+    {
+      "epoch": 56.776556776556774,
+      "grad_norm": 0.2914769947528839,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.108,
+      "step": 15500
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.2955647955647956,
+      "eval_f1_macro": 0.7230703100391168,
+      "eval_f1_micro": 0.8110560712650376,
+      "eval_loss": 0.12934598326683044,
+      "eval_roc_auc": 0.8754097500855798,
+      "eval_runtime": 449.1576,
+      "eval_samples_per_second": 6.425,
+      "eval_steps_per_second": 0.203,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 15561
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.2966042966042966,
+      "eval_f1_macro": 0.7230017316798248,
+      "eval_f1_micro": 0.8112406328059951,
+      "eval_loss": 0.1293543428182602,
+      "eval_roc_auc": 0.875475423847946,
+      "eval_runtime": 441.9495,
+      "eval_samples_per_second": 6.53,
+      "eval_steps_per_second": 0.206,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 15834
+    },
+    {
+      "epoch": 58.608058608058606,
+      "grad_norm": 0.25508466362953186,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.1089,
+      "step": 16000
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.2966042966042966,
+      "eval_f1_macro": 0.7227156089091311,
+      "eval_f1_micro": 0.8110088687179914,
+      "eval_loss": 0.12936049699783325,
+      "eval_roc_auc": 0.8753103138926834,
+      "eval_runtime": 445.121,
+      "eval_samples_per_second": 6.484,
+      "eval_steps_per_second": 0.204,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 16107
+    },
+    {
+      "epoch": 59.0,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 16107,
+      "total_flos": 2.151593295698903e+20,
+      "train_loss": 0.11777938241923686,
+      "train_runtime": 108362.28,
+      "train_samples_per_second": 12.065,
+      "train_steps_per_second": 0.378
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 40950,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 150,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 10,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.151593295698903e+20,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}