lombardata
/

dinov2-large-2024_01_05-kornia_img-size518_batch-size32_epochs70_freeze

@@ -1,7 +1,11 @@
 ---
 license: apache-2.0
 base_model: facebook/dinov2-large
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -15,13 +19,13 @@ should probably proofread and complete it, then remove this comment. -->
 # dinov2-large-2024_01_05-kornia_img-size518_batch-size32_epochs70_freeze
-This model is a fine-tuned version of [facebook/dinov2-large](https://huggingface.co/facebook/dinov2-large) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0831
-- F1 Micro: 0.8552
-- F1 Macro: 0.7487
-- Roc Auc: 0.9104
-- Accuracy: 0.5562
 - Learning Rate: 0.0001
 ## Model description

 ---
+language:
+- eng
 license: apache-2.0
 base_model: facebook/dinov2-large
 tags:
+- multilabel-image-classification
+- multilabel
 - generated_from_trainer
 metrics:
 - accuracy
 # dinov2-large-2024_01_05-kornia_img-size518_batch-size32_epochs70_freeze
+This model is a fine-tuned version of [facebook/dinov2-large](https://huggingface.co/facebook/dinov2-large) on the multilabel_complete_dataset dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0840
+- F1 Micro: 0.8543
+- F1 Macro: 0.7343
+- Roc Auc: 0.9077
+- Accuracy: 0.5606
 - Learning Rate: 0.0001
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 70.0,
+    "eval_accuracy": 0.5605742296918768,
+    "eval_f1_macro": 0.7342630546801885,
+    "eval_f1_micro": 0.8543162417321499,
+    "eval_loss": 0.08401281386613846,
+    "eval_roc_auc": 0.9076857807628663,
+    "eval_runtime": 670.4543,
+    "eval_samples_per_second": 4.26,
+    "eval_steps_per_second": 0.134,
+    "learning_rate": 0.0001,
+    "train_loss": 0.11672632308896316,
+    "train_runtime": 200748.2354,
+    "train_samples_per_second": 3.057,
+    "train_steps_per_second": 0.096
+}

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "facebook/dinov2-large",
   "apply_layernorm": true,
   "architectures": [
     "NewheadDinov2ForImageClassification"

 {
+  "_name_or_path": "facebook/dinov2-large2024_01_05",
   "apply_layernorm": true,
   "architectures": [
     "NewheadDinov2ForImageClassification"

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 70.0,
+    "eval_accuracy": 0.5605742296918768,
+    "eval_f1_macro": 0.7342630546801885,
+    "eval_f1_micro": 0.8543162417321499,
+    "eval_loss": 0.08401281386613846,
+    "eval_roc_auc": 0.9076857807628663,
+    "eval_runtime": 670.4543,
+    "eval_samples_per_second": 4.26,
+    "eval_steps_per_second": 0.134,
+    "learning_rate": 0.0001
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 70.0,
+    "learning_rate": 0.0001,
+    "train_loss": 0.11672632308896316,
+    "train_runtime": 200748.2354,
+    "train_samples_per_second": 3.057,
+    "train_steps_per_second": 0.096
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1167 @@

+{
+  "best_metric": 0.08306006342172623,
+  "best_model_checkpoint": "/home1/datawork/mcontini/models/multilabel/huggingface/dinov2-large-2024_01_05-kornia_img-size518_batch-size32_epochs70_freeze/checkpoint-19180",
+  "epoch": 70.0,
+  "eval_steps": 500,
+  "global_step": 19180,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.44556873691556176,
+      "eval_f1_macro": 0.5755948244574681,
+      "eval_f1_micro": 0.7376394107473012,
+      "eval_loss": 0.13577787578105927,
+      "eval_roc_auc": 0.8276012534175776,
+      "eval_runtime": 686.0469,
+      "eval_samples_per_second": 4.178,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.01,
+      "step": 274
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.01,
+      "loss": 0.1895,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.4357990230286113,
+      "eval_f1_macro": 0.6131029690652663,
+      "eval_f1_micro": 0.7463369963369964,
+      "eval_loss": 0.14224015176296234,
+      "eval_roc_auc": 0.8432701847378548,
+      "eval_runtime": 679.513,
+      "eval_samples_per_second": 4.218,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.01,
+      "step": 548
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.38415910676901605,
+      "eval_f1_macro": 0.5242425898328716,
+      "eval_f1_micro": 0.7273147345925026,
+      "eval_loss": 0.21337130665779114,
+      "eval_roc_auc": 0.8305454415797603,
+      "eval_runtime": 681.6164,
+      "eval_samples_per_second": 4.205,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.01,
+      "step": 822
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 0.01,
+      "loss": 0.1668,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4438241451500349,
+      "eval_f1_macro": 0.5474301561230492,
+      "eval_f1_micro": 0.7034210860994532,
+      "eval_loss": 0.14501234889030457,
+      "eval_roc_auc": 0.7947377699358407,
+      "eval_runtime": 676.7895,
+      "eval_samples_per_second": 4.235,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.01,
+      "step": 1096
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.4438241451500349,
+      "eval_f1_macro": 0.6194844495540315,
+      "eval_f1_micro": 0.7611423380457615,
+      "eval_loss": 0.13293854892253876,
+      "eval_roc_auc": 0.8535844928345971,
+      "eval_runtime": 676.1205,
+      "eval_samples_per_second": 4.239,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.01,
+      "step": 1370
+    },
+    {
+      "epoch": 5.47,
+      "learning_rate": 0.01,
+      "loss": 0.1666,
+      "step": 1500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.44452198185624564,
+      "eval_f1_macro": 0.5624987041776927,
+      "eval_f1_micro": 0.752847713067352,
+      "eval_loss": 0.13243332505226135,
+      "eval_roc_auc": 0.8411441150969292,
+      "eval_runtime": 676.3907,
+      "eval_samples_per_second": 4.237,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.01,
+      "step": 1644
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.43126308443824146,
+      "eval_f1_macro": 0.5689553622505643,
+      "eval_f1_micro": 0.7496488764044945,
+      "eval_loss": 0.13447266817092896,
+      "eval_roc_auc": 0.838952950800037,
+      "eval_runtime": 675.7851,
+      "eval_samples_per_second": 4.241,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.01,
+      "step": 1918
+    },
+    {
+      "epoch": 7.3,
+      "learning_rate": 0.01,
+      "loss": 0.1664,
+      "step": 2000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.4323098394975576,
+      "eval_f1_macro": 0.5627920395195278,
+      "eval_f1_micro": 0.7502482911725186,
+      "eval_loss": 0.13808754086494446,
+      "eval_roc_auc": 0.8397325865953646,
+      "eval_runtime": 681.8119,
+      "eval_samples_per_second": 4.204,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.01,
+      "step": 2192
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.44033496161898117,
+      "eval_f1_macro": 0.5492251158735639,
+      "eval_f1_micro": 0.7395667604944316,
+      "eval_loss": 0.13694943487644196,
+      "eval_roc_auc": 0.8219722316265465,
+      "eval_runtime": 674.9771,
+      "eval_samples_per_second": 4.246,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.01,
+      "step": 2466
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 0.01,
+      "loss": 0.1656,
+      "step": 2500
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.4424284717376134,
+      "eval_f1_macro": 0.528180519175626,
+      "eval_f1_micro": 0.7326552851434799,
+      "eval_loss": 0.13609227538108826,
+      "eval_roc_auc": 0.821178691278072,
+      "eval_runtime": 674.2621,
+      "eval_samples_per_second": 4.251,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.01,
+      "step": 2740
+    },
+    {
+      "epoch": 10.95,
+      "learning_rate": 0.01,
+      "loss": 0.166,
+      "step": 3000
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.4277739009071877,
+      "eval_f1_macro": 0.5428317486981787,
+      "eval_f1_micro": 0.7434225844004656,
+      "eval_loss": 0.1380929797887802,
+      "eval_roc_auc": 0.8371006883503846,
+      "eval_runtime": 676.158,
+      "eval_samples_per_second": 4.239,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.01,
+      "step": 3014
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.444870900209351,
+      "eval_f1_macro": 0.5618568055480317,
+      "eval_f1_micro": 0.7354685646500594,
+      "eval_loss": 0.1344844251871109,
+      "eval_roc_auc": 0.827911942291835,
+      "eval_runtime": 683.7162,
+      "eval_samples_per_second": 4.192,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.01,
+      "step": 3288
+    },
+    {
+      "epoch": 12.77,
+      "learning_rate": 0.001,
+      "loss": 0.1585,
+      "step": 3500
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.49023028611304953,
+      "eval_f1_macro": 0.650060261894195,
+      "eval_f1_micro": 0.8009333029820168,
+      "eval_loss": 0.11546628922224045,
+      "eval_roc_auc": 0.8745955707824836,
+      "eval_runtime": 679.0864,
+      "eval_samples_per_second": 4.22,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.001,
+      "step": 3562
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.5041870202372645,
+      "eval_f1_macro": 0.6697333276095331,
+      "eval_f1_micro": 0.8079378774805867,
+      "eval_loss": 0.11155486851930618,
+      "eval_roc_auc": 0.8750976636196655,
+      "eval_runtime": 676.6891,
+      "eval_samples_per_second": 4.235,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.001,
+      "step": 3836
+    },
+    {
+      "epoch": 14.6,
+      "learning_rate": 0.001,
+      "loss": 0.133,
+      "step": 4000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.5181437543614794,
+      "eval_f1_macro": 0.6736053030113935,
+      "eval_f1_micro": 0.814943326393708,
+      "eval_loss": 0.10734836012125015,
+      "eval_roc_auc": 0.877205285207194,
+      "eval_runtime": 677.4924,
+      "eval_samples_per_second": 4.23,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.001,
+      "step": 4110
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.5083740404745289,
+      "eval_f1_macro": 0.7055616874566738,
+      "eval_f1_micro": 0.8238276299112801,
+      "eval_loss": 0.10476414114236832,
+      "eval_roc_auc": 0.8975418625131631,
+      "eval_runtime": 687.0217,
+      "eval_samples_per_second": 4.172,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.001,
+      "step": 4384
+    },
+    {
+      "epoch": 16.42,
+      "learning_rate": 0.001,
+      "loss": 0.1289,
+      "step": 4500
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.5244242847173761,
+      "eval_f1_macro": 0.6896485755961196,
+      "eval_f1_micro": 0.820858825547487,
+      "eval_loss": 0.10253454744815826,
+      "eval_roc_auc": 0.8839468587595108,
+      "eval_runtime": 684.6037,
+      "eval_samples_per_second": 4.186,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.001,
+      "step": 4658
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.5321004884856944,
+      "eval_f1_macro": 0.7045003592264228,
+      "eval_f1_micro": 0.8289563051845145,
+      "eval_loss": 0.10259302705526352,
+      "eval_roc_auc": 0.8916264271206406,
+      "eval_runtime": 685.7262,
+      "eval_samples_per_second": 4.18,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.001,
+      "step": 4932
+    },
+    {
+      "epoch": 18.25,
+      "learning_rate": 0.001,
+      "loss": 0.1227,
+      "step": 5000
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.5279134682484299,
+      "eval_f1_macro": 0.6905367219275804,
+      "eval_f1_micro": 0.8306010928961749,
+      "eval_loss": 0.10123815387487411,
+      "eval_roc_auc": 0.8940566516497492,
+      "eval_runtime": 685.5377,
+      "eval_samples_per_second": 4.181,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.001,
+      "step": 5206
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.5216329378925332,
+      "eval_f1_macro": 0.6830881274898382,
+      "eval_f1_micro": 0.8280441143371596,
+      "eval_loss": 0.09970748424530029,
+      "eval_roc_auc": 0.8930346669934526,
+      "eval_runtime": 686.9199,
+      "eval_samples_per_second": 4.172,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.001,
+      "step": 5480
+    },
+    {
+      "epoch": 20.07,
+      "learning_rate": 0.001,
+      "loss": 0.1202,
+      "step": 5500
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.5352407536636427,
+      "eval_f1_macro": 0.6926783323821563,
+      "eval_f1_micro": 0.8300336623495178,
+      "eval_loss": 0.09886988252401352,
+      "eval_roc_auc": 0.8896211857387517,
+      "eval_runtime": 684.9162,
+      "eval_samples_per_second": 4.184,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.001,
+      "step": 5754
+    },
+    {
+      "epoch": 21.9,
+      "learning_rate": 0.001,
+      "loss": 0.12,
+      "step": 6000
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.5209351011863224,
+      "eval_f1_macro": 0.6961228606859606,
+      "eval_f1_micro": 0.8279826958105646,
+      "eval_loss": 0.09963646531105042,
+      "eval_roc_auc": 0.8892587586568824,
+      "eval_runtime": 686.1389,
+      "eval_samples_per_second": 4.177,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.001,
+      "step": 6028
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.5195394277739009,
+      "eval_f1_macro": 0.6958628426894405,
+      "eval_f1_micro": 0.831919078392807,
+      "eval_loss": 0.09720779210329056,
+      "eval_roc_auc": 0.8955944894582717,
+      "eval_runtime": 693.3459,
+      "eval_samples_per_second": 4.134,
+      "eval_steps_per_second": 0.13,
+      "learning_rate": 0.001,
+      "step": 6302
+    },
+    {
+      "epoch": 23.72,
+      "learning_rate": 0.001,
+      "loss": 0.1179,
+      "step": 6500
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.5212840195394278,
+      "eval_f1_macro": 0.6881053152313114,
+      "eval_f1_micro": 0.8270608813406306,
+      "eval_loss": 0.10082241147756577,
+      "eval_roc_auc": 0.8915954736236973,
+      "eval_runtime": 682.9894,
+      "eval_samples_per_second": 4.196,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.001,
+      "step": 6576
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.5268667131891137,
+      "eval_f1_macro": 0.6859679989625925,
+      "eval_f1_micro": 0.8283316086006668,
+      "eval_loss": 0.09828384965658188,
+      "eval_roc_auc": 0.8862551588199984,
+      "eval_runtime": 673.7378,
+      "eval_samples_per_second": 4.254,
+      "eval_steps_per_second": 0.134,
+      "learning_rate": 0.001,
+      "step": 6850
+    },
+    {
+      "epoch": 25.55,
+      "learning_rate": 0.001,
+      "loss": 0.1166,
+      "step": 7000
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.5310537334263782,
+      "eval_f1_macro": 0.6805616825898689,
+      "eval_f1_micro": 0.8284274424464553,
+      "eval_loss": 0.09853371977806091,
+      "eval_roc_auc": 0.8875551335725609,
+      "eval_runtime": 679.0226,
+      "eval_samples_per_second": 4.221,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.001,
+      "step": 7124
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.5324494068387997,
+      "eval_f1_macro": 0.6901040821549612,
+      "eval_f1_micro": 0.8305464575073264,
+      "eval_loss": 0.09571811556816101,
+      "eval_roc_auc": 0.887615396252071,
+      "eval_runtime": 672.1908,
+      "eval_samples_per_second": 4.264,
+      "eval_steps_per_second": 0.134,
+      "learning_rate": 0.001,
+      "step": 7398
+    },
+    {
+      "epoch": 27.37,
+      "learning_rate": 0.001,
+      "loss": 0.1158,
+      "step": 7500
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.5177948360083741,
+      "eval_f1_macro": 0.7054421966314011,
+      "eval_f1_micro": 0.8292325882551658,
+      "eval_loss": 0.09954769909381866,
+      "eval_roc_auc": 0.8934873150088631,
+      "eval_runtime": 681.7881,
+      "eval_samples_per_second": 4.204,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.001,
+      "step": 7672
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.5334961618981159,
+      "eval_f1_macro": 0.7026467347883069,
+      "eval_f1_micro": 0.8363861804655357,
+      "eval_loss": 0.09332505613565445,
+      "eval_roc_auc": 0.8970916521216963,
+      "eval_runtime": 684.6938,
+      "eval_samples_per_second": 4.186,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.001,
+      "step": 7946
+    },
+    {
+      "epoch": 29.2,
+      "learning_rate": 0.001,
+      "loss": 0.114,
+      "step": 8000
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.5258199581297976,
+      "eval_f1_macro": 0.7109768073155117,
+      "eval_f1_micro": 0.8351258454374099,
+      "eval_loss": 0.09473367780447006,
+      "eval_roc_auc": 0.901874991489952,
+      "eval_runtime": 677.918,
+      "eval_samples_per_second": 4.228,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.001,
+      "step": 8220
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.5331472435450104,
+      "eval_f1_macro": 0.7175382540523837,
+      "eval_f1_micro": 0.8365119611950171,
+      "eval_loss": 0.09674925357103348,
+      "eval_roc_auc": 0.9045853985344947,
+      "eval_runtime": 675.0971,
+      "eval_samples_per_second": 4.245,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.001,
+      "step": 8494
+    },
+    {
+      "epoch": 31.02,
+      "learning_rate": 0.001,
+      "loss": 0.1134,
+      "step": 8500
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.5324494068387997,
+      "eval_f1_macro": 0.6932594476375145,
+      "eval_f1_micro": 0.8353541076487252,
+      "eval_loss": 0.09490892291069031,
+      "eval_roc_auc": 0.8947967085095635,
+      "eval_runtime": 677.2028,
+      "eval_samples_per_second": 4.232,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.001,
+      "step": 8768
+    },
+    {
+      "epoch": 32.85,
+      "learning_rate": 0.001,
+      "loss": 0.113,
+      "step": 9000
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.5362875087229588,
+      "eval_f1_macro": 0.6973292248077614,
+      "eval_f1_micro": 0.8367208672086721,
+      "eval_loss": 0.09511947631835938,
+      "eval_roc_auc": 0.8966987186810037,
+      "eval_runtime": 679.2015,
+      "eval_samples_per_second": 4.22,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.001,
+      "step": 9042
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.5380321004884857,
+      "eval_f1_macro": 0.6878227037845351,
+      "eval_f1_micro": 0.8334680679062246,
+      "eval_loss": 0.09364539384841919,
+      "eval_roc_auc": 0.8876181367760314,
+      "eval_runtime": 675.0346,
+      "eval_samples_per_second": 4.246,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.001,
+      "step": 9316
+    },
+    {
+      "epoch": 34.67,
+      "learning_rate": 0.001,
+      "loss": 0.1124,
+      "step": 9500
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.5310537334263782,
+      "eval_f1_macro": 0.6856042645068489,
+      "eval_f1_micro": 0.833974649162517,
+      "eval_loss": 0.09358564764261246,
+      "eval_roc_auc": 0.8944494841237697,
+      "eval_runtime": 678.2782,
+      "eval_samples_per_second": 4.225,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.001,
+      "step": 9590
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.5453593859036985,
+      "eval_f1_macro": 0.729828782855425,
+      "eval_f1_micro": 0.8455960879096174,
+      "eval_loss": 0.09342356771230698,
+      "eval_roc_auc": 0.9030647539078717,
+      "eval_runtime": 674.7512,
+      "eval_samples_per_second": 4.247,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 9864
+    },
+    {
+      "epoch": 36.5,
+      "learning_rate": 0.0001,
+      "loss": 0.1083,
+      "step": 10000
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.54675505931612,
+      "eval_f1_macro": 0.7188765655113909,
+      "eval_f1_micro": 0.8456650022696323,
+      "eval_loss": 0.09240464121103287,
+      "eval_roc_auc": 0.8999478550409371,
+      "eval_runtime": 674.676,
+      "eval_samples_per_second": 4.248,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 10138
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.5450104675505931,
+      "eval_f1_macro": 0.7089159960142193,
+      "eval_f1_micro": 0.8449173647271904,
+      "eval_loss": 0.09147636592388153,
+      "eval_roc_auc": 0.9003695495594045,
+      "eval_runtime": 675.4085,
+      "eval_samples_per_second": 4.243,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 10412
+    },
+    {
+      "epoch": 38.32,
+      "learning_rate": 0.0001,
+      "loss": 0.1034,
+      "step": 10500
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.5484996510816469,
+      "eval_f1_macro": 0.725215575661352,
+      "eval_f1_micro": 0.8487853799866281,
+      "eval_loss": 0.09022974222898483,
+      "eval_roc_auc": 0.9078051247451889,
+      "eval_runtime": 672.7306,
+      "eval_samples_per_second": 4.26,
+      "eval_steps_per_second": 0.134,
+      "learning_rate": 0.0001,
+      "step": 10686
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.5495464061409631,
+      "eval_f1_macro": 0.7182446688615595,
+      "eval_f1_micro": 0.8458797579322437,
+      "eval_loss": 0.09058264642953873,
+      "eval_roc_auc": 0.9011424061638826,
+      "eval_runtime": 678.9298,
+      "eval_samples_per_second": 4.221,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 10960
+    },
+    {
+      "epoch": 40.15,
+      "learning_rate": 0.0001,
+      "loss": 0.1024,
+      "step": 11000
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.5505931612002791,
+      "eval_f1_macro": 0.7130026819185953,
+      "eval_f1_micro": 0.8481005491705826,
+      "eval_loss": 0.08943015336990356,
+      "eval_roc_auc": 0.902018393012137,
+      "eval_runtime": 676.4356,
+      "eval_samples_per_second": 4.237,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 11234
+    },
+    {
+      "epoch": 41.97,
+      "learning_rate": 0.0001,
+      "loss": 0.1004,
+      "step": 11500
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.5519888346127007,
+      "eval_f1_macro": 0.7148190184347656,
+      "eval_f1_micro": 0.8457012282205084,
+      "eval_loss": 0.08726447820663452,
+      "eval_roc_auc": 0.8977194051943719,
+      "eval_runtime": 677.9496,
+      "eval_samples_per_second": 4.227,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 11508
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.5537334263782275,
+      "eval_f1_macro": 0.71816969331258,
+      "eval_f1_micro": 0.8494563389754511,
+      "eval_loss": 0.08699071407318115,
+      "eval_roc_auc": 0.906163507621426,
+      "eval_runtime": 676.5268,
+      "eval_samples_per_second": 4.236,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 11782
+    },
+    {
+      "epoch": 43.8,
+      "learning_rate": 0.0001,
+      "loss": 0.0998,
+      "step": 12000
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.5498953244940684,
+      "eval_f1_macro": 0.7261208407998851,
+      "eval_f1_micro": 0.8486114247008355,
+      "eval_loss": 0.08676985651254654,
+      "eval_roc_auc": 0.9033042612782081,
+      "eval_runtime": 674.6536,
+      "eval_samples_per_second": 4.248,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 12056
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.555129099790649,
+      "eval_f1_macro": 0.7235580263821535,
+      "eval_f1_micro": 0.8493258426966293,
+      "eval_loss": 0.08680889010429382,
+      "eval_roc_auc": 0.9052931027877648,
+      "eval_runtime": 688.2557,
+      "eval_samples_per_second": 4.164,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.0001,
+      "step": 12330
+    },
+    {
+      "epoch": 45.62,
+      "learning_rate": 0.0001,
+      "loss": 0.0975,
+      "step": 12500
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.5512909979064898,
+      "eval_f1_macro": 0.7317716716296281,
+      "eval_f1_micro": 0.8489586241554526,
+      "eval_loss": 0.0865492969751358,
+      "eval_roc_auc": 0.9071607698668371,
+      "eval_runtime": 684.0678,
+      "eval_samples_per_second": 4.19,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.0001,
+      "step": 12604
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.5547801814375436,
+      "eval_f1_macro": 0.7390020274567815,
+      "eval_f1_micro": 0.8512299882858259,
+      "eval_loss": 0.08599700033664703,
+      "eval_roc_auc": 0.908765101440927,
+      "eval_runtime": 688.2365,
+      "eval_samples_per_second": 4.164,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.0001,
+      "step": 12878
+    },
+    {
+      "epoch": 47.45,
+      "learning_rate": 0.0001,
+      "loss": 0.099,
+      "step": 13000
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.5558269364968598,
+      "eval_f1_macro": 0.7360003523455093,
+      "eval_f1_micro": 0.8509512552065742,
+      "eval_loss": 0.08596429973840714,
+      "eval_roc_auc": 0.9055422308395834,
+      "eval_runtime": 686.3198,
+      "eval_samples_per_second": 4.176,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.0001,
+      "step": 13152
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.5547801814375436,
+      "eval_f1_macro": 0.7361919298080869,
+      "eval_f1_micro": 0.849985959000281,
+      "eval_loss": 0.08584348857402802,
+      "eval_roc_auc": 0.9057525299940252,
+      "eval_runtime": 688.3813,
+      "eval_samples_per_second": 4.163,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.0001,
+      "step": 13426
+    },
+    {
+      "epoch": 49.27,
+      "learning_rate": 0.0001,
+      "loss": 0.0972,
+      "step": 13500
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.5586182833217027,
+      "eval_f1_macro": 0.725712332481399,
+      "eval_f1_micro": 0.8505096262740656,
+      "eval_loss": 0.08557379245758057,
+      "eval_roc_auc": 0.9032805341102342,
+      "eval_runtime": 685.8179,
+      "eval_samples_per_second": 4.179,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.0001,
+      "step": 13700
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.557920446615492,
+      "eval_f1_macro": 0.7408593608052999,
+      "eval_f1_micro": 0.8500254194204373,
+      "eval_loss": 0.08562461286783218,
+      "eval_roc_auc": 0.9038335718454608,
+      "eval_runtime": 683.3234,
+      "eval_samples_per_second": 4.194,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.0001,
+      "step": 13974
+    },
+    {
+      "epoch": 51.09,
+      "learning_rate": 0.0001,
+      "loss": 0.0957,
+      "step": 14000
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.5568736915561758,
+      "eval_f1_macro": 0.7232142709265429,
+      "eval_f1_micro": 0.8507868221442318,
+      "eval_loss": 0.08591117709875107,
+      "eval_roc_auc": 0.9035466101391771,
+      "eval_runtime": 693.4248,
+      "eval_samples_per_second": 4.133,
+      "eval_steps_per_second": 0.13,
+      "learning_rate": 0.0001,
+      "step": 14248
+    },
+    {
+      "epoch": 52.92,
+      "learning_rate": 0.0001,
+      "loss": 0.0964,
+      "step": 14500
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.5628053035589672,
+      "eval_f1_macro": 0.7275870481420489,
+      "eval_f1_micro": 0.852056338028169,
+      "eval_loss": 0.08490145951509476,
+      "eval_roc_auc": 0.9058454914515268,
+      "eval_runtime": 691.5127,
+      "eval_samples_per_second": 4.145,
+      "eval_steps_per_second": 0.13,
+      "learning_rate": 0.0001,
+      "step": 14522
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.5537334263782275,
+      "eval_f1_macro": 0.7394514344990791,
+      "eval_f1_micro": 0.85390386218394,
+      "eval_loss": 0.08516541868448257,
+      "eval_roc_auc": 0.9115532672468961,
+      "eval_runtime": 698.0325,
+      "eval_samples_per_second": 4.106,
+      "eval_steps_per_second": 0.129,
+      "learning_rate": 0.0001,
+      "step": 14796
+    },
+    {
+      "epoch": 54.74,
+      "learning_rate": 0.0001,
+      "loss": 0.0955,
+      "step": 15000
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.5565247732030705,
+      "eval_f1_macro": 0.7354184764103003,
+      "eval_f1_micro": 0.8511167656205825,
+      "eval_loss": 0.08514942973852158,
+      "eval_roc_auc": 0.904089479088129,
+      "eval_runtime": 681.3519,
+      "eval_samples_per_second": 4.206,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.0001,
+      "step": 15070
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.5572226099092812,
+      "eval_f1_macro": 0.736739641327092,
+      "eval_f1_micro": 0.8529461421576904,
+      "eval_loss": 0.08491206169128418,
+      "eval_roc_auc": 0.9066984002032717,
+      "eval_runtime": 677.9791,
+      "eval_samples_per_second": 4.227,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 15344
+    },
+    {
+      "epoch": 56.57,
+      "learning_rate": 0.0001,
+      "loss": 0.095,
+      "step": 15500
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.5537334263782275,
+      "eval_f1_macro": 0.7241830253482859,
+      "eval_f1_micro": 0.8493824336688013,
+      "eval_loss": 0.0848437026143074,
+      "eval_roc_auc": 0.8993941682342463,
+      "eval_runtime": 677.1333,
+      "eval_samples_per_second": 4.233,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 15618
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.5593161200279134,
+      "eval_f1_macro": 0.7363418087082886,
+      "eval_f1_micro": 0.8511604153662826,
+      "eval_loss": 0.08454328030347824,
+      "eval_roc_auc": 0.9029315644433922,
+      "eval_runtime": 675.3593,
+      "eval_samples_per_second": 4.244,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 15892
+    },
+    {
+      "epoch": 58.39,
+      "learning_rate": 0.0001,
+      "loss": 0.093,
+      "step": 16000
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.560711793440335,
+      "eval_f1_macro": 0.73901392865669,
+      "eval_f1_micro": 0.8530955471527739,
+      "eval_loss": 0.08396653085947037,
+      "eval_roc_auc": 0.9058246057741859,
+      "eval_runtime": 679.8275,
+      "eval_samples_per_second": 4.216,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.0001,
+      "step": 16166
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.5561758548499651,
+      "eval_f1_macro": 0.7472770304573509,
+      "eval_f1_micro": 0.852848189028787,
+      "eval_loss": 0.08474517613649368,
+      "eval_roc_auc": 0.9116141789978706,
+      "eval_runtime": 679.8207,
+      "eval_samples_per_second": 4.216,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.0001,
+      "step": 16440
+    },
+    {
+      "epoch": 60.22,
+      "learning_rate": 0.0001,
+      "loss": 0.0936,
+      "step": 16500
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.552337752965806,
+      "eval_f1_macro": 0.7425280881449604,
+      "eval_f1_micro": 0.8516569637259293,
+      "eval_loss": 0.08434043824672699,
+      "eval_roc_auc": 0.9078005379735077,
+      "eval_runtime": 678.8837,
+      "eval_samples_per_second": 4.222,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 16714
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.5540823447313329,
+      "eval_f1_macro": 0.7455853496732745,
+      "eval_f1_micro": 0.8515365097265295,
+      "eval_loss": 0.08436089754104614,
+      "eval_roc_auc": 0.905273313320008,
+      "eval_runtime": 684.8061,
+      "eval_samples_per_second": 4.185,
+      "eval_steps_per_second": 0.131,
+      "learning_rate": 0.0001,
+      "step": 16988
+    },
+    {
+      "epoch": 62.04,
+      "learning_rate": 0.0001,
+      "loss": 0.0932,
+      "step": 17000
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.5575715282623867,
+      "eval_f1_macro": 0.7344319075168565,
+      "eval_f1_micro": 0.8535319341006545,
+      "eval_loss": 0.0839960053563118,
+      "eval_roc_auc": 0.9061600170593289,
+      "eval_runtime": 676.8011,
+      "eval_samples_per_second": 4.235,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 17262
+    },
+    {
+      "epoch": 63.87,
+      "learning_rate": 0.0001,
+      "loss": 0.0933,
+      "step": 17500
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.5614096301465457,
+      "eval_f1_macro": 0.7405199466064576,
+      "eval_f1_micro": 0.8543109759531453,
+      "eval_loss": 0.08395348489284515,
+      "eval_roc_auc": 0.907220383474883,
+      "eval_runtime": 676.0097,
+      "eval_samples_per_second": 4.24,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 17536
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.557920446615492,
+      "eval_f1_macro": 0.7354221702015719,
+      "eval_f1_micro": 0.8506689439225733,
+      "eval_loss": 0.08403661847114563,
+      "eval_roc_auc": 0.9015583167344123,
+      "eval_runtime": 675.0487,
+      "eval_samples_per_second": 4.246,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 17810
+    },
+    {
+      "epoch": 65.69,
+      "learning_rate": 0.0001,
+      "loss": 0.0921,
+      "step": 18000
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.5568736915561758,
+      "eval_f1_macro": 0.7296578358578595,
+      "eval_f1_micro": 0.852865023077789,
+      "eval_loss": 0.08408054709434509,
+      "eval_roc_auc": 0.9065963661690798,
+      "eval_runtime": 680.0166,
+      "eval_samples_per_second": 4.215,
+      "eval_steps_per_second": 0.132,
+      "learning_rate": 0.0001,
+      "step": 18084
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 0.5540823447313329,
+      "eval_f1_macro": 0.7392975848141861,
+      "eval_f1_micro": 0.8539689628223736,
+      "eval_loss": 0.08376849442720413,
+      "eval_roc_auc": 0.9100385075348831,
+      "eval_runtime": 675.941,
+      "eval_samples_per_second": 4.24,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 18358
+    },
+    {
+      "epoch": 67.52,
+      "learning_rate": 0.0001,
+      "loss": 0.0913,
+      "step": 18500
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.5572226099092812,
+      "eval_f1_macro": 0.7403483881006915,
+      "eval_f1_micro": 0.854102492299076,
+      "eval_loss": 0.08355987071990967,
+      "eval_roc_auc": 0.9089826269243382,
+      "eval_runtime": 676.7975,
+      "eval_samples_per_second": 4.235,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 18632
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 0.5582693649685974,
+      "eval_f1_macro": 0.7494443807338856,
+      "eval_f1_micro": 0.8547792062604807,
+      "eval_loss": 0.08346723765134811,
+      "eval_roc_auc": 0.9100283387486087,
+      "eval_runtime": 675.2406,
+      "eval_samples_per_second": 4.244,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 18906
+    },
+    {
+      "epoch": 69.34,
+      "learning_rate": 0.0001,
+      "loss": 0.0911,
+      "step": 19000
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.5561758548499651,
+      "eval_f1_macro": 0.7486606655073544,
+      "eval_f1_micro": 0.8551793496480055,
+      "eval_loss": 0.08306006342172623,
+      "eval_roc_auc": 0.9104037761073852,
+      "eval_runtime": 675.6626,
+      "eval_samples_per_second": 4.242,
+      "eval_steps_per_second": 0.133,
+      "learning_rate": 0.0001,
+      "step": 19180
+    },
+    {
+      "epoch": 70.0,
+      "learning_rate": 0.0001,
+      "step": 19180,
+      "total_flos": 9.099793269879256e+20,
+      "train_loss": 0.11672632308896316,
+      "train_runtime": 200748.2354,
+      "train_samples_per_second": 3.057,
+      "train_steps_per_second": 0.096
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 19180,
+  "num_train_epochs": 70,
+  "save_steps": 500,
+  "total_flos": 9.099793269879256e+20,
+  "trial_name": null,
+  "trial_params": null
+}