Manasee27 commited on Jul 19, 2023

Commit

516d900

•

1 Parent(s): f0179c3

Upload folder using huggingface_hub

Browse files

Files changed (22) hide show

all_results.json +6 -6
checkpoint-11000/config.json +42 -0
checkpoint-11000/optimizer.pt +3 -0
checkpoint-11000/preprocessor_config.json +22 -0
checkpoint-11000/pytorch_model.bin +3 -0
checkpoint-11000/rng_state.pth +3 -0
checkpoint-11000/scheduler.pt +3 -0
checkpoint-11000/trainer_state.json +0 -0
checkpoint-11000/training_args.bin +3 -0
checkpoint-3000/config.json +42 -0
checkpoint-3000/optimizer.pt +3 -0
checkpoint-3000/preprocessor_config.json +22 -0
checkpoint-3000/pytorch_model.bin +3 -0
checkpoint-3000/rng_state.pth +3 -0
checkpoint-3000/scheduler.pt +3 -0
checkpoint-3000/trainer_state.json +1843 -0
checkpoint-3000/training_args.bin +3 -0
config.json +4 -2
pytorch_model.bin +2 -2
train_results.json +6 -6
trainer_state.json +0 -0
training_args.bin +2 -2

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 8.0,
-    "total_flos": 3.8629591832685773e+18,
-    "train_loss": 0.2533179052472592,
-    "train_runtime": 4957.8804,
-    "train_samples_per_second": 10.069,
-    "train_steps_per_second": 0.629
 }

 {
+    "epoch": 15.0,
+    "total_flos": 7.248925543125934e+18,
+    "train_loss": 0.20681309804148698,
+    "train_runtime": 4138.6696,
+    "train_samples_per_second": 22.616,
+    "train_steps_per_second": 2.827
 }

checkpoint-11000/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "google/vit-base-patch16-224-in21k",
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "encoder_stride": 16,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Brazil",
+    "1": "Canada",
+    "2": "Finland",
+    "3": "Japan",
+    "4": "United-Kingdom",
+    "5": "United_States",
+    "6": "Unlabeled"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Brazil": "0",
+    "Canada": "1",
+    "Finland": "2",
+    "Japan": "3",
+    "United-Kingdom": "4",
+    "United_States": "5",
+    "Unlabeled": "6"
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.31.0"
+}

checkpoint-11000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:828db7abf34855f04717ee731834025a3e1fe4a8dd602753cdb25133c1b87118
+size 686593541

checkpoint-11000/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTFeatureExtractor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

checkpoint-11000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be8b658b41c289cc701f772d68033d30c8432c4627469444e384803f4ec0327d
+size 343281325

checkpoint-11000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a7652ac0cbf74cd8773200dcd703f582ba83497e0a5520558e048defe3f0f87
+size 13617

checkpoint-11000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0930c57ec55e79fab3ac86e86a7f8b832d17ca447f3b1091f77f3119387e6e6c
+size 627

checkpoint-11000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-11000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5af0c1967ab477999534204bea455f671ebc48bf1541ad45877eccfa9636f3b
+size 3963

checkpoint-3000/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "google/vit-base-patch16-224-in21k",
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "encoder_stride": 16,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Brazil",
+    "1": "Canada",
+    "2": "Finland",
+    "3": "Japan",
+    "4": "United-Kingdom",
+    "5": "United_States",
+    "6": "Unlabeled"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Brazil": "0",
+    "Canada": "1",
+    "Finland": "2",
+    "Japan": "3",
+    "United-Kingdom": "4",
+    "United_States": "5",
+    "Unlabeled": "6"
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.31.0"
+}

checkpoint-3000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5001226213585ad6e0c4eca79d89181589dc807f622ae008f6f9e3793b190ef6
+size 686593541

checkpoint-3000/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTFeatureExtractor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

checkpoint-3000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e58ef10e8d60ae9ccbdf83ad1b79978ff8813d88d24c3fea3a4a0f7a9cf5622
+size 343281325

checkpoint-3000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:961d2d6b2c1130d24760db38c55f7b0a99409baeea1e10fb91ac2cc5caa09b98
+size 13617

checkpoint-3000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fe6c7ee8147dc13f2e4fa55cf390b9a9f7f1ae13ee1eb8143455a529bd6bd60
+size 627

checkpoint-3000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1843 @@

+{
+  "best_metric": 0.7957639098167419,
+  "best_model_checkpoint": "./vit-base-beans/checkpoint-3000",
+  "epoch": 3.8461538461538463,
+  "global_step": 3000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00019982905982905984,
+      "loss": 1.8581,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00019965811965811967,
+      "loss": 1.7758,
+      "step": 20
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001994871794871795,
+      "loss": 1.7018,
+      "step": 30
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019931623931623932,
+      "loss": 1.5662,
+      "step": 40
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019914529914529915,
+      "loss": 1.6721,
+      "step": 50
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019897435897435898,
+      "loss": 1.5795,
+      "step": 60
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001988034188034188,
+      "loss": 1.5471,
+      "step": 70
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019863247863247864,
+      "loss": 1.5363,
+      "step": 80
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019846153846153847,
+      "loss": 1.4139,
+      "step": 90
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0001982905982905983,
+      "loss": 1.4193,
+      "step": 100
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019811965811965813,
+      "loss": 1.3853,
+      "step": 110
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019794871794871796,
+      "loss": 1.3645,
+      "step": 120
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019777777777777778,
+      "loss": 1.4095,
+      "step": 130
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001976068376068376,
+      "loss": 1.4114,
+      "step": 140
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019743589743589744,
+      "loss": 1.433,
+      "step": 150
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019726495726495727,
+      "loss": 1.5094,
+      "step": 160
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019709401709401713,
+      "loss": 1.2352,
+      "step": 170
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019692307692307696,
+      "loss": 1.2916,
+      "step": 180
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019675213675213676,
+      "loss": 1.2965,
+      "step": 190
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019658119658119659,
+      "loss": 1.3053,
+      "step": 200
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00019641025641025642,
+      "loss": 1.3689,
+      "step": 210
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019623931623931624,
+      "loss": 1.3519,
+      "step": 220
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00019606837606837607,
+      "loss": 1.4205,
+      "step": 230
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0001958974358974359,
+      "loss": 1.2702,
+      "step": 240
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019572649572649573,
+      "loss": 1.2631,
+      "step": 250
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019555555555555556,
+      "loss": 1.2163,
+      "step": 260
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001953846153846154,
+      "loss": 1.1323,
+      "step": 270
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019521367521367522,
+      "loss": 1.3013,
+      "step": 280
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019504273504273505,
+      "loss": 1.1129,
+      "step": 290
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019487179487179487,
+      "loss": 1.4559,
+      "step": 300
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001947008547008547,
+      "loss": 1.2784,
+      "step": 310
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019452991452991453,
+      "loss": 1.3402,
+      "step": 320
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019435897435897436,
+      "loss": 1.2687,
+      "step": 330
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001941880341880342,
+      "loss": 1.1328,
+      "step": 340
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019401709401709402,
+      "loss": 1.1216,
+      "step": 350
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019384615384615385,
+      "loss": 1.0489,
+      "step": 360
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00019367521367521368,
+      "loss": 1.0993,
+      "step": 370
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0001935042735042735,
+      "loss": 1.3569,
+      "step": 380
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019333333333333333,
+      "loss": 0.9691,
+      "step": 390
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019316239316239316,
+      "loss": 1.1364,
+      "step": 400
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.000192991452991453,
+      "loss": 1.104,
+      "step": 410
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00019282051282051282,
+      "loss": 1.1839,
+      "step": 420
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00019264957264957265,
+      "loss": 1.1365,
+      "step": 430
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001924786324786325,
+      "loss": 0.9201,
+      "step": 440
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00019230769230769233,
+      "loss": 1.1012,
+      "step": 450
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00019213675213675216,
+      "loss": 1.042,
+      "step": 460
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.000191965811965812,
+      "loss": 0.9697,
+      "step": 470
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019179487179487182,
+      "loss": 1.4043,
+      "step": 480
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019162393162393165,
+      "loss": 1.2395,
+      "step": 490
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00019145299145299148,
+      "loss": 1.193,
+      "step": 500
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0001912820512820513,
+      "loss": 1.2216,
+      "step": 510
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00019111111111111114,
+      "loss": 1.0667,
+      "step": 520
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00019094017094017097,
+      "loss": 1.0327,
+      "step": 530
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001907692307692308,
+      "loss": 1.0287,
+      "step": 540
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001905982905982906,
+      "loss": 1.0963,
+      "step": 550
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00019042735042735042,
+      "loss": 1.0812,
+      "step": 560
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00019025641025641025,
+      "loss": 1.0625,
+      "step": 570
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00019008547008547008,
+      "loss": 0.8884,
+      "step": 580
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001899145299145299,
+      "loss": 0.9661,
+      "step": 590
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00018974358974358974,
+      "loss": 0.951,
+      "step": 600
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00018957264957264957,
+      "loss": 0.93,
+      "step": 610
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001894017094017094,
+      "loss": 0.8576,
+      "step": 620
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00018923076923076923,
+      "loss": 1.2505,
+      "step": 630
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00018905982905982906,
+      "loss": 0.9469,
+      "step": 640
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00018888888888888888,
+      "loss": 0.9869,
+      "step": 650
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0001887179487179487,
+      "loss": 1.1052,
+      "step": 660
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00018854700854700854,
+      "loss": 1.0779,
+      "step": 670
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00018837606837606837,
+      "loss": 1.0328,
+      "step": 680
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0001882051282051282,
+      "loss": 1.0377,
+      "step": 690
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00018803418803418803,
+      "loss": 0.9489,
+      "step": 700
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00018786324786324786,
+      "loss": 0.8715,
+      "step": 710
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001876923076923077,
+      "loss": 0.9167,
+      "step": 720
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00018752136752136754,
+      "loss": 0.9519,
+      "step": 730
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00018735042735042737,
+      "loss": 0.8548,
+      "step": 740
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0001871794871794872,
+      "loss": 0.827,
+      "step": 750
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00018700854700854703,
+      "loss": 0.9922,
+      "step": 760
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00018683760683760686,
+      "loss": 0.902,
+      "step": 770
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0001866666666666667,
+      "loss": 0.8385,
+      "step": 780
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00018649572649572652,
+      "loss": 0.5939,
+      "step": 790
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00018632478632478634,
+      "loss": 0.8229,
+      "step": 800
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00018615384615384617,
+      "loss": 0.6577,
+      "step": 810
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.000185982905982906,
+      "loss": 0.7075,
+      "step": 820
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00018581196581196583,
+      "loss": 0.6764,
+      "step": 830
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00018564102564102566,
+      "loss": 0.5858,
+      "step": 840
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0001854700854700855,
+      "loss": 0.8485,
+      "step": 850
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00018529914529914532,
+      "loss": 0.6396,
+      "step": 860
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00018512820512820515,
+      "loss": 0.6054,
+      "step": 870
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018495726495726497,
+      "loss": 0.664,
+      "step": 880
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001847863247863248,
+      "loss": 0.5736,
+      "step": 890
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00018461538461538463,
+      "loss": 0.6546,
+      "step": 900
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00018444444444444446,
+      "loss": 0.6295,
+      "step": 910
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018427350427350426,
+      "loss": 0.7309,
+      "step": 920
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0001841025641025641,
+      "loss": 0.8071,
+      "step": 930
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00018393162393162392,
+      "loss": 0.667,
+      "step": 940
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00018376068376068375,
+      "loss": 0.7265,
+      "step": 950
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00018358974358974358,
+      "loss": 0.6872,
+      "step": 960
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0001834188034188034,
+      "loss": 0.8474,
+      "step": 970
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00018324786324786324,
+      "loss": 0.6226,
+      "step": 980
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0001830769230769231,
+      "loss": 0.5453,
+      "step": 990
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00018290598290598292,
+      "loss": 0.6832,
+      "step": 1000
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.6526374859708193,
+      "eval_loss": 0.9223159551620483,
+      "eval_runtime": 34.8394,
+      "eval_samples_per_second": 51.206,
+      "eval_steps_per_second": 6.401,
+      "step": 1000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00018273504273504275,
+      "loss": 0.7721,
+      "step": 1010
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00018256410256410258,
+      "loss": 0.6434,
+      "step": 1020
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0001823931623931624,
+      "loss": 0.7244,
+      "step": 1030
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00018222222222222224,
+      "loss": 0.6953,
+      "step": 1040
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00018205128205128207,
+      "loss": 0.6965,
+      "step": 1050
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0001818803418803419,
+      "loss": 0.7892,
+      "step": 1060
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00018170940170940172,
+      "loss": 0.6513,
+      "step": 1070
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00018153846153846155,
+      "loss": 0.6469,
+      "step": 1080
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00018136752136752138,
+      "loss": 0.6468,
+      "step": 1090
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0001811965811965812,
+      "loss": 0.7679,
+      "step": 1100
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00018102564102564104,
+      "loss": 0.4376,
+      "step": 1110
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00018085470085470087,
+      "loss": 0.844,
+      "step": 1120
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0001806837606837607,
+      "loss": 0.7508,
+      "step": 1130
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00018051282051282052,
+      "loss": 0.7154,
+      "step": 1140
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.00018034188034188035,
+      "loss": 0.6632,
+      "step": 1150
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00018017094017094018,
+      "loss": 0.7109,
+      "step": 1160
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00018,
+      "loss": 0.6545,
+      "step": 1170
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00017982905982905984,
+      "loss": 0.7316,
+      "step": 1180
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00017965811965811967,
+      "loss": 0.7549,
+      "step": 1190
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0001794871794871795,
+      "loss": 0.5296,
+      "step": 1200
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00017931623931623933,
+      "loss": 1.0734,
+      "step": 1210
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00017914529914529916,
+      "loss": 0.6724,
+      "step": 1220
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00017897435897435898,
+      "loss": 0.5692,
+      "step": 1230
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0001788034188034188,
+      "loss": 0.6338,
+      "step": 1240
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00017863247863247864,
+      "loss": 0.5972,
+      "step": 1250
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00017846153846153847,
+      "loss": 0.7404,
+      "step": 1260
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0001782905982905983,
+      "loss": 0.5386,
+      "step": 1270
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00017811965811965813,
+      "loss": 0.775,
+      "step": 1280
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00017794871794871796,
+      "loss": 0.8524,
+      "step": 1290
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00017777777777777779,
+      "loss": 0.6457,
+      "step": 1300
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00017760683760683762,
+      "loss": 0.5095,
+      "step": 1310
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.00017743589743589744,
+      "loss": 0.7402,
+      "step": 1320
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00017726495726495727,
+      "loss": 0.4563,
+      "step": 1330
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0001770940170940171,
+      "loss": 0.5477,
+      "step": 1340
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00017692307692307693,
+      "loss": 0.7047,
+      "step": 1350
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00017675213675213676,
+      "loss": 0.9488,
+      "step": 1360
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0001765811965811966,
+      "loss": 0.6216,
+      "step": 1370
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.00017641025641025642,
+      "loss": 0.6692,
+      "step": 1380
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00017623931623931625,
+      "loss": 0.5363,
+      "step": 1390
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00017606837606837607,
+      "loss": 0.512,
+      "step": 1400
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0001758974358974359,
+      "loss": 0.7907,
+      "step": 1410
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00017572649572649573,
+      "loss": 0.674,
+      "step": 1420
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00017555555555555556,
+      "loss": 0.6912,
+      "step": 1430
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0001753846153846154,
+      "loss": 0.875,
+      "step": 1440
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00017521367521367522,
+      "loss": 0.9192,
+      "step": 1450
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00017504273504273505,
+      "loss": 0.6845,
+      "step": 1460
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00017487179487179488,
+      "loss": 0.9668,
+      "step": 1470
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0001747008547008547,
+      "loss": 0.6267,
+      "step": 1480
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00017452991452991453,
+      "loss": 0.7207,
+      "step": 1490
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00017435897435897436,
+      "loss": 0.4895,
+      "step": 1500
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0001741880341880342,
+      "loss": 0.7237,
+      "step": 1510
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00017401709401709402,
+      "loss": 0.702,
+      "step": 1520
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00017384615384615385,
+      "loss": 0.6706,
+      "step": 1530
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00017367521367521368,
+      "loss": 0.6043,
+      "step": 1540
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0001735042735042735,
+      "loss": 0.7136,
+      "step": 1550
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00017333333333333334,
+      "loss": 0.5816,
+      "step": 1560
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.00017316239316239317,
+      "loss": 0.4576,
+      "step": 1570
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.000172991452991453,
+      "loss": 0.3339,
+      "step": 1580
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.00017282051282051285,
+      "loss": 0.4679,
+      "step": 1590
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.00017264957264957268,
+      "loss": 0.5122,
+      "step": 1600
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0001724786324786325,
+      "loss": 0.2515,
+      "step": 1610
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.00017230769230769234,
+      "loss": 0.3069,
+      "step": 1620
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.00017213675213675217,
+      "loss": 0.3612,
+      "step": 1630
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.000171965811965812,
+      "loss": 0.4896,
+      "step": 1640
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.0001717948717948718,
+      "loss": 0.2227,
+      "step": 1650
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.00017162393162393162,
+      "loss": 0.3367,
+      "step": 1660
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.00017145299145299145,
+      "loss": 0.4207,
+      "step": 1670
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.00017128205128205128,
+      "loss": 0.3126,
+      "step": 1680
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0001711111111111111,
+      "loss": 0.2902,
+      "step": 1690
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.00017094017094017094,
+      "loss": 0.6133,
+      "step": 1700
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.00017076923076923077,
+      "loss": 0.4473,
+      "step": 1710
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0001705982905982906,
+      "loss": 0.6531,
+      "step": 1720
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.00017042735042735043,
+      "loss": 0.5508,
+      "step": 1730
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.00017025641025641026,
+      "loss": 0.4197,
+      "step": 1740
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 0.00017008547008547008,
+      "loss": 0.4295,
+      "step": 1750
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0001699145299145299,
+      "loss": 0.3714,
+      "step": 1760
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.00016974358974358974,
+      "loss": 0.4605,
+      "step": 1770
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 0.00016957264957264957,
+      "loss": 0.3979,
+      "step": 1780
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0001694017094017094,
+      "loss": 0.3915,
+      "step": 1790
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.00016923076923076923,
+      "loss": 0.3594,
+      "step": 1800
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.00016905982905982906,
+      "loss": 0.332,
+      "step": 1810
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 0.00016888888888888889,
+      "loss": 0.6412,
+      "step": 1820
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.00016871794871794871,
+      "loss": 0.5271,
+      "step": 1830
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.00016854700854700854,
+      "loss": 0.6231,
+      "step": 1840
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 0.00016837606837606837,
+      "loss": 0.4133,
+      "step": 1850
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00016820512820512823,
+      "loss": 0.3524,
+      "step": 1860
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.00016803418803418806,
+      "loss": 0.4834,
+      "step": 1870
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 0.00016786324786324789,
+      "loss": 0.5658,
+      "step": 1880
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.00016769230769230772,
+      "loss": 0.479,
+      "step": 1890
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.00016752136752136754,
+      "loss": 0.4138,
+      "step": 1900
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 0.00016735042735042737,
+      "loss": 0.4342,
+      "step": 1910
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0001671794871794872,
+      "loss": 0.4909,
+      "step": 1920
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.00016700854700854703,
+      "loss": 0.4699,
+      "step": 1930
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.00016683760683760686,
+      "loss": 0.1936,
+      "step": 1940
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.0001666666666666667,
+      "loss": 0.4344,
+      "step": 1950
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.00016649572649572652,
+      "loss": 0.2826,
+      "step": 1960
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00016632478632478635,
+      "loss": 0.3518,
+      "step": 1970
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.00016615384615384617,
+      "loss": 0.4507,
+      "step": 1980
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.000165982905982906,
+      "loss": 0.4549,
+      "step": 1990
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.00016581196581196583,
+      "loss": 0.348,
+      "step": 2000
+    },
+    {
+      "epoch": 2.56,
+      "eval_accuracy": 0.7008978675645342,
+      "eval_loss": 1.0017077922821045,
+      "eval_runtime": 39.0117,
+      "eval_samples_per_second": 45.73,
+      "eval_steps_per_second": 5.716,
+      "step": 2000
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.00016564102564102566,
+      "loss": 0.7027,
+      "step": 2010
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.00016547008547008546,
+      "loss": 0.5353,
+      "step": 2020
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.0001652991452991453,
+      "loss": 0.5958,
+      "step": 2030
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.00016512820512820512,
+      "loss": 0.4524,
+      "step": 2040
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.00016495726495726495,
+      "loss": 0.4626,
+      "step": 2050
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00016478632478632478,
+      "loss": 0.4503,
+      "step": 2060
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.0001646153846153846,
+      "loss": 0.5792,
+      "step": 2070
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.00016444444444444444,
+      "loss": 0.3757,
+      "step": 2080
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.00016427350427350426,
+      "loss": 0.4774,
+      "step": 2090
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.0001641025641025641,
+      "loss": 0.6365,
+      "step": 2100
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.00016393162393162392,
+      "loss": 0.2231,
+      "step": 2110
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.00016376068376068375,
+      "loss": 0.5641,
+      "step": 2120
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00016358974358974358,
+      "loss": 0.3998,
+      "step": 2130
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.00016341880341880344,
+      "loss": 0.4461,
+      "step": 2140
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.00016324786324786327,
+      "loss": 0.3812,
+      "step": 2150
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.0001630769230769231,
+      "loss": 0.407,
+      "step": 2160
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.00016290598290598292,
+      "loss": 0.5142,
+      "step": 2170
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.00016273504273504275,
+      "loss": 0.3531,
+      "step": 2180
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.00016256410256410258,
+      "loss": 0.4287,
+      "step": 2190
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.0001623931623931624,
+      "loss": 0.4242,
+      "step": 2200
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.00016222222222222224,
+      "loss": 0.282,
+      "step": 2210
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.00016205128205128207,
+      "loss": 0.5312,
+      "step": 2220
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.0001618803418803419,
+      "loss": 0.5925,
+      "step": 2230
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.00016170940170940172,
+      "loss": 0.3919,
+      "step": 2240
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.00016153846153846155,
+      "loss": 0.6241,
+      "step": 2250
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.00016136752136752138,
+      "loss": 0.3143,
+      "step": 2260
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0001611965811965812,
+      "loss": 0.5144,
+      "step": 2270
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00016102564102564104,
+      "loss": 0.1882,
+      "step": 2280
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.00016085470085470087,
+      "loss": 0.3812,
+      "step": 2290
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.0001606837606837607,
+      "loss": 0.2284,
+      "step": 2300
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.00016051282051282053,
+      "loss": 0.3319,
+      "step": 2310
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.00016034188034188036,
+      "loss": 0.7971,
+      "step": 2320
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 0.00016017094017094018,
+      "loss": 0.3977,
+      "step": 2330
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.00016,
+      "loss": 0.5652,
+      "step": 2340
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 0.00015982905982905984,
+      "loss": 0.2831,
+      "step": 2350
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 0.00015965811965811967,
+      "loss": 0.1566,
+      "step": 2360
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 0.0001594871794871795,
+      "loss": 0.1572,
+      "step": 2370
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 0.0001593162393162393,
+      "loss": 0.2303,
+      "step": 2380
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 0.00015914529914529913,
+      "loss": 0.3149,
+      "step": 2390
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 0.00015897435897435896,
+      "loss": 0.3658,
+      "step": 2400
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 0.00015880341880341881,
+      "loss": 0.1089,
+      "step": 2410
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 0.00015863247863247864,
+      "loss": 0.3972,
+      "step": 2420
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 0.00015846153846153847,
+      "loss": 0.2249,
+      "step": 2430
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 0.0001582905982905983,
+      "loss": 0.1594,
+      "step": 2440
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 0.00015811965811965813,
+      "loss": 0.2473,
+      "step": 2450
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 0.00015794871794871796,
+      "loss": 0.3014,
+      "step": 2460
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 0.0001577777777777778,
+      "loss": 0.2009,
+      "step": 2470
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 0.00015760683760683762,
+      "loss": 0.2739,
+      "step": 2480
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 0.00015743589743589745,
+      "loss": 0.3456,
+      "step": 2490
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 0.00015726495726495727,
+      "loss": 0.201,
+      "step": 2500
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 0.0001570940170940171,
+      "loss": 0.4472,
+      "step": 2510
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 0.00015692307692307693,
+      "loss": 0.3452,
+      "step": 2520
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 0.00015675213675213676,
+      "loss": 0.1802,
+      "step": 2530
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 0.0001565811965811966,
+      "loss": 0.3302,
+      "step": 2540
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 0.00015641025641025642,
+      "loss": 0.2736,
+      "step": 2550
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 0.00015623931623931625,
+      "loss": 0.3162,
+      "step": 2560
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 0.00015606837606837608,
+      "loss": 0.1153,
+      "step": 2570
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 0.0001558974358974359,
+      "loss": 0.1698,
+      "step": 2580
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 0.00015572649572649573,
+      "loss": 0.4336,
+      "step": 2590
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 0.00015555555555555556,
+      "loss": 0.1784,
+      "step": 2600
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 0.0001553846153846154,
+      "loss": 0.2714,
+      "step": 2610
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.00015521367521367522,
+      "loss": 0.2657,
+      "step": 2620
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 0.00015504273504273505,
+      "loss": 0.3528,
+      "step": 2630
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 0.00015487179487179488,
+      "loss": 0.2416,
+      "step": 2640
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 0.0001547008547008547,
+      "loss": 0.1516,
+      "step": 2650
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 0.00015452991452991454,
+      "loss": 0.3435,
+      "step": 2660
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 0.00015435897435897436,
+      "loss": 0.2755,
+      "step": 2670
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 0.0001541880341880342,
+      "loss": 0.3667,
+      "step": 2680
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 0.00015401709401709402,
+      "loss": 0.2273,
+      "step": 2690
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 0.00015384615384615385,
+      "loss": 0.3083,
+      "step": 2700
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 0.00015367521367521368,
+      "loss": 0.1352,
+      "step": 2710
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 0.0001535042735042735,
+      "loss": 0.2642,
+      "step": 2720
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 0.00015333333333333334,
+      "loss": 0.2947,
+      "step": 2730
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 0.0001531623931623932,
+      "loss": 0.2894,
+      "step": 2740
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 0.000152991452991453,
+      "loss": 0.3171,
+      "step": 2750
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 0.00015282051282051282,
+      "loss": 0.1399,
+      "step": 2760
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 0.00015264957264957265,
+      "loss": 0.3285,
+      "step": 2770
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 0.00015247863247863248,
+      "loss": 0.3482,
+      "step": 2780
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 0.0001523076923076923,
+      "loss": 0.2303,
+      "step": 2790
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 0.00015213675213675214,
+      "loss": 0.1022,
+      "step": 2800
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 0.00015196581196581197,
+      "loss": 0.5218,
+      "step": 2810
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 0.0001517948717948718,
+      "loss": 0.1958,
+      "step": 2820
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 0.00015162393162393163,
+      "loss": 0.2601,
+      "step": 2830
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 0.00015145299145299146,
+      "loss": 0.2364,
+      "step": 2840
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 0.00015128205128205128,
+      "loss": 0.2623,
+      "step": 2850
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 0.0001511111111111111,
+      "loss": 0.3103,
+      "step": 2860
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 0.00015094017094017094,
+      "loss": 0.5716,
+      "step": 2870
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 0.00015076923076923077,
+      "loss": 0.1348,
+      "step": 2880
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 0.0001505982905982906,
+      "loss": 0.1907,
+      "step": 2890
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 0.00015042735042735043,
+      "loss": 0.1671,
+      "step": 2900
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 0.00015025641025641026,
+      "loss": 0.4659,
+      "step": 2910
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 0.00015008547008547009,
+      "loss": 0.1819,
+      "step": 2920
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 0.00014991452991452991,
+      "loss": 0.57,
+      "step": 2930
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 0.00014974358974358974,
+      "loss": 0.4177,
+      "step": 2940
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 0.00014957264957264957,
+      "loss": 0.2709,
+      "step": 2950
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 0.0001494017094017094,
+      "loss": 0.3616,
+      "step": 2960
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 0.00014923076923076923,
+      "loss": 0.2519,
+      "step": 2970
+    },
+    {
+      "epoch": 3.82,
+      "learning_rate": 0.00014905982905982906,
+      "loss": 0.3444,
+      "step": 2980
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 0.0001488888888888889,
+      "loss": 0.4528,
+      "step": 2990
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 0.00014871794871794872,
+      "loss": 0.3906,
+      "step": 3000
+    },
+    {
+      "epoch": 3.85,
+      "eval_accuracy": 0.7536475869809203,
+      "eval_loss": 0.7957639098167419,
+      "eval_runtime": 34.4592,
+      "eval_samples_per_second": 51.771,
+      "eval_steps_per_second": 6.471,
+      "step": 3000
+    }
+  ],
+  "max_steps": 11700,
+  "num_train_epochs": 15,
+  "total_flos": 1.8589611495457014e+18,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5af0c1967ab477999534204bea455f671ebc48bf1541ad45877eccfa9636f3b
+size 3963

config.json CHANGED Viewed

@@ -14,7 +14,8 @@
     "2": "Finland",
     "3": "Japan",
     "4": "United-Kingdom",
-    "5": "United_States"
   },
   "image_size": 224,
   "initializer_range": 0.02,
@@ -25,7 +26,8 @@
     "Finland": "2",
     "Japan": "3",
     "United-Kingdom": "4",
-    "United_States": "5"
   },
   "layer_norm_eps": 1e-12,
   "model_type": "vit",

     "2": "Finland",
     "3": "Japan",
     "4": "United-Kingdom",
+    "5": "United_States",
+    "6": "Unlabeled"
   },
   "image_size": 224,
   "initializer_range": 0.02,
     "Finland": "2",
     "Japan": "3",
     "United-Kingdom": "4",
+    "United_States": "5",
+    "Unlabeled": "6"
   },
   "layer_norm_eps": 1e-12,
   "model_type": "vit",

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e4cf7738c400c63d307d24c20ed9c77e1a7e56df0099b73936659a2e13d9670
-size 343278253

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e58ef10e8d60ae9ccbdf83ad1b79978ff8813d88d24c3fea3a4a0f7a9cf5622
+size 343281325

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 8.0,
-    "total_flos": 3.8629591832685773e+18,
-    "train_loss": 0.2533179052472592,
-    "train_runtime": 4957.8804,
-    "train_samples_per_second": 10.069,
-    "train_steps_per_second": 0.629
 }

 {
+    "epoch": 15.0,
+    "total_flos": 7.248925543125934e+18,
+    "train_loss": 0.20681309804148698,
+    "train_runtime": 4138.6696,
+    "train_samples_per_second": 22.616,
+    "train_steps_per_second": 2.827
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38c25b2b280e8f8dde2511a004bf1b097d7641bf1aae99dd53711356509cd78e
-size 3899

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5af0c1967ab477999534204bea455f671ebc48bf1541ad45877eccfa9636f3b
+size 3963