vandijklab
/

brainlm

+{
+  "_name_or_path": "/gpfs/gibbs/pi/dijk/BrainLM_runs/2023-11-16-12_05_00/checkpoint-900",
+  "architectures": [
+    "ViTMAEForPreTraining"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "decoder_hidden_size": 512,
+  "decoder_intermediate_size": 2048,
+  "decoder_num_attention_heads": 16,
+  "decoder_num_hidden_layers": 8,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "image_size": [
+    432,
+    432
+  ],
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "mask_ratio": 0.75,
+  "model_type": "vit_mae",
+  "norm_pix_loss": false,
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0"
+}

vitmae_111M/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01eb309324822c7f97d7fbc58656abcab0d8d7ef5208d901f6783a95a7ce6be1
+size 893440890

vitmae_111M/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25f5b52178f7409dee4fed2fa3dd18c6692d0764d96996ff0ee4be740520fcd6
+size 450475202

vitmae_111M/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b24ac6de8ab41eb80a5d47d400cd9eb2c25a220d43926e7d672a46d2eb467a3b
+size 14244

vitmae_111M/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d78b6f0b4efdd54634970fdb145978ff7d80f35a6b8a9bd537ef08492f5ba90e
+size 988

vitmae_111M/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b89122e73508ffdb5ac677595c6c25a7904c60895d91c44c1d3585c7d5b865f
+size 1064

vitmae_111M/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1614 @@

+{
+  "best_metric": 0.01686818338930607,
+  "best_model_checkpoint": "/gpfs/gibbs/pi/dijk/BrainLM_runs/2023-11-17-17_20_00/checkpoint-3900",
+  "epoch": 19.711664482306684,
+  "global_step": 4700,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "learning_rate": 2.100840336134454e-05,
+      "loss": 0.0209,
+      "step": 50
+    },
+    {
+      "epoch": 0,
+      "eval_loss": 0.020767875015735626,
+      "eval_mae": 0.11019120365381241,
+      "eval_mse": 0.020768500864505768,
+      "eval_r2": 0.06256083852108052,
+      "eval_runtime": 126.6828,
+      "eval_samples_per_second": 3.157,
+      "eval_steps_per_second": 0.197,
+      "step": 50
+    },
+    {
+      "epoch": 0,
+      "learning_rate": 4.201680672268908e-05,
+      "loss": 0.02,
+      "step": 100
+    },
+    {
+      "epoch": 0,
+      "eval_loss": 0.020464899018406868,
+      "eval_mae": 0.10934258252382278,
+      "eval_mse": 0.02046414092183113,
+      "eval_r2": 0.0822418520285656,
+      "eval_runtime": 190.4097,
+      "eval_samples_per_second": 2.101,
+      "eval_steps_per_second": 0.131,
+      "step": 100
+    },
+    {
+      "epoch": 0,
+      "learning_rate": 6.302521008403361e-05,
+      "loss": 0.0196,
+      "step": 150
+    },
+    {
+      "epoch": 0,
+      "eval_loss": 0.02013571746647358,
+      "eval_mae": 0.10845349729061127,
+      "eval_mse": 0.020132917910814285,
+      "eval_r2": 0.09748306648229965,
+      "eval_runtime": 60.1594,
+      "eval_samples_per_second": 6.649,
+      "eval_steps_per_second": 0.416,
+      "step": 150
+    },
+    {
+      "epoch": 0,
+      "learning_rate": 8.403361344537815e-05,
+      "loss": 0.0193,
+      "step": 200
+    },
+    {
+      "epoch": 0,
+      "eval_loss": 0.019823560491204262,
+      "eval_mae": 0.10756562650203705,
+      "eval_mse": 0.019823383539915085,
+      "eval_r2": 0.11099549304277823,
+      "eval_runtime": 162.8488,
+      "eval_samples_per_second": 2.456,
+      "eval_steps_per_second": 0.154,
+      "step": 200
+    },
+    {
+      "epoch": 1,
+      "learning_rate": 9.999826244478293e-05,
+      "loss": 0.0191,
+      "step": 250
+    },
+    {
+      "epoch": 1,
+      "eval_loss": 0.019535023719072342,
+      "eval_mae": 0.10683062672615051,
+      "eval_mse": 0.01953577809035778,
+      "eval_r2": 0.12390402334988537,
+      "eval_runtime": 61.7292,
+      "eval_samples_per_second": 6.48,
+      "eval_steps_per_second": 0.405,
+      "step": 250
+    },
+    {
+      "epoch": 1,
+      "learning_rate": 9.995362383107962e-05,
+      "loss": 0.0188,
+      "step": 300
+    },
+    {
+      "epoch": 1,
+      "eval_loss": 0.019223904237151146,
+      "eval_mae": 0.10594414174556732,
+      "eval_mse": 0.019219543784856796,
+      "eval_r2": 0.1355137630125941,
+      "eval_runtime": 62.8456,
+      "eval_samples_per_second": 6.365,
+      "eval_steps_per_second": 0.398,
+      "step": 300
+    },
+    {
+      "epoch": 1,
+      "learning_rate": 9.98487151097676e-05,
+      "loss": 0.0185,
+      "step": 350
+    },
+    {
+      "epoch": 1,
+      "eval_loss": 0.018948782235383987,
+      "eval_mae": 0.10521063953638077,
+      "eval_mse": 0.018949836492538452,
+      "eval_r2": 0.1472992781550666,
+      "eval_runtime": 62.8686,
+      "eval_samples_per_second": 6.362,
+      "eval_steps_per_second": 0.398,
+      "step": 350
+    },
+    {
+      "epoch": 1,
+      "learning_rate": 9.968366285544619e-05,
+      "loss": 0.0182,
+      "step": 400
+    },
+    {
+      "epoch": 1,
+      "eval_loss": 0.01880819909274578,
+      "eval_mae": 0.10481799393892288,
+      "eval_mse": 0.01880812644958496,
+      "eval_r2": 0.15779620957023455,
+      "eval_runtime": 57.2628,
+      "eval_samples_per_second": 6.985,
+      "eval_steps_per_second": 0.437,
+      "step": 400
+    },
+    {
+      "epoch": 1,
+      "learning_rate": 9.945866620716411e-05,
+      "loss": 0.0181,
+      "step": 450
+    },
+    {
+      "epoch": 1,
+      "eval_loss": 0.018690017983317375,
+      "eval_mae": 0.10444584488868713,
+      "eval_mse": 0.01869109459221363,
+      "eval_r2": 0.16425393659247034,
+      "eval_runtime": 58.6008,
+      "eval_samples_per_second": 6.826,
+      "eval_steps_per_second": 0.427,
+      "step": 450
+    },
+    {
+      "epoch": 2,
+      "learning_rate": 9.917399662815391e-05,
+      "loss": 0.0179,
+      "step": 500
+    },
+    {
+      "epoch": 2,
+      "eval_loss": 0.018527410924434662,
+      "eval_mae": 0.10401275008916855,
+      "eval_mse": 0.018530065193772316,
+      "eval_r2": 0.16775397819003413,
+      "eval_runtime": 56.6595,
+      "eval_samples_per_second": 7.06,
+      "eval_steps_per_second": 0.441,
+      "step": 500
+    },
+    {
+      "epoch": 2,
+      "learning_rate": 9.882999757830588e-05,
+      "loss": 0.0179,
+      "step": 550
+    },
+    {
+      "epoch": 2,
+      "eval_loss": 0.018433190882205963,
+      "eval_mae": 0.10371904820203781,
+      "eval_mse": 0.018430989235639572,
+      "eval_r2": 0.17258796261060627,
+      "eval_runtime": 61.318,
+      "eval_samples_per_second": 6.523,
+      "eval_steps_per_second": 0.408,
+      "step": 550
+    },
+    {
+      "epoch": 2,
+      "learning_rate": 9.842708409977635e-05,
+      "loss": 0.0178,
+      "step": 600
+    },
+    {
+      "epoch": 2,
+      "eval_loss": 0.018353702500462532,
+      "eval_mae": 0.1034744456410408,
+      "eval_mse": 0.018353240564465523,
+      "eval_r2": 0.17714196201923582,
+      "eval_runtime": 64.7666,
+      "eval_samples_per_second": 6.176,
+      "eval_steps_per_second": 0.386,
+      "step": 600
+    },
+    {
+      "epoch": 2,
+      "learning_rate": 9.796574231623055e-05,
+      "loss": 0.0177,
+      "step": 650
+    },
+    {
+      "epoch": 2,
+      "eval_loss": 0.018298938870429993,
+      "eval_mae": 0.10329218953847885,
+      "eval_mse": 0.01829737052321434,
+      "eval_r2": 0.18098740062966168,
+      "eval_runtime": 58.7251,
+      "eval_samples_per_second": 6.811,
+      "eval_steps_per_second": 0.426,
+      "step": 650
+    },
+    {
+      "epoch": 2,
+      "learning_rate": 9.744652884632406e-05,
+      "loss": 0.0176,
+      "step": 700
+    },
+    {
+      "epoch": 2,
+      "eval_loss": 0.01817883551120758,
+      "eval_mae": 0.10299910604953766,
+      "eval_mse": 0.018180398270487785,
+      "eval_r2": 0.1854382026037652,
+      "eval_runtime": 64.0748,
+      "eval_samples_per_second": 6.243,
+      "eval_steps_per_second": 0.39,
+      "step": 700
+    },
+    {
+      "epoch": 3,
+      "learning_rate": 9.687007013213063e-05,
+      "loss": 0.0175,
+      "step": 750
+    },
+    {
+      "epoch": 3,
+      "eval_loss": 0.018099399283528328,
+      "eval_mae": 0.10274745523929596,
+      "eval_mse": 0.018099674955010414,
+      "eval_r2": 0.18714389318808033,
+      "eval_runtime": 57.0327,
+      "eval_samples_per_second": 7.014,
+      "eval_steps_per_second": 0.438,
+      "step": 750
+    },
+    {
+      "epoch": 3,
+      "learning_rate": 9.623706168332645e-05,
+      "loss": 0.0174,
+      "step": 800
+    },
+    {
+      "epoch": 3,
+      "eval_loss": 0.01805899292230606,
+      "eval_mae": 0.1026226207613945,
+      "eval_mse": 0.018060266971588135,
+      "eval_r2": 0.19156849973920198,
+      "eval_runtime": 58.7166,
+      "eval_samples_per_second": 6.812,
+      "eval_steps_per_second": 0.426,
+      "step": 800
+    },
+    {
+      "epoch": 3,
+      "learning_rate": 9.554826723804303e-05,
+      "loss": 0.0174,
+      "step": 850
+    },
+    {
+      "epoch": 3,
+      "eval_loss": 0.01803247630596161,
+      "eval_mae": 0.10254286229610443,
+      "eval_mse": 0.018035681918263435,
+      "eval_r2": 0.18969497919656642,
+      "eval_runtime": 60.3899,
+      "eval_samples_per_second": 6.624,
+      "eval_steps_per_second": 0.414,
+      "step": 850
+    },
+    {
+      "epoch": 3,
+      "learning_rate": 9.480451784140091e-05,
+      "loss": 0.0173,
+      "step": 900
+    },
+    {
+      "epoch": 3,
+      "eval_loss": 0.017897402867674828,
+      "eval_mae": 0.1021430492401123,
+      "eval_mse": 0.017896411940455437,
+      "eval_r2": 0.1964586734458611,
+      "eval_runtime": 62.8605,
+      "eval_samples_per_second": 6.363,
+      "eval_steps_per_second": 0.398,
+      "step": 900
+    },
+    {
+      "epoch": 3,
+      "learning_rate": 9.400671084283607e-05,
+      "loss": 0.0173,
+      "step": 950
+    },
+    {
+      "epoch": 3,
+      "eval_loss": 0.017886007204651833,
+      "eval_mae": 0.10208527743816376,
+      "eval_mse": 0.01788811758160591,
+      "eval_r2": 0.19957007249531145,
+      "eval_runtime": 60.1438,
+      "eval_samples_per_second": 6.651,
+      "eval_steps_per_second": 0.416,
+      "step": 950
+    },
+    {
+      "epoch": 4,
+      "learning_rate": 9.315580881342876e-05,
+      "loss": 0.0172,
+      "step": 1000
+    },
+    {
+      "epoch": 4,
+      "eval_loss": 0.017858153209090233,
+      "eval_mae": 0.10202876478433609,
+      "eval_mse": 0.017859304323792458,
+      "eval_r2": 0.19855005202715592,
+      "eval_runtime": 58.8873,
+      "eval_samples_per_second": 6.793,
+      "eval_steps_per_second": 0.425,
+      "step": 1000
+    },
+    {
+      "epoch": 4,
+      "learning_rate": 9.225283838454111e-05,
+      "loss": 0.0172,
+      "step": 1050
+    },
+    {
+      "epoch": 4,
+      "eval_loss": 0.017775438725948334,
+      "eval_mae": 0.10180441290140152,
+      "eval_mse": 0.017775651067495346,
+      "eval_r2": 0.20128072921203966,
+      "eval_runtime": 65.7432,
+      "eval_samples_per_second": 6.084,
+      "eval_steps_per_second": 0.38,
+      "step": 1050
+    },
+    {
+      "epoch": 4,
+      "learning_rate": 9.129888900916456e-05,
+      "loss": 0.0171,
+      "step": 1100
+    },
+    {
+      "epoch": 4,
+      "eval_loss": 0.01773221045732498,
+      "eval_mae": 0.10164433717727661,
+      "eval_mse": 0.017730284482240677,
+      "eval_r2": 0.20249305414753993,
+      "eval_runtime": 56.7262,
+      "eval_samples_per_second": 7.051,
+      "eval_steps_per_second": 0.441,
+      "step": 1100
+    },
+    {
+      "epoch": 4,
+      "learning_rate": 9.029511164747175e-05,
+      "loss": 0.0172,
+      "step": 1150
+    },
+    {
+      "epoch": 4,
+      "eval_loss": 0.017706887796521187,
+      "eval_mae": 0.10156488418579102,
+      "eval_mse": 0.017707258462905884,
+      "eval_r2": 0.2078045399984002,
+      "eval_runtime": 58.2849,
+      "eval_samples_per_second": 6.863,
+      "eval_steps_per_second": 0.429,
+      "step": 1150
+    },
+    {
+      "epoch": 5,
+      "learning_rate": 8.924271737815854e-05,
+      "loss": 0.0171,
+      "step": 1200
+    },
+    {
+      "epoch": 5,
+      "eval_loss": 0.017714276909828186,
+      "eval_mae": 0.10158883035182953,
+      "eval_mse": 0.017715107649564743,
+      "eval_r2": 0.2074889762440164,
+      "eval_runtime": 57.6803,
+      "eval_samples_per_second": 6.935,
+      "eval_steps_per_second": 0.433,
+      "step": 1200
+    },
+    {
+      "epoch": 5,
+      "learning_rate": 8.814297593725199e-05,
+      "loss": 0.0171,
+      "step": 1250
+    },
+    {
+      "epoch": 5,
+      "eval_loss": 0.017648547887802124,
+      "eval_mae": 0.10141555964946747,
+      "eval_mse": 0.017654363065958023,
+      "eval_r2": 0.20722885865364904,
+      "eval_runtime": 64.9526,
+      "eval_samples_per_second": 6.158,
+      "eval_steps_per_second": 0.385,
+      "step": 1250
+    },
+    {
+      "epoch": 5,
+      "learning_rate": 8.699721418614673e-05,
+      "loss": 0.017,
+      "step": 1300
+    },
+    {
+      "epoch": 5,
+      "eval_loss": 0.017601532861590385,
+      "eval_mae": 0.10125792026519775,
+      "eval_mse": 0.017598113045096397,
+      "eval_r2": 0.20836808697871778,
+      "eval_runtime": 57.4819,
+      "eval_samples_per_second": 6.959,
+      "eval_steps_per_second": 0.435,
+      "step": 1300
+    },
+    {
+      "epoch": 5,
+      "learning_rate": 8.580681451071866e-05,
+      "loss": 0.017,
+      "step": 1350
+    },
+    {
+      "epoch": 5,
+      "eval_loss": 0.017580362036824226,
+      "eval_mae": 0.10121016204357147,
+      "eval_mse": 0.017584411427378654,
+      "eval_r2": 0.21084466622121223,
+      "eval_runtime": 60.2943,
+      "eval_samples_per_second": 6.634,
+      "eval_steps_per_second": 0.415,
+      "step": 1350
+    },
+    {
+      "epoch": 5,
+      "learning_rate": 8.457321315344694e-05,
+      "loss": 0.017,
+      "step": 1400
+    },
+    {
+      "epoch": 5,
+      "eval_loss": 0.017519284039735794,
+      "eval_mae": 0.10104001313447952,
+      "eval_mse": 0.01752064935863018,
+      "eval_r2": 0.2120289842294325,
+      "eval_runtime": 60.1697,
+      "eval_samples_per_second": 6.648,
+      "eval_steps_per_second": 0.415,
+      "step": 1400
+    },
+    {
+      "epoch": 6,
+      "learning_rate": 8.329789848055704e-05,
+      "loss": 0.0168,
+      "step": 1450
+    },
+    {
+      "epoch": 6,
+      "eval_loss": 0.017550144344568253,
+      "eval_mae": 0.10109207779169083,
+      "eval_mse": 0.017550604417920113,
+      "eval_r2": 0.2133444473175402,
+      "eval_runtime": 61.3969,
+      "eval_samples_per_second": 6.515,
+      "eval_steps_per_second": 0.407,
+      "step": 1450
+    },
+    {
+      "epoch": 6,
+      "learning_rate": 8.198240918627524e-05,
+      "loss": 0.0169,
+      "step": 1500
+    },
+    {
+      "epoch": 6,
+      "eval_loss": 0.01755845546722412,
+      "eval_mae": 0.10110194236040115,
+      "eval_mse": 0.017556479200720787,
+      "eval_r2": 0.21656763083400632,
+      "eval_runtime": 59.5515,
+      "eval_samples_per_second": 6.717,
+      "eval_steps_per_second": 0.42,
+      "step": 1500
+    },
+    {
+      "epoch": 6,
+      "learning_rate": 8.062833243636134e-05,
+      "loss": 0.0169,
+      "step": 1550
+    },
+    {
+      "epoch": 6,
+      "eval_loss": 0.017458565533161163,
+      "eval_mae": 0.10081926733255386,
+      "eval_mse": 0.017458630725741386,
+      "eval_r2": 0.21455437331377625,
+      "eval_runtime": 60.6637,
+      "eval_samples_per_second": 6.594,
+      "eval_steps_per_second": 0.412,
+      "step": 1550
+    },
+    {
+      "epoch": 6,
+      "learning_rate": 7.923730195315962e-05,
+      "loss": 0.0169,
+      "step": 1600
+    },
+    {
+      "epoch": 6,
+      "eval_loss": 0.017479494214057922,
+      "eval_mae": 0.10087893158197403,
+      "eval_mse": 0.017478736117482185,
+      "eval_r2": 0.2180120287564331,
+      "eval_runtime": 60.772,
+      "eval_samples_per_second": 6.582,
+      "eval_steps_per_second": 0.411,
+      "step": 1600
+    },
+    {
+      "epoch": 6,
+      "learning_rate": 7.781099604447794e-05,
+      "loss": 0.0168,
+      "step": 1650
+    },
+    {
+      "epoch": 6,
+      "eval_loss": 0.01743287593126297,
+      "eval_mae": 0.10074793547391891,
+      "eval_mse": 0.017432522028684616,
+      "eval_r2": 0.2161429733042286,
+      "eval_runtime": 64.79,
+      "eval_samples_per_second": 6.174,
+      "eval_steps_per_second": 0.386,
+      "step": 1650
+    },
+    {
+      "epoch": 7,
+      "learning_rate": 7.635113557867395e-05,
+      "loss": 0.0169,
+      "step": 1700
+    },
+    {
+      "epoch": 7,
+      "eval_loss": 0.017418913543224335,
+      "eval_mae": 0.10069431364536285,
+      "eval_mse": 0.01741931587457657,
+      "eval_r2": 0.2169098601070394,
+      "eval_runtime": 60.5486,
+      "eval_samples_per_second": 6.606,
+      "eval_steps_per_second": 0.413,
+      "step": 1700
+    },
+    {
+      "epoch": 7,
+      "learning_rate": 7.485948190839077e-05,
+      "loss": 0.0168,
+      "step": 1750
+    },
+    {
+      "epoch": 7,
+      "eval_loss": 0.01736665517091751,
+      "eval_mae": 0.1005297377705574,
+      "eval_mse": 0.01736704632639885,
+      "eval_r2": 0.21929555782464094,
+      "eval_runtime": 58.4317,
+      "eval_samples_per_second": 6.846,
+      "eval_steps_per_second": 0.428,
+      "step": 1750
+    },
+    {
+      "epoch": 7,
+      "learning_rate": 7.333783474544758e-05,
+      "loss": 0.0168,
+      "step": 1800
+    },
+    {
+      "epoch": 7,
+      "eval_loss": 0.017343418672680855,
+      "eval_mae": 0.10048038512468338,
+      "eval_mse": 0.017341628670692444,
+      "eval_r2": 0.21864552418706762,
+      "eval_runtime": 60.3965,
+      "eval_samples_per_second": 6.623,
+      "eval_steps_per_second": 0.414,
+      "step": 1800
+    },
+    {
+      "epoch": 7,
+      "learning_rate": 7.178802998944933e-05,
+      "loss": 0.0166,
+      "step": 1850
+    },
+    {
+      "epoch": 7,
+      "eval_loss": 0.017404844984412193,
+      "eval_mae": 0.10062351077795029,
+      "eval_mse": 0.017404979094862938,
+      "eval_r2": 0.22093177958560895,
+      "eval_runtime": 56.7185,
+      "eval_samples_per_second": 7.052,
+      "eval_steps_per_second": 0.441,
+      "step": 1850
+    },
+    {
+      "epoch": 7,
+      "learning_rate": 7.021193751273462e-05,
+      "loss": 0.0167,
+      "step": 1900
+    },
+    {
+      "epoch": 7,
+      "eval_loss": 0.017301246523857117,
+      "eval_mae": 0.10035215318202972,
+      "eval_mse": 0.017301900312304497,
+      "eval_r2": 0.22134026003758744,
+      "eval_runtime": 57.7642,
+      "eval_samples_per_second": 6.925,
+      "eval_steps_per_second": 0.433,
+      "step": 1900
+    },
+    {
+      "epoch": 8,
+      "learning_rate": 6.86114589043352e-05,
+      "loss": 0.0167,
+      "step": 1950
+    },
+    {
+      "epoch": 8,
+      "eval_loss": 0.01728537492454052,
+      "eval_mae": 0.10028935223817825,
+      "eval_mse": 0.017283864319324493,
+      "eval_r2": 0.2218958493073836,
+      "eval_runtime": 61.7673,
+      "eval_samples_per_second": 6.476,
+      "eval_steps_per_second": 0.405,
+      "step": 1950
+    },
+    {
+      "epoch": 8,
+      "learning_rate": 6.698852517566836e-05,
+      "loss": 0.0167,
+      "step": 2000
+    },
+    {
+      "epoch": 8,
+      "eval_loss": 0.0173500906676054,
+      "eval_mae": 0.10045037418603897,
+      "eval_mse": 0.017350492998957634,
+      "eval_r2": 0.222062406323153,
+      "eval_runtime": 63.3674,
+      "eval_samples_per_second": 6.312,
+      "eval_steps_per_second": 0.395,
+      "step": 2000
+    },
+    {
+      "epoch": 8,
+      "learning_rate": 6.534509443073072e-05,
+      "loss": 0.0166,
+      "step": 2050
+    },
+    {
+      "epoch": 8,
+      "eval_loss": 0.017278773710131645,
+      "eval_mae": 0.10025625675916672,
+      "eval_mse": 0.017278244718909264,
+      "eval_r2": 0.22539687501717476,
+      "eval_runtime": 57.2192,
+      "eval_samples_per_second": 6.991,
+      "eval_steps_per_second": 0.437,
+      "step": 2050
+    },
+    {
+      "epoch": 8,
+      "learning_rate": 6.368314950360415e-05,
+      "loss": 0.0166,
+      "step": 2100
+    },
+    {
+      "epoch": 8,
+      "eval_loss": 0.017245473340153694,
+      "eval_mae": 0.10017417371273041,
+      "eval_mse": 0.017246615141630173,
+      "eval_r2": 0.22572849115543347,
+      "eval_runtime": 59.9387,
+      "eval_samples_per_second": 6.673,
+      "eval_steps_per_second": 0.417,
+      "step": 2100
+    },
+    {
+      "epoch": 9,
+      "learning_rate": 6.200469556612435e-05,
+      "loss": 0.0166,
+      "step": 2150
+    },
+    {
+      "epoch": 9,
+      "eval_loss": 0.017270274460315704,
+      "eval_mae": 0.10024827718734741,
+      "eval_mse": 0.017270220443606377,
+      "eval_r2": 0.22628471179764975,
+      "eval_runtime": 63.0094,
+      "eval_samples_per_second": 6.348,
+      "eval_steps_per_second": 0.397,
+      "step": 2150
+    },
+    {
+      "epoch": 9,
+      "learning_rate": 6.031175770859848e-05,
+      "loss": 0.0166,
+      "step": 2200
+    },
+    {
+      "epoch": 9,
+      "eval_loss": 0.017215639352798462,
+      "eval_mae": 0.10008691996335983,
+      "eval_mse": 0.017215678468346596,
+      "eval_r2": 0.22768342129753605,
+      "eval_runtime": 65.042,
+      "eval_samples_per_second": 6.15,
+      "eval_steps_per_second": 0.384,
+      "step": 2200
+    },
+    {
+      "epoch": 9,
+      "learning_rate": 5.8606378496490735e-05,
+      "loss": 0.0166,
+      "step": 2250
+    },
+    {
+      "epoch": 9,
+      "eval_loss": 0.01721777580678463,
+      "eval_mae": 0.10010144114494324,
+      "eval_mse": 0.017218952998518944,
+      "eval_r2": 0.22907452898565506,
+      "eval_runtime": 65.4931,
+      "eval_samples_per_second": 6.108,
+      "eval_steps_per_second": 0.382,
+      "step": 2250
+    },
+    {
+      "epoch": 9,
+      "learning_rate": 5.6890615506023705e-05,
+      "loss": 0.0166,
+      "step": 2300
+    },
+    {
+      "epoch": 9,
+      "eval_loss": 0.017191417515277863,
+      "eval_mae": 0.10001853853464127,
+      "eval_mse": 0.01718985289335251,
+      "eval_r2": 0.2292284056000078,
+      "eval_runtime": 64.9938,
+      "eval_samples_per_second": 6.154,
+      "eval_steps_per_second": 0.385,
+      "step": 2300
+    },
+    {
+      "epoch": 9,
+      "learning_rate": 5.5166538841669025e-05,
+      "loss": 0.0165,
+      "step": 2350
+    },
+    {
+      "epoch": 9,
+      "eval_loss": 0.017166707664728165,
+      "eval_mae": 0.09992814064025879,
+      "eval_mse": 0.017164934426546097,
+      "eval_r2": 0.23049413465235846,
+      "eval_runtime": 63.4634,
+      "eval_samples_per_second": 6.303,
+      "eval_steps_per_second": 0.394,
+      "step": 2350
+    },
+    {
+      "epoch": 10,
+      "learning_rate": 5.343622863852232e-05,
+      "loss": 0.0166,
+      "step": 2400
+    },
+    {
+      "epoch": 10,
+      "eval_loss": 0.017118161544203758,
+      "eval_mae": 0.0998067557811737,
+      "eval_mse": 0.017116105183959007,
+      "eval_r2": 0.23199928273221992,
+      "eval_runtime": 58.0985,
+      "eval_samples_per_second": 6.885,
+      "eval_steps_per_second": 0.43,
+      "step": 2400
+    },
+    {
+      "epoch": 10,
+      "learning_rate": 5.170177255257618e-05,
+      "loss": 0.0165,
+      "step": 2450
+    },
+    {
+      "epoch": 10,
+      "eval_loss": 0.017119385302066803,
+      "eval_mae": 0.09977566450834274,
+      "eval_mse": 0.017119543626904488,
+      "eval_r2": 0.22948023375281368,
+      "eval_runtime": 58.2148,
+      "eval_samples_per_second": 6.871,
+      "eval_steps_per_second": 0.429,
+      "step": 2450
+    },
+    {
+      "epoch": 10,
+      "learning_rate": 4.996526324191872e-05,
+      "loss": 0.0164,
+      "step": 2500
+    },
+    {
+      "epoch": 10,
+      "eval_loss": 0.017105862498283386,
+      "eval_mae": 0.09975843131542206,
+      "eval_mse": 0.017107795923948288,
+      "eval_r2": 0.23160311839973746,
+      "eval_runtime": 58.2306,
+      "eval_samples_per_second": 6.869,
+      "eval_steps_per_second": 0.429,
+      "step": 2500
+    },
+    {
+      "epoch": 10,
+      "learning_rate": 4.822879584189731e-05,
+      "loss": 0.0165,
+      "step": 2550
+    },
+    {
+      "epoch": 10,
+      "eval_loss": 0.017133817076683044,
+      "eval_mae": 0.09982656687498093,
+      "eval_mse": 0.01713182032108307,
+      "eval_r2": 0.23212640913876725,
+      "eval_runtime": 60.6469,
+      "eval_samples_per_second": 6.596,
+      "eval_steps_per_second": 0.412,
+      "step": 2550
+    },
+    {
+      "epoch": 10,
+      "learning_rate": 4.6494465437293225e-05,
+      "loss": 0.0165,
+      "step": 2600
+    },
+    {
+      "epoch": 10,
+      "eval_loss": 0.01714298315346241,
+      "eval_mae": 0.0998401865363121,
+      "eval_mse": 0.017137613147497177,
+      "eval_r2": 0.2327516850849627,
+      "eval_runtime": 58.7954,
+      "eval_samples_per_second": 6.803,
+      "eval_steps_per_second": 0.425,
+      "step": 2600
+    },
+    {
+      "epoch": 11,
+      "learning_rate": 4.476436453455742e-05,
+      "loss": 0.0164,
+      "step": 2650
+    },
+    {
+      "epoch": 11,
+      "eval_loss": 0.017095215618610382,
+      "eval_mae": 0.09970412403345108,
+      "eval_mse": 0.01709286868572235,
+      "eval_r2": 0.23346266146762296,
+      "eval_runtime": 57.7966,
+      "eval_samples_per_second": 6.921,
+      "eval_steps_per_second": 0.433,
+      "step": 2650
+    },
+    {
+      "epoch": 11,
+      "learning_rate": 4.3040580537157024e-05,
+      "loss": 0.0165,
+      "step": 2700
+    },
+    {
+      "epoch": 11,
+      "eval_loss": 0.017114490270614624,
+      "eval_mae": 0.09975600242614746,
+      "eval_mse": 0.01711602509021759,
+      "eval_r2": 0.23458319148513607,
+      "eval_runtime": 60.7105,
+      "eval_samples_per_second": 6.589,
+      "eval_steps_per_second": 0.412,
+      "step": 2700
+    },
+    {
+      "epoch": 11,
+      "learning_rate": 4.1325193227078816e-05,
+      "loss": 0.0164,
+      "step": 2750
+    },
+    {
+      "epoch": 11,
+      "eval_loss": 0.01703326217830181,
+      "eval_mae": 0.0995149165391922,
+      "eval_mse": 0.01703346148133278,
+      "eval_r2": 0.23379130521799119,
+      "eval_runtime": 56.541,
+      "eval_samples_per_second": 7.075,
+      "eval_steps_per_second": 0.442,
+      "step": 2750
+    },
+    {
+      "epoch": 11,
+      "learning_rate": 3.962027225552807e-05,
+      "loss": 0.0165,
+      "step": 2800
+    },
+    {
+      "epoch": 11,
+      "eval_loss": 0.017094749957323074,
+      "eval_mae": 0.09970033168792725,
+      "eval_mse": 0.017094548791646957,
+      "eval_r2": 0.2349240350955354,
+      "eval_runtime": 65.2081,
+      "eval_samples_per_second": 6.134,
+      "eval_steps_per_second": 0.383,
+      "step": 2800
+    },
+    {
+      "epoch": 11,
+      "learning_rate": 3.79278746458504e-05,
+      "loss": 0.0164,
+      "step": 2850
+    },
+    {
+      "epoch": 11,
+      "eval_loss": 0.017008375376462936,
+      "eval_mae": 0.09947662055492401,
+      "eval_mse": 0.01700720377266407,
+      "eval_r2": 0.23690627111999107,
+      "eval_runtime": 57.0201,
+      "eval_samples_per_second": 7.015,
+      "eval_steps_per_second": 0.438,
+      "step": 2850
+    },
+    {
+      "epoch": 12,
+      "learning_rate": 3.6250042311689505e-05,
+      "loss": 0.0164,
+      "step": 2900
+    },
+    {
+      "epoch": 12,
+      "eval_loss": 0.01702900230884552,
+      "eval_mae": 0.09952793270349503,
+      "eval_mse": 0.01703030802309513,
+      "eval_r2": 0.23451840328295703,
+      "eval_runtime": 59.8559,
+      "eval_samples_per_second": 6.683,
+      "eval_steps_per_second": 0.418,
+      "step": 2900
+    },
+    {
+      "epoch": 12,
+      "learning_rate": 3.458879959337494e-05,
+      "loss": 0.0163,
+      "step": 2950
+    },
+    {
+      "epoch": 12,
+      "eval_loss": 0.017079642042517662,
+      "eval_mae": 0.09966063499450684,
+      "eval_mse": 0.017079809680581093,
+      "eval_r2": 0.23587889518099114,
+      "eval_runtime": 63.9836,
+      "eval_samples_per_second": 6.252,
+      "eval_steps_per_second": 0.391,
+      "step": 2950
+    },
+    {
+      "epoch": 12,
+      "learning_rate": 3.294615081551259e-05,
+      "loss": 0.0164,
+      "step": 3000
+    },
+    {
+      "epoch": 12,
+      "eval_loss": 0.017014725133776665,
+      "eval_mae": 0.09949040412902832,
+      "eval_mse": 0.01701604574918747,
+      "eval_r2": 0.2344194498588299,
+      "eval_runtime": 64.9206,
+      "eval_samples_per_second": 6.161,
+      "eval_steps_per_second": 0.385,
+      "step": 3000
+    },
+    {
+      "epoch": 12,
+      "learning_rate": 3.132407786872442e-05,
+      "loss": 0.0164,
+      "step": 3050
+    },
+    {
+      "epoch": 12,
+      "eval_loss": 0.017031442373991013,
+      "eval_mae": 0.09950780868530273,
+      "eval_mse": 0.01702970452606678,
+      "eval_r2": 0.23397646038139297,
+      "eval_runtime": 63.2282,
+      "eval_samples_per_second": 6.326,
+      "eval_steps_per_second": 0.395,
+      "step": 3050
+    },
+    {
+      "epoch": 13,
+      "learning_rate": 2.9724537818455466e-05,
+      "loss": 0.0163,
+      "step": 3100
+    },
+    {
+      "epoch": 13,
+      "eval_loss": 0.017020680010318756,
+      "eval_mae": 0.099485382437706,
+      "eval_mse": 0.0170209389179945,
+      "eval_r2": 0.23745581810255922,
+      "eval_runtime": 57.2248,
+      "eval_samples_per_second": 6.99,
+      "eval_steps_per_second": 0.437,
+      "step": 3100
+    },
+    {
+      "epoch": 13,
+      "learning_rate": 2.8149460543732664e-05,
+      "loss": 0.0164,
+      "step": 3150
+    },
+    {
+      "epoch": 13,
+      "eval_loss": 0.016971083357930183,
+      "eval_mae": 0.09935550391674042,
+      "eval_mse": 0.016970161348581314,
+      "eval_r2": 0.23819887983596166,
+      "eval_runtime": 58.3514,
+      "eval_samples_per_second": 6.855,
+      "eval_steps_per_second": 0.428,
+      "step": 3150
+    },
+    {
+      "epoch": 13,
+      "learning_rate": 2.6600746408725063e-05,
+      "loss": 0.0163,
+      "step": 3200
+    },
+    {
+      "epoch": 13,
+      "eval_loss": 0.01702103763818741,
+      "eval_mae": 0.09947419166564941,
+      "eval_mse": 0.017017606645822525,
+      "eval_r2": 0.23663776763542477,
+      "eval_runtime": 65.0546,
+      "eval_samples_per_second": 6.149,
+      "eval_steps_per_second": 0.384,
+      "step": 3200
+    },
+    {
+      "epoch": 13,
+      "learning_rate": 2.5080263969913897e-05,
+      "loss": 0.0163,
+      "step": 3250
+    },
+    {
+      "epoch": 13,
+      "eval_loss": 0.01702267862856388,
+      "eval_mae": 0.09951028972864151,
+      "eval_mse": 0.017020724713802338,
+      "eval_r2": 0.23804915917081026,
+      "eval_runtime": 63.3322,
+      "eval_samples_per_second": 6.316,
+      "eval_steps_per_second": 0.395,
+      "step": 3250
+    },
+    {
+      "epoch": 13,
+      "learning_rate": 2.3589847721639617e-05,
+      "loss": 0.0164,
+      "step": 3300
+    },
+    {
+      "epoch": 13,
+      "eval_loss": 0.01695895753800869,
+      "eval_mae": 0.09931185096502304,
+      "eval_mse": 0.016959920525550842,
+      "eval_r2": 0.23948235402533236,
+      "eval_runtime": 62.2021,
+      "eval_samples_per_second": 6.431,
+      "eval_steps_per_second": 0.402,
+      "step": 3300
+    },
+    {
+      "epoch": 14,
+      "learning_rate": 2.2131295882745597e-05,
+      "loss": 0.0163,
+      "step": 3350
+    },
+    {
+      "epoch": 14,
+      "eval_loss": 0.016953853890299797,
+      "eval_mae": 0.09930908679962158,
+      "eval_mse": 0.016957899555563927,
+      "eval_r2": 0.2384040127996312,
+      "eval_runtime": 59.6825,
+      "eval_samples_per_second": 6.702,
+      "eval_steps_per_second": 0.419,
+      "step": 3350
+    },
+    {
+      "epoch": 14,
+      "learning_rate": 2.070636822698877e-05,
+      "loss": 0.0162,
+      "step": 3400
+    },
+    {
+      "epoch": 14,
+      "eval_loss": 0.016969269141554832,
+      "eval_mae": 0.09930410981178284,
+      "eval_mse": 0.016971617937088013,
+      "eval_r2": 0.23911331324321627,
+      "eval_runtime": 61.4012,
+      "eval_samples_per_second": 6.515,
+      "eval_steps_per_second": 0.407,
+      "step": 3400
+    },
+    {
+      "epoch": 14,
+      "learning_rate": 1.9316783959835345e-05,
+      "loss": 0.0164,
+      "step": 3450
+    },
+    {
+      "epoch": 14,
+      "eval_loss": 0.01695878989994526,
+      "eval_mae": 0.09929464012384415,
+      "eval_mse": 0.016956914216279984,
+      "eval_r2": 0.23904322049736015,
+      "eval_runtime": 61.0952,
+      "eval_samples_per_second": 6.547,
+      "eval_steps_per_second": 0.409,
+      "step": 3450
+    },
+    {
+      "epoch": 14,
+      "learning_rate": 1.796421964420285e-05,
+      "loss": 0.0164,
+      "step": 3500
+    },
+    {
+      "epoch": 14,
+      "eval_loss": 0.016925431787967682,
+      "eval_mae": 0.09921905398368835,
+      "eval_mse": 0.016928432509303093,
+      "eval_r2": 0.23861995325924557,
+      "eval_runtime": 58.2956,
+      "eval_samples_per_second": 6.862,
+      "eval_steps_per_second": 0.429,
+      "step": 3500
+    },
+    {
+      "epoch": 14,
+      "learning_rate": 1.665030717765149e-05,
+      "loss": 0.0163,
+      "step": 3550
+    },
+    {
+      "epoch": 14,
+      "eval_loss": 0.016955168917775154,
+      "eval_mae": 0.09928599745035172,
+      "eval_mse": 0.016958734020590782,
+      "eval_r2": 0.24003949016117532,
+      "eval_runtime": 60.224,
+      "eval_samples_per_second": 6.642,
+      "eval_steps_per_second": 0.415,
+      "step": 3550
+    },
+    {
+      "epoch": 15,
+      "learning_rate": 1.5376631823464953e-05,
+      "loss": 0.0163,
+      "step": 3600
+    },
+    {
+      "epoch": 15,
+      "eval_loss": 0.017045069485902786,
+      "eval_mae": 0.09952731430530548,
+      "eval_mse": 0.017046233639121056,
+      "eval_r2": 0.2409846653602259,
+      "eval_runtime": 56.9312,
+      "eval_samples_per_second": 7.026,
+      "eval_steps_per_second": 0.439,
+      "step": 3600
+    },
+    {
+      "epoch": 15,
+      "learning_rate": 1.4144730297996666e-05,
+      "loss": 0.0163,
+      "step": 3650
+    },
+    {
+      "epoch": 15,
+      "eval_loss": 0.01690911501646042,
+      "eval_mae": 0.09913720935583115,
+      "eval_mse": 0.01690947264432907,
+      "eval_r2": 0.24005320295619414,
+      "eval_runtime": 63.4396,
+      "eval_samples_per_second": 6.305,
+      "eval_steps_per_second": 0.394,
+      "step": 3650
+    },
+    {
+      "epoch": 15,
+      "learning_rate": 1.295608891658896e-05,
+      "loss": 0.0163,
+      "step": 3700
+    },
+    {
+      "epoch": 15,
+      "eval_loss": 0.016995713114738464,
+      "eval_mae": 0.09939228743314743,
+      "eval_mse": 0.016998106613755226,
+      "eval_r2": 0.24257331961419693,
+      "eval_runtime": 58.9315,
+      "eval_samples_per_second": 6.788,
+      "eval_steps_per_second": 0.424,
+      "step": 3700
+    },
+    {
+      "epoch": 15,
+      "learning_rate": 1.1812141800301945e-05,
+      "loss": 0.0163,
+      "step": 3750
+    },
+    {
+      "epoch": 15,
+      "eval_loss": 0.01695888675749302,
+      "eval_mae": 0.09927807003259659,
+      "eval_mse": 0.016960280016064644,
+      "eval_r2": 0.24255255772513262,
+      "eval_runtime": 58.2565,
+      "eval_samples_per_second": 6.866,
+      "eval_steps_per_second": 0.429,
+      "step": 3750
+    },
+    {
+      "epoch": 15,
+      "learning_rate": 1.0714269145616063e-05,
+      "loss": 0.0163,
+      "step": 3800
+    },
+    {
+      "epoch": 15,
+      "eval_loss": 0.016934260725975037,
+      "eval_mae": 0.09918724000453949,
+      "eval_mse": 0.016934024170041084,
+      "eval_r2": 0.23905501031932674,
+      "eval_runtime": 59.5916,
+      "eval_samples_per_second": 6.712,
+      "eval_steps_per_second": 0.42,
+      "step": 3800
+    },
+    {
+      "epoch": 16,
+      "learning_rate": 9.663795559195733e-06,
+      "loss": 0.0162,
+      "step": 3850
+    },
+    {
+      "epoch": 16,
+      "eval_loss": 0.016940169036388397,
+      "eval_mae": 0.09923317283391953,
+      "eval_mse": 0.016941731795668602,
+      "eval_r2": 0.2415171870593763,
+      "eval_runtime": 59.9307,
+      "eval_samples_per_second": 6.674,
+      "eval_steps_per_second": 0.417,
+      "step": 3850
+    },
+    {
+      "epoch": 16,
+      "learning_rate": 8.661988459723309e-06,
+      "loss": 0.0163,
+      "step": 3900
+    },
+    {
+      "epoch": 16,
+      "eval_loss": 0.01686818338930607,
+      "eval_mae": 0.09902676939964294,
+      "eval_mse": 0.01686619035899639,
+      "eval_r2": 0.23881856654464984,
+      "eval_runtime": 59.939,
+      "eval_samples_per_second": 6.673,
+      "eval_steps_per_second": 0.417,
+      "step": 3900
+    },
+    {
+      "epoch": 16,
+      "learning_rate": 7.710056548731447e-06,
+      "loss": 0.0164,
+      "step": 3950
+    },
+    {
+      "epoch": 16,
+      "eval_loss": 0.01692971959710121,
+      "eval_mae": 0.09918209910392761,
+      "eval_mse": 0.01693139225244522,
+      "eval_r2": 0.24229291180997825,
+      "eval_runtime": 58.0894,
+      "eval_samples_per_second": 6.886,
+      "eval_steps_per_second": 0.43,
+      "step": 3950
+    },
+    {
+      "epoch": 16,
+      "learning_rate": 6.809148352279182e-06,
+      "loss": 0.0163,
+      "step": 4000
+    },
+    {
+      "epoch": 16,
+      "eval_loss": 0.016949491575360298,
+      "eval_mae": 0.09925098717212677,
+      "eval_mse": 0.01695188321173191,
+      "eval_r2": 0.23993232169758605,
+      "eval_runtime": 61.4621,
+      "eval_samples_per_second": 6.508,
+      "eval_steps_per_second": 0.407,
+      "step": 4000
+    },
+    {
+      "epoch": 16,
+      "learning_rate": 5.960350835230766e-06,
+      "loss": 0.0163,
+      "step": 4050
+    },
+    {
+      "epoch": 16,
+      "eval_loss": 0.016934702172875404,
+      "eval_mae": 0.09920256584882736,
+      "eval_mse": 0.016937121748924255,
+      "eval_r2": 0.2416569624089897,
+      "eval_runtime": 58.2108,
+      "eval_samples_per_second": 6.872,
+      "eval_steps_per_second": 0.429,
+      "step": 4050
+    },
+    {
+      "epoch": 17,
+      "learning_rate": 5.164688089809444e-06,
+      "loss": 0.0162,
+      "step": 4100
+    },
+    {
+      "epoch": 17,
+      "eval_loss": 0.016918588429689407,
+      "eval_mae": 0.09915737062692642,
+      "eval_mse": 0.016918879002332687,
+      "eval_r2": 0.24260718873499565,
+      "eval_runtime": 56.8092,
+      "eval_samples_per_second": 7.041,
+      "eval_steps_per_second": 0.44,
+      "step": 4100
+    },
+    {
+      "epoch": 17,
+      "learning_rate": 4.423120100008582e-06,
+      "loss": 0.0163,
+      "step": 4150
+    },
+    {
+      "epoch": 17,
+      "eval_loss": 0.016940301284193993,
+      "eval_mae": 0.09919126331806183,
+      "eval_mse": 0.016939815133810043,
+      "eval_r2": 0.23998661125272824,
+      "eval_runtime": 59.9186,
+      "eval_samples_per_second": 6.676,
+      "eval_steps_per_second": 0.417,
+      "step": 4150
+    },
+    {
+      "epoch": 17,
+      "learning_rate": 3.7365415833504725e-06,
+      "loss": 0.0162,
+      "step": 4200
+    },
+    {
+      "epoch": 17,
+      "eval_loss": 0.016918940469622612,
+      "eval_mae": 0.09915791451931,
+      "eval_mse": 0.016918599605560303,
+      "eval_r2": 0.23974174795237568,
+      "eval_runtime": 63.0008,
+      "eval_samples_per_second": 6.349,
+      "eval_steps_per_second": 0.397,
+      "step": 4200
+    },
+    {
+      "epoch": 17,
+      "learning_rate": 3.105780911390738e-06,
+      "loss": 0.0163,
+      "step": 4250
+    },
+    {
+      "epoch": 17,
+      "eval_loss": 0.016923611983656883,
+      "eval_mae": 0.09916673600673676,
+      "eval_mse": 0.016924140974879265,
+      "eval_r2": 0.23963991013957076,
+      "eval_runtime": 56.3879,
+      "eval_samples_per_second": 7.094,
+      "eval_steps_per_second": 0.443,
+      "step": 4250
+    },
+    {
+      "epoch": 18,
+      "learning_rate": 2.5315991102703716e-06,
+      "loss": 0.0163,
+      "step": 4300
+    },
+    {
+      "epoch": 18,
+      "eval_loss": 0.01691032014787197,
+      "eval_mae": 0.09915610402822495,
+      "eval_mse": 0.01691248081624508,
+      "eval_r2": 0.24413583693173724,
+      "eval_runtime": 61.6302,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 0.406,
+      "step": 4300
+    },
+    {
+      "epoch": 18,
+      "learning_rate": 2.0146889425216476e-06,
+      "loss": 0.0163,
+      "step": 4350
+    },
+    {
+      "epoch": 18,
+      "eval_loss": 0.016894323751330376,
+      "eval_mae": 0.09909255057573318,
+      "eval_mse": 0.016893018037080765,
+      "eval_r2": 0.24154658591740408,
+      "eval_runtime": 61.7977,
+      "eval_samples_per_second": 6.473,
+      "eval_steps_per_second": 0.405,
+      "step": 4350
+    },
+    {
+      "epoch": 18,
+      "learning_rate": 1.555674071235358e-06,
+      "loss": 0.0163,
+      "step": 4400
+    },
+    {
+      "epoch": 18,
+      "eval_loss": 0.016896896064281464,
+      "eval_mae": 0.09909563511610031,
+      "eval_mse": 0.016896726563572884,
+      "eval_r2": 0.2395997969159448,
+      "eval_runtime": 63.3638,
+      "eval_samples_per_second": 6.313,
+      "eval_steps_per_second": 0.395,
+      "step": 4400
+    },
+    {
+      "epoch": 18,
+      "learning_rate": 1.155108307598024e-06,
+      "loss": 0.0163,
+      "step": 4450
+    },
+    {
+      "epoch": 18,
+      "eval_loss": 0.016881046816706657,
+      "eval_mae": 0.09909423440694809,
+      "eval_mse": 0.016880322247743607,
+      "eval_r2": 0.2425676493378176,
+      "eval_runtime": 60.1702,
+      "eval_samples_per_second": 6.648,
+      "eval_steps_per_second": 0.415,
+      "step": 4450
+    },
+    {
+      "epoch": 18,
+      "learning_rate": 8.134749427070376e-07,
+      "loss": 0.0163,
+      "step": 4500
+    },
+    {
+      "epoch": 18,
+      "eval_loss": 0.016920508816838264,
+      "eval_mae": 0.09913913160562515,
+      "eval_mse": 0.016919521614909172,
+      "eval_r2": 0.240687826762218,
+      "eval_runtime": 56.9763,
+      "eval_samples_per_second": 7.02,
+      "eval_steps_per_second": 0.439,
+      "step": 4500
+    },
+    {
+      "epoch": 19,
+      "learning_rate": 5.311861644696048e-07,
+      "loss": 0.0163,
+      "step": 4550
+    },
+    {
+      "epoch": 19,
+      "eval_loss": 0.016956361010670662,
+      "eval_mae": 0.09927552938461304,
+      "eval_mse": 0.016957107931375504,
+      "eval_r2": 0.23962235723125958,
+      "eval_runtime": 57.5809,
+      "eval_samples_per_second": 6.947,
+      "eval_steps_per_second": 0.434,
+      "step": 4550
+    },
+    {
+      "epoch": 19,
+      "learning_rate": 3.0858256028932776e-07,
+      "loss": 0.0163,
+      "step": 4600
+    },
+    {
+      "epoch": 19,
+      "eval_loss": 0.016894662752747536,
+      "eval_mae": 0.09909520298242569,
+      "eval_mse": 0.016894804313778877,
+      "eval_r2": 0.24004589904875062,
+      "eval_runtime": 58.5108,
+      "eval_samples_per_second": 6.836,
+      "eval_steps_per_second": 0.427,
+      "step": 4600
+    },
+    {
+      "epoch": 19,
+      "learning_rate": 1.4593270614026154e-07,
+      "loss": 0.0162,
+      "step": 4650
+    },
+    {
+      "epoch": 19,
+      "eval_loss": 0.016891133040189743,
+      "eval_mae": 0.09907051920890808,
+      "eval_mse": 0.016890019178390503,
+      "eval_r2": 0.24048031726771313,
+      "eval_runtime": 62.2953,
+      "eval_samples_per_second": 6.421,
+      "eval_steps_per_second": 0.401,
+      "step": 4650
+    },
+    {
+      "epoch": 19,
+      "learning_rate": 4.343284252429913e-08,
+      "loss": 0.0162,
+      "step": 4700
+    },
+    {
+      "epoch": 19,
+      "eval_loss": 0.016868911683559418,
+      "eval_mae": 0.0990411788225174,
+      "eval_mse": 0.016869619488716125,
+      "eval_r2": 0.24109475503821198,
+      "eval_runtime": 58.3864,
+      "eval_samples_per_second": 6.851,
+      "eval_steps_per_second": 0.428,
+      "step": 4700
+    }
+  ],
+  "max_steps": 4760,
+  "num_train_epochs": 20,
+  "total_flos": 2.0677241114343014e+20,
+  "trial_name": null,
+  "trial_params": null
+}

vitmae_111M/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca1fa2f0f9f90bc54e3b7413754762700c9f54a48fa5ac4947f41996883090a3
+size 4600

vitmae_650M/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_name_or_path": "/gpfs/gibbs/pi/dijk/BrainLM_runs/2023-11-15-14_47_00/checkpoint-3300",
+  "architectures": [
+    "ViTMAEForPreTraining"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "decoder_hidden_size": 512,
+  "decoder_intermediate_size": 2048,
+  "decoder_num_attention_heads": 16,
+  "decoder_num_hidden_layers": 8,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 1280,
+  "image_size": [
+    434,
+    434
+  ],
+  "initializer_range": 0.02,
+  "intermediate_size": 5120,
+  "layer_norm_eps": 1e-12,
+  "mask_ratio": 0.75,
+  "model_type": "vit_mae",
+  "norm_pix_loss": false,
+  "num_attention_heads": 16,
+  "num_channels": 3,
+  "num_hidden_layers": 32,
+  "patch_size": 14,
+  "qkv_bias": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.28.0"
+}

vitmae_650M/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b4c403704b4bf8d800cb5aca85db4fd52a982af0a045c9633f510dd87bc99b2
+size 5253303842

vitmae_650M/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8221b7ad99f5dd42ee1f58cca4824b2904157c9e16ab2cd47cf377e8a90f75a6
+size 2633576194

vitmae_650M/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ef164f3ddf0ee3f3595bb53948fa8352bf6391c8eb9b01bbd66fed8c46988da
+size 14244

vitmae_650M/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15d60713e239aa461be03135bdbca99b2bfe14ea1d561b3ce05394a2a8b3b9e7
+size 988

vitmae_650M/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5dc1bb0e97fd476b1d9a69ca508d6cd21c01eb4920bd2c8d40259d50b0e95e6f
+size 1064

vitmae_650M/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1580 @@

+{
+  "best_metric": 0.016573524102568626,
+  "best_model_checkpoint": "/gpfs/gibbs/pi/dijk/BrainLM_runs/2023-11-17-17_37_00/checkpoint-4400",
+  "epoch": 19.292899505226252,
+  "global_step": 4600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "learning_rate": 2.100840336134454e-05,
+      "loss": 0.0205,
+      "step": 50
+    },
+    {
+      "epoch": 0,
+      "eval_loss": 0.020380878821015358,
+      "eval_mae": 0.10914861410856247,
+      "eval_mse": 0.020377445966005325,
+      "eval_r2": 0.08699230219766863,
+      "eval_runtime": 65.4495,
+      "eval_samples_per_second": 6.112,
+      "eval_steps_per_second": 3.056,
+      "step": 50
+    },
+    {
+      "epoch": 0,
+      "learning_rate": 4.201680672268908e-05,
+      "loss": 0.0195,
+      "step": 100
+    },
+    {
+      "epoch": 0,
+      "eval_loss": 0.01993260346353054,
+      "eval_mae": 0.10798273980617523,
+      "eval_mse": 0.019940046593546867,
+      "eval_r2": 0.10634720488402916,
+      "eval_runtime": 82.6009,
+      "eval_samples_per_second": 4.843,
+      "eval_steps_per_second": 2.421,
+      "step": 100
+    },
+    {
+      "epoch": 0,
+      "learning_rate": 6.302521008403361e-05,
+      "loss": 0.0191,
+      "step": 150
+    },
+    {
+      "epoch": 0,
+      "eval_loss": 0.01966927945613861,
+      "eval_mae": 0.10720709711313248,
+      "eval_mse": 0.019672850146889687,
+      "eval_r2": 0.1188939908583877,
+      "eval_runtime": 273.6405,
+      "eval_samples_per_second": 1.462,
+      "eval_steps_per_second": 0.731,
+      "step": 150
+    },
+    {
+      "epoch": 0,
+      "learning_rate": 8.403361344537815e-05,
+      "loss": 0.0189,
+      "step": 200
+    },
+    {
+      "epoch": 0,
+      "eval_loss": 0.019402366131544113,
+      "eval_mae": 0.10650211572647095,
+      "eval_mse": 0.01940837688744068,
+      "eval_r2": 0.1273264644968536,
+      "eval_runtime": 65.4954,
+      "eval_samples_per_second": 6.107,
+      "eval_steps_per_second": 3.054,
+      "step": 200
+    },
+    {
+      "epoch": 1,
+      "learning_rate": 9.999826244478293e-05,
+      "loss": 0.0187,
+      "step": 250
+    },
+    {
+      "epoch": 1,
+      "eval_loss": 0.019103730097413063,
+      "eval_mae": 0.10563357919454575,
+      "eval_mse": 0.01910446584224701,
+      "eval_r2": 0.14288129156056273,
+      "eval_runtime": 67.6226,
+      "eval_samples_per_second": 5.915,
+      "eval_steps_per_second": 2.958,
+      "step": 250
+    },
+    {
+      "epoch": 1,
+      "learning_rate": 9.995362383107962e-05,
+      "loss": 0.0183,
+      "step": 300
+    },
+    {
+      "epoch": 1,
+      "eval_loss": 0.0188433900475502,
+      "eval_mae": 0.1049303263425827,
+      "eval_mse": 0.018846124410629272,
+      "eval_r2": 0.15557466279282905,
+      "eval_runtime": 63.0108,
+      "eval_samples_per_second": 6.348,
+      "eval_steps_per_second": 3.174,
+      "step": 300
+    },
+    {
+      "epoch": 1,
+      "learning_rate": 9.98487151097676e-05,
+      "loss": 0.0181,
+      "step": 350
+    },
+    {
+      "epoch": 1,
+      "eval_loss": 0.018534274771809578,
+      "eval_mae": 0.10398274660110474,
+      "eval_mse": 0.018525807186961174,
+      "eval_r2": 0.16440368152546336,
+      "eval_runtime": 63.6126,
+      "eval_samples_per_second": 6.288,
+      "eval_steps_per_second": 3.144,
+      "step": 350
+    },
+    {
+      "epoch": 1,
+      "learning_rate": 9.968366285544619e-05,
+      "loss": 0.0179,
+      "step": 400
+    },
+    {
+      "epoch": 1,
+      "eval_loss": 0.01846296340227127,
+      "eval_mae": 0.10383900254964828,
+      "eval_mse": 0.018469005823135376,
+      "eval_r2": 0.17126507792798895,
+      "eval_runtime": 64.4338,
+      "eval_samples_per_second": 6.208,
+      "eval_steps_per_second": 3.104,
+      "step": 400
+    },
+    {
+      "epoch": 1,
+      "learning_rate": 9.945866620716411e-05,
+      "loss": 0.0177,
+      "step": 450
+    },
+    {
+      "epoch": 1,
+      "eval_loss": 0.01835346780717373,
+      "eval_mae": 0.10348159074783325,
+      "eval_mse": 0.018356231972575188,
+      "eval_r2": 0.1812631242910432,
+      "eval_runtime": 63.7952,
+      "eval_samples_per_second": 6.27,
+      "eval_steps_per_second": 3.135,
+      "step": 450
+    },
+    {
+      "epoch": 2,
+      "learning_rate": 9.917399662815391e-05,
+      "loss": 0.0176,
+      "step": 500
+    },
+    {
+      "epoch": 2,
+      "eval_loss": 0.018152762204408646,
+      "eval_mae": 0.10292253643274307,
+      "eval_mse": 0.018158329650759697,
+      "eval_r2": 0.18455260254083927,
+      "eval_runtime": 62.2123,
+      "eval_samples_per_second": 6.43,
+      "eval_steps_per_second": 3.215,
+      "step": 500
+    },
+    {
+      "epoch": 2,
+      "learning_rate": 9.882999757830588e-05,
+      "loss": 0.0175,
+      "step": 550
+    },
+    {
+      "epoch": 2,
+      "eval_loss": 0.018096117302775383,
+      "eval_mae": 0.10270749032497406,
+      "eval_mse": 0.01808706857264042,
+      "eval_r2": 0.1878013710016545,
+      "eval_runtime": 62.45,
+      "eval_samples_per_second": 6.405,
+      "eval_steps_per_second": 3.203,
+      "step": 550
+    },
+    {
+      "epoch": 2,
+      "learning_rate": 9.842708409977635e-05,
+      "loss": 0.0174,
+      "step": 600
+    },
+    {
+      "epoch": 2,
+      "eval_loss": 0.018007792532444,
+      "eval_mae": 0.10250235348939896,
+      "eval_mse": 0.01801513321697712,
+      "eval_r2": 0.19156642781886424,
+      "eval_runtime": 62.617,
+      "eval_samples_per_second": 6.388,
+      "eval_steps_per_second": 3.194,
+      "step": 600
+    },
+    {
+      "epoch": 2,
+      "learning_rate": 9.796574231623055e-05,
+      "loss": 0.0173,
+      "step": 650
+    },
+    {
+      "epoch": 2,
+      "eval_loss": 0.017887134104967117,
+      "eval_mae": 0.10214251279830933,
+      "eval_mse": 0.017883572727441788,
+      "eval_r2": 0.19610529281414957,
+      "eval_runtime": 63.0647,
+      "eval_samples_per_second": 6.343,
+      "eval_steps_per_second": 3.171,
+      "step": 650
+    },
+    {
+      "epoch": 2,
+      "learning_rate": 9.744652884632406e-05,
+      "loss": 0.0173,
+      "step": 700
+    },
+    {
+      "epoch": 2,
+      "eval_loss": 0.017843402922153473,
+      "eval_mae": 0.10201350599527359,
+      "eval_mse": 0.017849572002887726,
+      "eval_r2": 0.20036411183239422,
+      "eval_runtime": 63.1964,
+      "eval_samples_per_second": 6.329,
+      "eval_steps_per_second": 3.165,
+      "step": 700
+    },
+    {
+      "epoch": 3,
+      "learning_rate": 9.687007013213063e-05,
+      "loss": 0.0172,
+      "step": 750
+    },
+    {
+      "epoch": 3,
+      "eval_loss": 0.017804041504859924,
+      "eval_mae": 0.10189322382211685,
+      "eval_mse": 0.01781976968050003,
+      "eval_r2": 0.20562580407293896,
+      "eval_runtime": 63.7696,
+      "eval_samples_per_second": 6.273,
+      "eval_steps_per_second": 3.136,
+      "step": 750
+    },
+    {
+      "epoch": 3,
+      "learning_rate": 9.623706168332645e-05,
+      "loss": 0.0171,
+      "step": 800
+    },
+    {
+      "epoch": 3,
+      "eval_loss": 0.017708342522382736,
+      "eval_mae": 0.10164093226194382,
+      "eval_mse": 0.017712706699967384,
+      "eval_r2": 0.20602592052107038,
+      "eval_runtime": 63.456,
+      "eval_samples_per_second": 6.304,
+      "eval_steps_per_second": 3.152,
+      "step": 800
+    },
+    {
+      "epoch": 3,
+      "learning_rate": 9.554826723804303e-05,
+      "loss": 0.017,
+      "step": 850
+    },
+    {
+      "epoch": 3,
+      "eval_loss": 0.017668385058641434,
+      "eval_mae": 0.10145936906337738,
+      "eval_mse": 0.017669973894953728,
+      "eval_r2": 0.20682701060142172,
+      "eval_runtime": 63.5861,
+      "eval_samples_per_second": 6.291,
+      "eval_steps_per_second": 3.145,
+      "step": 850
+    },
+    {
+      "epoch": 3,
+      "learning_rate": 9.480451784140091e-05,
+      "loss": 0.017,
+      "step": 900
+    },
+    {
+      "epoch": 3,
+      "eval_loss": 0.017553946003317833,
+      "eval_mae": 0.10114699602127075,
+      "eval_mse": 0.01755087450146675,
+      "eval_r2": 0.2111549450823803,
+      "eval_runtime": 62.7965,
+      "eval_samples_per_second": 6.37,
+      "eval_steps_per_second": 3.185,
+      "step": 900
+    },
+    {
+      "epoch": 3,
+      "learning_rate": 9.400671084283607e-05,
+      "loss": 0.017,
+      "step": 950
+    },
+    {
+      "epoch": 3,
+      "eval_loss": 0.017535727471113205,
+      "eval_mae": 0.10109320282936096,
+      "eval_mse": 0.017534563317894936,
+      "eval_r2": 0.21152867082641214,
+      "eval_runtime": 62.081,
+      "eval_samples_per_second": 6.443,
+      "eval_steps_per_second": 3.222,
+      "step": 950
+    },
+    {
+      "epoch": 4,
+      "learning_rate": 9.315580881342876e-05,
+      "loss": 0.0168,
+      "step": 1000
+    },
+    {
+      "epoch": 4,
+      "eval_loss": 0.01751740463078022,
+      "eval_mae": 0.10102058947086334,
+      "eval_mse": 0.017521008849143982,
+      "eval_r2": 0.2173146917939317,
+      "eval_runtime": 63.7702,
+      "eval_samples_per_second": 6.273,
+      "eval_steps_per_second": 3.136,
+      "step": 1000
+    },
+    {
+      "epoch": 4,
+      "learning_rate": 9.225283838454111e-05,
+      "loss": 0.0169,
+      "step": 1050
+    },
+    {
+      "epoch": 4,
+      "eval_loss": 0.017473317682743073,
+      "eval_mae": 0.1008896455168724,
+      "eval_mse": 0.0174697358161211,
+      "eval_r2": 0.21592913051237428,
+      "eval_runtime": 63.0763,
+      "eval_samples_per_second": 6.342,
+      "eval_steps_per_second": 3.171,
+      "step": 1050
+    },
+    {
+      "epoch": 4,
+      "learning_rate": 9.129888900916456e-05,
+      "loss": 0.0168,
+      "step": 1100
+    },
+    {
+      "epoch": 4,
+      "eval_loss": 0.01740197278559208,
+      "eval_mae": 0.10066132992506027,
+      "eval_mse": 0.017395442351698875,
+      "eval_r2": 0.21965390849250066,
+      "eval_runtime": 62.679,
+      "eval_samples_per_second": 6.382,
+      "eval_steps_per_second": 3.191,
+      "step": 1100
+    },
+    {
+      "epoch": 4,
+      "learning_rate": 9.029511164747175e-05,
+      "loss": 0.0168,
+      "step": 1150
+    },
+    {
+      "epoch": 4,
+      "eval_loss": 0.01737840846180916,
+      "eval_mae": 0.100642628967762,
+      "eval_mse": 0.01738792657852173,
+      "eval_r2": 0.2177673870807011,
+      "eval_runtime": 63.0635,
+      "eval_samples_per_second": 6.343,
+      "eval_steps_per_second": 3.171,
+      "step": 1150
+    },
+    {
+      "epoch": 5,
+      "learning_rate": 8.924271737815854e-05,
+      "loss": 0.0167,
+      "step": 1200
+    },
+    {
+      "epoch": 5,
+      "eval_loss": 0.017356639727950096,
+      "eval_mae": 0.10054408758878708,
+      "eval_mse": 0.01736092008650303,
+      "eval_r2": 0.22268234003478382,
+      "eval_runtime": 62.6903,
+      "eval_samples_per_second": 6.381,
+      "eval_steps_per_second": 3.19,
+      "step": 1200
+    },
+    {
+      "epoch": 5,
+      "learning_rate": 8.814297593725199e-05,
+      "loss": 0.0167,
+      "step": 1250
+    },
+    {
+      "epoch": 5,
+      "eval_loss": 0.017370322719216347,
+      "eval_mae": 0.10060014575719833,
+      "eval_mse": 0.017372848466038704,
+      "eval_r2": 0.22218442610232647,
+      "eval_runtime": 62.9578,
+      "eval_samples_per_second": 6.353,
+      "eval_steps_per_second": 3.177,
+      "step": 1250
+    },
+    {
+      "epoch": 5,
+      "learning_rate": 8.699721418614673e-05,
+      "loss": 0.0167,
+      "step": 1300
+    },
+    {
+      "epoch": 5,
+      "eval_loss": 0.017255190759897232,
+      "eval_mae": 0.10025202482938766,
+      "eval_mse": 0.0172572061419487,
+      "eval_r2": 0.2245981157395297,
+      "eval_runtime": 62.725,
+      "eval_samples_per_second": 6.377,
+      "eval_steps_per_second": 3.189,
+      "step": 1300
+    },
+    {
+      "epoch": 5,
+      "learning_rate": 8.580681451071866e-05,
+      "loss": 0.0166,
+      "step": 1350
+    },
+    {
+      "epoch": 5,
+      "eval_loss": 0.017206793650984764,
+      "eval_mae": 0.10011155903339386,
+      "eval_mse": 0.017209110781550407,
+      "eval_r2": 0.22857719354252215,
+      "eval_runtime": 63.8964,
+      "eval_samples_per_second": 6.26,
+      "eval_steps_per_second": 3.13,
+      "step": 1350
+    },
+    {
+      "epoch": 5,
+      "learning_rate": 8.457321315344694e-05,
+      "loss": 0.0167,
+      "step": 1400
+    },
+    {
+      "epoch": 5,
+      "eval_loss": 0.017166156321763992,
+      "eval_mae": 0.10000505298376083,
+      "eval_mse": 0.017173225060105324,
+      "eval_r2": 0.22773855218146166,
+      "eval_runtime": 63.4268,
+      "eval_samples_per_second": 6.306,
+      "eval_steps_per_second": 3.153,
+      "step": 1400
+    },
+    {
+      "epoch": 6,
+      "learning_rate": 8.329789848055704e-05,
+      "loss": 0.0164,
+      "step": 1450
+    },
+    {
+      "epoch": 6,
+      "eval_loss": 0.01718437485396862,
+      "eval_mae": 0.10002291202545166,
+      "eval_mse": 0.01718369498848915,
+      "eval_r2": 0.2300388059901679,
+      "eval_runtime": 63.8338,
+      "eval_samples_per_second": 6.266,
+      "eval_steps_per_second": 3.133,
+      "step": 1450
+    },
+    {
+      "epoch": 6,
+      "learning_rate": 8.198240918627524e-05,
+      "loss": 0.0166,
+      "step": 1500
+    },
+    {
+      "epoch": 6,
+      "eval_loss": 0.017157739028334618,
+      "eval_mae": 0.09996546804904938,
+      "eval_mse": 0.017160937190055847,
+      "eval_r2": 0.23035895673172035,
+      "eval_runtime": 62.0856,
+      "eval_samples_per_second": 6.443,
+      "eval_steps_per_second": 3.221,
+      "step": 1500
+    },
+    {
+      "epoch": 6,
+      "learning_rate": 8.062833243636134e-05,
+      "loss": 0.0165,
+      "step": 1550
+    },
+    {
+      "epoch": 6,
+      "eval_loss": 0.01712297834455967,
+      "eval_mae": 0.09981416165828705,
+      "eval_mse": 0.017125777900218964,
+      "eval_r2": 0.23338275672251196,
+      "eval_runtime": 62.5642,
+      "eval_samples_per_second": 6.393,
+      "eval_steps_per_second": 3.197,
+      "step": 1550
+    },
+    {
+      "epoch": 6,
+      "learning_rate": 7.923730195315962e-05,
+      "loss": 0.0165,
+      "step": 1600
+    },
+    {
+      "epoch": 6,
+      "eval_loss": 0.01711028628051281,
+      "eval_mae": 0.09980826824903488,
+      "eval_mse": 0.01711735874414444,
+      "eval_r2": 0.23415986485617102,
+      "eval_runtime": 63.2895,
+      "eval_samples_per_second": 6.32,
+      "eval_steps_per_second": 3.16,
+      "step": 1600
+    },
+    {
+      "epoch": 6,
+      "learning_rate": 7.781099604447794e-05,
+      "loss": 0.0164,
+      "step": 1650
+    },
+    {
+      "epoch": 6,
+      "eval_loss": 0.017070267349481583,
+      "eval_mae": 0.09970243275165558,
+      "eval_mse": 0.01707725040614605,
+      "eval_r2": 0.23408428218933097,
+      "eval_runtime": 62.7311,
+      "eval_samples_per_second": 6.376,
+      "eval_steps_per_second": 3.188,
+      "step": 1650
+    },
+    {
+      "epoch": 7,
+      "learning_rate": 7.635113557867395e-05,
+      "loss": 0.0165,
+      "step": 1700
+    },
+    {
+      "epoch": 7,
+      "eval_loss": 0.017109189182519913,
+      "eval_mae": 0.09978970885276794,
+      "eval_mse": 0.017108654603362083,
+      "eval_r2": 0.23454243286934806,
+      "eval_runtime": 63.1248,
+      "eval_samples_per_second": 6.337,
+      "eval_steps_per_second": 3.168,
+      "step": 1700
+    },
+    {
+      "epoch": 7,
+      "learning_rate": 7.485948190839077e-05,
+      "loss": 0.0164,
+      "step": 1750
+    },
+    {
+      "epoch": 7,
+      "eval_loss": 0.01705513708293438,
+      "eval_mae": 0.09960421919822693,
+      "eval_mse": 0.017058243975043297,
+      "eval_r2": 0.2349071550024685,
+      "eval_runtime": 62.8704,
+      "eval_samples_per_second": 6.362,
+      "eval_steps_per_second": 3.181,
+      "step": 1750
+    },
+    {
+      "epoch": 7,
+      "learning_rate": 7.333783474544758e-05,
+      "loss": 0.0165,
+      "step": 1800
+    },
+    {
+      "epoch": 7,
+      "eval_loss": 0.01703445240855217,
+      "eval_mae": 0.09956526756286621,
+      "eval_mse": 0.017035936936736107,
+      "eval_r2": 0.23700014890629983,
+      "eval_runtime": 62.8756,
+      "eval_samples_per_second": 6.362,
+      "eval_steps_per_second": 3.181,
+      "step": 1800
+    },
+    {
+      "epoch": 7,
+      "learning_rate": 7.178802998944933e-05,
+      "loss": 0.0163,
+      "step": 1850
+    },
+    {
+      "epoch": 7,
+      "eval_loss": 0.017014818266034126,
+      "eval_mae": 0.09949322044849396,
+      "eval_mse": 0.01701194979250431,
+      "eval_r2": 0.23927528453479352,
+      "eval_runtime": 62.7426,
+      "eval_samples_per_second": 6.375,
+      "eval_steps_per_second": 3.188,
+      "step": 1850
+    },
+    {
+      "epoch": 7,
+      "learning_rate": 7.021193751273462e-05,
+      "loss": 0.0163,
+      "step": 1900
+    },
+    {
+      "epoch": 7,
+      "eval_loss": 0.016955234110355377,
+      "eval_mae": 0.09930498152971268,
+      "eval_mse": 0.01695319451391697,
+      "eval_r2": 0.2370158653005695,
+      "eval_runtime": 63.4621,
+      "eval_samples_per_second": 6.303,
+      "eval_steps_per_second": 3.151,
+      "step": 1900
+    },
+    {
+      "epoch": 8,
+      "learning_rate": 6.86114589043352e-05,
+      "loss": 0.0163,
+      "step": 1950
+    },
+    {
+      "epoch": 8,
+      "eval_loss": 0.016957027837634087,
+      "eval_mae": 0.09929080307483673,
+      "eval_mse": 0.016954666003584862,
+      "eval_r2": 0.23837789423341782,
+      "eval_runtime": 63.6096,
+      "eval_samples_per_second": 6.288,
+      "eval_steps_per_second": 3.144,
+      "step": 1950
+    },
+    {
+      "epoch": 8,
+      "learning_rate": 6.698852517566836e-05,
+      "loss": 0.0163,
+      "step": 2000
+    },
+    {
+      "epoch": 8,
+      "eval_loss": 0.016924967989325523,
+      "eval_mae": 0.09920791536569595,
+      "eval_mse": 0.016921618953347206,
+      "eval_r2": 0.23921405049323863,
+      "eval_runtime": 62.3232,
+      "eval_samples_per_second": 6.418,
+      "eval_steps_per_second": 3.209,
+      "step": 2000
+    },
+    {
+      "epoch": 8,
+      "learning_rate": 6.534509443073072e-05,
+      "loss": 0.0163,
+      "step": 2050
+    },
+    {
+      "epoch": 8,
+      "eval_loss": 0.016955628991127014,
+      "eval_mae": 0.09933258593082428,
+      "eval_mse": 0.01695682480931282,
+      "eval_r2": 0.24050878076217264,
+      "eval_runtime": 62.7525,
+      "eval_samples_per_second": 6.374,
+      "eval_steps_per_second": 3.187,
+      "step": 2050
+    },
+    {
+      "epoch": 8,
+      "learning_rate": 6.368314950360415e-05,
+      "loss": 0.0163,
+      "step": 2100
+    },
+    {
+      "epoch": 8,
+      "eval_loss": 0.016915885731577873,
+      "eval_mae": 0.09923145920038223,
+      "eval_mse": 0.01692046783864498,
+      "eval_r2": 0.24116580712888347,
+      "eval_runtime": 62.4103,
+      "eval_samples_per_second": 6.409,
+      "eval_steps_per_second": 3.205,
+      "step": 2100
+    },
+    {
+      "epoch": 9,
+      "learning_rate": 6.200469556612435e-05,
+      "loss": 0.0163,
+      "step": 2150
+    },
+    {
+      "epoch": 9,
+      "eval_loss": 0.016883673146367073,
+      "eval_mae": 0.09907432645559311,
+      "eval_mse": 0.016882291063666344,
+      "eval_r2": 0.23994247077801656,
+      "eval_runtime": 63.1914,
+      "eval_samples_per_second": 6.33,
+      "eval_steps_per_second": 3.165,
+      "step": 2150
+    },
+    {
+      "epoch": 9,
+      "learning_rate": 6.031175770859848e-05,
+      "loss": 0.0163,
+      "step": 2200
+    },
+    {
+      "epoch": 9,
+      "eval_loss": 0.01691693253815174,
+      "eval_mae": 0.09921909868717194,
+      "eval_mse": 0.01691514253616333,
+      "eval_r2": 0.24448073571582285,
+      "eval_runtime": 63.0869,
+      "eval_samples_per_second": 6.34,
+      "eval_steps_per_second": 3.17,
+      "step": 2200
+    },
+    {
+      "epoch": 9,
+      "learning_rate": 5.8606378496490735e-05,
+      "loss": 0.0163,
+      "step": 2250
+    },
+    {
+      "epoch": 9,
+      "eval_loss": 0.01691095158457756,
+      "eval_mae": 0.09917566925287247,
+      "eval_mse": 0.016911856830120087,
+      "eval_r2": 0.24367263560029062,
+      "eval_runtime": 62.6214,
+      "eval_samples_per_second": 6.388,
+      "eval_steps_per_second": 3.194,
+      "step": 2250
+    },
+    {
+      "epoch": 9,
+      "learning_rate": 5.6890615506023705e-05,
+      "loss": 0.0162,
+      "step": 2300
+    },
+    {
+      "epoch": 9,
+      "eval_loss": 0.016852255910634995,
+      "eval_mae": 0.09895263612270355,
+      "eval_mse": 0.016846586018800735,
+      "eval_r2": 0.24440525606317043,
+      "eval_runtime": 63.9638,
+      "eval_samples_per_second": 6.254,
+      "eval_steps_per_second": 3.127,
+      "step": 2300
+    },
+    {
+      "epoch": 9,
+      "learning_rate": 5.5166538841669025e-05,
+      "loss": 0.0161,
+      "step": 2350
+    },
+    {
+      "epoch": 9,
+      "eval_loss": 0.016831671819090843,
+      "eval_mae": 0.09894772619009018,
+      "eval_mse": 0.01683351770043373,
+      "eval_r2": 0.24440384235611556,
+      "eval_runtime": 63.0545,
+      "eval_samples_per_second": 6.344,
+      "eval_steps_per_second": 3.172,
+      "step": 2350
+    },
+    {
+      "epoch": 10,
+      "learning_rate": 5.343622863852232e-05,
+      "loss": 0.0163,
+      "step": 2400
+    },
+    {
+      "epoch": 10,
+      "eval_loss": 0.016827262938022614,
+      "eval_mae": 0.09892594069242477,
+      "eval_mse": 0.01683083176612854,
+      "eval_r2": 0.24909316086739675,
+      "eval_runtime": 62.71,
+      "eval_samples_per_second": 6.379,
+      "eval_steps_per_second": 3.189,
+      "step": 2400
+    },
+    {
+      "epoch": 10,
+      "learning_rate": 5.170177255257618e-05,
+      "loss": 0.0162,
+      "step": 2450
+    },
+    {
+      "epoch": 10,
+      "eval_loss": 0.016822684556245804,
+      "eval_mae": 0.09890511631965637,
+      "eval_mse": 0.016828058287501335,
+      "eval_r2": 0.24537013068417224,
+      "eval_runtime": 62.313,
+      "eval_samples_per_second": 6.419,
+      "eval_steps_per_second": 3.21,
+      "step": 2450
+    },
+    {
+      "epoch": 10,
+      "learning_rate": 4.996526324191872e-05,
+      "loss": 0.0161,
+      "step": 2500
+    },
+    {
+      "epoch": 10,
+      "eval_loss": 0.016806134954094887,
+      "eval_mae": 0.09885768592357635,
+      "eval_mse": 0.01680225133895874,
+      "eval_r2": 0.24621643781805225,
+      "eval_runtime": 62.9889,
+      "eval_samples_per_second": 6.35,
+      "eval_steps_per_second": 3.175,
+      "step": 2500
+    },
+    {
+      "epoch": 10,
+      "learning_rate": 4.822879584189731e-05,
+      "loss": 0.0162,
+      "step": 2550
+    },
+    {
+      "epoch": 10,
+      "eval_loss": 0.01680067367851734,
+      "eval_mae": 0.09885375201702118,
+      "eval_mse": 0.01680714637041092,
+      "eval_r2": 0.2480926793721172,
+      "eval_runtime": 62.8794,
+      "eval_samples_per_second": 6.361,
+      "eval_steps_per_second": 3.181,
+      "step": 2550
+    },
+    {
+      "epoch": 10,
+      "learning_rate": 4.6494465437293225e-05,
+      "loss": 0.0162,
+      "step": 2600
+    },
+    {
+      "epoch": 10,
+      "eval_loss": 0.01678573526442051,
+      "eval_mae": 0.09876307845115662,
+      "eval_mse": 0.01678406447172165,
+      "eval_r2": 0.24622674800267175,
+      "eval_runtime": 63.1145,
+      "eval_samples_per_second": 6.338,
+      "eval_steps_per_second": 3.169,
+      "step": 2600
+    },
+    {
+      "epoch": 11,
+      "learning_rate": 4.476436453455742e-05,
+      "loss": 0.0161,
+      "step": 2650
+    },
+    {
+      "epoch": 11,
+      "eval_loss": 0.016767781227827072,
+      "eval_mae": 0.09874103963375092,
+      "eval_mse": 0.01676834560930729,
+      "eval_r2": 0.24893675048568276,
+      "eval_runtime": 63.6881,
+      "eval_samples_per_second": 6.281,
+      "eval_steps_per_second": 3.14,
+      "step": 2650
+    },
+    {
+      "epoch": 11,
+      "learning_rate": 4.3040580537157024e-05,
+      "loss": 0.0161,
+      "step": 2700
+    },
+    {
+      "epoch": 11,
+      "eval_loss": 0.016766654327511787,
+      "eval_mae": 0.0987214520573616,
+      "eval_mse": 0.016764981672167778,
+      "eval_r2": 0.24921689372938038,
+      "eval_runtime": 62.2087,
+      "eval_samples_per_second": 6.43,
+      "eval_steps_per_second": 3.215,
+      "step": 2700
+    },
+    {
+      "epoch": 11,
+      "learning_rate": 4.1325193227078816e-05,
+      "loss": 0.0161,
+      "step": 2750
+    },
+    {
+      "epoch": 11,
+      "eval_loss": 0.01673816703259945,
+      "eval_mae": 0.09863594174385071,
+      "eval_mse": 0.01673576422035694,
+      "eval_r2": 0.24761288350255228,
+      "eval_runtime": 62.9694,
+      "eval_samples_per_second": 6.352,
+      "eval_steps_per_second": 3.176,
+      "step": 2750
+    },
+    {
+      "epoch": 11,
+      "learning_rate": 3.962027225552807e-05,
+      "loss": 0.0162,
+      "step": 2800
+    },
+    {
+      "epoch": 11,
+      "eval_loss": 0.016739826649427414,
+      "eval_mae": 0.09863518178462982,
+      "eval_mse": 0.016731785610318184,
+      "eval_r2": 0.24922910335616988,
+      "eval_runtime": 62.5788,
+      "eval_samples_per_second": 6.392,
+      "eval_steps_per_second": 3.196,
+      "step": 2800
+    },
+    {
+      "epoch": 11,
+      "learning_rate": 3.79278746458504e-05,
+      "loss": 0.0161,
+      "step": 2850
+    },
+    {
+      "epoch": 11,
+      "eval_loss": 0.016736237332224846,
+      "eval_mae": 0.09862860292196274,
+      "eval_mse": 0.016738129779696465,
+      "eval_r2": 0.24936630700011952,
+      "eval_runtime": 63.2169,
+      "eval_samples_per_second": 6.327,
+      "eval_steps_per_second": 3.164,
+      "step": 2850
+    },
+    {
+      "epoch": 12,
+      "learning_rate": 3.6250042311689505e-05,
+      "loss": 0.0161,
+      "step": 2900
+    },
+    {
+      "epoch": 12,
+      "eval_loss": 0.016720617190003395,
+      "eval_mae": 0.09856829792261124,
+      "eval_mse": 0.016721663996577263,
+      "eval_r2": 0.24943757367634767,
+      "eval_runtime": 62.9559,
+      "eval_samples_per_second": 6.354,
+      "eval_steps_per_second": 3.177,
+      "step": 2900
+    },
+    {
+      "epoch": 12,
+      "learning_rate": 3.458879959337494e-05,
+      "loss": 0.016,
+      "step": 2950
+    },
+    {
+      "epoch": 12,
+      "eval_loss": 0.01672213524580002,
+      "eval_mae": 0.0985676720738411,
+      "eval_mse": 0.016720319166779518,
+      "eval_r2": 0.24865355220765406,
+      "eval_runtime": 63.4117,
+      "eval_samples_per_second": 6.308,
+      "eval_steps_per_second": 3.154,
+      "step": 2950
+    },
+    {
+      "epoch": 12,
+      "learning_rate": 3.294615081551259e-05,
+      "loss": 0.0161,
+      "step": 3000
+    },
+    {
+      "epoch": 12,
+      "eval_loss": 0.016707362607121468,
+      "eval_mae": 0.09850940108299255,
+      "eval_mse": 0.016702940687537193,
+      "eval_r2": 0.24840998553438287,
+      "eval_runtime": 62.8197,
+      "eval_samples_per_second": 6.367,
+      "eval_steps_per_second": 3.184,
+      "step": 3000
+    },
+    {
+      "epoch": 12,
+      "learning_rate": 3.132407786872442e-05,
+      "loss": 0.0161,
+      "step": 3050
+    },
+    {
+      "epoch": 12,
+      "eval_loss": 0.01671912521123886,
+      "eval_mae": 0.09860337525606155,
+      "eval_mse": 0.016718650236725807,
+      "eval_r2": 0.2525614324396165,
+      "eval_runtime": 62.3061,
+      "eval_samples_per_second": 6.42,
+      "eval_steps_per_second": 3.21,
+      "step": 3050
+    },
+    {
+      "epoch": 13,
+      "learning_rate": 2.9724537818455466e-05,
+      "loss": 0.016,
+      "step": 3100
+    },
+    {
+      "epoch": 13,
+      "eval_loss": 0.016661079600453377,
+      "eval_mae": 0.09843301773071289,
+      "eval_mse": 0.016662681475281715,
+      "eval_r2": 0.25208811381954643,
+      "eval_runtime": 62.656,
+      "eval_samples_per_second": 6.384,
+      "eval_steps_per_second": 3.192,
+      "step": 3100
+    },
+    {
+      "epoch": 13,
+      "learning_rate": 2.8149460543732664e-05,
+      "loss": 0.0161,
+      "step": 3150
+    },
+    {
+      "epoch": 13,
+      "eval_loss": 0.016676336526870728,
+      "eval_mae": 0.09842842072248459,
+      "eval_mse": 0.01667998544871807,
+      "eval_r2": 0.25096189530992574,
+      "eval_runtime": 61.8687,
+      "eval_samples_per_second": 6.465,
+      "eval_steps_per_second": 3.233,
+      "step": 3150
+    },
+    {
+      "epoch": 13,
+      "learning_rate": 2.6600746408725063e-05,
+      "loss": 0.0161,
+      "step": 3200
+    },
+    {
+      "epoch": 13,
+      "eval_loss": 0.016732489690184593,
+      "eval_mae": 0.09858258813619614,
+      "eval_mse": 0.016734851524233818,
+      "eval_r2": 0.25186837331344525,
+      "eval_runtime": 62.9675,
+      "eval_samples_per_second": 6.352,
+      "eval_steps_per_second": 3.176,
+      "step": 3200
+    },
+    {
+      "epoch": 13,
+      "learning_rate": 2.5080263969913897e-05,
+      "loss": 0.016,
+      "step": 3250
+    },
+    {
+      "epoch": 13,
+      "eval_loss": 0.016638994216918945,
+      "eval_mae": 0.09835705161094666,
+      "eval_mse": 0.016642747446894646,
+      "eval_r2": 0.25120772331092656,
+      "eval_runtime": 62.2252,
+      "eval_samples_per_second": 6.428,
+      "eval_steps_per_second": 3.214,
+      "step": 3250
+    },
+    {
+      "epoch": 13,
+      "learning_rate": 2.3589847721639617e-05,
+      "loss": 0.0161,
+      "step": 3300
+    },
+    {
+      "epoch": 13,
+      "eval_loss": 0.01668979413807392,
+      "eval_mae": 0.09847620874643326,
+      "eval_mse": 0.016691412776708603,
+      "eval_r2": 0.2516642585572433,
+      "eval_runtime": 63.1219,
+      "eval_samples_per_second": 6.337,
+      "eval_steps_per_second": 3.168,
+      "step": 3300
+    },
+    {
+      "epoch": 14,
+      "learning_rate": 2.2131295882745597e-05,
+      "loss": 0.016,
+      "step": 3350
+    },
+    {
+      "epoch": 14,
+      "eval_loss": 0.016662921756505966,
+      "eval_mae": 0.09842050820589066,
+      "eval_mse": 0.016670849174261093,
+      "eval_r2": 0.2505160489332994,
+      "eval_runtime": 62.776,
+      "eval_samples_per_second": 6.372,
+      "eval_steps_per_second": 3.186,
+      "step": 3350
+    },
+    {
+      "epoch": 14,
+      "learning_rate": 2.070636822698877e-05,
+      "loss": 0.0159,
+      "step": 3400
+    },
+    {
+      "epoch": 14,
+      "eval_loss": 0.01665448024868965,
+      "eval_mae": 0.09836740046739578,
+      "eval_mse": 0.016657505184412003,
+      "eval_r2": 0.25081546773511,
+      "eval_runtime": 62.5067,
+      "eval_samples_per_second": 6.399,
+      "eval_steps_per_second": 3.2,
+      "step": 3400
+    },
+    {
+      "epoch": 14,
+      "learning_rate": 1.9316783959835345e-05,
+      "loss": 0.016,
+      "step": 3450
+    },
+    {
+      "epoch": 14,
+      "eval_loss": 0.01669839210808277,
+      "eval_mae": 0.09849409759044647,
+      "eval_mse": 0.01669597439467907,
+      "eval_r2": 0.25497888003639246,
+      "eval_runtime": 63.4933,
+      "eval_samples_per_second": 6.3,
+      "eval_steps_per_second": 3.15,
+      "step": 3450
+    },
+    {
+      "epoch": 14,
+      "learning_rate": 1.796421964420285e-05,
+      "loss": 0.0161,
+      "step": 3500
+    },
+    {
+      "epoch": 14,
+      "eval_loss": 0.01662326790392399,
+      "eval_mae": 0.0982794538140297,
+      "eval_mse": 0.016625171527266502,
+      "eval_r2": 0.2520529598686879,
+      "eval_runtime": 62.7103,
+      "eval_samples_per_second": 6.379,
+      "eval_steps_per_second": 3.189,
+      "step": 3500
+    },
+    {
+      "epoch": 14,
+      "learning_rate": 1.665030717765149e-05,
+      "loss": 0.016,
+      "step": 3550
+    },
+    {
+      "epoch": 14,
+      "eval_loss": 0.016656357795000076,
+      "eval_mae": 0.09835183620452881,
+      "eval_mse": 0.016651729121804237,
+      "eval_r2": 0.2521458867843698,
+      "eval_runtime": 64.4578,
+      "eval_samples_per_second": 6.206,
+      "eval_steps_per_second": 3.103,
+      "step": 3550
+    },
+    {
+      "epoch": 15,
+      "learning_rate": 1.5376631823464953e-05,
+      "loss": 0.0161,
+      "step": 3600
+    },
+    {
+      "epoch": 15,
+      "eval_loss": 0.01665300317108631,
+      "eval_mae": 0.09836214780807495,
+      "eval_mse": 0.01665370911359787,
+      "eval_r2": 0.25267425736469795,
+      "eval_runtime": 63.0441,
+      "eval_samples_per_second": 6.345,
+      "eval_steps_per_second": 3.172,
+      "step": 3600
+    },
+    {
+      "epoch": 15,
+      "learning_rate": 1.4144730297996666e-05,
+      "loss": 0.016,
+      "step": 3650
+    },
+    {
+      "epoch": 15,
+      "eval_loss": 0.01662749983370304,
+      "eval_mae": 0.09827445447444916,
+      "eval_mse": 0.016627401113510132,
+      "eval_r2": 0.2526889218862315,
+      "eval_runtime": 62.6614,
+      "eval_samples_per_second": 6.384,
+      "eval_steps_per_second": 3.192,
+      "step": 3650
+    },
+    {
+      "epoch": 15,
+      "learning_rate": 1.295608891658896e-05,
+      "loss": 0.016,
+      "step": 3700
+    },
+    {
+      "epoch": 15,
+      "eval_loss": 0.016592269763350487,
+      "eval_mae": 0.09820396453142166,
+      "eval_mse": 0.0165996253490448,
+      "eval_r2": 0.25472996642841683,
+      "eval_runtime": 63.4328,
+      "eval_samples_per_second": 6.306,
+      "eval_steps_per_second": 3.153,
+      "step": 3700
+    },
+    {
+      "epoch": 15,
+      "learning_rate": 1.1812141800301945e-05,
+      "loss": 0.016,
+      "step": 3750
+    },
+    {
+      "epoch": 15,
+      "eval_loss": 0.016636423766613007,
+      "eval_mae": 0.0983065739274025,
+      "eval_mse": 0.016633499413728714,
+      "eval_r2": 0.25374046203309764,
+      "eval_runtime": 62.8839,
+      "eval_samples_per_second": 6.361,
+      "eval_steps_per_second": 3.18,
+      "step": 3750
+    },
+    {
+      "epoch": 15,
+      "learning_rate": 1.0714269145616063e-05,
+      "loss": 0.0159,
+      "step": 3800
+    },
+    {
+      "epoch": 15,
+      "eval_loss": 0.016631022095680237,
+      "eval_mae": 0.09828473627567291,
+      "eval_mse": 0.01662875898182392,
+      "eval_r2": 0.25143078561422905,
+      "eval_runtime": 62.4886,
+      "eval_samples_per_second": 6.401,
+      "eval_steps_per_second": 3.201,
+      "step": 3800
+    },
+    {
+      "epoch": 16,
+      "learning_rate": 9.663795559195733e-06,
+      "loss": 0.0159,
+      "step": 3850
+    },
+    {
+      "epoch": 16,
+      "eval_loss": 0.016640575602650642,
+      "eval_mae": 0.09832051396369934,
+      "eval_mse": 0.016639817506074905,
+      "eval_r2": 0.25420519067693936,
+      "eval_runtime": 63.7918,
+      "eval_samples_per_second": 6.27,
+      "eval_steps_per_second": 3.135,
+      "step": 3850
+    },
+    {
+      "epoch": 16,
+      "learning_rate": 8.661988459723309e-06,
+      "loss": 0.016,
+      "step": 3900
+    },
+    {
+      "epoch": 16,
+      "eval_loss": 0.016633687540888786,
+      "eval_mae": 0.09830807894468307,
+      "eval_mse": 0.0166340135037899,
+      "eval_r2": 0.2559419583101087,
+      "eval_runtime": 64.9995,
+      "eval_samples_per_second": 6.154,
+      "eval_steps_per_second": 3.077,
+      "step": 3900
+    },
+    {
+      "epoch": 16,
+      "learning_rate": 7.710056548731447e-06,
+      "loss": 0.016,
+      "step": 3950
+    },
+    {
+      "epoch": 16,
+      "eval_loss": 0.01665404625236988,
+      "eval_mae": 0.09835316985845566,
+      "eval_mse": 0.01665414310991764,
+      "eval_r2": 0.25389154611800946,
+      "eval_runtime": 63.3284,
+      "eval_samples_per_second": 6.316,
+      "eval_steps_per_second": 3.158,
+      "step": 3950
+    },
+    {
+      "epoch": 16,
+      "learning_rate": 6.809148352279182e-06,
+      "loss": 0.016,
+      "step": 4000
+    },
+    {
+      "epoch": 16,
+      "eval_loss": 0.016643621027469635,
+      "eval_mae": 0.09831266850233078,
+      "eval_mse": 0.0166462492197752,
+      "eval_r2": 0.253610910132235,
+      "eval_runtime": 62.8474,
+      "eval_samples_per_second": 6.365,
+      "eval_steps_per_second": 3.182,
+      "step": 4000
+    },
+    {
+      "epoch": 16,
+      "learning_rate": 5.960350835230766e-06,
+      "loss": 0.0159,
+      "step": 4050
+    },
+    {
+      "epoch": 16,
+      "eval_loss": 0.016641885042190552,
+      "eval_mae": 0.09831728786230087,
+      "eval_mse": 0.01664014533162117,
+      "eval_r2": 0.2530172455633002,
+      "eval_runtime": 62.9766,
+      "eval_samples_per_second": 6.352,
+      "eval_steps_per_second": 3.176,
+      "step": 4050
+    },
+    {
+      "epoch": 17,
+      "learning_rate": 5.164688089809444e-06,
+      "loss": 0.0159,
+      "step": 4100
+    },
+    {
+      "epoch": 17,
+      "eval_loss": 0.016620321199297905,
+      "eval_mae": 0.09825479984283447,
+      "eval_mse": 0.016620123758912086,
+      "eval_r2": 0.2543216647578763,
+      "eval_runtime": 63.7821,
+      "eval_samples_per_second": 6.271,
+      "eval_steps_per_second": 3.136,
+      "step": 4100
+    },
+    {
+      "epoch": 17,
+      "learning_rate": 4.423120100008582e-06,
+      "loss": 0.016,
+      "step": 4150
+    },
+    {
+      "epoch": 17,
+      "eval_loss": 0.016626114025712013,
+      "eval_mae": 0.0982520654797554,
+      "eval_mse": 0.01661662384867668,
+      "eval_r2": 0.25688829356860643,
+      "eval_runtime": 63.3768,
+      "eval_samples_per_second": 6.311,
+      "eval_steps_per_second": 3.156,
+      "step": 4150
+    },
+    {
+      "epoch": 17,
+      "learning_rate": 3.7365415833504725e-06,
+      "loss": 0.0159,
+      "step": 4200
+    },
+    {
+      "epoch": 17,
+      "eval_loss": 0.016621023416519165,
+      "eval_mae": 0.0982469841837883,
+      "eval_mse": 0.01662403903901577,
+      "eval_r2": 0.2562592876194061,
+      "eval_runtime": 63.3616,
+      "eval_samples_per_second": 6.313,
+      "eval_steps_per_second": 3.156,
+      "step": 4200
+    },
+    {
+      "epoch": 17,
+      "learning_rate": 3.105780911390738e-06,
+      "loss": 0.016,
+      "step": 4250
+    },
+    {
+      "epoch": 17,
+      "eval_loss": 0.01661110669374466,
+      "eval_mae": 0.09821216762065887,
+      "eval_mse": 0.016603710129857063,
+      "eval_r2": 0.2534045631002596,
+      "eval_runtime": 63.6674,
+      "eval_samples_per_second": 6.283,
+      "eval_steps_per_second": 3.141,
+      "step": 4250
+    },
+    {
+      "epoch": 18,
+      "learning_rate": 2.5315991102703716e-06,
+      "loss": 0.016,
+      "step": 4300
+    },
+    {
+      "epoch": 18,
+      "eval_loss": 0.016594773158431053,
+      "eval_mae": 0.09816820174455643,
+      "eval_mse": 0.016600053757429123,
+      "eval_r2": 0.25425809369382535,
+      "eval_runtime": 63.3127,
+      "eval_samples_per_second": 6.318,
+      "eval_steps_per_second": 3.159,
+      "step": 4300
+    },
+    {
+      "epoch": 18,
+      "learning_rate": 2.0146889425216476e-06,
+      "loss": 0.016,
+      "step": 4350
+    },
+    {
+      "epoch": 18,
+      "eval_loss": 0.016598813235759735,
+      "eval_mae": 0.09816797077655792,
+      "eval_mse": 0.016591567546129227,
+      "eval_r2": 0.2551125072294508,
+      "eval_runtime": 61.9837,
+      "eval_samples_per_second": 6.453,
+      "eval_steps_per_second": 3.227,
+      "step": 4350
+    },
+    {
+      "epoch": 18,
+      "learning_rate": 1.555674071235358e-06,
+      "loss": 0.0159,
+      "step": 4400
+    },
+    {
+      "epoch": 18,
+      "eval_loss": 0.016573524102568626,
+      "eval_mae": 0.09814300388097763,
+      "eval_mse": 0.016571756452322006,
+      "eval_r2": 0.25463921169715287,
+      "eval_runtime": 63.1303,
+      "eval_samples_per_second": 6.336,
+      "eval_steps_per_second": 3.168,
+      "step": 4400
+    },
+    {
+      "epoch": 18,
+      "learning_rate": 1.155108307598024e-06,
+      "loss": 0.016,
+      "step": 4450
+    },
+    {
+      "epoch": 18,
+      "eval_loss": 0.016580162569880486,
+      "eval_mae": 0.09815159440040588,
+      "eval_mse": 0.01658167876303196,
+      "eval_r2": 0.25566179703610914,
+      "eval_runtime": 63.3862,
+      "eval_samples_per_second": 6.311,
+      "eval_steps_per_second": 3.155,
+      "step": 4450
+    },
+    {
+      "epoch": 18,
+      "learning_rate": 8.134749427070376e-07,
+      "loss": 0.016,
+      "step": 4500
+    },
+    {
+      "epoch": 18,
+      "eval_loss": 0.016592783853411674,
+      "eval_mae": 0.0981706902384758,
+      "eval_mse": 0.016597216948866844,
+      "eval_r2": 0.25482598937850753,
+      "eval_runtime": 63.3827,
+      "eval_samples_per_second": 6.311,
+      "eval_steps_per_second": 3.155,
+      "step": 4500
+    },
+    {
+      "epoch": 19,
+      "learning_rate": 5.311861644696048e-07,
+      "loss": 0.0159,
+      "step": 4550
+    },
+    {
+      "epoch": 19,
+      "eval_loss": 0.01663564145565033,
+      "eval_mae": 0.09826894104480743,
+      "eval_mse": 0.0166276004165411,
+      "eval_r2": 0.2547617221900892,
+      "eval_runtime": 62.9726,
+      "eval_samples_per_second": 6.352,
+      "eval_steps_per_second": 3.176,
+      "step": 4550
+    },
+    {
+      "epoch": 19,
+      "learning_rate": 3.0858256028932776e-07,
+      "loss": 0.016,
+      "step": 4600
+    },
+    {
+      "epoch": 19,
+      "eval_loss": 0.016616160050034523,
+      "eval_mae": 0.09824874997138977,
+      "eval_mse": 0.016616739332675934,
+      "eval_r2": 0.2550670819722727,
+      "eval_runtime": 62.541,
+      "eval_samples_per_second": 6.396,
+      "eval_steps_per_second": 3.198,
+      "step": 4600
+    }
+  ],
+  "max_steps": 4760,
+  "num_train_epochs": 20,
+  "total_flos": 1.1833548390119886e+21,
+  "trial_name": null,
+  "trial_params": null
+}

vitmae_650M/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dabe900a5dac07f1090e31642262ba5bfd2e2d8732a1bd9d8dc5569c5c5ad991
+size 4600