End of training

Browse files

Files changed (6) hide show

README.md +4 -1
all_results.json +9 -9
eval_results.json +5 -5
runs/Feb19_16-14-54_galactica.ad.cirange.net/events.out.tfevents.1739985392.galactica.ad.cirange.net.2991274.1 +3 -0
train_results.json +4 -4
trainer_state.json +246 -246

README.md CHANGED Viewed

@@ -3,6 +3,9 @@ library_name: transformers
 license: apache-2.0
 base_model: c14kevincardenas/beit-large-patch16-384-limb
 tags:
 - generated_from_trainer
 model-index:
 - name: limbxy_pose_2heads_1layers_8embeddim
@@ -14,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # limbxy_pose_2heads_1layers_8embeddim
-This model is a fine-tuned version of [c14kevincardenas/beit-large-patch16-384-limb](https://huggingface.co/c14kevincardenas/beit-large-patch16-384-limb) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0077
 - Rmse: 0.0876

 license: apache-2.0
 base_model: c14kevincardenas/beit-large-patch16-384-limb
 tags:
+- image-regression
+- human-movement
+- vision
 - generated_from_trainer
 model-index:
 - name: limbxy_pose_2heads_1layers_8embeddim
 # limbxy_pose_2heads_1layers_8embeddim
+This model is a fine-tuned version of [c14kevincardenas/beit-large-patch16-384-limb](https://huggingface.co/c14kevincardenas/beit-large-patch16-384-limb) on the c14kevincardenas/beta_caller_284_limbxy_pose dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0077
 - Rmse: 0.0876

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 20.0,
-    "eval_loss": 0.1402168720960617,
-    "eval_rmse": 0.37445545196533203,
-    "eval_runtime": 9.652,
-    "eval_samples_per_second": 103.605,
-    "eval_steps_per_second": 1.658,
     "total_flos": 0.0,
-    "train_loss": 0.16565035152971075,
-    "train_runtime": 3332.9842,
-    "train_samples_per_second": 33.976,
-    "train_steps_per_second": 0.534
 }

 {
     "epoch": 20.0,
+    "eval_loss": 0.007665493991225958,
+    "eval_rmse": 0.08755281567573547,
+    "eval_runtime": 9.8779,
+    "eval_samples_per_second": 101.236,
+    "eval_steps_per_second": 1.62,
     "total_flos": 0.0,
+    "train_loss": 0.10928233507602067,
+    "train_runtime": 3299.6169,
+    "train_samples_per_second": 34.319,
+    "train_steps_per_second": 0.539
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "eval_loss": 0.1402168720960617,
-    "eval_rmse": 0.37445545196533203,
-    "eval_runtime": 9.652,
-    "eval_samples_per_second": 103.605,
-    "eval_steps_per_second": 1.658
 }

 {
     "epoch": 20.0,
+    "eval_loss": 0.007665493991225958,
+    "eval_rmse": 0.08755281567573547,
+    "eval_runtime": 9.8779,
+    "eval_samples_per_second": 101.236,
+    "eval_steps_per_second": 1.62
 }

runs/Feb19_16-14-54_galactica.ad.cirange.net/events.out.tfevents.1739985392.galactica.ad.cirange.net.2991274.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71b8477a11731996ee379c0788791671e5683f7e7ef5c81c72beb57a45b87300
+size 407

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
     "total_flos": 0.0,
-    "train_loss": 0.16565035152971075,
-    "train_runtime": 3332.9842,
-    "train_samples_per_second": 33.976,
-    "train_steps_per_second": 0.534
 }

 {
     "epoch": 20.0,
     "total_flos": 0.0,
+    "train_loss": 0.10928233507602067,
+    "train_runtime": 3299.6169,
+    "train_samples_per_second": 34.319,
+    "train_steps_per_second": 0.539
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.1402168720960617,
   "best_model_checkpoint": "limbxy_pose/checkpoint-1780",
   "epoch": 20.0,
   "eval_steps": 500,
@@ -10,689 +10,689 @@
   "log_history": [
     {
       "epoch": 0.2808988764044944,
-      "grad_norm": 1.4306482431017398e-12,
       "learning_rate": 5e-06,
-      "loss": 0.3282,
       "step": 25
     },
     {
       "epoch": 0.5617977528089888,
-      "grad_norm": 7.286453206209118e-14,
       "learning_rate": 1e-05,
-      "loss": 0.3304,
       "step": 50
     },
     {
       "epoch": 0.8426966292134831,
-      "grad_norm": 1.7020333059614146e-11,
       "learning_rate": 1.5e-05,
-      "loss": 0.3414,
       "step": 75
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.33112141489982605,
-      "eval_rmse": 0.5754314661026001,
-      "eval_runtime": 9.461,
-      "eval_samples_per_second": 105.697,
-      "eval_steps_per_second": 1.691,
       "step": 89
     },
     {
       "epoch": 1.1235955056179776,
-      "grad_norm": 4.0378258462508976e-13,
       "learning_rate": 2e-05,
-      "loss": 0.3408,
       "step": 100
     },
     {
       "epoch": 1.404494382022472,
-      "grad_norm": 38181.53515625,
       "learning_rate": 2.5e-05,
-      "loss": 0.2674,
       "step": 125
     },
     {
       "epoch": 1.6853932584269664,
-      "grad_norm": 1195767.75,
       "learning_rate": 3e-05,
-      "loss": 0.1862,
       "step": 150
     },
     {
       "epoch": 1.9662921348314608,
-      "grad_norm": 4560497.0,
       "learning_rate": 3.5e-05,
-      "loss": 0.1834,
       "step": 175
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.2025543600320816,
-      "eval_rmse": 0.4500603973865509,
-      "eval_runtime": 9.155,
-      "eval_samples_per_second": 109.23,
-      "eval_steps_per_second": 1.748,
       "step": 178
     },
     {
       "epoch": 2.247191011235955,
-      "grad_norm": 2378441.75,
       "learning_rate": 4e-05,
-      "loss": 0.1947,
       "step": 200
     },
     {
       "epoch": 2.5280898876404496,
-      "grad_norm": 1214816.375,
       "learning_rate": 4.5e-05,
-      "loss": 0.1846,
       "step": 225
     },
     {
       "epoch": 2.808988764044944,
-      "grad_norm": 596520.4375,
       "learning_rate": 5e-05,
-      "loss": 0.1645,
       "step": 250
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.14911922812461853,
-      "eval_rmse": 0.38615959882736206,
-      "eval_runtime": 9.1063,
-      "eval_samples_per_second": 109.815,
-      "eval_steps_per_second": 1.757,
       "step": 267
     },
     {
       "epoch": 3.0898876404494384,
-      "grad_norm": 789416.375,
       "learning_rate": 4.918300653594771e-05,
-      "loss": 0.1692,
       "step": 275
     },
     {
       "epoch": 3.370786516853933,
-      "grad_norm": 3581939.75,
       "learning_rate": 4.8366013071895424e-05,
-      "loss": 0.1954,
       "step": 300
     },
     {
       "epoch": 3.6516853932584272,
-      "grad_norm": 2062457.125,
       "learning_rate": 4.7549019607843135e-05,
-      "loss": 0.1924,
       "step": 325
     },
     {
       "epoch": 3.932584269662921,
-      "grad_norm": 2538814.0,
       "learning_rate": 4.673202614379085e-05,
-      "loss": 0.1729,
       "step": 350
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.2542487680912018,
-      "eval_rmse": 0.5042308568954468,
-      "eval_runtime": 9.4787,
-      "eval_samples_per_second": 105.5,
-      "eval_steps_per_second": 1.688,
       "step": 356
     },
     {
       "epoch": 4.213483146067416,
-      "grad_norm": 5207696.0,
       "learning_rate": 4.5915032679738564e-05,
-      "loss": 0.1845,
       "step": 375
     },
     {
       "epoch": 4.49438202247191,
-      "grad_norm": 2629999.75,
       "learning_rate": 4.5098039215686275e-05,
-      "loss": 0.1854,
       "step": 400
     },
     {
       "epoch": 4.775280898876405,
-      "grad_norm": 764233.0625,
       "learning_rate": 4.4281045751633986e-05,
-      "loss": 0.1612,
       "step": 425
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.15393178164958954,
-      "eval_rmse": 0.39234140515327454,
-      "eval_runtime": 9.1662,
-      "eval_samples_per_second": 109.097,
-      "eval_steps_per_second": 1.746,
       "step": 445
     },
     {
       "epoch": 5.056179775280899,
-      "grad_norm": 5359111.0,
       "learning_rate": 4.3464052287581704e-05,
-      "loss": 0.1679,
       "step": 450
     },
     {
       "epoch": 5.337078651685394,
-      "grad_norm": 5016195.0,
       "learning_rate": 4.2647058823529415e-05,
-      "loss": 0.1658,
       "step": 475
     },
     {
       "epoch": 5.617977528089888,
-      "grad_norm": 1101185.75,
       "learning_rate": 4.1830065359477126e-05,
-      "loss": 0.1567,
       "step": 500
     },
     {
       "epoch": 5.898876404494382,
-      "grad_norm": 2115526.0,
       "learning_rate": 4.101307189542484e-05,
-      "loss": 0.1578,
       "step": 525
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.14643920958042145,
-      "eval_rmse": 0.38267379999160767,
-      "eval_runtime": 9.2072,
-      "eval_samples_per_second": 108.61,
-      "eval_steps_per_second": 1.738,
       "step": 534
     },
     {
       "epoch": 6.179775280898877,
-      "grad_norm": 1441159.25,
       "learning_rate": 4.0196078431372555e-05,
-      "loss": 0.1535,
       "step": 550
     },
     {
       "epoch": 6.460674157303371,
-      "grad_norm": 1516853.375,
       "learning_rate": 3.9379084967320266e-05,
-      "loss": 0.164,
       "step": 575
     },
     {
       "epoch": 6.741573033707866,
-      "grad_norm": 668387.4375,
       "learning_rate": 3.8562091503267977e-05,
-      "loss": 0.1594,
       "step": 600
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.18601085245609283,
-      "eval_rmse": 0.43128976225852966,
-      "eval_runtime": 9.5674,
-      "eval_samples_per_second": 104.522,
-      "eval_steps_per_second": 1.672,
       "step": 623
     },
     {
       "epoch": 7.022471910112359,
-      "grad_norm": 3315089.5,
       "learning_rate": 3.774509803921569e-05,
-      "loss": 0.1673,
       "step": 625
     },
     {
       "epoch": 7.303370786516854,
-      "grad_norm": 178060.9375,
       "learning_rate": 3.6928104575163405e-05,
-      "loss": 0.1514,
       "step": 650
     },
     {
       "epoch": 7.584269662921348,
-      "grad_norm": 924463.8125,
       "learning_rate": 3.611111111111111e-05,
-      "loss": 0.1454,
       "step": 675
     },
     {
       "epoch": 7.865168539325842,
-      "grad_norm": 44355.859375,
       "learning_rate": 3.529411764705883e-05,
-      "loss": 0.1546,
       "step": 700
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.14328204095363617,
-      "eval_rmse": 0.37852615118026733,
-      "eval_runtime": 9.3971,
-      "eval_samples_per_second": 106.416,
       "eval_steps_per_second": 1.703,
       "step": 712
     },
     {
       "epoch": 8.146067415730338,
-      "grad_norm": 2000040.75,
       "learning_rate": 3.447712418300654e-05,
-      "loss": 0.1503,
       "step": 725
     },
     {
       "epoch": 8.426966292134832,
-      "grad_norm": 1668223.5,
       "learning_rate": 3.366013071895425e-05,
-      "loss": 0.1469,
       "step": 750
     },
     {
       "epoch": 8.707865168539326,
-      "grad_norm": 969523.8125,
       "learning_rate": 3.284313725490196e-05,
-      "loss": 0.1525,
       "step": 775
     },
     {
       "epoch": 8.98876404494382,
-      "grad_norm": 399384.6875,
       "learning_rate": 3.202614379084967e-05,
-      "loss": 0.1517,
       "step": 800
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.14162829518318176,
-      "eval_rmse": 0.37633535265922546,
-      "eval_runtime": 9.2193,
-      "eval_samples_per_second": 108.468,
-      "eval_steps_per_second": 1.735,
       "step": 801
     },
     {
       "epoch": 9.269662921348315,
-      "grad_norm": 1699236.625,
       "learning_rate": 3.120915032679739e-05,
-      "loss": 0.1475,
       "step": 825
     },
     {
       "epoch": 9.55056179775281,
-      "grad_norm": 200852.296875,
       "learning_rate": 3.0392156862745097e-05,
-      "loss": 0.1481,
       "step": 850
     },
     {
       "epoch": 9.831460674157304,
-      "grad_norm": 837677.625,
       "learning_rate": 2.957516339869281e-05,
-      "loss": 0.1461,
       "step": 875
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.15756502747535706,
-      "eval_rmse": 0.3969446122646332,
-      "eval_runtime": 9.8254,
-      "eval_samples_per_second": 101.777,
-      "eval_steps_per_second": 1.628,
       "step": 890
     },
     {
       "epoch": 10.112359550561798,
-      "grad_norm": 1678043.0,
       "learning_rate": 2.8758169934640522e-05,
-      "loss": 0.1571,
       "step": 900
     },
     {
       "epoch": 10.393258426966293,
-      "grad_norm": 417715.75,
       "learning_rate": 2.7941176470588236e-05,
-      "loss": 0.1508,
       "step": 925
     },
     {
       "epoch": 10.674157303370787,
-      "grad_norm": 296561.8125,
       "learning_rate": 2.7124183006535947e-05,
-      "loss": 0.1456,
       "step": 950
     },
     {
       "epoch": 10.955056179775282,
-      "grad_norm": 1708742.5,
       "learning_rate": 2.630718954248366e-05,
-      "loss": 0.1519,
       "step": 975
     },
     {
       "epoch": 11.0,
-      "eval_loss": 0.1622958481311798,
-      "eval_rmse": 0.4028595983982086,
-      "eval_runtime": 9.6192,
-      "eval_samples_per_second": 103.958,
-      "eval_steps_per_second": 1.663,
       "step": 979
     },
     {
       "epoch": 11.235955056179776,
-      "grad_norm": 923283.0,
       "learning_rate": 2.5490196078431373e-05,
-      "loss": 0.1527,
       "step": 1000
     },
     {
       "epoch": 11.51685393258427,
-      "grad_norm": 78371.8671875,
       "learning_rate": 2.4673202614379087e-05,
-      "loss": 0.1499,
       "step": 1025
     },
     {
       "epoch": 11.797752808988765,
-      "grad_norm": 1358486.375,
       "learning_rate": 2.38562091503268e-05,
-      "loss": 0.1491,
       "step": 1050
     },
     {
       "epoch": 12.0,
-      "eval_loss": 0.14110486209392548,
-      "eval_rmse": 0.37563925981521606,
-      "eval_runtime": 9.459,
-      "eval_samples_per_second": 105.719,
-      "eval_steps_per_second": 1.692,
       "step": 1068
     },
     {
       "epoch": 12.07865168539326,
-      "grad_norm": 677287.375,
       "learning_rate": 2.303921568627451e-05,
-      "loss": 0.1458,
       "step": 1075
     },
     {
       "epoch": 12.359550561797754,
-      "grad_norm": 1671154.75,
       "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.1446,
       "step": 1100
     },
     {
       "epoch": 12.640449438202246,
-      "grad_norm": 1566995.875,
       "learning_rate": 2.1405228758169934e-05,
-      "loss": 0.1449,
       "step": 1125
     },
     {
       "epoch": 12.921348314606742,
-      "grad_norm": 457053.46875,
       "learning_rate": 2.058823529411765e-05,
-      "loss": 0.1489,
       "step": 1150
     },
     {
       "epoch": 13.0,
-      "eval_loss": 0.1416008174419403,
-      "eval_rmse": 0.3762988746166229,
-      "eval_runtime": 9.5408,
-      "eval_samples_per_second": 104.813,
-      "eval_steps_per_second": 1.677,
       "step": 1157
     },
     {
       "epoch": 13.202247191011235,
-      "grad_norm": 1004067.375,
       "learning_rate": 1.977124183006536e-05,
-      "loss": 0.1459,
       "step": 1175
     },
     {
       "epoch": 13.48314606741573,
-      "grad_norm": 2169427.0,
       "learning_rate": 1.895424836601307e-05,
-      "loss": 0.1453,
       "step": 1200
     },
     {
       "epoch": 13.764044943820224,
-      "grad_norm": 408455.125,
       "learning_rate": 1.8137254901960785e-05,
-      "loss": 0.1425,
       "step": 1225
     },
     {
       "epoch": 14.0,
-      "eval_loss": 0.14256992936134338,
-      "eval_rmse": 0.3775843381881714,
-      "eval_runtime": 9.5439,
-      "eval_samples_per_second": 104.779,
-      "eval_steps_per_second": 1.676,
       "step": 1246
     },
     {
       "epoch": 14.044943820224718,
-      "grad_norm": 582970.4375,
       "learning_rate": 1.7320261437908496e-05,
-      "loss": 0.147,
       "step": 1250
     },
     {
       "epoch": 14.325842696629213,
-      "grad_norm": 524589.5625,
       "learning_rate": 1.650326797385621e-05,
-      "loss": 0.1424,
       "step": 1275
     },
     {
       "epoch": 14.606741573033707,
-      "grad_norm": 1342928.875,
       "learning_rate": 1.568627450980392e-05,
-      "loss": 0.1433,
       "step": 1300
     },
     {
       "epoch": 14.887640449438202,
-      "grad_norm": 1165010.25,
       "learning_rate": 1.4869281045751634e-05,
-      "loss": 0.145,
       "step": 1325
     },
     {
       "epoch": 15.0,
-      "eval_loss": 0.14070571959018707,
-      "eval_rmse": 0.37510761618614197,
-      "eval_runtime": 9.3011,
-      "eval_samples_per_second": 107.514,
-      "eval_steps_per_second": 1.72,
       "step": 1335
     },
     {
       "epoch": 15.168539325842696,
-      "grad_norm": 1536645.125,
       "learning_rate": 1.4052287581699347e-05,
-      "loss": 0.1397,
       "step": 1350
     },
     {
       "epoch": 15.44943820224719,
-      "grad_norm": 121041.3984375,
       "learning_rate": 1.323529411764706e-05,
-      "loss": 0.145,
       "step": 1375
     },
     {
       "epoch": 15.730337078651685,
-      "grad_norm": 850638.375,
       "learning_rate": 1.2418300653594772e-05,
-      "loss": 0.1418,
       "step": 1400
     },
     {
       "epoch": 16.0,
-      "eval_loss": 0.144333153963089,
-      "eval_rmse": 0.37991204857826233,
-      "eval_runtime": 9.7712,
-      "eval_samples_per_second": 102.342,
-      "eval_steps_per_second": 1.637,
       "step": 1424
     },
     {
       "epoch": 16.01123595505618,
-      "grad_norm": 1658046.0,
       "learning_rate": 1.1601307189542485e-05,
-      "loss": 0.1432,
       "step": 1425
     },
     {
       "epoch": 16.292134831460675,
-      "grad_norm": 291296.34375,
       "learning_rate": 1.0784313725490197e-05,
-      "loss": 0.1422,
       "step": 1450
     },
     {
       "epoch": 16.573033707865168,
-      "grad_norm": 71275.6953125,
       "learning_rate": 9.96732026143791e-06,
-      "loss": 0.1429,
       "step": 1475
     },
     {
       "epoch": 16.853932584269664,
-      "grad_norm": 717235.9375,
       "learning_rate": 9.150326797385621e-06,
-      "loss": 0.1411,
       "step": 1500
     },
     {
       "epoch": 17.0,
-      "eval_loss": 0.1402604728937149,
-      "eval_rmse": 0.3745136559009552,
-      "eval_runtime": 9.4156,
-      "eval_samples_per_second": 106.207,
-      "eval_steps_per_second": 1.699,
       "step": 1513
     },
     {
       "epoch": 17.134831460674157,
-      "grad_norm": 956427.5625,
       "learning_rate": 8.333333333333334e-06,
-      "loss": 0.1424,
       "step": 1525
     },
     {
       "epoch": 17.415730337078653,
-      "grad_norm": 391686.90625,
       "learning_rate": 7.5163398692810456e-06,
-      "loss": 0.1434,
       "step": 1550
     },
     {
       "epoch": 17.696629213483146,
-      "grad_norm": 178194.640625,
       "learning_rate": 6.699346405228758e-06,
-      "loss": 0.1396,
       "step": 1575
     },
     {
       "epoch": 17.97752808988764,
-      "grad_norm": 315803.8125,
       "learning_rate": 5.882352941176471e-06,
-      "loss": 0.1398,
       "step": 1600
     },
     {
       "epoch": 18.0,
-      "eval_loss": 0.14033755660057068,
-      "eval_rmse": 0.37461650371551514,
-      "eval_runtime": 9.5116,
-      "eval_samples_per_second": 105.135,
-      "eval_steps_per_second": 1.682,
       "step": 1602
     },
     {
       "epoch": 18.258426966292134,
-      "grad_norm": 201845.0,
       "learning_rate": 5.065359477124184e-06,
-      "loss": 0.1396,
       "step": 1625
     },
     {
       "epoch": 18.53932584269663,
-      "grad_norm": 346229.6875,
       "learning_rate": 4.2483660130718954e-06,
-      "loss": 0.1386,
       "step": 1650
     },
     {
       "epoch": 18.820224719101123,
-      "grad_norm": 75540.28125,
       "learning_rate": 3.431372549019608e-06,
-      "loss": 0.143,
       "step": 1675
     },
     {
       "epoch": 19.0,
-      "eval_loss": 0.14052481949329376,
-      "eval_rmse": 0.37486639618873596,
-      "eval_runtime": 9.3754,
-      "eval_samples_per_second": 106.662,
-      "eval_steps_per_second": 1.707,
       "step": 1691
     },
     {
       "epoch": 19.10112359550562,
-      "grad_norm": 240692.8125,
       "learning_rate": 2.6143790849673204e-06,
-      "loss": 0.1409,
       "step": 1700
     },
     {
       "epoch": 19.382022471910112,
-      "grad_norm": 214180.84375,
       "learning_rate": 1.7973856209150326e-06,
-      "loss": 0.141,
       "step": 1725
     },
     {
       "epoch": 19.662921348314608,
-      "grad_norm": 108064.1484375,
       "learning_rate": 9.80392156862745e-07,
-      "loss": 0.1407,
       "step": 1750
     },
     {
       "epoch": 19.9438202247191,
-      "grad_norm": 161086.03125,
       "learning_rate": 1.6339869281045752e-07,
-      "loss": 0.1395,
       "step": 1775
     },
     {
       "epoch": 20.0,
-      "eval_loss": 0.1402168720960617,
-      "eval_rmse": 0.37445545196533203,
-      "eval_runtime": 9.6855,
-      "eval_samples_per_second": 103.247,
-      "eval_steps_per_second": 1.652,
       "step": 1780
     },
     {
       "epoch": 20.0,
       "step": 1780,
       "total_flos": 0.0,
-      "train_loss": 0.16565035152971075,
-      "train_runtime": 3332.9842,
-      "train_samples_per_second": 33.976,
-      "train_steps_per_second": 0.534
     }
   ],
   "logging_steps": 25,

 {
+  "best_metric": 0.007665493991225958,
   "best_model_checkpoint": "limbxy_pose/checkpoint-1780",
   "epoch": 20.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.2808988764044944,
+      "grad_norm": 2355601.5,
       "learning_rate": 5e-06,
+      "loss": 0.3253,
       "step": 25
     },
     {
       "epoch": 0.5617977528089888,
+      "grad_norm": 873035.5,
       "learning_rate": 1e-05,
+      "loss": 0.2139,
       "step": 50
     },
     {
       "epoch": 0.8426966292134831,
+      "grad_norm": 1139656.125,
       "learning_rate": 1.5e-05,
+      "loss": 0.174,
       "step": 75
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.14710678160190582,
+      "eval_rmse": 0.38354501128196716,
+      "eval_runtime": 9.3728,
+      "eval_samples_per_second": 106.692,
+      "eval_steps_per_second": 1.707,
       "step": 89
     },
     {
       "epoch": 1.1235955056179776,
+      "grad_norm": 959863.5625,
       "learning_rate": 2e-05,
+      "loss": 0.1598,
       "step": 100
     },
     {
       "epoch": 1.404494382022472,
+      "grad_norm": 368922.84375,
       "learning_rate": 2.5e-05,
+      "loss": 0.1569,
       "step": 125
     },
     {
       "epoch": 1.6853932584269664,
+      "grad_norm": 1642762.375,
       "learning_rate": 3e-05,
+      "loss": 0.1584,
       "step": 150
     },
     {
       "epoch": 1.9662921348314608,
+      "grad_norm": 2866672.75,
       "learning_rate": 3.5e-05,
+      "loss": 0.1559,
       "step": 175
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.14660561084747314,
+      "eval_rmse": 0.38289114832878113,
+      "eval_runtime": 9.5918,
+      "eval_samples_per_second": 104.256,
+      "eval_steps_per_second": 1.668,
       "step": 178
     },
     {
       "epoch": 2.247191011235955,
+      "grad_norm": 140559.03125,
       "learning_rate": 4e-05,
+      "loss": 0.1467,
       "step": 200
     },
     {
       "epoch": 2.5280898876404496,
+      "grad_norm": 2080408.125,
       "learning_rate": 4.5e-05,
+      "loss": 0.1534,
       "step": 225
     },
     {
       "epoch": 2.808988764044944,
+      "grad_norm": 2639697.5,
       "learning_rate": 5e-05,
+      "loss": 0.1485,
       "step": 250
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.16608364880084991,
+      "eval_rmse": 0.4075336158275604,
+      "eval_runtime": 9.3878,
+      "eval_samples_per_second": 106.521,
+      "eval_steps_per_second": 1.704,
       "step": 267
     },
     {
       "epoch": 3.0898876404494384,
+      "grad_norm": 1161722.875,
       "learning_rate": 4.918300653594771e-05,
+      "loss": 0.1613,
       "step": 275
     },
     {
       "epoch": 3.370786516853933,
+      "grad_norm": 3452693.5,
       "learning_rate": 4.8366013071895424e-05,
+      "loss": 0.1791,
       "step": 300
     },
     {
       "epoch": 3.6516853932584272,
+      "grad_norm": 1499728.0,
       "learning_rate": 4.7549019607843135e-05,
+      "loss": 0.1599,
       "step": 325
     },
     {
       "epoch": 3.932584269662921,
+      "grad_norm": 2438932.5,
       "learning_rate": 4.673202614379085e-05,
+      "loss": 0.1624,
       "step": 350
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.14177033305168152,
+      "eval_rmse": 0.3765240013599396,
+      "eval_runtime": 9.4578,
+      "eval_samples_per_second": 105.733,
+      "eval_steps_per_second": 1.692,
       "step": 356
     },
     {
       "epoch": 4.213483146067416,
+      "grad_norm": 1148349.625,
       "learning_rate": 4.5915032679738564e-05,
+      "loss": 0.1568,
       "step": 375
     },
     {
       "epoch": 4.49438202247191,
+      "grad_norm": 2919198.5,
       "learning_rate": 4.5098039215686275e-05,
+      "loss": 0.1513,
       "step": 400
     },
     {
       "epoch": 4.775280898876405,
+      "grad_norm": 1855904.125,
       "learning_rate": 4.4281045751633986e-05,
+      "loss": 0.1457,
       "step": 425
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.14367185533046722,
+      "eval_rmse": 0.3790406882762909,
+      "eval_runtime": 9.4902,
+      "eval_samples_per_second": 105.372,
+      "eval_steps_per_second": 1.686,
       "step": 445
     },
     {
       "epoch": 5.056179775280899,
+      "grad_norm": 3503330.5,
       "learning_rate": 4.3464052287581704e-05,
+      "loss": 0.1512,
       "step": 450
     },
     {
       "epoch": 5.337078651685394,
+      "grad_norm": 334371.0,
       "learning_rate": 4.2647058823529415e-05,
+      "loss": 0.1517,
       "step": 475
     },
     {
       "epoch": 5.617977528089888,
+      "grad_norm": 987476.0625,
       "learning_rate": 4.1830065359477126e-05,
+      "loss": 0.1511,
       "step": 500
     },
     {
       "epoch": 5.898876404494382,
+      "grad_norm": 1318160.375,
       "learning_rate": 4.101307189542484e-05,
+      "loss": 0.1635,
       "step": 525
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.14237765967845917,
+      "eval_rmse": 0.37732964754104614,
+      "eval_runtime": 9.6289,
+      "eval_samples_per_second": 103.854,
+      "eval_steps_per_second": 1.662,
       "step": 534
     },
     {
       "epoch": 6.179775280898877,
+      "grad_norm": 2755903.5,
       "learning_rate": 4.0196078431372555e-05,
+      "loss": 0.1616,
       "step": 550
     },
     {
       "epoch": 6.460674157303371,
+      "grad_norm": 647614.5625,
       "learning_rate": 3.9379084967320266e-05,
+      "loss": 0.1498,
       "step": 575
     },
     {
       "epoch": 6.741573033707866,
+      "grad_norm": 1388723.25,
       "learning_rate": 3.8562091503267977e-05,
+      "loss": 0.1428,
       "step": 600
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.15840163826942444,
+      "eval_rmse": 0.39799708127975464,
+      "eval_runtime": 9.5792,
+      "eval_samples_per_second": 104.393,
+      "eval_steps_per_second": 1.67,
       "step": 623
     },
     {
       "epoch": 7.022471910112359,
+      "grad_norm": 3193922.25,
       "learning_rate": 3.774509803921569e-05,
+      "loss": 0.15,
       "step": 625
     },
     {
       "epoch": 7.303370786516854,
+      "grad_norm": 634225.0,
       "learning_rate": 3.6928104575163405e-05,
+      "loss": 0.1491,
       "step": 650
     },
     {
       "epoch": 7.584269662921348,
+      "grad_norm": 1895702.75,
       "learning_rate": 3.611111111111111e-05,
+      "loss": 0.1521,
       "step": 675
     },
     {
       "epoch": 7.865168539325842,
+      "grad_norm": 410481.09375,
       "learning_rate": 3.529411764705883e-05,
+      "loss": 0.1481,
       "step": 700
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.140840545296669,
+      "eval_rmse": 0.3752872943878174,
+      "eval_runtime": 9.3963,
+      "eval_samples_per_second": 106.424,
       "eval_steps_per_second": 1.703,
       "step": 712
     },
     {
       "epoch": 8.146067415730338,
+      "grad_norm": 121664.78125,
       "learning_rate": 3.447712418300654e-05,
+      "loss": 0.1497,
       "step": 725
     },
     {
       "epoch": 8.426966292134832,
+      "grad_norm": 691517.125,
       "learning_rate": 3.366013071895425e-05,
+      "loss": 0.1423,
       "step": 750
     },
     {
       "epoch": 8.707865168539326,
+      "grad_norm": 2580666.25,
       "learning_rate": 3.284313725490196e-05,
+      "loss": 0.1451,
       "step": 775
     },
     {
       "epoch": 8.98876404494382,
+      "grad_norm": 1733368.625,
       "learning_rate": 3.202614379084967e-05,
+      "loss": 0.1494,
       "step": 800
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.1478467881679535,
+      "eval_rmse": 0.38450852036476135,
+      "eval_runtime": 9.5629,
+      "eval_samples_per_second": 104.571,
+      "eval_steps_per_second": 1.673,
       "step": 801
     },
     {
       "epoch": 9.269662921348315,
+      "grad_norm": 312437.125,
       "learning_rate": 3.120915032679739e-05,
+      "loss": 0.1429,
       "step": 825
     },
     {
       "epoch": 9.55056179775281,
+      "grad_norm": 231154.46875,
       "learning_rate": 3.0392156862745097e-05,
+      "loss": 0.1444,
       "step": 850
     },
     {
       "epoch": 9.831460674157304,
+      "grad_norm": 1203652.5,
       "learning_rate": 2.957516339869281e-05,
+      "loss": 0.1417,
       "step": 875
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.1544562131166458,
+      "eval_rmse": 0.393009215593338,
+      "eval_runtime": 9.6401,
+      "eval_samples_per_second": 103.733,
+      "eval_steps_per_second": 1.66,
       "step": 890
     },
     {
       "epoch": 10.112359550561798,
+      "grad_norm": 1199470.25,
       "learning_rate": 2.8758169934640522e-05,
+      "loss": 0.158,
       "step": 900
     },
     {
       "epoch": 10.393258426966293,
+      "grad_norm": 192614.96875,
       "learning_rate": 2.7941176470588236e-05,
+      "loss": 0.15,
       "step": 925
     },
     {
       "epoch": 10.674157303370787,
+      "grad_norm": 1780062.125,
       "learning_rate": 2.7124183006535947e-05,
+      "loss": 0.1439,
       "step": 950
     },
     {
       "epoch": 10.955056179775282,
+      "grad_norm": 1194267.125,
       "learning_rate": 2.630718954248366e-05,
+      "loss": 0.1421,
       "step": 975
     },
     {
       "epoch": 11.0,
+      "eval_loss": 0.1432497501373291,
+      "eval_rmse": 0.37848347425460815,
+      "eval_runtime": 9.3096,
+      "eval_samples_per_second": 107.416,
+      "eval_steps_per_second": 1.719,
       "step": 979
     },
     {
       "epoch": 11.235955056179776,
+      "grad_norm": 527445.1875,
       "learning_rate": 2.5490196078431373e-05,
+      "loss": 0.1392,
       "step": 1000
     },
     {
       "epoch": 11.51685393258427,
+      "grad_norm": 186754.59375,
       "learning_rate": 2.4673202614379087e-05,
+      "loss": 0.1455,
       "step": 1025
     },
     {
       "epoch": 11.797752808988765,
+      "grad_norm": 184548.09375,
       "learning_rate": 2.38562091503268e-05,
+      "loss": 0.145,
       "step": 1050
     },
     {
       "epoch": 12.0,
+      "eval_loss": 0.14026711881160736,
+      "eval_rmse": 0.37452250719070435,
+      "eval_runtime": 9.4209,
+      "eval_samples_per_second": 106.147,
+      "eval_steps_per_second": 1.698,
       "step": 1068
     },
     {
       "epoch": 12.07865168539326,
+      "grad_norm": 234157.390625,
       "learning_rate": 2.303921568627451e-05,
+      "loss": 0.1445,
       "step": 1075
     },
     {
       "epoch": 12.359550561797754,
+      "grad_norm": 1915960.625,
       "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.144,
       "step": 1100
     },
     {
       "epoch": 12.640449438202246,
+      "grad_norm": 664816.875,
       "learning_rate": 2.1405228758169934e-05,
+      "loss": 0.142,
       "step": 1125
     },
     {
       "epoch": 12.921348314606742,
+      "grad_norm": 237225.984375,
       "learning_rate": 2.058823529411765e-05,
+      "loss": 0.1466,
       "step": 1150
     },
     {
       "epoch": 13.0,
+      "eval_loss": 0.14430756866931915,
+      "eval_rmse": 0.37987837195396423,
+      "eval_runtime": 9.2838,
+      "eval_samples_per_second": 107.715,
+      "eval_steps_per_second": 1.723,
       "step": 1157
     },
     {
       "epoch": 13.202247191011235,
+      "grad_norm": 322684.4375,
       "learning_rate": 1.977124183006536e-05,
+      "loss": 0.1446,
       "step": 1175
     },
     {
       "epoch": 13.48314606741573,
+      "grad_norm": 474081.25,
       "learning_rate": 1.895424836601307e-05,
+      "loss": 0.1414,
       "step": 1200
     },
     {
       "epoch": 13.764044943820224,
+      "grad_norm": 1984481.125,
       "learning_rate": 1.8137254901960785e-05,
+      "loss": 0.0601,
       "step": 1225
     },
     {
       "epoch": 14.0,
+      "eval_loss": 0.02082459256052971,
+      "eval_rmse": 0.14430728554725647,
+      "eval_runtime": 9.6578,
+      "eval_samples_per_second": 103.543,
+      "eval_steps_per_second": 1.657,
       "step": 1246
     },
     {
       "epoch": 14.044943820224718,
+      "grad_norm": 3539425.25,
       "learning_rate": 1.7320261437908496e-05,
+      "loss": 0.0386,
       "step": 1250
     },
     {
       "epoch": 14.325842696629213,
+      "grad_norm": 975899.9375,
       "learning_rate": 1.650326797385621e-05,
+      "loss": 0.0274,
       "step": 1275
     },
     {
       "epoch": 14.606741573033707,
+      "grad_norm": 3280766.0,
       "learning_rate": 1.568627450980392e-05,
+      "loss": 0.0194,
       "step": 1300
     },
     {
       "epoch": 14.887640449438202,
+      "grad_norm": 339197.90625,
       "learning_rate": 1.4869281045751634e-05,
+      "loss": 0.0154,
       "step": 1325
     },
     {
       "epoch": 15.0,
+      "eval_loss": 0.012424159795045853,
+      "eval_rmse": 0.11146371811628342,
+      "eval_runtime": 9.3192,
+      "eval_samples_per_second": 107.305,
+      "eval_steps_per_second": 1.717,
       "step": 1335
     },
     {
       "epoch": 15.168539325842696,
+      "grad_norm": 325666.3125,
       "learning_rate": 1.4052287581699347e-05,
+      "loss": 0.0106,
       "step": 1350
     },
     {
       "epoch": 15.44943820224719,
+      "grad_norm": 407296.9375,
       "learning_rate": 1.323529411764706e-05,
+      "loss": 0.013,
       "step": 1375
     },
     {
       "epoch": 15.730337078651685,
+      "grad_norm": 2163835.5,
       "learning_rate": 1.2418300653594772e-05,
+      "loss": 0.0102,
       "step": 1400
     },
     {
       "epoch": 16.0,
+      "eval_loss": 0.012837632559239864,
+      "eval_rmse": 0.1133032739162445,
+      "eval_runtime": 9.5459,
+      "eval_samples_per_second": 104.757,
+      "eval_steps_per_second": 1.676,
       "step": 1424
     },
     {
       "epoch": 16.01123595505618,
+      "grad_norm": 1708998.75,
       "learning_rate": 1.1601307189542485e-05,
+      "loss": 0.0127,
       "step": 1425
     },
     {
       "epoch": 16.292134831460675,
+      "grad_norm": 324622.65625,
       "learning_rate": 1.0784313725490197e-05,
+      "loss": 0.0063,
       "step": 1450
     },
     {
       "epoch": 16.573033707865168,
+      "grad_norm": 533753.9375,
       "learning_rate": 9.96732026143791e-06,
+      "loss": 0.0067,
       "step": 1475
     },
     {
       "epoch": 16.853932584269664,
+      "grad_norm": 20416.09765625,
       "learning_rate": 9.150326797385621e-06,
+      "loss": 0.0071,
       "step": 1500
     },
     {
       "epoch": 17.0,
+      "eval_loss": 0.01293737068772316,
+      "eval_rmse": 0.11374256014823914,
+      "eval_runtime": 9.3021,
+      "eval_samples_per_second": 107.502,
+      "eval_steps_per_second": 1.72,
       "step": 1513
     },
     {
       "epoch": 17.134831460674157,
+      "grad_norm": 350699.0625,
       "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0086,
       "step": 1525
     },
     {
       "epoch": 17.415730337078653,
+      "grad_norm": 1733482.25,
       "learning_rate": 7.5163398692810456e-06,
+      "loss": 0.0079,
       "step": 1550
     },
     {
       "epoch": 17.696629213483146,
+      "grad_norm": 2389954.0,
       "learning_rate": 6.699346405228758e-06,
+      "loss": 0.0095,
       "step": 1575
     },
     {
       "epoch": 17.97752808988764,
+      "grad_norm": 451414.53125,
       "learning_rate": 5.882352941176471e-06,
+      "loss": 0.0076,
       "step": 1600
     },
     {
       "epoch": 18.0,
+      "eval_loss": 0.008463106118142605,
+      "eval_rmse": 0.09199514985084534,
+      "eval_runtime": 9.6031,
+      "eval_samples_per_second": 104.133,
+      "eval_steps_per_second": 1.666,
       "step": 1602
     },
     {
       "epoch": 18.258426966292134,
+      "grad_norm": 1180487.125,
       "learning_rate": 5.065359477124184e-06,
+      "loss": 0.0055,
       "step": 1625
     },
     {
       "epoch": 18.53932584269663,
+      "grad_norm": 1367445.375,
       "learning_rate": 4.2483660130718954e-06,
+      "loss": 0.0057,
       "step": 1650
     },
     {
       "epoch": 18.820224719101123,
+      "grad_norm": 903850.0,
       "learning_rate": 3.431372549019608e-06,
+      "loss": 0.0057,
       "step": 1675
     },
     {
       "epoch": 19.0,
+      "eval_loss": 0.007886779494583607,
+      "eval_rmse": 0.08880754560232162,
+      "eval_runtime": 9.2481,
+      "eval_samples_per_second": 108.13,
+      "eval_steps_per_second": 1.73,
       "step": 1691
     },
     {
       "epoch": 19.10112359550562,
+      "grad_norm": 801771.375,
       "learning_rate": 2.6143790849673204e-06,
+      "loss": 0.0048,
       "step": 1700
     },
     {
       "epoch": 19.382022471910112,
+      "grad_norm": 485753.125,
       "learning_rate": 1.7973856209150326e-06,
+      "loss": 0.0049,
       "step": 1725
     },
     {
       "epoch": 19.662921348314608,
+      "grad_norm": 370014.5625,
       "learning_rate": 9.80392156862745e-07,
+      "loss": 0.0044,
       "step": 1750
     },
     {
       "epoch": 19.9438202247191,
+      "grad_norm": 474841.78125,
       "learning_rate": 1.6339869281045752e-07,
+      "loss": 0.0046,
       "step": 1775
     },
     {
       "epoch": 20.0,
+      "eval_loss": 0.007665493991225958,
+      "eval_rmse": 0.08755281567573547,
+      "eval_runtime": 9.5227,
+      "eval_samples_per_second": 105.012,
+      "eval_steps_per_second": 1.68,
       "step": 1780
     },
     {
       "epoch": 20.0,
       "step": 1780,
       "total_flos": 0.0,
+      "train_loss": 0.10928233507602067,
+      "train_runtime": 3299.6169,
+      "train_samples_per_second": 34.319,
+      "train_steps_per_second": 0.539
     }
   ],
   "logging_steps": 25,