Training in progress, step 100000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +2 -2
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fafdf3dc4053a478a09fce7cd9cc15053b19a33d6b58c36ca5436ccd97913a6
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9a3fc6351d09bd039d306f53b05fa03590011ea2849b43bd52529e0bd8514b9
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a64deb57f36a27064cc4d0b280f90a72b59990f15860b6537f49879bcfb34aa6
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:61dde823420dc7042c5bb2d699d112697bdd3010f540547619caa8b07f20d030
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be2d0bd68e065eb85049372f4abb8ffbf27c8d2f5fa7ea3177bedf20fcf99e26
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:330f3cda58bd3cda7fe4052bcd097fef510e7fce1d130c443ec32e1f5486a104
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1a5b5ce099930b883dc48f18ec0c4aafea3d1e465572f0a3a7b87ea92fa07c4
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:db9a8646bfa77c67b79c4b30fed86fd905de2821912180ec33d06ceff7f9e882
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93b838f5687f66973e8201c7e8dadb656fe97b315b3bbf77e5a2d000f34b91f5
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcf4e8fe75afcd199d62b4b9a4e3758f2eaf0ffa4730fdb2d98d4bb191801698
+size 14439

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e876d9529d9370e353ad6f8fd0c6b88167a47f97421642e8d8095904566a3c54
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:80c9489f4e58dc887e83e88882e5e1382e1ee3173dcbda417ffbbdcb858a9d65
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49e1f1672d845e202794ad0ccc105b119321c0e3d067197efd0a488ecef1d0bf
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf0f5ebb927172859f9f7bd6df79a9456d1222e97acfe9ef9113e346912ff663
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb26a39e3710aced6be33af5040431a47fb2753a31b1d0a91fe360a3e160bbe4
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dae2826d240394f23ebead2538e7f8ab9151433f5d76c787e8de37065711b2b
+size 14567

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae3dd349d6db4f4551324cbce8200b29561e6b98026e7f91e8180d039a45cc34
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d1a3d037a53cd82051029fcc53619c43fd8479867f8522cbd8ad58f9ba5a632
+size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57599eaa96b9ac595309802eb671733bad63e8bd6aa65ca65eb41f0a31f5c9bd
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c028788cc8743c6a98b2e0f67f4bc6d1434318ea95a0cdb39b9728727ca1342
+size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5810d5d1337eca8d561357c6c9e9920258e5fc2b2f0f70ea4b52e4984949eec8
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:7786e0d240c1817a80f936fe537093f6b0f81238abcccea2c0e618f1ac9e9438
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.757437421489629,
-  "global_step": 90000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1806,11 +1806,211 @@
       "eval_samples_per_second": 1955.578,
       "eval_steps_per_second": 31.289,
       "step": 90000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 2.8753682730665483e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.063819357210699,
+  "global_step": 100000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1955.578,
       "eval_steps_per_second": 31.289,
       "step": 90000
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.00028660537773622294,
+      "loss": 0.3803,
+      "step": 90500
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.00028640336867499143,
+      "loss": 0.3796,
+      "step": 91000
+    },
+    {
+      "epoch": 2.79,
+      "eval_loss": 0.7904797196388245,
+      "eval_runtime": 0.5244,
+      "eval_samples_per_second": 1906.796,
+      "eval_steps_per_second": 30.509,
+      "step": 91000
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.0002861999226075728,
+      "loss": 0.3798,
+      "step": 91500
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.0002859950417588206,
+      "loss": 0.3792,
+      "step": 92000
+    },
+    {
+      "epoch": 2.82,
+      "eval_loss": 0.7905736565589905,
+      "eval_runtime": 0.5306,
+      "eval_samples_per_second": 1884.737,
+      "eval_steps_per_second": 30.156,
+      "step": 92000
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.00028578872836927904,
+      "loss": 0.3788,
+      "step": 92500
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0002855809846951582,
+      "loss": 0.3789,
+      "step": 93000
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.7809098958969116,
+      "eval_runtime": 0.5414,
+      "eval_samples_per_second": 1847.16,
+      "eval_steps_per_second": 29.555,
+      "step": 93000
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.00028537181300830963,
+      "loss": 0.3782,
+      "step": 93500
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.0002851612155962014,
+      "loss": 0.3784,
+      "step": 94000
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 0.7892218232154846,
+      "eval_runtime": 0.516,
+      "eval_samples_per_second": 1938.108,
+      "eval_steps_per_second": 31.01,
+      "step": 94000
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.0002849491947618932,
+      "loss": 0.3778,
+      "step": 94500
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.0002847357528240107,
+      "loss": 0.3775,
+      "step": 95000
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 0.7847021818161011,
+      "eval_runtime": 0.5181,
+      "eval_samples_per_second": 1930.051,
+      "eval_steps_per_second": 30.881,
+      "step": 95000
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.0002845208921167208,
+      "loss": 0.3773,
+      "step": 95500
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.00028430461498970584,
+      "loss": 0.3768,
+      "step": 96000
+    },
+    {
+      "epoch": 2.94,
+      "eval_loss": 0.78525710105896,
+      "eval_runtime": 0.5373,
+      "eval_samples_per_second": 1861.031,
+      "eval_steps_per_second": 29.776,
+      "step": 96000
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.00028408692380813775,
+      "loss": 0.3768,
+      "step": 96500
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.00028386782095265247,
+      "loss": 0.3769,
+      "step": 97000
+    },
+    {
+      "epoch": 2.97,
+      "eval_loss": 0.7837897539138794,
+      "eval_runtime": 0.5288,
+      "eval_samples_per_second": 1891.025,
+      "eval_steps_per_second": 30.256,
+      "step": 97000
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 0.0002836473088193237,
+      "loss": 0.3761,
+      "step": 97500
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.00028342538981963677,
+      "loss": 0.3797,
+      "step": 98000
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.7850324511528015,
+      "eval_runtime": 0.5376,
+      "eval_samples_per_second": 1860.245,
+      "eval_steps_per_second": 29.764,
+      "step": 98000
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 0.0002832020663804624,
+      "loss": 0.3752,
+      "step": 98500
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 0.00028297734094402986,
+      "loss": 0.3747,
+      "step": 99000
+    },
+    {
+      "epoch": 3.03,
+      "eval_loss": 0.780020534992218,
+      "eval_runtime": 0.5281,
+      "eval_samples_per_second": 1893.464,
+      "eval_steps_per_second": 30.295,
+      "step": 99000
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 0.0002827512159679005,
+      "loss": 0.375,
+      "step": 99500
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 0.00028252369392494086,
+      "loss": 0.3746,
+      "step": 100000
+    },
+    {
+      "epoch": 3.06,
+      "eval_loss": 0.7855916619300842,
+      "eval_runtime": 0.5271,
+      "eval_samples_per_second": 1897.09,
+      "eval_steps_per_second": 30.353,
+      "step": 100000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 3.1948474238890725e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a64deb57f36a27064cc4d0b280f90a72b59990f15860b6537f49879bcfb34aa6
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:61dde823420dc7042c5bb2d699d112697bdd3010f540547619caa8b07f20d030
 size 102501541